JP7682860B2

JP7682860B2 - アーチファクトを低減したダイナミックレンジ圧縮

Info

Publication number: JP7682860B2
Application number: JP2022516103A
Authority: JP
Inventors: デイヴィッドデ・バー，マーク; ワーン，ニーン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2019-09-13
Filing date: 2020-09-10
Publication date: 2025-05-26
Anticipated expiration: 2040-09-10
Also published as: EP4029144A1; US12126973B2; CN114503432A; EP4029144B1; JP2025060824A; JP2022552456A; JP7771343B2; WO2021050639A1; US20220322004A1

Description

関連出願への相互参照
本願は、2019年9月13日に出願された欧州特許出願第19197154.8号および2019年9月13日に出願された米国仮特許出願第62/899,769号に対する優先権を主張し、これらは参照により本明細書に組み込まれる。

技術分野
本開示は、オーディオ信号のダイナミックレンジ圧縮に関する。

ここでは、ダイナミックレンジ圧縮が「DRC」と呼ばれることがあり、ダイナミックレンジ圧縮器も「DRC」と呼ばれることがある。

図1に示されるように、伝統的なダイナミックレンジ圧縮器（「DRC」）は、レベル推定器1と、ダイナミックレンジ圧縮（DRC）利得決定サブシステム6と、利得適用サブシステム7とが図示のように結合されたものを含む。いくつかの実施形態では、利得決定サブシステム6は、平滑化器3と、ダイナミックレンジ圧縮（DRC）利得曲線サブシステム5とが図示のように結合されたものを含む。サブシステム7は、サブシステム6から（たとえば、図1に示されるように、サブシステム6のサブシステム5から）出力される時間変化する利得g(t)（たとえば、一連の利得値）を入力オーディオ信号に適用して、オーディオ出力信号を生成するように結合され、構成される。

入力オーディオ信号に適用されるダイナミックレンジ圧縮は、平滑化されたレベル（平滑化器3からの出力）が閾値（第1のニー・ポイント（knee point））を上回る入力オーディオ信号のセグメントのパワーを減少させ（すなわち、サブシステム7は、利得1（単数または複数）を下回るサブシステム6によって決定されるセグメント利得（単数または複数）に適用される）、平滑化されたレベル（平滑化器3からの出力）が第2の閾値（「より低い」ニー・ポイント）を下回る入力オーディオ信号のセグメントのパワーを増加させてもよい（すなわち、サブシステム7は、そのようなセグメントに、サブシステム6によって決定される1より大きい利得を適用してもよい）。

ダイナミックレンジ圧縮（DRC）は、アタック（入力オーディオレベル（たとえば、レベル推定器1の出力によって示される）がニー・ポイントまで上昇する各時点で、またはその近傍で始まり、アタック時間として知られる継続時間を有するアタック区間）と、リリース（入力オーディオレベルがニー・ポイントまで低下する各時点で、またはその近傍で始まり、リリース時間として知られる継続時間を有するリリース区間）を有する。完全なDRCは、アタック後、リリース前の区間の間に適用される。適用されるDRCの量は、アタック中にゼロ（サブシステム6が利得1を出力するとき）から全量に増加し、その後、リリース中にゼロに戻ることができる。

DRCにおいて、1つの重要な可能性は、ニー・ポイントの下の低レベル入力オーディオについては大きな利得があり、次いで、入力信号レベルがその最大レベルに近づくにつれて、利得が単調に利得1まで減少するということである。よって、DRCは、実際には入力オーディオの高いレベルを減少させることはなく、代わりに、入力オーディオのより低いレベルを増加させるだけである。そのようなケースは、低パワー・システムから最大のラウドネスを得ようとしてDRCが使用される場合に発生する。

入力オーディオ信号が最大または最小レベルにジャンプする場合、この変化は、図1のレベル推定器1の出力によって示されるが、DRC利得（サブシステム6から出力される）は、典型的には、すぐにはその完全な値〔フルの値〕（すなわち、入力オーディオ信号レベルが最大または最小レベルに固定されていて、該最大または最小レベルにジャンプしたのではなかったとした場合に有するであろう値）に変化しない。その代わりに、DRC利得は（たとえば、図1における平滑化器3の存在のために）スムーズにその完全な値に変化する。DRC利得がその完全な値に達する（入力信号レベルが最大レベルにジャンプした後）のに必要な時間は、アタック時間であり、DRC利得がその完全な値に達する（入力信号レベルが最小レベルにジャンプした後）のに必要な時間は、リリース時間である。DRC利得は典型的にはその完全な値に指数関数的に近づくので、アタックおよびリリース時間が引用される場合（たとえば、システム仕様において）、引用されるアタック（またはリリース）時間は、DRC利得がその完全な値に向かう中間に到達するのに必要な時間であることが多い。

図1に示される実装では、平滑化器3（すなわち、平滑化器3が使用する平滑化時定数）がアタック時間とリリース時間を決定する（アタック時間はリリース時間と等しくても、異なっていてもよく、一方または両方がゼロであってもよい）。

サブシステム6の他の実装（図1には特に示されていない）では、平滑化器3は、別の要素（たとえば、DRC利得曲線サブシステム5から出力される利得値に対して作用する平滑化器）またはサブシステム6によってDRC適用の各区間についてのアタックおよびリリース時間を決定するサブシステムによって置き換えられる。一般に、サブシステム6は、サブシステム6がDRCを適用する各区間（すなわち、サブシステム6が1でない利得を出力する各区間）について、アタック時間およびリリース時間を（たとえば、ユーザー選択に応答して）決定するように構成される。

ダイナミックレンジ圧縮のいくつかの実装では、圧縮の性能が分割され、利得適用サブシステム（たとえば、サブシステム7）がデコーダまたは再生システムまたは装置において実装され、圧縮の他の要素（たとえば、サブシステム1および6）がエンコーダにおいて実装され、利得g(t)が、エンコードされたビットストリーム内の入力オーディオとともに、メタデータとして（デコーダまたは再生システムまたは装置に）送られるようにされる。本発明のいくつかの実施形態（後述）は、そのように実装されることを考えている。

レベル推定器1は、レベル推定値を決定し、サブシステム6に（たとえば、図1に示されている実装における平滑化器3に）提供するように結合され、構成される。レベル推定値は、入力オーディオ信号のラウドネスの推定値（典型的には、経時的に変化する）である（たとえば、レベル推定値は、平均レベルまたは平均パワー値のシーケンスを示し、それぞれの平均する時間は、図1のシステムによって適用されるダイナミックレンジ圧縮の安定性のために十分長い）。典型的なレベル推定値の1つは平均パワーである。レベル推定値のもう1つの例は、ITU-R BS.1770ラウドネス規格によって定義されるラウドネスである。平滑化器3は、平滑化を推定器1から出力されるレベル推定値に適用し、入力オーディオ信号の平均レベルまたはパワーの平滑化された推定値（平滑化されたレベル推定値）を生成する（そしてサブシステム5にアサートする）ように結合され、構成される。

図1に示される実装において、平滑化器3によって決定される平滑化されたレベル推定値（たとえば、平均レベルまたはパワーの値の平滑化されたシーケンス）に応答して、サブシステム5は、利得g(t)の値のシーケンスを決定する。サブシステム5は、平滑化器3から出力される（平均レベルまたはパワーの）各値を利得g(t)の値（利得値）にマッピングする関数（典型的には「DRC利得曲線」と呼ばれる）を実装する。利得要素7は、入力オーディオ信号に利得g(t)を適用して出力オーディオ信号（これは、入力オーディオ信号のダイナミックレンジ圧縮されたバージョンである）を生成する。これはたとえば、利得g（の値のシーケンス）の各値を入力オーディオ信号（たとえば、その値のシーケンス）の対応する値に適用することによる。

いくつかの他の実装では、サブシステム6は、レベル推定器1から（図1に示されるような平滑器3からではなく）出力される（平均レベルまたはパワーの）各値を利得g(t)の値（利得値）にマッピングするDRC利得曲線を適用して（DRCアタックおよびリリース（サブシステム6によるDRC適用の各区間についての決定されたアタックおよびリリース時間をもつ）を実装することによることを含む）、利得値g(t)（任意的に、アタックまたはリリースを実装するために修正される）が利得要素7に提供される。

本発明のいくつかの実施形態は、限定されたパワー処理能力を有するシステムまたは装置（たとえば、ノートブック、ラップトップ、タブレット、サウンドバー、携帯電話、または小型スピーカーとともに使用することを含むまたは使用するための他の装置）による再生のための（たとえば、再生のために最適化された）出力オーディオを生成し、好ましくは、出力オーディオにおける望ましくないアーチファクト（たとえば、「ポンピング」および「ブリージング（breathing）」として知られるもの）の発生を低減または防止もするように意図された仕方で、オーディオ信号に対してダイナミックレンジ圧縮（DRC）を実行する方法である。いくつかの実施形態では、DRCは、再生中に（または、オーディオのより静かな要素の喪失を防止しつつ）平均ラウドネスを最大にし（または十分に大きな平均ラウドネスを提供し）、また歪みを低減または防止もするため（たとえば、ポンピングおよび／またはブリージング・アーチファクトの発生を低減または防止するため、および／または、DRCの非線形利得適用によって生成される周波数成分による音色変化を低減または防止するため）に（または、そのように意図される仕方で）実行される。いくつかの実施形態は、ラジオ放送のためのコンテンツ、またはオーディオストリーム内のオーディオ・コンテンツまたはコンポーネントの一般的な可聴性を最適化することを意図した仕方で、オーディオ信号に対してDRCを実行する。

ここでは、「DRC適用時間」という表現を使用して、DRCの適用のインスタンス（たとえば、1でない利得を適用する適用のインスタンス、または、DRC利得曲線が、アタック後およびリリース前に1でない利得を決定する適用のインスタンス）のアタック時間（または、リリース時間）、または、そのようなDRCの適用のインスタンス（アタックおよびリリースを含む）の持続時間を示すことがある。

本発明のダイナミックレンジ圧縮（DRC）方法の第1のクラスの実施形態では、入力オーディオ信号の平均ラウドネス〔大きさ〕（たとえば、平均レベルまたはパワー）がターゲットに近づく（または一致するまたはそれを超える）ときに、低減されたDRC利得（たとえば、DRCなし）が入力オーディオ信号に適用される。なぜなら、そのような入力オーディオ信号は、すでに圧縮されている（たとえば、再生中にオーディオのより静かな要素が失われることを防ぎつつラウドネスを最大化する）と想定されるからである。さもなければ、入力オーディオ信号に完全なDRCを適用する。完全なDRCが不必要である場合の低減されたDRCの適用（たとえば、DRCなし）は、完全なDRCから帰結するであろうポンピングおよび／またはブリージング・アーチファクトの発生を低減または防止する。平均ラウドネスは、DRCのDRC適用時間よりも長い（たとえば、はるかに長い）時間（「平均する」時間）にわたって決定される。ターゲットは、ターゲット信号レベルまたはターゲット信号パワーであってもよい。第1のクラスの典型的な実施形態では、ターゲットは、DRCのためのニー・ポイント、または出力オーディオを再生する再生システムまたは装置の最大再生レベルに近い（たとえば、等しいまたは実質的に等しい）オーディオ信号レベルである。

本発明のダイナミックレンジ圧縮（DRC）方法の第2のクラスの実施形態は、規則的な過渡成分（transient）（たとえば、同一または同様の過渡成分のシーケンス）を有する入力オーディオに対するDRCの実行中のポンピング・アーチファクトを低減することに向けられる。第2のクラスの典型的な実施形態は、（ダイナミックレンジ圧縮の各適用のリリースの）リリース時定数を制御する。これは、入力オーディオ信号のセグメントが規則的な過渡成分を含むときに第1のリリース時定数（相対的に遅いリリース時定数と称される）を実装し（入力オーディオ信号のそのセグメントに平滑化されたダイナミックレンジ圧縮利得を適用することによることを含む）、入力オーディオ信号の異なるセグメントが規則的な過渡成分を含まないときに相対的に速いリリース時定数（すなわち、第1のリリース時定数よりも速いリリース時定数）を実装する（入力オーディオ信号の該異なるセグメントに平滑化されていないダイナミックレンジ圧縮利得を適用することによることを含む）ことによることを含む。相対的に遅いリリース時定数が実装されるときには、ポンピング・アーチファクトが低減されるか、その発生が防止される。

本発明のダイナミックレンジ圧縮（DRC）方法の実施形態の第3のクラスは、減衰する入力オーディオに対するDRCの実行中のブリージング・アーチファクトを低減することに向けられる。第3のクラスの典型的な実施形態は、入力オーディオ信号のラウドネス勾配に応答して、（ダイナミックレンジ圧縮の各適用のリリースの）リリース時定数を制御する。この制御は、典型的には、ラウドネス勾配の増大した急峻さに応答して、より速いリリース時定数を実装し（ブリージング・アーチファクトの発生を減少または防止するため）を、ラウドネス勾配の減少した急峻さに応答して、より遅いリリース時定数を実装する（ポンピング・アーチファクトの発生を減少または防止するため）。

本発明の別の側面は、入力オーディオ信号に対して本発明の方法の任意の実施形態を実行するように構成されたシステム（たとえば、ダイナミックレンジ圧縮器）または装置である。あるクラスの実施形態では、本発明は、（本発明の方法の任意の実施形態に従って）ダイナミックレンジ圧縮を実行してダイナミックレンジ圧縮されたオーディオを生成し、ダイナミックレンジ圧縮されたオーディオの再生を実行するように構成された（たとえば、ノートブック、ラップトップ、タブレット、サウンドバー、携帯電話、または小さなスピーカーを有する（または小さなスピーカーと一緒に使用するための）他の装置、または限定された（たとえば物理的に制限された）パワーの処理能力を有する再生システムである。

いくつかの実施形態では、本発明のシステムは、本発明の方法の実施形態を実行するようにソフトウェア（またはファームウェア）でプログラムされた、および／または他の仕方で構成された汎用または特殊目的のプロセッサであるか、またはそれを含む。いくつかの実施形態では、本発明のシステムは、入力オーディオ・データを受信するように結合され、本発明の方法の実施形態を実行することによって出力オーディオ・データを生成するように（適切なソフトウェアで）プログラムされた汎用プロセッサである。いくつかの実施形態では、本発明のシステムは、デジタル信号プロセッサであり、入力オーディオ・データを受信するように結合され、本発明の方法の実施形態を実行することによって、入力オーディオ・データに応答して出力オーディオ・データを生成するように構成される（たとえば、プログラムされる）。

本発明の諸側面は、本発明の方法のいずれかの実施形態を実行するように構成された（たとえば、プログラムされた）システムと、本発明の方法のいずれかの実施形態を実施するためのコードを記憶するコンピュータ読み取り可能媒体（たとえば、ディスク）とを含む。

入力オーディオ信号に対してダイナミックレンジ圧縮を実行するように構成された従来のシステムのブロック図である。

本発明のダイナミックレンジ圧縮システムのある実施形態のブロック図である。

本発明のダイナミックレンジ圧縮システムの別の実施形態のブロック図である。

本発明のいくつかの実施形態は、ダイナミックレンジ圧縮の結果として「ポンピング」および「ブリージング」として知られる望ましくない（たとえば、わずらわしい）アーチファクトの発生を低減または防止するための改良および技術的解決策を提供する。異なるクラスの実施形態は、そのようなポンピングおよびブリージング・アーチファクトを防止または低減するための異なるアプローチ（本明細書に記載）を実装する。

本発明のダイナミックレンジ圧縮器およびダイナミックレンジ圧縮（DRC）方法の実施形態の第1のクラスについて、図2を参照して説明する。このクラスのいくつかの実施形態では、DRCは、入力オーディオ信号の平均レベル（またはパワー）がターゲット（たとえば、高平均レベル）に近づく（または一致するまたはそれを超える）ときに、入力オーディオ信号に対して低減されたDRC（またはDRCなし）を適用する（または、ダイナミックレンジ圧縮器がそれを適用するように構成される）。そのような入力オーディオ信号は、すでに圧縮されていると想定されるからである。入力オーディオ信号の平均レベル（またはパワー）は、ダイナミックレンジ圧縮の各アタック時間および／または各リリース時間よりも長い（たとえば、はるかに長い）時間（「平均する時間」）にわたって決定され、低減されたDRCは、信号が平均レベル（またはパワー）を有する「とき」に適用される。これは、平均レベル（またはパワー）を有する入力オーディオ信号の（平均する時間以上の持続時間の）各セグメントに適用されるという意味においてである。実施形態の第1のクラスを参照すると、「ターゲット」という表現は、ターゲット信号レベル（または信号パワー）を示すために広義に使用され、その値は、平均レベル（またはパワー）がターゲットに近づく（または一致する、または超える）入力オーディオ信号はすでに圧縮されていると合理的に想定できるようなものである。第1のクラスの典型的な実施形態では、ターゲット・レベルは、DRCのためのニー・ポイント、または出力オーディオを再生する再生システムまたは装置の最大再生レベルに近いオーディオ信号レベルである。

図2のダイナミックレンジ圧縮器は、実施形態の第1のクラスの例示的な実施形態である。図2の圧縮器は、図1の従来のダイナミックレンジ圧縮器とは異なり、図2の圧縮器は、遅い平滑化器2と、利得調整サブシステム4と図のように結合されて含んでいる（図1の圧縮器はそうではない）。図2のDRCの他の要素（要素1、6および7）は、図1のDRCの対応する（同一番号の）要素と同一である。図2のサブシステム6は、図1のサブシステム6が実装されうる仕方のいずれかで実装されうる（たとえば、図1の要素3および5を含む）。

典型的なDRC利得曲線（たとえば、図1または図2のサブシステム5によって実装される）は、以下のような利得値（図1または図2の利得g(t)の値）を決定する:
オーディオ信号が、閾値（ニーポイント）より上である高平均レベルまたはパワー（たとえば、平滑化器3からの出力される平滑化されたレベル）をもつことに応答して、1より低い
オーディオ信号が、前記ニー・ポイントより下だが第2の閾値（第2のニー・ポイント）を上回る平均レベルまたはパワー（たとえば、平滑化器3から出力される平滑化されたレベル）を有することに応答して、1、および
オーディオ信号が前記第2の閾値を下回る低平均レベルまたはパワーを有することに応答して、1よりも高い、
それにより、（入力オーディオ信号に応答して出力オーディオ信号を生成する）DRCは、平均入力信号レベル（またはパワー）の増加とともに、平均出力オーディオ信号レベル（またはパワー）の単調な増加を維持する。DRC利得曲線（および図1または図2のサブシステム6からの出力）によって決定される利得値は、入力オーディオ信号の平均レベル（またはパワー）の変化に応じて動的に変化する。しかしながら、これは、特に、入力信号の平均レベル（またはパワー）がDRC利得曲線のニー・ポイントに近い場合、出力オーディオ信号に望ましくないアーチファクト（たとえば、ポンピング・アーチファクト）を生じさせる可能性がある。

本発明者らは、入力オーディオ信号がすでに十分に圧縮されている（そして、意図された再生装置によって十分なラウドネスで再生できる）場合には、理想的なDRCシステムは、かかる入力オーディオ信号に対しては、他の入力オーディオ信号に適用するよりも、少ないDRC（たとえば、DRCなし）を適用するであろうと認識するに至った。言い換えれば、理想的なDRCシステムは、十分に圧縮された（そして十分にラウドネスが大きい）入力オーディオ信号にとって「邪魔にならない」（よって、重大なポンピング・アーチファクトを導入しない）であろう。本発明者らは、さらに、入力オーディオ信号が、適切なターゲット値（たとえば、入力オーディオ信号がすでに圧縮されており、意図される再生装置により十分なラウドネスで再生可能であると合理的に想定できるほど十分に高いターゲット値）に近づく（または一致するまたはそれを超える）平均レベルまたはパワーを有する場合、および平均が、十分に長い時間区間（すなわち、ダイナミックレンジ圧縮の各アタック時間および／または各リリース時間よりも長い（たとえば、はるかに長い）期間）にわたって決定される場合、DRCシステムは、かかる入力オーディオ信号に対して、他の入力オーディオ信号に対して適用するよりも少ないDRCを適用すべきである（すなわち、DRCシステムは、「邪魔にならないようにする」べきであり、よって、入力オーディオ信号に有意なポンピング・アーチファクトを導入しないべきである）と認識するに至った。

図2を再度参照すると、遅い平滑化器2は、レベル推定器1から出力されるレベル（またはパワー）推定値のゆっくり平滑化されたバージョンを生成する（そして、利得調整サブシステム4に提供する）。遅い平滑化器2の出力は、入力オーディオ信号の平均レベルまたはパワーの推定値であり、その平均は、サブシステム6によって採用されるアタック時間（および／またはリリース時間）よりも（またはサブシステム6および7による1でない利得のDRCの、アタックおよびリリースを含む各適用の持続時間よりも）長い（たとえば、はるかに長い）時間にわたる。

ここでは、「ラウドネス」という用語をレベル（たとえば、平均レベル）またはパワー（たとえば、平均パワー）を示すために使用する。

よって、遅い平滑化器2は、入力オーディオ信号の平均ラウドネスを決定するように構成され、ここで、平均は、サブシステム6および7によって実装されるDRC適用時間（たとえば、典型的なDRC適用時間）よりも長い（たとえば、はるかに長い）時間にわたる。いくつかの実施形態（たとえば、図2Aを参照して以下に記載される実施形態）において、ラウドネスは、入力オーディオ信号と一緒に提供される（たとえば、入力オーディオ信号に含まれる）メタデータから決定される。遅い平滑化器2の出力は、利得調整サブシステム4によって使用され、DRCサブシステム6によって出力される利得（すなわち、DRCサブシステム6から出力される時間変化する利得g(t)によって示される利得）を制限する。サブシステム4は、図2で「ターゲット」として識別されたターゲット（ターゲット・レベルまたはパワー）に応答して動作するように結合され、構成される。遅い平滑化器2の出力（入力オーディオ信号レベルまたはパワーの平均）がターゲットに近づく（または一致するまたはそれを超える）と、サブシステム4は、制御データ（図2において「利得調整」値として識別される）をサブシステム6に対してアサートし、サブシステム6によって出力される利得を、1の利得に近づける（すなわち、利得1に等しくする、または、サブシステム4が無効にされているまたは省略されているとした場合よりも、利得1に近くする）。いくつかの実装では、遅い平滑化器2の現在の出力とターゲットとの差が、利得調整値のそれぞれの現在の出力を決定する。

よって、図2のDRCシステムは、遅い平滑化器2の出力がターゲットに近づく（または、一致する、または、それを超える）場合には、「邪魔にならないようにし」（すなわち、低減されたDRCを適用する、たとえば、DRCなし）、そうでない場合には、完全なDRC（すなわち、サブシステム2および4が省略される、または、無効にされるとした場合に適用されるDRC）を適用する。

ターゲット（それに応答してサブシステム4が動作する）は、サブシステム6によって適用されるDRCのニー・ポイントであってもよい（たとえば、遅い平滑化器2の出力が少なくとも実質的にニー・ポイントに等しい場合には、サブシステム6は1の利得を出力する）。ニー・ポイントは、それより上ではDRC利得曲線が1より小さい利得値を指定する入力信号レベルであってもよく、よって、遅い平滑化器2の出力がそのようなニー・ポイントと少なくとも実質的に等しい場合には、入力オーディオはすでに圧縮されていると想定するのが合理的である。いくつかの他の実施形態では、ターゲットは、出力オーディオを再生する再生システムまたは装置の最大再生レベルに等しい（または実質的に等しい）値である。そのようなターゲットでは、入力オーディオはすでに圧縮されていると想定することも合理的である。

DRC（たとえば、図1のシステムによって実行されるDRC）に対する伝統的なアプローチの1つは、DRCの前に、何らかの遅く動くAGC（automatic gain control［自動利得制御］）を適用し、AGC平準化された（AGC-leveled）オーディオ・コンテンツの平均レベルを所望のターゲット・レベルに一致させ（DRCを適用する前）、このターゲット・レベルのまわりにガードバンドを有するようにDRC利得曲線を実装することである（それにより、ガードバンド内の平均レベルを有するAGC平準化されたオーディオの各セグメントには、DRCが適用されない、たとえば、DRCは利得1を適用する）。しかしながら、伝統的なDRC（ガードバンドありまたはなし）はAGC平準化されたオーディオに対して実行されると、望ましくないDRCアーチファクト（たとえば、ポンピングおよび／またはブリージング）が生じる可能性がある。また、従来のガードバンドは、ポンピングまたは他のアーチファクトを低減するために、最適でないし方で配置されることがある。また、（伝統的なDRCを実装する）再生システムでは、もとのコンテンツ（AGCの適用前）の平均マスタリング・レベルが不明であることが多く、よって、システムの動作は、AGC平準化されたオーディオの任意のセグメントに低減されたDRC（またはDRCなし）が適用されるべきであると合理的に想定することはできない。もとの（AGC前の）コンテンツの特性によっては、AGCターゲット・レベルのまわりにガードバンドがあっても、AGC平準化されたオーディオに対してDRCを実行することは望ましくない場合がある。また、未知のデジタル・ボリューム制御が入力オーディオに適用されていることが多く、伝統的なAGC平準化器はそのようなボリューム制御に「対抗」し、再生中に魅力的でないユーザー体験をもたらす。

伝統的なアプローチとは対照的に、図2のシステムは、（部分的に）入力オーディオの平均レベルまたはパワー（すなわち、図2の遅い平滑化器2の出力）によって制御される仕方でDRCを実行し、ここで、平均は、サブシステム6および7によるDRCの（1でない利得での）適用の各アタック時間および／または各リリース時間よりも長い（たとえば、はるかに長い）（または、1でない利得でのDRCのサブシステム6および7による、アタックおよびリリースを含む各適用の継続時間よりも長い（たとえば、はるかに長い））区間にわたって決定される。図2の入力オーディオ信号に対してAGCが実行される場合、結果として得られる平均値レベルまたはパワーがDRCを制御するために（図2のサブシステム4によって）平均が（遅い平滑化器2によって）決定される信号レベル（またはパワー）は、AGCの適用前のもとの信号のレベルまたはパワーでなければならない。

図2のシステム（および第1のクラスの他の実施形態）の典型的な動作の利点を理解するために、入力オーディオ信号が、平均して正確に正しいレベルである十分にマスタリングされた信号であり、よって、入力オーディオ信号（DRCを受ける信号）がすでに多様な圧縮を通過している場合を考える。音楽の場合にこれが当てはまる可能性が高い。技師はマスタリングされた音楽が、背景ノイズの多い環境（自動車内など）で再生される可能性が高いことを知っているからである。本発明のDRCの実施形態がこの場合に行うことができる最良のことは、入力信号を完全にそのままにしておくことである。十分に圧縮されたトラックでさえ、柔らかい（静かな）ビットを含む。たとえば、ドラム・ヒットの後には、一般に、残響テールが続き、これは、ほぼすべての入力レベルを含み、徐々に消え去ていくはずである。典型的には、どのような伝統的なDRC方法でも、静かなビットをブーストする結果となる。本質的にはそれがダイナミックレンジ圧縮が意味するものだからである。だが、結果として得られる出力オーディオは、何もしないほど良好には聞こえない。すでに圧縮されている、よくマスタリングされたトラックに対して伝統的なDRCを実行することは、アーティストの意図から乖離するであろう。

対照的に、図2のシステムによって適用されるDRCの制御（すなわち、図2の要素2および4によって実行される制御）は、入力信号レベル（またはパワー）のゆっくり平滑化された（平均化された）バージョンによって決定され、そのため、平均された入力レベルまたはパワー（遅い平滑化器2の出力によって示される）が、ターゲットに近い（または一致する、またはそれを超える）場合（十分にマスタリングされた、十分にラウドネスが大きい、入力オーディオの場合はそうであろう）、DRCは、事実上、無効化または低減される。

実際問題として、オーディオがラップトップまたは携帯電話（または限られたパワー処理能力を有する他の再生システムまたは装置）によって再生される場合、典型的には、ユーザーが心地よく聞くために十分な再生レベルを得るのに苦労する。再生装置を使用して妥当なラウドネスの再生を達成するためには、典型的には、ターゲットのデジタルの平均された再生レベルが非常に高くなければならない。ターゲットの平均されたレベルの正確な値は、特定の装置に非常に依存するが、典型的には、高い（すなわち、図2の実施形態のサブシステム4に提供されるターゲットの典型的な値と実質的に等しいか、またはそれよりも大きい）。音楽（またはその他のオーディオ）がそのような高い入力平均レベルを達成するためには、すでにかなりの圧縮を経ている必要がある。よって、DRCシステムがすべき最善のことは、そのままにしておくことであるとわかる。図2のシステムの典型的な実装の動作は、そのような音楽（または他のオーディオ）へのDRCの適用を無効にするか、または減少させる。

ターゲット（図2の実施形態のサブシステム4に提供される）よりも有意に低い（図2の遅い平滑化器2の典型的な実装の出力によって決定される）平均入力レベルを有する入力オーディオ（たとえば、音楽トラック）は、平均レベルよりもはるかにラウドネスの大きいピークを有し、平均レベルよりも低い静かなビットを有する。この場合、より低いデジタル・レベルが聴取可能であることが意図されており、さらなるダイナミックレンジの圧縮が必要であると想定すべきである。図2のシステムの典型的な実装の動作は、そのような入力オーディオへのDRCの適用を無効にしたり、減少させたりすることはない。

オーディオ信号のレベルまたはパワーの遅く動く平均（図2の遅い平滑化器2の出力によって示される）は、すでに信号のダイナミックレンジに制約を課していることが理解されるべきである。遅く動く平均がDRCニー・ポイントに近い場合、または最大信号レベルに近い場合、（図2のDRCサブシステム6によって実装される）DRC曲線は、もはや適用される必要はない（または完全に適用される必要はない）（「最大信号レベル」は、ここでは、意図される再生システムまたは装置の最大再生レベルを示す）。

次に、図2Aを参照して、上記の実施形態の第1のクラスにおける別の実施形態を説明する。図2Aのシステム（ダイナミックレンジ圧縮器またはDRC）は、図2AのDRCが、遅い平滑化器2ではなく、平均ラウドネス決定サブシステム8を含むという点で、図2のシステム（やはりダイナミックレンジ圧縮器またはDRC）とは異なる。図2Aの他の要素（要素1、4、6、および7）は、図2の対応する（同一番号の）要素と同一である。図2Aのサブシステム6は、図2のサブシステム6が実装されうる仕方のいずれかで実装されうる（たとえば、図1の要素3および5を含む）。

本発明のいくつかの実施形態（たとえば、図2Aの典型的な実施形態）によるDRCは、オーディオ・プログラムを示す入力オーディオ・データにラウドネス・ベースの処理を適用するように構成された（たとえば、ソフトウェアでプログラムされた）デジタル信号プロセッサ（たとえば、「ドルビー・ボリューム」再生ボリューム制御、または別のタイプの再生ラウドネス制御またはラウドネス平準化を実装するもの）において実装される。そのようなラウドネス・ベースの処理は、オーディオ・コンテンツのラウドネスおよび／またはオーディオ・コンテンツのラウドネス処理状態（たとえば、オーディオ・コンテンツに対してどのようなタイプのラウドネス処理が実行済みであるか）を示すメタデータ（オーディオ・データとともに提供され、オーディオ・データに対応する）を使用することができる。

図2Aのシステムでは、平均ラウドネス決定サブシステム8は、入力オーディオデータ（入力オーディオ信号）の平均ラウドネス（たとえば、平均レベル）を示すデータを決定する（そして利得調整サブシステム4に提供する）ように構成され、ここで、平均は、サブシステム6および7によって適用されるダイナミックレンジ圧縮の各アタック時間および／または各リリース時間よりも（または、1でない利得でのサブシステム6および7によるDRCの、アタックおよびリリースを含む各適用の継続時間よりも）長い（たとえば、はるかに長い）時間（「平均する」時間）にわたる。いくつかの実装では、入力オーディオ・データは「ドルビー・デジタル」ビットストリーム（オーディオ・データに対応するメタデータも含む）に含まれる。いくつかの実装形態では、サブシステム8は、メタデータをパースして、入力オーディオ・データのセグメントのシーケンスの各セグメント（たとえば、フレーム）のラウドネスを示すメタデータを識別し、必要であれば、メタデータから、そのようなラウドネスの平均のシーケンス（ここで、シーケンスにおける各平均は十分に長い平均する時間にわたる）を決定するように構成されてもよい。いくつかの実装では、サブシステム8は、中耳および蝸牛の挙動のモデル、ならびにラウドネスの心理音響モデルを実装してもよい。

サブシステム8の出力は、遅い平滑化器2の出力が図2の実施形態において（サブシステム4において）使用されるのと同様に、（図2Aのサブシステム4において）使用される。

いくつかの代替的な実装では、図2Aのシステムのサブシステム6（または本発明の別の実施形態のサブシステム6）は、入力ラウドネスを出力ラウドネスにマッピングするDRC曲線を実装する（よって、サブシステム6は、利得値ではなく、ラウドネス差値を出力する）。そのような実装では、サブシステム7は、各ラウドネス差値を、入力オーディオ信号に適用するべき、対応する利得変化にマッピングする。

多くの用途について、図2または図2Aのシステム（ダイナミックレンジ圧縮器）のマルチバンド実装（または、後述する図3または図4のシステムのマルチバンド実装）を採用することが望ましいと考えられる。

図2（または図2A）のシステムのマルチバンド実装では、入力オーディオは（たとえば、フィルタバンクによって）複数の周波数バンドに分割される。周波数帯〔周波数バンド〕のそれぞれについて、平均ラウドネス（たとえば、メタデータまたは平均されたメタデータによって示される平均的ラウドネス、または平均レベル、または平均パワー）が（図2のサブシステム2または図2Aのサブシステム8によって）決定される。各バンドについて、平均ラウドネスは、サブシステム6および7によって適用されるダイナミックレンジ圧縮の各アタック時間および／または各リリース時間よりも（または、1でない利得でのサブシステム6および7によるDRCの、アタックおよびリリースを含む各適用の継続時間よりも）長い（たとえば、はるかに長い）時間（「平均する」時間）にわたる。サブシステム6は、DRC利得曲線の集合（各周波数帯についての1つのDRC利得曲線）を実装する。個々の周波数帯ごとに、利得値のシーケンス（その帯域についてサブシステム6から出力される）が入力オーディオの対応する帯域に（サブシステム7によって）適用され、それにより出力オーディオの各周波数帯域を生成する。出力オーディオの諸周波数帯域は、出力オーディオ信号を生成するために組み合わされてもよい。換言すれば、DRC利得曲線によって決定される（各バンドについての）DRC利得値は、入力オーディオの個々のバンドにおいて適用され、各バンドにおいて「ダイナミックレンジ圧縮された」オーディオを生成し、次いで、（個々のバンドのそれぞれにおいて）「ダイナミックレンジ圧縮された」オーディオは組み合わせて出力オーディオ信号を形成することができる。ある実施形態では、DRC利得は、このようおに、複数の周波数帯域の少なくとも1つの周波数帯域について決定されてもよく、該DRC利得は、前記周波数帯域に適用されてもよい。

いくつかの実装では、サブシステム4は、DRCの適用を制御するために使用される「利得調整」値（図2および図2Aに示される）を決定するために、個々の周波数帯のそれぞれについて決定された平均ラウドネス値を使用する（そのような実装では、利得調整値のそれぞれは入力オーディオの個々の周波数帯に関する）。いくつかの他の実装では、単一の（広帯域）平均ラウドネス値が（図2のサブシステム2または図2Aのサブシステム8によって）決定され、この単一の平均ラウドネス値（これは入力オーディオの異なるセグメントのシーケンスに関するので、典型的には、経時的に変化する）が、サブシステム4によって、DRCの適用を制御するために使用される「利得調整」値（図2および図2Aにおいて示される）を決定するために使用される。後者の実装では、（入力オーディオの個々の周波数帯ではなく、広帯域入力オーディオに関する）利得調整値のそれぞれが、すべてのDRC利得曲線に適用される（そして、各DRC利得曲線は、周波数帯域のうちの異なるものに関する）。後者の実装のいくつかでは、広帯域平均ラウドネス値とターゲットとの差が、帯域毎のDRC利得曲線の適用を制御するために使用される利得調整値を生成するために使用される。

マルチバンド実装では、（サブシステム7によって適用される）DRC利得の決定は、典型的には、音色を改善するために諸バンドを横切って諸バンドの個々のバンドについての利得（たとえば、諸バンドの個々のバンドについてのDRC利得曲線によって決定される利得）の平滑化を含む。マルチバンド実装では、異なるバンドは異なるDRCニー・ポイントを有する可能性があり、よって、ターゲット（典型的には、選択された広帯域ターゲット）は、個々のバンドについての特定のニー・ポイントに必ずしも一致しない。

本発明者らは、DRC中のポンピングおよびブリージング・アーチファクトを低減しうるさまざまな既知の方法（たとえば、「ドルビー・ボリューム」ラウドネス・レベル平準化器で実装されるタイプのいくつかの方法）が、本発明のDRCのいくつかの実施形態と組み合わせて実装されてもよいことを考えている。そのような方法の例は、以下を含む：
聴覚シーン解析。聴覚シーン変化に対して、より大きな強度で利得変化が適用される；
階層的制約条件。個々の周波数帯域における利得はチャネル利得によって制約され、チャネル利得は合計レベルによって制約される。
たとえば、上述の図2A（または図2）に従って実装されたDRCシステムは、オーディオ・シーン解析を実装して、DRCの実行をさらに制御することもできる。

本発明の実施形態の第2のクラスは、規則的な過渡成分（たとえば、同一または同様の過渡成分のシーケンス）を有する入力オーディオに対するDRCの実行中のポンピング・アーチファクトを低減することに向けられる。第2のクラスにおける典型的な実施形態は、（ダイナミックレンジ圧縮の各適用のリリースの）リリース時定数を制御する（たとえば、制御するように構成されたサブシステムを含む）。これは、入力オーディオ信号のセグメントが規則的な過渡成分を含むときに第1のリリース時定数（相対的に遅いリリース時定数と称される）を実装し（入力オーディオ信号のそのセグメントに平滑化されたダイナミックレンジ圧縮利得を適用することによることを含む）、入力オーディオ信号の異なるセグメントが規則的な過渡成分を含まないときに相対的に速いリリース時定数（すなわち、第1のリリース時定数よりも速いリリース時定数）を実装する（入力オーディオ信号の該異なるセグメントに平滑化されていないダイナミックレンジ圧縮利得を適用することによることを含む）ことによることを含む。相対的に遅いリリース時定数が実装されるときには、ポンピング・アーチファクトが低減されるか、その発生が防止される。

オーディオ（特に音楽）では、しばしば規則的な過渡成分があり、通常のDRC（ダイナミックレンジ圧縮器）の繰り返されるアタックおよびリリースを引き起こす。これは、ポンピング（pumping）として知られている、周知の不快なアーチファクト（ダイナミックレンジ圧縮によって生成される）を生じることがある。本発明のある側面は、この問題を解決し、ダイナミックレンジ圧縮器のリリース挙動を修正することによって技術的利点を提供することを目的とする。

図3を参照して、第2のクラスの例示的実施形態を説明する。図3の圧縮器は、平滑化器11と利得調整サブシステム13が図のように結合されたものを含む（だが図1の圧縮器でそうではない）という点で、図3のダイナミックレンジ圧縮器は、図1の従来のダイナミックレンジ圧縮器とは異なる。図3のDRCの他の要素（要素1、3、5および7）は、図1のDRCの対応する（同一番号の）要素と同一である。DRC利得曲線サブシステム5からのDRC利得出力は、図3において利得「gDRC」として識別される。

図3の要素3、5、11、および13は、図1の従来のDRC利得決定サブシステム6を置き換えるDRC利得決定サブシステム（本発明のある実施形態に従って実装される）を備える。図3に示される実装のいくつかの変形では、図3の要素3および5は、図1のDRC利得決定サブシステム6の上述した代替的実装の1つによって置き換えられる。

図3の実施形態では、DRC利得平滑化器11は、DRC利得曲線サブシステム5から出力されるDRC利得（gDRC）を平滑化し、それにより、平滑化されたDRC利得（図3において「gDRCsmoothed」と識別される）を生成するために設けられる。平滑化されたDRC利得および利得gDRC（サブシステム5から出力される）は、サブシステム13に提供される。いくつかの実装では、利得調整サブシステム13は、各利得値gDRCおよび対応する平滑化利得gDRCsmoothedのうち小さいほうを（サブシステム7によって適用されるg(t)の現在の利得値として）出力するように構成されており、それにより、各利得値gDRCに応答してサブシステム13の出力は：
min(gDRC,gDRCsmoothed)
となる。

入力オーディオのセグメントが規則的な過渡成分（たとえば、ドラム・ヒットのシーケンスのような同一または同様の過渡成分のシーケンス）を有する場合、平滑化器11はサブシステム5に追いつく。これは、サブシステム13が、サブシステム5から出力される対応する利得値「gDRC」ではなく、（平滑化器11から出力される）現在の「gDRCsmoothed」値を出力する（すなわち、サブシステム7に提供する）状態に達するという意味でいっている。そのような動作の間、（対応する値gDRCではなく）gDRCsmoothed値のサブシステム7による適用は、システムによるDRC適用のリリースを効果的に遅らせ、よって、ポンピング・アーチファクトを低減する（またはその発生を防止する）。典型的な動作において（規則的な過渡成分を有する入力オーディオのセグメントに応答して）、サブシステム13は、初期には現在の利得値gDRCを出力し、これは、図3のシステムに、何らかの高速リリース挙動を提供する状態で動作させる。これが、サブシステム13が（対応するgDRC値ではなく）現在の「gDRCsmoothed」値を出力する状態に達するまで続き、その時点で、図3のシステムは、より遅いリリースを実装し（すなわち、相対的に遅いリリース時定数を実装する）、それにより、ポンピング・アーチファクトの発生を低減または防止する。典型的な動作においては、（規則的な過渡成分をもたない入力オーディオのセグメントに応答して）サブシステム13は、現在の「gDRCsmoothed」値ではなく、現在の利得値gDRCを出力する（よって、システムは、相対的に速いリリース時定数を実装する）。

ユーザー指定のパラメータpに応答して動作するようにサブシステム13を実装することが有用であることが分かった。パラメータp（時に「ポンピング・パラメータ」と称される）の異なる値を選択することによって、ユーザーがポンピング・アーチファクトとラウドネスをトレードオフすることを可能にする。そのような実装では、サブシステム13は、各利得値gDRCおよび対応する平滑化された利得gDRCsmoothedに応答して、最終的な利得g（すなわち、時間変化する利得g(t)の1つの値）を出力する。最終的な利得gは、値：
g＝p*gDRC＋(1－p)*min(gDRC,gDRCsmoothed)
をもつ。ここで、"p"は、0から1の範囲でユーザーが選択可能な値をもつポンピング・パラメータである。

このように、ユーザーがpを1に等しい（またはほぼ等しい）ように選択した場合、出力オーディオの平均ラウドネスは（p＝0のときの平均出力オーディオラウドネスに比較して）増加されうるが、望ましくないポンピング・アーチファクトが発生しうる。ユーザーがpを0に等しい（またはほぼ等しい）ように選択した場合、出力オーディオの平均ラウドネスは（p＝1のときの平均出力オーディオラウドネスに比べて）小さくなりうるが、ポンピング・アーチファクトの発生は低減または防止されうる。

ある好ましい実施形態では、図3のシステムは、マルチバンド圧縮器として実装される。そのような実装では、値gDRCsmooothedは、そして典型的には値gDRCも、帯域毎に決定され、異なる周波数帯域について、ポンピング・パラメータpの異なる選択を行うことができる。より低い周波数帯がpのより大きなp値をもつことを許容することが有用でありうる。

本発明のいくつかの実装によれば、DRCシステムは、実施形態の第1のクラスおよび実施形態の第2のクラスの両方に属する。たとえば、システムは、第2のクラスの実施形態のアーチファクト低減側面（たとえば、そのDRC利得決定サブシステムは、図3の実装の要素11および13を含みうる）および第1のクラスの実施形態のDRC低減側面（たとえば、それは、図2の遅い平滑化器2およびサブシステム4と同一なまたは対応する要素、または図2Aのサブシステム8および4に対応する要素を含みうる）を実装してもよい。

本発明の実施形態の第3のクラスは、減衰する入力オーディオに対するDRCの実行中のブリージング・アーチファクトを低減することに向けられる。第3のクラスの典型的な実施形態は、入力オーディオ信号のラウドネス勾配に応答して、（ダイナミックレンジ圧縮の各適用のリリースの）リリース時定数を制御する（たとえば、制御するように構成されたサブシステムを含む）。この制御は、典型的には、ラウドネス勾配の増大した急峻さに応答して、より速いリリース時定数を実装し（ブリージング・アーチファクトの発生を減少または防止するため）を、ラウドネス勾配の減少した急峻さに応答して、より遅いリリース時定数を実装する（ポンピング・アーチファクトの発生を減少または防止するため）。

図4を参照して、第3のクラスの例示的な実施形態を説明する。図4の圧縮器は図のように結合されたラウドネス勾配推定サブシステム15を含むという点で、図4のダイナミックレンジ圧縮器は、図3の従来のダイナミックレンジ圧縮器とは異なっている。図4のDRCの他の要素（要素1、3、5、7、11、および13）は、図3のDRCの対応する（同一番号の）要素と同一である。

図4の要素3、5、11、13、および15は、図1の従来のDRC利得決定サブシステム6を置き換えることができるDRC利得決定サブシステム（本発明のある実施形態に従って実装される）を含む。図4に示される実装の変形においては、図4の要素3および5は、図1のDRC利得決定サブシステム6の上述した代替実施の1つによって置き換えられる。

ブリージング・アーチファクト（breathing artifact）は、ダイナミックレンジ圧縮の結果として生じることがある周知のアーチファクトであり、入力オーディオがより静かになり（減衰する）、DRC（ダイナミックレンジ圧縮器）がそれに対して増大する利得を適用する（たとえば、ダイナミックレンジ圧縮の適用のリリース区間の間に）場合には、特にわずらわしい。減衰する入力オーディオと圧縮器リリースの相対的な時定数に依存して、ブリージング・アーチファクトは、聴取者（またはオーディオ・コンテンツ・クリエーター）がオーディオが静かになっていくと期待しているときに、出力オーディオのラウドネスを増加させることがある。

入力オーディオ信号の平均されたラウドネス（レベルまたはパワー）は、典型的には、時間の経過とともに変化し、勾配（本稿では時にラウドネス勾配と称される）を有する。勾配は、入力オーディオ信号の平均されたレベルまたはパワーの時間の経過に伴う変化率である。この文脈において、平均されたラウドネスが決定される時間は、上述のDRC適用時間よりも長い（またははるかに長い）必要はない。図4の実施形態のある側面によれば、サブシステム15は、入力オーディオ信号の平均されたラウドネス（平均レベルまたはパワー）のラウドネス勾配の推定値（たとえば、時間平滑化された推定値）を生成するために設けられる。図4の実装では、サブシステム15は、レベル推定器1によって決定された（入力オーディオ信号の）推定されたレベルまたはパワーに基づいて、このラウドネス勾配推定値を生成するように構成される。あるいはまた、ラウドネス勾配推定値は、別の仕方で（たとえば、入力オーディオに対応するラウドネス・メタデータに基づいて）生成される。

サブシステム1によって決定される（入力オーディオ信号の）推定されるレベルまたはパワーは、典型的には、時間の経過とともに変化し、サブシステム15は、（サブシステム1から出力される推定されるレベルまたはパワーの対応するシーケンスから）各時間について、ラウドネス勾配の時間平滑化された推定値を決定するように構成されうる。ラウドネス勾配の推定値に応答して、サブシステム15は、制御信号（図4において「制御」として識別される）を生成し、制御信号を平滑化器11に提供する。ラウドネス勾配の増大する急峻さ（すなわち、正のラウドネス勾配の増大する値、または負のラウドネス勾配の増大する値（または負である程度がより少ない値））に応答して、サブシステム15によって生成される制御信号は、平滑化器11によって実行される平滑化の時定数を変化させ、（図4のシステムによるダイナミックレンジ圧縮の各適用のリリースの）リリース時定数をより速くすることを許容する。換言すれば、ラウドネス勾配の増大する急峻さに応答して、サブシステム15によって生成される制御信号は、平滑化器11によって実行される平滑化の時定数を変化させ、それにより、平滑化器11から出力される平滑化された利得値（gDRCsmoothed）により、サブシステム13は、ダイナミックレンジ圧縮適用のより速いリリースを効果的に許容する利得値を出力するようになる。ラウドネス勾配の増大する急峻さから帰結する、より速いリリース時定数は、典型的には、ブリージング・アーチファクトを減少させる（またはその発生を防止する）。

ラウドネス勾配の減少する急峻さに応答して、サブシステム15によって生成される制御信号は、平滑化器11によって実行される平滑化の時定数を変化させ、（図4のシステムによるダイナミックレンジ圧縮の各適用のリリースの）リリース時定数を、より遅くすることを許容する。図3を参照して上述したように、そのようなより遅いリリース時定数は、ポンピング・アーチファクトを低減する（またはその発生を防止する）ことができ、またブリージング・アーチファクトを低減する（またはその発生を防止するまたはそれをより目立ちにくくする）こともできる。

ある好ましい実施形態では、（値gDRCに応答して）値gDRCsmoothedを計算するために（平滑化器11によって）使用される時定数は、約2秒～約6秒の範囲であるようラウドネス勾配（完全な広帯域入力オーディオ上で生成されたレベル推定値から、サブシステム15によって決定される）によってスケーリングされる。

（本発明の代替的な実施形態である）図4のシステムの変形では、図4の要素3および5は、DRC利得決定サブシステム6の実装（たとえば、図2のサブシステム6の実装のいずれか）によって置き換えられ、ラウドネス勾配推定サブシステム15によって生成される制御信号は、平滑化器11を制御するためではなく、そのようなサブシステム6のリリース時間を直接制御する（たとえば、増加させる）ために使用される。そのような実施形態では、要素11および13は任意的に省略される。

本発明のいくつかの実施形態によれば、DRCシステムは、実施形態の第1のクラスおよび実施形態の第3のクラスの両方に属する。たとえば、システムは、第3のクラスの実施形態のアーチファクト低減側面（たとえば、そのDRC利得決定サブシステムは、図4の実装の要素11、13、および15を含みうる）と、第1のクラスの実施形態のDRC低減側面（たとえば、図2の遅い平滑化器2およびサブシステム4と同一の、または対応する要素、または図2Aのサブシステム8および4に対応する要素を含みうる）との両方を実施することができる。

本発明の例示的な実施形態（example embodiment、EE）は以下を含む：
EE１．入力オーディオ信号に対してダイナミックレンジ圧縮（DRC）を実行して、出力オーディオ信号を生成するための方法であって：
（a）入力オーディオ信号の平均ラウドネスを決定する段階であって、前記平均は、DRCのDRC適用時間よりも長い時間にわたり、前記DRC適用時間は、DRCの適用のインスタンスのアタック時間もしくはリリース時間、またはDRCの適用のインスタンスの継続時間である、段階と；
（b）入力オーディオ信号の平均ラウドネスがターゲットに近づくか、一致するか、またはそれを超えるときに、入力オーディオ信号に対して低減されたDRCを適用し、それにより前記出力オーディオ信号を生成し、さもなければ入力オーディオ信号に対して完全なDRCを適用して前記出力オーディオ信号を生成する段階とを含む、
方法。
EE２．前記ターゲットが、前記DRCのためのニー・ポイント、または前記出力オーディオ信号を再生する再生システムまたは装置の最大再生レベルと少なくとも実質的に等しいオーディオ信号レベルである、EE１に記載の方法。
EE３．前記入力オーディオ信号が複数の周波数帯域を有し、段階（b）が、前記周波数帯域の個々のものについてのDRC利得を決定し、前記DRC利得を前記周波数帯域の前記個々のものに適用することを含む、EE１またはEE２に記載の方法。
EE４．段階（a）が入力オーディオ信号の広帯域平均ラウドネスを決定することを含み、ステップ（b）が、広帯域平均ラウドネスがターゲットに近づくか、または一致するか、またはターゲットを超えるときに、低減されたDRCを各周波数帯域に適用することを含む、EE３に記載の方法。
EE５．段階（a）が前記周波数帯域のそれぞれの平均ラウドネスを決定することを含み、段階（b）が、平均ラウドネスが前記ターゲットに近づくか、または一致する、または前記ターゲットを超える前記周波数帯域のそれぞれに、前記低減されたDRCを適用することを含む、EE３に記載の方法。
EE６．DRC利得を決定することは、音色を改善するために、前記周波数帯域の個々の周波数帯域を横切って前記個々の周波数帯域の個々の周波数帯域についての利得を平滑化することを含む、EE３に記載の方法。
EE７．EE１、EE２、EE３、EE４、EE５、またはEE６の方法であって、段階（b）は：
動的DRC利得gDRCを決定し；
前記動的DRC利得gDRCを平滑化して、平滑化された動的利得gDRCsmoothedを生成し；
前記DRC利得gDRCと前記平滑化された動的利得gDRCsmoothedのうちの最小決定に基づいて動的利得gを決定し：
入力オーディオ信号に前記動的利得gを適用することを含む、
方法。
EE８．EE７に記載の方法であって、前記動的利得gは：
g＝p*gDRC＋(1－p)*min(gDRC,gDRCsmoothed)
であり、ここで、"p"は0から1の範囲内の値をもつポンピング・パラメータである、方法。
EE９．EE１、EE２、EE３、EE４、EE５、EE６、EE７、またはEE８の方法であって、前記入力オーディオ信号は、ラウドネス勾配を有し、前記方法は、さらに：
入力オーディオ信号のラウドネス勾配に応答して、低減されたDRCおよび完全なDRCの適用のためのリリース時定数を制御することを含む、
方法。
EE１０．前記リリース時定数が、前記ラウドネス勾配の増大した急峻さに応答して、より速くなるよう制御され、前記ラウドネス勾配の減少した急峻さに応答して、より遅くなるように制御される、EE９に記載の方法。
EE１１．入力オーディオ信号に対してダイナミックレンジ圧縮（DRC）を実行して、出力オーディオ信号を生成するための方法であって、当該方法は：
入力オーディオ信号のレベル推定値を決定し；
前記レベル推定値へのDRC利得曲線適用による動的DRC利得gDRCを決定し；
前記動的DRC利得gDRCを平滑化して、平滑化された動的利得gDRCsmoothedを生成し；
前記DRC利得gDRCと前記平滑化された動的利得gDRCsmoothedのうちの最小決定に基づいて動的利得gを決定し：
入力オーディオ信号に前記動的利得gを適用して、それにより前記出力オーディオ信号を生成することを含む、
方法。
EE１２．EE１１に記載の方法であって、前記動的利得gは：
g＝p*gDRC＋(1－p)*min(gDRC,gDRCsmoothed)
であり、ここで、"p"は0から1の範囲内の値をもつポンピング・パラメータである、方法。
EE１３．前記入力オーディオ信号は、ラウドネス勾配を有し、前記方法は、さらに：
入力オーディオ信号のラウドネス勾配に応答して、入力オーディオ信号に対するDRCの適用のためのリリース時定数を制御することを含む、
EE１１またはEE１２に記載の方法。
EE１４．前記リリース時定数が、前記ラウドネス勾配の増大した急峻さに応答して、より速くなるよう制御され、前記ラウドネス勾配の減少した急峻さに応答して、より遅くなるように制御される、EE１３に記載の方法。
EE１５．前記リリース時定数の制御が、前記平滑化された動的利得gDRCsmooothedを生成するための平滑化の実行についての時定数を制御することを含む、EE１３に記載の方法。
EE１６．EE１１、EE１２、EE１３、EE１４またはEE１５に記載の方法であって、前記入力オーディオ信号が複数の周波数帯域を有し、前記動的利得gが、前記周波数帯域の個々のものについての個々の帯域利得を含み、前記動的利得gを適用することが：
入力オーディオ信号の周波数帯域の個々の帯域に、個々の帯域利得を適用することを含む、
方法。
EE１７．入力オーディオ信号に対してダイナミックレンジ圧縮（DRC）を実行するためのシステムであって：
入力オーディオ信号のレベル推定値を決定するように結合され、構成されたレベル推定サブシステムと；
前記レベル推定値に対するDRC利得曲線適用によって動的DRC利得gDRCを決定するように結合され、構成されたDRC利得曲線サブシステムと；
前記動的DRC利得gDRCを平滑化し、平滑化された動的利得gDRCsmoothedを生成し、前記DRC利得gDRCおよび前記平滑化された動的利得gDRCsmoothedの対応する値の各対の最小値を決定することによることを含め、動的利得gを決定するように結合され、構成された利得決定サブシステムと；
入力オーディオ信号に前記動的利得gを適用して前記出力オーディオ信号を生成するように結合され、構成された利得適用サブシステムとを有しており、
前記利得決定サブシステムは前記動的利得gを決定することを、前記動的利得gを、規則的な過渡成分を含む入力オーディオ信号のセグメントに適用するときには、前記システムは第1のリリース時定数を実装し、前記動的利得gを、規則的な過渡成分を含まない入力オーディオ信号の異なるセグメントに適用するときには、前記システムは前記第1のリリース時定数よりも速いリリース時定数を実装するように行うように構成されている、
システム。
EE１８．EE１７に記載のシステムであって、前記動的利得gは：
g＝p*gDRC＋(1－p)*min(gDRC,gDRCsmoothed)
であり、ここで、"p"は0から1の範囲内の選択可能な値をもつポンピング・パラメータである、システム。
EE１９．前記入力オーディオ信号は、ラウドネス勾配を有し、前記利得決定サブシステムは、入力オーディオ信号のラウドネス勾配に応答して、入力オーディオ信号に対するDRCの適用のためのリリース時定数を制御するように構成されている、
EE１７またはEE１８に記載のシステム。
EE２０．前記利得決定サブシステムが、前記ラウドネス勾配の増大した急峻さに応答して、リリース時定数をより速くし、前記ラウドネス勾配の減少した急峻さに応答して、リリース時定数をより遅くするように構成されている、EE１９に記載のシステム。
EE２１．前記利得決定サブシステムが、前記平滑化された動的利得gDRCsmooothedを生成するための平滑化の実行についての時定数を制御することによることを含め、リリース時定数を制御するように構成されている、EE１９に記載の方法。
EE２２．入力オーディオ信号に対してダイナミックレンジ圧縮（DRC）を実行するシステムであって：
入力オーディオ信号の平均ラウドネスを決定するように結合され、構成されたラウドネス決定サブシステムであって、前記平均は、DRCのDRC適用時間よりも長い時間にわたり、前記DRC適用時間は、DRCの適用のインスタンスのアタック時間もしくはリリース時間、またはDRCの適用のインスタンスの継続時間である、ラウドネス決定サブシステムと；
入力オーディオ信号の平均ラウドネスがターゲットに近づくか、一致するか、またはそれを超えるときに、入力オーディオ信号に対して低減されたDRCを適用し、それにより前記出力オーディオ信号を生成し、さもなければ入力オーディオ信号に対して完全なDRCを適用して前記出力オーディオ信号を生成するように結合され、構成された利得決定および適用サブシステムとを有する、
システム。
EE２３．前記ターゲットが、前記DRCのためのニー・ポイント、または前記出力オーディオ信号を再生する再生システムまたは装置の最大再生レベルと少なくとも実質的に等しいオーディオ信号レベルである、EE２２に記載のシステム。
EE２４．前記入力オーディオ信号が複数の周波数帯域を有し、前記利得決定および適用サブシステムが、前記周波数帯域の個々のものについてのDRC利得を決定し、前記DRC利得を前記周波数帯域の前記個々のものに適用するように構成されている、EE２２またはEE２３に記載のシステム。
EE２５．前記利得決定および適用サブシステムが：
動的DRC利得gDRCを決定し；
前記動的DRC利得gDRCを平滑化して、平滑化された動的利得gDRCsmoothedを生成し；
前記DRC利得gDRCと前記平滑化された動的利得gDRCsmoothedのうちの最小決定に基づいて動的利得gを決定し：
入力オーディオ信号に前記動的利得gを適用するように構成されている、
EE２２、EE２３またはEE２４に記載のシステム。
EE２６．EE２５に記載のシステムであって、前記動的利得gは：
g＝p*gDRC＋(1－p)*min(gDRC,gDRCsmoothed)
であり、ここで、"p"は0から1の範囲内の値をもつポンピング・パラメータである、システム。
EE２７．EE２２、EE２３、EE２４、EE２５、またはEE２６のシステムであって、前記入力オーディオ信号は、ラウドネス勾配を有し、前記利得決定および適用サブシステムは：
入力オーディオ信号のラウドネス勾配に応答して、低減されたDRCおよび完全なDRCの適用のためのリリース時定数を制御するように構成されている、
システム。
EE２８．前記利得決定および適用サブシステムが、前記リリース時定数を、前記ラウドネス勾配の増大した急峻さに応答して、より速くし、前記ラウドネス勾配の減少した急峻さに応答して、より遅くするように構成されている、EE２２、EE２３、EE２４、EE２５、EE２６またはEE２７に記載のシステム。
本開示に記載された実装に対する種々の修正が当業者には容易に明らかとなりうる。本明細書で定義される一般原理は、本開示の精神または範囲から逸脱することなく、他の実装に適用されてもよい。よって、特許請求の範囲は、本明細書に記載および示された特定の実装に限定されることは意図されておらず、本開示と整合する最も広い範囲が与えられるべきものである。

本開示に記載される方法およびシステムは、ソフトウェア、ファームウェアおよび／またはハードウェアとして実装されうる。たとえば、ある種の構成要素（たとえば、図2の要素1、2、4、6、および7、または図2Aの要素1、4、6、7、および8のそれぞれ、または図3の要素1、3、5、7、11、および13のそれぞれ、または図4の要素1、3、5、7、11、13、および15のそれぞれ）は、デジタル信号プロセッサ（たとえば、入力オーディオ信号を受信するように結合された入力を有する）またはマイクロプロセッサ上で動作するソフトウェアとして実装されてもよい。いくつかの構成要素は、ハードウェアとして、および／または特定用途向け集積回路として実装されうる。上述の方法およびシステムで遭遇する信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体に記憶されてもよい。それらは、電波ネットワーク、衛星ネットワーク、無線ネットワーク、またはインターネットなどの有線ネットワークなどのネットワークを介して転送されうる。本開示に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号（たとえば、本発明のシステムまたは方法の任意の実施形態に従って生成される出力オーディオ信号）を記憶および処理する（たとえば、再生を実装するまたはレンダリングする）ために使用されるポータブル電子装置または他の消費者設備である。
本願において「Ａおよび／またはＢ」の形の記載は「Ａ」または「Ｂ」または「ＡおよびＢ」であることを意味する。

Claims

入力オーディオ信号に対してダイナミックレンジ圧縮DRCを実行して、出力オーディオ信号を生成するための方法であって：
（a）前記入力オーディオ信号の平均レベルまたはパワーを決定する段階であって、前記平均は、1でない利得を適用する前記DRCの適用のアタック時間および／またはリリース時間よりも長い時間にわたる、段階と；
（b）前記入力オーディオ信号の平均レベルまたはパワーがターゲットに近づくか、一致するか、または前記ターゲットを超えるときに、前記入力オーディオ信号に対してDRCを適用せず、前記出力オーディオ信号を生成し、さもなければ前記入力オーディオ信号に対して前記DRCを適用して前記出力オーディオ信号を生成する段階とを含み、前記DRCは、前記入力オーディオ信号のレベルまたはパワーがニー・ポイントのレベルまたはパワーを下回るときに前記入力オーディオ信号のレベルまたはパワーを上げるものであり、前記ターゲットは、前記DRCのための前記ニー・ポイント、または前記出力オーディオ信号を再生する再生システムまたは装置の最大再生レベルと等しいオーディオ信号レベルであり、
段階（b）において前記入力オーディオ信号に対して前記DRCを適用して前記出力オーディオ信号を生成することが：
DRC利得gDRCを決定し；
前記DRC利得gDRCを平滑化して、平滑化された動的利得gDRCsmoothedを生成し；
前記DRC利得gDRCと前記平滑化された動的利得gDRCsmoothedのうちの小さいほうに基づいて動的利得gを決定し：
前記入力オーディオ信号に前記動的利得gを適用することを含む、
方法。
前記入力オーディオ信号が複数の周波数帯域を有する、請求項１に記載の方法。
段階（b）が、前記複数の周波数帯域のうちの少なくとも1つの周波数帯域についてのDRC利得を決定し、前記DRC利得を前記周波数帯域に適用することを含む、請求項２に記載の方法。
段階（b）が、前記周波数帯域の個々のものについてのDRC利得を決定し、前記周波数帯域の前記個々のものに対して決定されたDRC利得を適用することを含む、請求項２に記載の方法。
段階（a）が前記入力オーディオ信号の広帯域平均レベルまたはパワーを決定することを含み、ステップ（b）が、前記広帯域平均レベルまたはパワーが前記ターゲットに近づくか、または一致するか、または前記ターゲットを超えるときに、各周波数帯域にDRCを適用しないことを含む、請求項２に記載の方法。
段階（a）が前記周波数帯域のそれぞれについてそれぞれの平均レベルまたはパワーを決定することを含み、段階（b）が、平均レベルまたはパワーが前記ターゲットに近づくか、または一致する、または前記ターゲットを超える各周波数帯域にDRCを適用しないことを含む、請求項２に記載の方法。
請求項１ないし６のうちいずれか一項に記載の方法であって、前記動的利得gは：
g＝p*gDRC＋(1－p)*min(gDRC,gDRCsmoothed)
であり、ここで、"p"は0から1の範囲内の値をもつポンピング・パラメータである、方法。
0から1の範囲内の前記ポンピング・パラメータの値はユーザーによって選択可能である、請求項７に記載の方法。
入力オーディオ信号に対してダイナミックレンジ圧縮DRCを実行するシステムであって：
前記入力オーディオ信号の平均レベルまたはパワーを決定するように結合され、構成されたラウドネス決定サブシステムであって、前記平均は、1でない利得を適用する前記DRCの適用のアタック時間および／またはリリース時間よりも長い時間にわたる、ラウドネス決定サブシステムと；
前記入力オーディオ信号の前記平均レベルまたはパワーがターゲットに近づくか、一致するか、または前記ターゲットを超えるときに、前記入力オーディオ信号に対してDRCを適用せず、出力オーディオ信号を生成し、さもなければ前記入力オーディオ信号に対して前記DRCを適用して前記出力オーディオ信号を生成するように結合され、構成された利得決定および適用サブシステムとを有しており、前記DRCは、前記入力オーディオ信号のレベルまたはパワーがニー・ポイントのレベルまたはパワーを下回るときに前記入力オーディオ信号のレベルまたはパワーを上げるものであり、前記ターゲットは、前記DRCのための前記ニー・ポイント、または前記出力オーディオ信号を再生する再生システムまたは装置の最大再生レベルと等しいオーディオ信号レベルであり、
前記入力オーディオ信号に対して前記DRCを適用して前記出力オーディオ信号を生成するように構成された前記利得決定および適用サブシステムは：
DRC利得gDRCを決定し；
前記DRC利得gDRCを平滑化して、平滑化された動的利得gDRCsmoothedを生成し；
前記DRC利得gDRCと前記平滑化された動的利得gDRCsmoothedのうちの小さいほうに基づいて動的利得gを決定し：
前記入力オーディオ信号に前記動的利得gを適用することを含む、
システム。
前記入力オーディオ信号が複数の周波数帯域を有する、請求項９に記載のシステム。
前記利得決定および適用サブシステムが、前記複数の周波数帯域のうちの少なくとも1つの周波数帯域についてのDRC利得を決定し、前記DRC利得を前記周波数帯域に適用するように構成されている、請求項１０に記載のシステム。
前記利得決定および適用サブシステムが、前記周波数帯域の個々のものについてのDRC利得を決定し、前記周波数帯域の前記個々のものに対して決定されたDRC利得を適用するように構成されている、請求項１０に記載のシステム。
前記利得決定および適用サブシステムが、前記入力オーディオ信号の広帯域平均レベルまたはパワーを決定し、前記広帯域平均レベルまたはパワーが前記ターゲットに近づくか、または一致するか、または前記ターゲットを超えるときに、各周波数帯域にDRCを適用しないように構成されている、請求項１０に記載のシステム。
前記利得決定および適用サブシステムが、前記周波数帯域のそれぞれについてそれぞれの平均レベルまたはパワーを決定し、平均レベルまたはパワーが前記ターゲットに近づくか、または一致する、または前記ターゲットを超える各周波数帯域にDRCを適用しないように構成されている、請求項１０に記載のシステム。
前記動的利得gは：
g＝p*gDRC＋(1－p)*min(gDRC,gDRCsmoothed)
であり、ここで、"p"は0から1の範囲内の値をもつポンピング・パラメータである、
請求項９ないし１４のうちいずれか一項に記載のシステム。