[go: up one dir, main page]

JP5281575B2 - オーディオオブジェクトのエンコード及びデコード - Google Patents

オーディオオブジェクトのエンコード及びデコード Download PDF

Info

Publication number
JP5281575B2
JP5281575B2 JP2009527954A JP2009527954A JP5281575B2 JP 5281575 B2 JP5281575 B2 JP 5281575B2 JP 2009527954 A JP2009527954 A JP 2009527954A JP 2009527954 A JP2009527954 A JP 2009527954A JP 5281575 B2 JP5281575 B2 JP 5281575B2
Authority
JP
Japan
Prior art keywords
audio
encoding
encoder
data
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009527954A
Other languages
English (en)
Other versions
JP2010503887A (ja
Inventor
ディルク ジェイ ブレーバールト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2010503887A publication Critical patent/JP2010503887A/ja
Application granted granted Critical
Publication of JP5281575B2 publication Critical patent/JP5281575B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

本発明は、オーディオオブジェクトのエンコード及びデコードに関し、特に、限定するものではないが、ダウンミクス空間信号のオーディオオブジェクトの操作に関する。
ディジタル信号表現及び通信がアナログ表現及び通信にますます置き換わってきたため、種々のオーディオ信号のディジタルエンコードは、最近の数十年間で、ますます重要なものとなっている。
最近の数十年間、多チャネルオーディオ、具体的には従来のステレオ信号を超えた空間オーディオへ移行する傾向がある。例えば、伝統的なステレオ記録は2つのチャネルのみを有するものであるが、現代の先進のオーディオシステムは典型的に、人気の高い5.1サラウンド音声システムにおけるように、5又は6個のチャネルを利用する。このことは、ユーザが音源に囲まれ得る、より臨場感のある聴取環境を提供する。
斯かる多チャネル信号の通信のため、種々の手法及び規格が開発されてきた。例えば、5.1サラウンドシステムを表す6個の離散的なチャネルは、Advanced Audio Coding(AAC)又はDolby Digital規格のような規格に従って送信され得る。
しかしながら、後方互換性を提供するため、多くの数のチャネルを、より少ない数のチャネルへとダウンミクス(down-mix)することが知られており、具体的には、5.1サラウンド音声信号をステレオ信号へとダウンミクスすることにより、ステレオ信号をレガシー(ステレオ)デコーダにより再生されるようにし、5.1信号をサラウンド音声デコーダにより再生されるようにすることが、頻繁に利用されている。
一例は、MPEG(Moving Pictures Experts Group)により標準化された、MPEGサラウンド後方互換のコーディング方法である。斯かるシステムにおいては、多チャネル信号はステレオ信号へとダウンミクスされ、補助データ部分にパラメトリックデータにより付加的な信号がエンコードされ、それによりMPEGサラウンド多チャネルデコーダが多チャネル信号の表現を生成することを可能とする。レガシーのモノラル又はステレオデコーダは該補助データを無視し、従ってモノラル又はステレオのダウンミクスのみをデコードする。
かくして、(パラメトリック)空間オーディオコーダ(エンコーダ)においては、パラメータが元のオーディオ信号から抽出され、それにより、削減された数のチャネル(例えば単一のチャネルのみ)と、元のオーディオ信号の空間特性を記述するパラメータのセットとを持つオーディオ信号を再生する。(パラメトリック)空間オーディオデコーダにおいては、元の空間多チャネル信号を再生成するため、送信された空間パラメータにより記述された空間特性が利用される。
近年、受信側で処理及び操作され得る個々のオーディオオブジェクトの配布のための手法が、大きな関心を集めている。例えば、MPEGフレームワーク内で、オブジェクトベースの空間オーディオコーディングに対する作業項目が開始される。該作業項目の目的は、多音源又は多オブジェクトを幾つかのダウンミクスチャネル及び対応する空間パラメータへとビットレート効率良くコーディングするために、新たな技術を探究すること、及び現在のMPEGサラウンドのコンポーネント及び技術を再利用することである。従って目的は、空間(サラウンド)チャネルのより少ない数のチャネルへのダウンミクスのために利用される手法と類似した手法を、個々のオーディオオブジェクトをより少ない数のチャネルにダウンミクスするために利用することである。
オブジェクト指向のオーディオシステムにおいて、デコーダは、これら音源/オブジェクトの離散的な配置と、種々のラウドスピーカ設定及び両耳用再生に対する適応とを提供することができる。加えて、再生側において、個々の音源の再配置/パン(panning)を制御するために、ユーザインタラクションが利用されても良い。
換言すれば、研究の目的は、パラメータに付随されたダウンミクスチャネルの限られたセットへと多オーディオオブジェクトをエンコードすることである。デコーダ側においては、ユーザは、例えば個々のオブジェクトを再配置することにより、コンテンツとインタラクトすることができる。具体例としては、幾つかの個々の楽器がエンコードされオーディオオブジェクトとして分散され、それにより、該エンコードされたデータを受信するユーザが、音像において個々の楽器を個別に配置することを可能としても良い。
図1は、先行技術によるオブジェクト指向のオーディオエンコーダ及びデコーダの例を示す。本例においては、オーディオオブジェクトのセット(O乃至O)がオブジェクト指向エンコーダ101においてエンコードされ、該オブジェクト指向エンコーダ101はダウンミクス信号及びオブジェクトパラメータを生成する。これらはオブジェクト指向デコーダ103に送信され、該オブジェクト指向デコーダ103が、該送信されたオブジェクトパラメータを用いて、オーディオオブジェクト信号の適切なコピーを生成する。
続いて再生部105は、所望の特性を持つ出力信号を生成する。例えば、再生部105は、例えばパン規則を利用して、ユーザにより示された音源位置にオブジェクトを配置しても良い。該出力信号の構成は、柔軟なものである。例えば、出力信号がモノラルである場合、ユーザは依然として、各オブジェクトの相対的な音の大きさ/音量を操作できる。ステレオ出力信号構成においては、所望の位置に各オブジェクトを配置するために、単純なパン規則が適用され得る。明らかに、多チャネル出力構成については、この柔軟性がより大きくなる。
しかしながら、本システムは有利な性能を提供し得るものの、幾つかの欠点も持つ。例えば、多くの場合において、再生品質は最適には及ばず、個々のオーディオオブジェクトの完全に自由で独立した操作は不可能である。具体的には、エンコーダのダウンミクスは一般に、デコーダにおいて完全には可逆のものではなく、従ってデコーダは元のオーディオオブジェクトの近似しか生成できない。かくして、デコーダは個々のオブジェクト信号を完全には再構築できず、知覚的な基準によってこれら信号を推定することしかできない。このことは特に、オーディオオブジェクト間の相互干渉(クロストーク)に帰着し、それにより、もはや完全には独立ではないオーディオオブジェクトに帰着する。結果として、或るオブジェクトに対する操作が、他のオブジェクトの特性及び知覚に影響を与える。
例えば、典型的にユーザが調節したい最も重要なパラメータのひとつは、各オーディオオブジェクトの相対音量である。しかしながら、大きな音量調節が為されると、このことは著しいアーティファクト及び望ましくないクロストークに帰着し、顕著な音質低下に帰着することとなる。
それ故、オーディオオブジェクトのエンコード/デコードのための改善されたシステムが有利となり、とりわけ、増大された柔軟性、改善された音質、容易化された実装、及び/又は改善された性能を可能とするシステムが有利となる。
従って、本発明は、上述した欠点の1つ以上を単独で又はいずれかの組み合わせで好適には緩和、軽減又は除去することを目的とする。
本発明の第1の態様によれば、オーディオオブジェクトをエンコードするためのエンコーダであって、複数のオーディオオブジェクトを受信するための手段と、前記複数のオーディオオブジェクトを、幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてのオブジェクトパラメータのセットを有するパラメトリックデータと、にエンコードするためのエンコード手段と、リモートのユニットからエンコード変更データを受信するための手段と、前記エンコード変更データに応じて前記パラメトリックデータを決定するためのパラメータ手段と、を有するエンコーダが提供される。
本発明は、オーディオオブジェクトの改善されたエンコードを可能とし、とりわけ、例えば個々のオーディオオブジェクトの改善された個々のユーザ制御を用いて、改善されたユーザ体験が実現され得るオーディオ配信システムを可能とし得る。本発明は、個々のオーディオオブジェクトの特性の改善された制御を可能とし、とりわけ、オーディオオブジェクトを操作する際のオーディオオブジェクト間の干渉による劣化を低減することを可能とし得る。前記エンコーダは、操作されたオーディオオブジェクトをオブジェクト指向デコーダが正確にデコードするようにエンコード変更データを変更する、効率的なリモート制御された操作を可能とし得る。本発明は、エンコーダとデコーダとの間でのオーディオオブジェクト操作の改善された配分を可能とし、改善された柔軟性、性能及び/又は音質に帰着する。
前記エンコード手段は更に、前記エンコード変更データに応じて、前記幾つかのオーディオ信号を生成しても良い。前記オブジェクトパラメータは、例えば異なるオーディオオブジェクト間の相対強度差を示す強度パラメータ、及び/又は1つ以上のオーディオ信号とオーディオオブジェクトとの間のエネルギー交換係数であっても良い。該オブジェクトパラメータは、個々の周波数−時間ブロックについてのパラメータを有しても良い。
本発明の任意の特徴によれば、前記エンコード手段は、前記オーディオオブジェクトのダウンミクスにより前記幾つかのオーディオ信号を生成するように構成され、前記パラメータ手段は、前記エンコード変更データに応じて少なくとも1つの前記オーディオオブジェクトのダウンミクスの重みを変更するように構成される。
このことは、聴取者によるオーディオオブジェクトの相対音量の極めて効率的な及び/又は高品質の制御を提供しつつ、他のオーディオオブジェクトに対する影響を低減又は除去する。高性能の個々のオーディオオブジェクトの音量制御が実現され得る。
本発明の任意の特徴によれば、前記パラメータ手段は、前記エンコード変更データに応じて少なくとも第1のオーディオオブジェクトをスケーリングし、前記スケーリングに応じて前記第1のオーディオオブジェクトについてのオブジェクトパラメータを変更するように構成される。
このことは、聴取者によるオーディオオブジェクトの相対音量の極めて効率的な及び/又は高品質の制御を提供しつつ、他のオーディオオブジェクトに対する影響を低減又は除去する。高性能の個々のオーディオオブジェクトの音量制御が達成され得る。
本発明の任意の特徴によれば、前記エンコード変更データの少なくとも幾つかは周波数固有のものであり、前記パラメータ手段は、前記オブジェクトパラメータの周波数特性に応じて少なくとも1つのオブジェクトパラメータを決定するように構成される。
このことは、聴取体験の改善された制御を可能とし、とりわけ、オーディオの周波数応答が聴取者により操作されることを可能とし得る。個々のオブジェクトの周波数特性は、個別に且つ独立して変更され得、ここで他のオーディオオブジェクトに対して低減された又は除去された効果しか伴わない。とりわけ、個々のオーディオオブジェクトの効率的な及び/又は高品質の等化が実現され得る。
本発明の任意の特徴によれば、前記エンコード手段は、前記オーディオオブジェクトの前記幾つかのオーディオ信号へのダウンミクスの前に、前記エンコード変更データに応じて、少なくとも1つのオーディオオブジェクトを変更するように構成される。
前記パラメータ手段は、変更されたオーディオオブジェクトの特性に応じてパラメトリックデータを決定するように構成されても良い。このことは、高い性能及び/又は容易化された実装を可能とし得る。
本発明の任意の特徴によれば、前記エンコード手段は、前記幾つかのオーディオ信号を空間的なダウンミクスとして生成するように構成される。
このことは、多くの実施例において改善された性能を可能とし、とりわけ、再生能力を持たない又は限られた再生能力しか持たないエンコーダに関連した改善された操作を可能とし得る。該エンコーダは、例えばオーディオオブジェクトを有する空間多チャネル信号を再生するように構成されても良いし、具体的には空間両耳用信号を生成するように構成されても良い。
本発明の任意の特徴によれば、前記エンコード手段は、前記エンコード変更データに応じて、前記オーディオオブジェクトの少なくとも1つの空間的な位置と、前記オーディオオブジェクトの少なくとも1つの距離特性と、前記エンコーダの空間再生モードと、前記オーディオオブジェクトの少なくとも1つの周波数特性と、から成る群から選択された少なくとも1つの特性を変更するように構成される。
このことは改善された性能を可能とし得、該パラメータはとりわけ、再生される空間信号の知覚的に重要なパラメータを、聴取者が変更することを可能とし得る。
本発明の任意の特徴によれば、各前記オーディオオブジェクトは、他のオーディオオブジェクトのオーディオ源とは独立したオーディオ源のセットと関連する。
前記オーディオオブジェクトは、互いに対して独立なものであっても良い。前記オーディオオブジェクトは、異なる及び独立した音源に対応しても良い。具体的には、前記オーディオオブジェクトは、他のオーディオオブジェクトとは別個に独立して生成され何らの特定の関係を持たない、異なるオーディオオブジェクトであっても良い。例えば、前記オーディオオブジェクトは、個別に録音/捕捉された楽器または音声であっても良い。
前記オーディオオブジェクトは非空間オーディオオブジェクトであっても良い。前記オーディオオブジェクトは、関連する空間特性又は情報を持たない単純な音源であっても良く、とりわけ、オーディオオブジェクト間の相対的な空間的関係、知識又は関連がなくても良い。
本発明の任意の特徴によれば、前記エンコーダは、前記リモートのユニットから第1のオーディオオブジェクトを受信するように構成され、前記エンコード変更データを受信するための手段は、前記第1のオーディオオブジェクトについて受信されたエンコードデータから前記エンコード変更データを抽出するように構成される。
例えば、前記エンコード変更データは、音声、音楽又はその他のオーディオ信号に埋め込まれても良い。前記エンコード変更データは具体的には、例えばMPEG4ビットストリームのような、リモートのユニットから受信されたエンコードされたオーディオ信号の補助的な又はユーザデータのフィールドに埋め込まれても良い。このことは、効率的で、後方互換性があり、且つ複雑度の低い、制御データの通信を可能とし、とりわけ、エンコーダを有する装置とリモートのユニットとの間の双方向通信を利用するシステムにおいて有用となり得る。
本発明の任意の特徴によれば、前記エンコーダは、複数のリモートのユニットからエンコード変更データを受信し、異なるリモートのユニットからの異なるエンコード変更データの受信に応じて、異なるリモートのユニットについて異なるパラメトリックデータを生成するように構成される。
このことは、多くの実施例において、改善された操作及び/又は付加的なサービスを可能とし得る。前記エンコード手段は更に、異なるリモートのユニットに対しては、異なるオーディオ信号を生成するように構成されても良い。かくして、本手法は、例えば集中化されたオーディオオブジェクトエンコーダが、リモートのユニットの個々のユーザの要求及び好みに対して送信されるデータをカスタマイズすることを可能とし得る。
本発明の他の態様によれば、オーディオオブジェクトをデコードするためのデコーダであって、複数のオーディオオブジェクトのダウンミクスである幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてオブジェクトパラメータのセットを有するパラメトリックデータとを、エンコーダから受信するための受信器と、前記パラメトリックデータに応じて前記幾つかのオーディオ信号から前記オーディオオブジェクトをデコードするためのデコード手段と、前記オーディオオブジェクトから空間多チャネル出力信号を生成するための再生手段と、オブジェクトエンコーダのためのエンコード変更データを生成するための手段と、前記エンコード変更データを前記オブジェクトエンコーダに送信するための手段と、を有するデコーダが提供される。
前記デコード手段及び再生手段は、幾つかの実施例においては組み合わせられても良く、前記空間多チャネル出力信号は、オーディオオブジェクトを明示的に生成することなく、オーディオ信号から直接に生成されても良い。例えば、オーディオオブジェクト信号値を生成するため、オーディオ信号の信号値に対して行列乗算が適用されても良い。次いで、空間多チャネルオーディオ信号値を生成するため、オーディオオブジェクト信号値に対して第2の行列乗算が適用されても良い。代替として、第1及び第2の行列乗算は、単一の行列乗算に組み合わせられても良い。かくして、空間多チャネルオーディオ信号値を直接に生成するため、オーディオ信号の信号値に対して、単一の行列乗算が適用されても良い。かくして、オーディオオブジェクトのデコードは、再生/行列乗算において暗黙的なものであっても良く、オーディオオブジェクト値の明示的な/直接の生成は必須ではない。
本発明の他の態様によれば、複数の通信ユニット間でのテレビ会議を支援するためのテレビ会議ハブであって、前記複数の通信ユニットから第1の複数の音声信号を受信するための手段と、第1の通信ユニットについて、前記第1の複数の音声信号を、幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数の音声信号を表すパラメトリックデータであって少なくとも1つの異なる音声信号についてのオブジェクトパラメータのセットを有するパラメトリックデータと、にエンコードするためのエンコード手段と、前記第1の通信ユニットからエンコード変更データを受信するための手段と、前記変更データに応じて前記パラメトリックデータを決定するためのパラメータ手段と、前記幾つかのオーディオ信号及び前記パラメトリックデータを前記第1の通信ユニットに送信するための手段と、を有するテレビ会議ハブが提供される。
本発明の他の態様によれば、オーディオ信号を送信するための送信器であって、複数のオーディオオブジェクトを受信するための手段と、前記複数のオーディオオブジェクトを、幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてのオブジェクトパラメータのセットを有するパラメトリックデータと、にエンコードするためのエンコード手段と、リモートのユニットからエンコード変更データを受信するための手段と、前記エンコード変更データに応じて前記パラメトリックデータを決定するためのパラメータ手段と、を有する送信器が提供される。
本発明の他の態様によれば、スケーリング可能なオーディオビットストリームを受信するための受信器であって、複数のオーディオオブジェクトのダウンミクスである幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてオブジェクトパラメータのセットを有するパラメトリックデータとを、エンコーダから受信するための受信部と、前記パラメトリックデータに応じて前記幾つかのオーディオ信号から前記オーディオオブジェクトをデコードするためのデコード手段と、前記オーディオオブジェクトから空間多チャネル出力信号を生成するための再生手段と、オブジェクトエンコーダのためのエンコード変更データを生成するための手段と、前記エンコード変更データを前記オブジェクトエンコーダに送信するための手段と、を有する受信器が提供される。
本発明の他の態様によれば、オーディオ信号を通信するための通信システムであって、複数のオーディオオブジェクトを受信するための手段と、前記複数のオーディオオブジェクトを、幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてのオブジェクトパラメータのセットを有するパラメトリックデータと、にエンコードするためのエンコード手段と、前記幾つかのオーディオ信号及び前記パラメトリックデータを受信器に送信するための手段と、を有する送信器、及び前記幾つかのオーディオ信号及び前記パラメトリックデータを前記送信器から受信するための受信部と、前記パラメトリックデータに応じて前記幾つかのオーディオ信号から前記オーディオオブジェクトをデコードするためのデコード手段と、前記オーディオオブジェクトから空間多チャネル出力信号を生成するための再生手段と、前記エンコード手段のためのエンコード変更データを生成するための手段と、前記エンコード変更データを前記送信器に送信するための手段と、を有する受信器を有し、前記送信器は、前記エンコード変更データを前記受信器から受信するための手段と、前記エンコード変更データに応じて前記パラメトリックデータを決定するためのパラメータ手段と、を有する、通信システムが提供される。
本発明の他の態様によれば、オーディオ信号をエンコードする方法であって、複数のオーディオオブジェクトを受信するステップと、前記複数のオーディオオブジェクトを、幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてのオブジェクトパラメータのセットを有するパラメトリックデータと、にエンコードするステップと、リモートのユニットからエンコード変更データを受信するステップと、前記エンコード変更データに応じて前記パラメトリックデータを決定するステップと、を有する方法が提供される。
本発明の他の態様によれば、オーディオ信号をデコードする方法であって、複数のオーディオオブジェクトのダウンミクスである幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてオブジェクトパラメータのセットを有するパラメトリックデータとを、エンコーダから受信するステップと、前記パラメトリックデータに応じて前記幾つかのオーディオ信号から前記オーディオオブジェクトをデコードするステップと、前記オーディオオブジェクトから空間多チャネル出力信号を生成するステップと、オブジェクトエンコーダのためのエンコード変更データを生成するステップと、前記エンコード変更データを前記オブジェクトエンコーダに送信するステップと、を有する方法が提供される。
本発明の他の態様によれば、オーディオ信号を送信する方法であって、複数のオーディオオブジェクトを受信するステップと、前記複数のオーディオオブジェクトを、幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてのオブジェクトパラメータのセットを有するパラメトリックデータと、にエンコードするステップと、リモートのユニットからエンコード変更データを受信するステップと、前記エンコード変更データに応じて前記パラメトリックデータを決定するステップと、前記幾つかのオーディオ信号及び前記パラメトリックデータを送信するステップと、を有する方法が提供される。
本発明の他の態様によれば、オーディオ信号を受信する方法であって、複数のオーディオオブジェクトのダウンミクスである幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてオブジェクトパラメータのセットを有するパラメトリックデータとを、エンコーダから受信するステップと、前記パラメトリックデータに応じて前記幾つかのオーディオ信号から前記オーディオオブジェクトをデコードするステップと、前記オーディオオブジェクトから空間多チャネル出力信号を生成するステップと、オブジェクトエンコーダのためのエンコード変更データを生成するステップと、前記エンコード変更データを前記オブジェクトエンコーダに送信するステップと、を有する方法が提供される。
本発明の他の態様によれば、オーディオ信号を送信及び受信する方法であって、送信器が、複数のオーディオオブジェクトを受信するステップと、前記複数のオーディオオブジェクトを、幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてのオブジェクトパラメータのセットを有するパラメトリックデータと、にエンコードするステップと、前記幾つかのオーディオ信号及び前記パラメトリックデータを受信器に送信するステップと、を実行し、前記受信器が、前記送信器から、前記幾つかのオーディオ信号及び前記パラメトリックデータを受信するステップと、前記パラメトリックデータに応じて前記幾つかのオーディオ信号から前記オーディオオブジェクトをデコードするステップと、前記オーディオオブジェクトから空間多チャネル出力信号を生成するステップと、エンコード手段のためのエンコード変更データを生成するステップと、前記エンコード変更データを前記オブジェクトエンコーダに送信するステップと、を実行し、前記送信器は更に、前記エンコード変更データを前記受信器から受信するステップと、前記エンコード変更データに応じて前記パラメトリックデータを決定するステップと、を実行する方法が提供される。
本発明の他の態様によれば、上述した方法を実行するためのコンピュータプログラムが提供される。
本発明の他の態様によれば、上述したエンコーダを有するオーディオ記録装置が提供される。
本発明の他の態様によれば、上述したデコーダを有するオーディオ再生装置が提供される。
本発明のこれらの及びその他の態様、特徴及び利点は、以下に記載される実施例を参照しながら説明され明らかとなるであろう。
先行技術によるオーディオシステムの図である。 本発明の幾つかの実施例による、オーディオ信号の通信のための通信システムの例を示す。 本発明の幾つかの実施例による、エンコーダとデコーダとの間のインタラクションを示す。 本発明の幾つかの実施例によるエンコーダの例を示す。 本発明の幾つかの実施例によるデコーダの例を示す。 本発明の幾つかの実施例による、オーディオ信号をエンコードする方法の例を示す。 本発明の幾つかの実施例による、オーディオオブジェクトをデコードする方法の例を示す。
本発明の実施例が、図面を参照しながら、例としてのみ、以下に説明される。
以下の説明は、テレビ会議用途のためのオーディオオブジェクトのエンコード及び/又はデコードに適用可能な本発明の実施例に焦点を当てたものである。しかしながら、本発明のこの用途に限定されるものではなく、例えば音楽オーディオ配信用途を含む、他の多くの用途において適用され得ることは、理解されるであろう。
図2は、本発明の幾つかの実施例による、オーディオ信号の通信のための通信システム200を示す。通信システム200は、具体的にはインターネットであっても良いネットワーク205を通して受信器203に結合された、送信器201を有する。
本例においては、送信器201は、テレビ会議ハブの一部である。テレビ会議アプリケーションにおいては、幾つかの遠端話者の音声信号が、テレビ会議ハブに混合される。次いで、テレビ会議中の各人物について、自身を除く全ての信号の混合が、全ての受信器に送信される。かくして、送信器201は、テレビ会議に参加している複数のリモートの通信ユニットから音声信号を受信することができ、これらリモートの通信ユニットに対して音声信号を生成及び配信することができる。本例においては、受信器203は、会議通話の参加者に対する音声出力を生成することができる信号再生装置である。具体的には、受信器203は、電話機のようなリモートの通信ユニットの一部である。
他の実施例においては、送信器及び受信器は、他の用途において及び他の目的のために利用されても良いことは、理解されるであろう。例えば、送信器201及び/又は受信器203は、トランスコード機能の一部であっても良く、例えば他の信号源又は宛先へのインタフェースを提供しても良い。
本例においては、送信器201は、テレビ会議通話に参加しているリモートの通信ユニットから音声信号を受信する受信器207を有する。音声信号のそれぞれは、別個の独立したオーディオオブジェクトとして取り扱われる。
受信器207は図2のエンコーダ209に結合され、該エンコーダ209は、個々の音声オーディオオブジェクトを供給され、エンコードアルゴリズムに従って該オーディオオブジェクトをエンコードする。エンコーダ209はネットワーク送信器211に結合され、該ネットワーク送信器211は、エンコードされた信号を受信し、インターネット205にインタフェース接続する。該ネットワーク送信器は、インターネット205を通して、該エンコードされた信号を受信器203に送信しても良い。
受信器203はネットワーク受信器213を有し、該ネットワーク受信器213は、インターネット205にインタフェース接続し、送信器201からエンコードされた信号を受信するように構成される。
ネットワーク受信器213は、デコーダ215に結合される。デコーダ215は、該エンコードされた信号を受信し、デコードアルゴリズムに従って該信号をデコードする。具体的には、デコーダ215は、個々のオーディオオブジェクトをデコードし、該デコードされたオーディオオブジェクトに基づいてオーディオ出力信号を再生することができる、オブジェクト指向デコーダである。
信号再生機能がサポートされた本例においては、受信器203は更に、デコーダ215からのデコードされたオーディオ信号を受信し、該信号をユーザに対して提示する、信号再生器217を有する。具体的には、信号再生器217は、該デコードされたオーディオ信号を出力するために必要とされる、ディジタル−アナログ変換器、増幅器及びスピーカを有しても良い。
図3は、エンコーダ209とデコーダ215との間のインタラクションを、更に詳細に示す。
図示されるように、オブジェクト指向エンコーダ209は、受信器207から複数のオーディオオブジェクトを受信する。これらオーディオオブジェクトは、互い対して独立であり、具体的には個々の独立した音源に対応する、個々の音声信号である。幾つかの実施例においては、これらオーディオオブジェクトは、個別に録音された音源であっても良い。更に、これらオーディオオブジェクトは何らの空間的な関連を持たず、具体的には、異なるオーディオオブジェクト間には空間的な関連が存在しない。
それ故、例えば同一の音像(及び音源)が異なる位置において録音され同一の空間信号の異なるチャネルを生成するサラウンド音声録音とは異なり、本例のオーディオオブジェクトは別個の分離された音源である。
テレビ会議アプリケーションにおいては、各オーディオオブジェクトは、テレビ会議通話における1つの参加者から受信された音声信号に対応する。かくして、エンコーダ209は、該会議通話に参加している複数のリモートの通信ユニットから受信された音声信号の形をとるオーディオオブジェクトを受信する。
オブジェクト指向エンコーダ209は、限られた数のチャネルにおけるオーディオオブジェクトをエンコードし、加えて、デコーダ側における生成されたオーディオチャネルからの元のオーディオオブジェクトの再生成を可能とし容易化するパラメトリックデータを生成する。具体的には、オーディオエンコーダ209は、空間サラウンド音声信号の例えばステレオ信号へのダウンミクスを生成する場合と類似した方法で、オーディオオブジェクトのダウンミクスを生成することができる。例えば、エンコーダ209は、ダウンミクス行列によってオーディオオブジェクトサンプル値を乗算してダウンミクスのサンプル値を生成することにより、ダウンミクスを生成しても良い。
エンコーダ209は、限られた数のチャネルのためのエンコードデータと、関連するパラメトリックデータと、の両方を有するビットストリームを生成する。該データは、デコーダ215に送信される。
デコーダ215は、受信されたオーディオチャネル及び受信されたパラメトリックデータに基づいて元のオーディオオブジェクトのローカルな近似的な複製を生成する、オブジェクト指向デコーダユニット303を有する。具体的には、オブジェクト指向デコーダユニット303は、受信されたオーディオサンプルに対してアップミクス行列を適用することにより、オーディオオブジェクトを生成することができる。該アップミクス行列の係数は、エンコーダ209から受信されたパラメトリックデータに応じて決定される。
デコーダ215は更に、オーディオ入力に基づいて出力信号を生成するように構成された、再生ユニット305を有する。再生ユニット305は、受信されたオーディオオブジェクトを自由に操作して混合し、所望の出力信号を生成することができる。例えば、再生ユニット305は、5個のチャネルのサラウンド音声信号を生成することができ、各個々のオーディオオブジェクトを生成された音像中に自由に配置することができる。他の例としては、再生ユニット305は、例えばヘッドホンのセットを通して空間的な体験を提供することができる両耳用ステレオ信号を生成しても良い。
多くの実際的なシステムにおいては、デコードユニット303及び再生ユニット305の機能は、単一の処理ステップに組み合わせられる。例えば、デコードユニット303の動作は、典型的にはアップミクス行列による行列乗算に対応し、再生ユニット305の動作は同様に、アップミクス行列乗算の出力に対して実行される行列乗算に対応する。従って、アップミクス行列と再生行列とを単一の行列へと組み合わせることにより、連続した行列乗算が、単一の行列乗算へと組み合わせられることができる。
本例においては、再生ユニット305は、会議通話の個々の話者を、音像中の異なる位置に配置することができる。ここで、各話者についての位置は、例えばユーザが再生ユニット305を制御することによって、自由に選択可能である。他の例としては、オーディオオブジェクトが楽曲の異なる楽器に対応する場合には、個々の楽器を自由に混合、等化等して、これら楽器を音像中に自由に配置することができる。かくして、説明された手法は、他のユーザ及びエンコーダ209からのエンコードされた信号の受信者について生成されたオーディオ出力とは独立したものであっても良い、カスタマイズされたオーディオ出力を生成するために、個々のユーザが異なるオーディオオブジェクトを操作するための高い自由度を実現する。
しかしながら、再生ユニット305におけるオーディオオブジェクトを操作することによりかなりの柔軟性を提供するにもかかわらず、斯かる操作は生成されるオーディオ信号の音質における低下にも帰着し得る。とりわけ、デコーダ215においてオーディオオブジェクトの正確な複製を生成するためには、エンコーダ209において利用されたダウンミクス行列の逆行列であるアップミクス行列を適用する必要がある。しかしながら、このことは一般に不可能であり(例えば、本例においては、生成されるオーディオ信号の数が、オーディオオブジェクトの数より小さい場合には、ダウンミクス行列についての逆行列が存在しないため、不可能である)、従って元のオーディオ信号の近似のみが生成されることができる。具体的には、デコーダにおいて生成されたオーディオオブジェクトは、他のオーディオオブジェクトからの或る量の相互干渉を含むこととなる。結果として、或るオーディオオブジェクトの操作が、他のオーディオオブジェクトの知覚及び特性に影響を与えることとなり、低下した性能及び顕著なアーティファクトに帰着し得る。
図3のシステムにおいては、エンコーダ215は更に、エンコーダ209に送信されるエンコード変更データの形で制御データを生成することが可能である。該エンコード変更データは次いでエンコーダ209により評価され、該エンコーダ209は、受信された制御情報に依存してエンコード処理を変更する。具体的には、エンコーダ209は、オーディオオブジェクトのダウンミクス及び該ダウンミクスのために生成される空間パラメータを変更することができる。具体例としては、該エンコード変更データは、或る特定のオーディオオブジェクトの音量が低下させられるべきことを規定しても良い。従って、エンコーダ209は該オーディオオブジェクトのレベルを低下させ(例えばダウンミクス動作に先立って又はダウンミクス動作の一部として)、該オーディオオブジェクトについてのパラメトリックデータを(直接又は間接的に)変更して、該オーディオオブジェクトがデコーダにおいてデコードされるときに、レベルが適切に低下させられるようにし、更に好ましくは、変更されたパラメトリックデータがそれぞれのオーディオオブジェクトについてのレベルの変化を正確に表すようにする。
本手法はかくして、オブジェクト操作の幾つか又は全てが、エンコード側で実行されることを可能とする。エンコーダは近似的な複製だけではなく元の独立したオーディオオブジェクトに対してアクセスすることができるため、改善された性能が達成され得、とりわけ、改善された音質を提供することが可能となり得る。例えば、相互干渉が低減され、それ故、或るオーディオオブジェクトの音量を増大又は低下させたことによる他のオーディオオブジェクトに対する影響が、かなり減少され、又は完全に除去され得る。
図4は、エンコーダ209をより詳細に示す。以下、エンコーダに送信され個々のオーディオオブジェクトの相対レベルを制御するために利用されるエンコード変更データをデコーダ側が生成する具体例を参照しながら、エンコーダ209の動作がより詳細に説明される。
エンコーダ209は、本例においてはテレビ会議通話に参加している電話機のようなリモートの通信ユニットから受信された音声信号であるオーディオオブジェクトを受信する、受信ユニット401を有する。該音声オブジェクトはエンコードユニット403に送られ、該エンコードユニット403は、該オブジェクトを、音声オーディオオブジェクトの数よりも少ない数のオーディオ信号へとダウンミクスする。具体的には、エンコードユニット403は、
Figure 0005281575
により与えられる行列乗算を実行する。ここで、Xは音声オブジェクトサンプルを有するN次元のベクトルを示し(Nは音声オブジェクトの数である)、Yはダウンミクス出力サンプルを有するM次元のベクトルであり(Mは出力チャネルの数である)、DはN,Mダウンミクス行列である。Mは、Nよりもかなり小さくても良い。例えば、6方向テレビ会議については、5個の音声信号が1つのモノラル信号へとダウンミクスされて、第6の通信ユニットへと送信され得る。
エンコーダ209は更に、ダウンミクス信号からオーディオオブジェクトを再生成するために利用されることができるパラメトリックデータを生成する、パラメータユニット405を有する。具体的には、パラメータユニット405は、音声オブジェクトを再生成するためにデコーダ215により利用されることができる、各音声オブジェクトについてのオブジェクトパラメータのセットを生成する。理想的には、これらオブジェクトパラメータは、ダウンミクス行列の逆行列に対応するアップミクス行列が決定され得るように(即ちU=D−1)決定される。しかしながら、ダウンミクス行列について逆行列は存在せず(ここでN>M)、それ故、元の音声オブジェクトの非理想的な再生成を可能とするパラメータデータのみが生成され得る。
従って、パラメータユニット405は、ダウンミクス信号に対する個々の音声オブジェクトの特性を表すパラメータを生成する。本例においては、該パラメータユニットは、最初に時間ブロックにおいて周波数ドメインへと音声オブジェクトを変換し(例えばFFTの利用により)、次いで各時間周波数ブロック(又は時間周波数タイル)についてダウンミクス行列乗算を実行する。更に、当該時間周波数ブロックについて、ダウンミクス結果に対する各音声オブジェクトの相対振幅が決定される。かくして、パラメータユニット405は、種々の音声オブジェクトについて、別個の時間/周波数タイルで記述された相対レベル情報を生成する。これにより、該時間周波数タイルについてレベルベクトルが生成され、該ベクトルの各要素は、当該要素のオブジェクトの時間/周波数タイルにおけるエネルギーの量を表す。この処理は、周波数帯域b、時間セグメントt、及び信号nについて、エネルギーパラメータσ b,tのセットに帰着する。これらパラメータは次いで、(好適には量子化された対数ドメインで)受信側へと送信されても良い。かくして、パラメータデータを生成するための本手法は、MPEGサラウンド空間エンコードのために利用される手法と類似したものとなり得、多くの実施例において機能の再利用が実現可能となり得る。
パラメータユニット405及びエンコードユニット403は、エンコードデータ及びパラメトリックデータの両方を有するビットストリームを生成する、送信プロセッサ407に結合されても良い。具体的には、該ビットストリームは、該ビットストリームの補助データ部分にパラメトリックデータが含まれた、MPEG互換のエンコードされたステレオ信号であっても良い。結果のビットストリームは次いで、適切な通信ユニットに送信される。
図5は、デコーダ215をより詳細に示す。デコーダ215は、音声オブジェクトの近似的な複製を生成するオブジェクト指向デコードユニット303を有する。具体的には、デコードユニット303は、受信されたダウンミクス信号の対応する時間周波数タイルを、パラメトリックデータ中に与えられた当該オブジェクトについての対応する相対レベル差により示されるように変更することにより、個々の音声オブジェクトの時間周波数タイルを生成することができる。
オブジェクトnについての個々の音声信号がx(t)により与えられ、関連するエネルギーパラメータがσ b,tであり、ダウンミクス信号がm(t)である場合、時間/周波数タイル(b,t)についての音声信号x(t)のデコーダ側の推定は、
Figure 0005281575
により与えられ得る。
音声オブジェクトは再生ユニット305に送られ、該再生ユニット305は次いでユーザに対して出力信号を生成し得る。更に、本例においては、ユーザは、例えば生成される音像における1つ以上の音声オブジェクトの位置を変更することを含む、種々の再生パラメータ及び特性を調節することが可能であり得る。
加えて、デコーダ215は、ユーザ入力に応じてエンコード変更データを生成することができる、制御プロセッサ501を有する。該エンコード変更データは送信ユニット503に送られ、該送信ユニット503はエンコーダ209に該エンコード変更データを送信する。
エンコーダ209は、該エンコード変更データを受信する制御データ受信器409を有する。制御データ受信器409は、該受信されたエンコード変更データに依存してエンコード及びパラメータデータの生成を変更するように構成された、エンコードユニット403及びパラメータユニット405に結合される。かくして、デコーダ側における音声オブジェクトの再生の制御に加えて、該デコーダのユーザは、エンコーダ側で実行されるオブジェクト指向エンコードのエンコード動作をも制御することができる。
具体例として、デコーダの生成された出力信号における空間的な像及びオブジェクト空間位置は、デコーダの再生動作を変更することにより制御されることができ、一方でエンコーダにおいてダウンミクスを制御することにより、(大幅な)音量調節が実行されることができる。
かくして、デコーダのユーザは、特定の音声オブジェクトの音量がかなり増大されるべきことを要求することができる。当該増大がデコーダにおいて対応する音声オブジェクトを増幅することにより実行される場合には、当該増幅は、他の音声オブジェクトからの相互干渉成分をも増幅し、これらのより高い音量に帰着するだけでなく、これらオブジェクトの歪、更にはことによると、これらオブジェクトの位置のシフトにも帰着し得る。
しかしながら、本例によれば、デコーダ215は、生成された音声オブジェクト複製のスケーリングを変更するのではなく、エンコーダにダウンミクスの重みを所望の音声オブジェクトに対して変更させるようにするエンコード変更データを生成する。
従って、本例においては、デコーダ側で個々のオーディオオブジェクトのレベルを変更することに関連する欠点は、エンコーダ側で相対レベルを制御することにより軽減又は除去される。具体的には、デコーダ側でのユーザの所望のレベル変更がエンコーダに送信され、ダウンミクスの重みとして適用される。
テレビ会議の例においては、受信側は更に、ローカルに生成された音声をテレビ会議ハブへと送信して戻す。従って、該音声信号は、受信器により受信される全てのオブジェクトについてのダウンミクスの重みを含み得る(又は受信器がダウンミクスの重みを変更することに帰着するデータによって、例えば相対減衰又は増幅が特定の音声オブジェクトに適用される)。例えば、受信側が信号「音声0」を生成し、他の通信ユニットから「音声1」、「音声2」及び「音声3」を生成する場合、オブジェクト「音声1」、「音声2」及び「音声3」についてのダウンミクスの重みを生成及び送信することができる。これらのダウンミクスの重みは次いで、該受信側についてのダウンミクス信号を生成するために、テレビ会議ハブにより利用される。
本方式の利点は、ユーザが、例えば各個別の音声信号の音量又は距離を変更する際に、非常に高い自由度を持つ点である。更に、ダウンミクスの重み(及びその他のパラメータ)は、時間的に極めて一定となる見込みが高く、それ故エンコード変更データのために必要とされるデータレートが、一般に非常に低くなる。
幾つかの実施例において、エンコーダ209は、ダウンミクスが実行される前に、オーディオオブジェクトの少なくとも1つを変更するように構成されても良い。例えば、エンコードユニット403は、ダウンミクス行列乗算を実行する前に、受信されたオーディオオブジェクトをスケーリングしても良い。かくして、特定の音声オブジェクトが低いべきであることを示すエンコード変更データが受信された場合には、当該オブジェクトについての受信された信号サンプルが、1よりも大きなファクタにより乗算されても良い。結果の信号は次いで、ダウンミクス信号を生成するため、ダウンミクス行列乗算において利用されも良い。この手法は、固定されたダウンミクス行列が利用されることを可能とし、特に、適切な容易に乗算可能な係数が利用されることを可能とし得る(例えば、ダウンミクス行列は1の係数のみを含んでも良く、それによりダウンミクス乗算を幾つかの単純な加算へと効果的に低減させても良い)。
本例においては、オブジェクトパラメータの決定は、変更された信号に基づいて決定されても良い。かくして、スケーリングされた音声オブジェクトが、該変更された信号についての周波数時間タイルの相対レベルを決定することができるパラメータユニット405に送られても良い。この手法は、デコーダによるアップミクス処理が、所望の音量レベルを持つ音声オブジェクトを生成することに帰着することとなる。かくして、本手法においては、エンコード変更データに依存するパラメトリックデータの変更は、該エンコード変更データが音声オブジェクトを変更するために最初に利用され、次いで該変更された音声オブジェクトに基づいてパラメータデータが生成されるという意味で、間接的である。
他の実施例においては、パラメトリックデータがより直接的に変更されても良い。例えば、音声オブジェクトは、いずれの変更も実行される前に、パラメータユニット405に直接に送られても良い。パラメータユニット405は次いで、種々の周波数時間タイルについての相対強度レベルを決定し、次いでエンコード変更データに応じて測定されるレベルを調節しても良い。該変更は、ダウンミクスの前に音声オブジェクトの変更を合致させるように為され、それにより、デコーダにおける音量が補償された音声オブジェクトの正確な生成を確実にしても良い。
幾つかの実施例において、エンコード変更データに応じてパラメトリックデータのみが変更され、音声オブジェクト及びダウンミクスは不変のままとされる。この例においては、変更されたオブジェクトパラメータを適用することによってデコーダが要求される音声オブジェクトを生成することとなるように、オブジェクトパラメータが変更される。この場合、所与の音声オブジェクトを変更するためには、当該音声オブジェクトについてのオブジェクトパラメータを変更するのみならず、他の音声オブジェクトについても変更することが必要となり得る。
幾つかの実施例において、ダウンミクスの重み(例えばダウンミクス行列の係数)は、受信されたエンコード変更データに応じて変更されても良い。例えば、特定の音声オブジェクトの音量は、当該音声オブジェクトについてダウンミクス行列係数を増大させることにより増大させられても良い。この場合、変更された音声オブジェクト信号は一般に利用可能ではなく、従って変更されたダウンミクスの重みを反映するようにエンコードデータに応じてオブジェクトパラメータが直接に変更されても良い。
幾つかの斯かる実施例においては、或る音声オブジェクトの変更は、他の音声オブジェクトにも影響を与え得ることは、理解されるであろう。例えば、或る音声オブジェクトのダウンミクスの重みを変更した場合、他のダウンミクスの重みは、ダウンミクス信号の総エネルギーが不変のままとなるように調節されても良い。代替として又はこれに加えて、他の音声オブジェクトの周波数時間タイルについての相対エネルギーパラメータが、生成されたダウンミクス信号の変更されたエネルギーを反映するように変更されても良い。
幾つかの実施例において、エンコード変更データは、異なる周波数に対しては異なる変更データが提供されるような、周波数固有のものであっても良い。例えば、所与の音声オブジェクトに対して1つの変更されたダウンミクスの重みを示すのみならず、該ダウンミクスの重みが周波数の関数として与えられる。かくして、リモートのユーザは、音声オブジェクトの利得を全体として調節するのみならず、オブジェクトの周波数特性をも変更し得る。このことは、リモートのユーザが、個々の音声オブジェクトについて等化動作を効率的に制御することを可能とし得る。かくして、本例においては、エンコード変更データの少なくとも幾つかは周波数の関数として提供され、それに従ってパラメータユニット405が周波数に依存してパラメトリックデータを変更するように動作を続行する。
送信器201は、異なるデコーダに対して、個々の信号を生成するように構成されても良いことは、理解されるであろう。例えばテレビ会議ハブのアプリケーションの例においては、送信器201は、テレビ会議における異なる参加者から異なるエンコード変更データを受信しても良く、個々の参加者に対して独立したパラメトリックデータ及びダウンミクスを生成しても良い。
幾つかの実施例においては、エンコーダ209は更に、空間ダウンミクスとして出力信号を生成するための機能を有する。従って、本例においては、エンコーダ209は、空間出力信号として音声オブジェクトを再生するように構成され、各音声オブジェクトは、特定の音量レベル及び周波数特性等で特定の位置において再生される。具体的には、エンコーダ209の出力は、ステレオ信号、サラウンド音声多チャネル信号、及び/又は例えば頭部伝達関数(Head Related Transfer Functions)を用いて生成された両耳用空間サラウンド信号であっても良い。
斯かる実施例においては、デコーダ215から受信されたエンコード変更データは、空間信号における音声オブジェクトの再生に影響を与える空間再生パラメータを有しても良い。
該空間再生パラメータは例えば、1つ以上のオーディオオブジェクトの位置が空間出力ミクスにおいて変更されるべきであることを示しても良い。他の例としては、個々のオーディオオブジェクトに適用され得る等化データが提供されても良い。他の例としては、各オーディオオブジェクトの知覚される距離は、デコーダ側からリモートに制御されても良い。例えば、オーディオオブジェクトが空間ダウンミクスにおいて更に遠くへ移動させられるべきであることを示すエンコード変更データが受信された場合には、該オーディオオブジェクトの再生は、音量レベルが低下させられ、前チャネルと後チャネルとの間の相関が増大させられるように変更されても良い。斯かる変更は、距離の知覚に影響を与え、ユーザが聴取者から更に遠くに移動させられるオーディオオブジェクトの音源を体験することに帰着することが知られている。
他の例として、リモートのユーザは、エンコーダの空間再生モードを制御しても良い。例えば、2チャネル出力信号については、ユーザは、再生がラウドスピーカに対して最適化されるべきかヘッドホンに対して最適化されるべきかを選択しても良い。具体的には、リモートのユーザは、出力が伝統的なステレオ信号として生成されるべきか、ヘッドホンを用いた利用のための両耳用空間サラウンド信号として再生されるべきかを、選択しても良い。
斯かる手法は、幾つかの利点をもたらし得る。例えば、空間再生パラメータを送信するために必要とされるビットレートが、比較的低い。なぜなら、再生パラメータは、音源毎にのみ定義されるからである(即ち、再生パラメータは典型的に周波数依存ではない)。更に、これらパラメータは、時間的に極めて一定となる見込みが高い。一方、デコーダ側での再生手法のために必要とされるパラメータは、音源毎に且つ時間/周波数タイル毎に送信される必要があり、かなりの量のデータが送信されることに帰着する。従って、再生の幾つか又は全てをエンコーダ側に移動させることにより、効率的なオーディオシステムが実現され得る。
また、レガシーのデコーダとの改善された互換性も実現され得る。中央エンコーダは、各デコーダについて独立して最適化されたビットストリームを生成することができる(即ち、モノラル、ステレオ又はサラウンドのデコーダが全て要求を満足され、生成された信号は特定の宛先デコーダに対して最適化されることができる)。
本手法は、付加的な又は拡張されたサービスが提供されることを可能とし得る。例えば、各顧客は、特定の再生機能に対して、付加的な料金を支払うことができる(即ち、レベル調節が第1のサービスレベルであり、空間再生が第2の、より高額なサービスレベルである)。
更に、デコーダについての再生要求が低減させられ得るため、多くのアプリケーションにおいて、宛先デコーダの低減された複雑さが実現される。
図6は、本発明の幾つかの実施例による、オーディオ信号をエンコードする方法の例を示す。
本方法は、複数のオーディオオブジェクトが受信されるステップ601において開始する。
ステップ601はステップ603により後続され、該ステップ603において、リモートのユニットからエンコード変更データが受信される。
ステップ603はステップ605により後続され、該ステップ605において、複数のオーディオオブジェクトが、幾つかのオーディオ信号と、該幾つかのオーディオ信号に対する複数のオーディオオブジェクトを表すパラメトリックデータへとエンコードされる。該パラメトリックデータは、種々のオーディオオブジェクトのそれぞれについてオブジェクトパラメータのセットを有し、変更データに応じて決定される。
図7は、本発明の幾つかの実施例による、オーディオオブジェクトをデコードする方法の例を示す。
本方法はステップ701において開始され、該ステップ701において、幾つかのオーディオ信号と該幾つかのオーディオ信号に関するオーディオオブジェクトを表すパラメトリックデータとが、エンコーダから受信される。該オーディオ信号は該オーディオオブジェクトのダウンミクスであり、該パラメトリックデータは種々のオーディオオブジェクトのそれぞれについてオブジェクトパラメータのセットを有する。
ステップ701はステップ703により後続され、該ステップ703において、該パラメトリックデータに応じて、該幾つかのオーディオ信号からオーディオオブジェクトがデコードされる。
ステップ703はステップ705により後続され、該ステップ705において、該オーディオオブジェクトから空間多チャネル出力信号が生成される。
ステップ705はステップ707により後続され、該ステップ707において、オブジェクトエンコーダについてのエンコード変更データが生成される。
ステップ707はステップ709により後続され、該ステップ709において、該エンコード変更データが、オブジェクトエンコーダに送信される。
以上の記載は、明確さのため、種々の機能ユニット及びプロセッサと関連して本発明の実施例を説明したものであることは理解されるであろう。しかしながら、種々の機能ユニット又はプロセッサ間の機能のいずれの適切な分散もが、本発明から逸脱することなく利用され得ることは、明らかであろう。例えば、別個のプロセッサ又はコントローラにより実行されるように説明された機能は、同一のプロセッサ又はコントローラにより実行されても良い。それ故、特定の機能ユニットへの参照は、厳密な論理的又は物理的な構造を示すものではなく、単に説明された機能を提供するための適切な手段への参照として考えられるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらのいずれかの組み合わせを含む、いずれの適切な形態で実装されても良い。本発明は任意に、少なくとも部分的に、1以上のデータプロセッサ及び/又はディジタル信号プロセッサ上で動作するコンピュータソフトウェアとして実装されても良い。本発明の実施例の要素は、物理的、機能的及び論理的に、いずれの適切な態様で実装されても良い。機能は単一のユニットで実装されても良いし、複数のユニットで実装されても良いし、又は他の機能ユニットの一部として実装されても良い。本発明は単一のユニットで実装されても良いし、種々のユニット及びプロセッサ間で物理的及び機能的に分散されても良い。
本発明は幾つかの実施例と関連して説明されたが、本発明はここで開示された特定の形態に限定されることを意図したものではない。本発明の範囲は、添付する請求項によってのみ限定される。加えて、特徴が特定の実施例に関連して説明されたが、説明された実施例の種々の特徴は、本発明に従って組み合わせられても良いことは、当業者は理解するであろう。請求項において、「有する(comprising)」なる語は、他の要素又はステップの存在を除外するものではない。
更に、複数の手段、要素又は方法ステップは、別個に列記されていても、例えば単一のユニット又はプロセッサにより実装されても良い。加えて、個々の特徴が異なる請求項に含められ得るが、これら特徴は有利に組み合わせられても良く、異なる請求項に含められていることは、これら特徴の組み合わせが利用可能ではない及び/又は有利ではないことを意味するものではない。或るカテゴリの請求項に特徴を含むことは、該カテゴリに対する限定を意味するものではなく、該特徴が他の請求項のカテゴリに適宜等しく適用可能であることを示す。更に、請求項における特徴の順序は、これら特徴が動作しなくてはならない順序を示すものではなく、またとりわけ、方法の請求項における個々のステップの順序は、これらステップが該順序で実行される必要があることを示すものではない。これらステップは、いずれの適切な順序で実行されても良い。加えて、単数形の参照は複数を除外するものではない。従って、「1つの(a、an)」、「第1の(first)」及び「第2の(second)」等への参照は、複数を除外するものではない。請求項における参照記号は単に例を明確にするためのものであり、いずれの態様においても請求項の範囲を限定するものとして解釈されるべきではない。

Claims (22)

  1. オーディオオブジェクトをエンコードするためのエンコーダであって、
    複数のオーディオオブジェクトを受信するための手段と、
    前記複数のオーディオオブジェクトを、ダウンミクスされた幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてのオブジェクトパラメータのセットを有するパラメトリックデータと、にエンコードするためのエンコード手段と、
    オーディオオブジェクトのダウンミクスに関するエンコード変更データをリモートのユニットから受信するための手段と、
    前記エンコード変更データに応じて前記パラメトリックデータを決定するためのパラメータ手段と、
    を有するエンコーダ。
  2. 前記エンコード手段は、前記オーディオオブジェクトのダウンミクスにより前記幾つかのオーディオ信号を生成するように構成され、前記パラメータ手段は、前記エンコード変更データに応じて少なくとも1つの前記オーディオオブジェクトのダウンミクスの重みを変更するように構成された、請求項1に記載のエンコーダ。
  3. 前記パラメータ手段は、前記エンコード変更データに応じて少なくとも第1のオーディオオブジェクトをスケーリングし、前記スケーリングに応じて前記第1のオーディオオブジェクトについてのオブジェクトパラメータを変更するように構成された、請求項1に記載のエンコーダ。
  4. 前記エンコード変更データの少なくとも幾つかは周波数固有のものであり、前記パラメータ手段は、前記オブジェクトパラメータの周波数特性に応じて少なくとも1つのオブジェクトパラメータを決定するように構成された、請求項1に記載のエンコーダ。
  5. 前記エンコード手段は、前記オーディオオブジェクトの前記幾つかのオーディオ信号へのダウンミクスの前に、前記エンコード変更データに応じて、少なくとも1つのオーディオオブジェクトを変更するように構成された、請求項1に記載のエンコーダ。
  6. 前記エンコード手段は、前記幾つかのオーディオ信号を空間的なダウンミクスとして生成するように構成された、請求項1に記載のエンコーダ。
  7. 前記エンコード手段は、前記エンコード変更データに応じて、
    前記オーディオオブジェクトの少なくとも1つの空間的な位置と、
    前記オーディオオブジェクトの少なくとも1つの距離特性と、
    前記エンコーダの空間再生モードと、
    前記オーディオオブジェクトの少なくとも1つの周波数特性と、
    から成る群から選択された少なくとも1つの特性を変更するように構成された、請求項6に記載のエンコーダ。
  8. 各前記オーディオオブジェクトは、他のオーディオオブジェクトのオーディオ源とは独立したオーディオ源のセットと関連する、請求項1に記載のエンコーダ。
  9. 前記エンコーダは、前記リモートのユニットから第1のオーディオオブジェクトを受信するように構成され、前記エンコード変更データを受信するための手段は、前記第1のオーディオオブジェクトについて受信されたエンコードデータから前記エンコード変更データを抽出するように構成された、請求項1に記載のエンコーダ。
  10. 前記エンコーダは、複数のリモートのユニットからエンコード変更データを受信し、異なるリモートのユニットからの異なるエンコード変更データの受信に応じて、異なるリモートのユニットについて異なるパラメトリックデータを生成するように構成された、請求項1に記載のエンコーダ。
  11. オーディオオブジェクトをデコードするためのデコーダであって、
    複数のオーディオオブジェクトのダウンミクスである幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてオブジェクトパラメータのセットを有するパラメトリックデータとを、エンコーダから受信するための受信器と、
    前記パラメトリックデータに応じて前記幾つかのオーディオ信号から前記オーディオオブジェクトをデコードするためのデコード手段と、
    前記オーディオオブジェクトから空間多チャネル出力信号を生成するための再生手段と、
    オーディオオブジェクトのダウンミクスに関するエンコード変更データを生成するための手段と、
    前記エンコード変更データを前記オブジェクトエンコーダに送信するための手段と、
    を有するデコーダ。
  12. 複数の通信ユニット間でのテレビ会議を支援するためのテレビ会議ハブであって、
    前記複数の通信ユニットから第1の複数の音声信号を受信するための手段と、
    第1の通信ユニットについて、前記第1の複数の音声信号を、ダウンミクスされた幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数の音声信号を表すパラメトリックデータであって少なくとも1つの異なる音声信号についてのオブジェクトパラメータのセットを有するパラメトリックデータと、にエンコードするためのエンコード手段と、
    オーディオオブジェクトのダウンミクスに関するエンコード変更データを前記第1の通信ユニットから受信するための手段と、
    前記変更データに応じて前記パラメトリックデータを決定するためのパラメータ手段と、
    前記幾つかのオーディオ信号及び前記パラメトリックデータを前記第1の通信ユニットに送信するための手段と、
    を有するテレビ会議ハブ。
  13. オーディオ信号を送信するための送信器であって、
    複数のオーディオオブジェクトを受信するための手段と、
    前記複数のオーディオオブジェクトを、ダウンミクスされた幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてのオブジェクトパラメータのセットを有するパラメトリックデータと、にエンコードするためのエンコード手段と、
    オーディオオブジェクトのダウンミクスに関するエンコード変更データをリモートのユニットから受信するための手段と、
    前記エンコード変更データに応じて前記パラメトリックデータを決定するためのパラメータ手段と、
    を有する送信器。
  14. オーディオ信号を受信するための受信器であって、
    複数のオーディオオブジェクトのダウンミクスである幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてオブジェクトパラメータのセットを有するパラメトリックデータとを、エンコーダから受信するための受信部と、
    前記パラメトリックデータに応じて前記幾つかのオーディオ信号から前記オーディオオブジェクトをデコードするためのデコード手段と、
    前記オーディオオブジェクトから空間多チャネル出力信号を生成するための再生手段と、
    オーディオオブジェクトのダウンミクスに関するエンコード変更データを生成するための手段と、
    前記エンコード変更データを前記オブジェクトエンコーダに送信するための手段と、
    を有する受信器。
  15. オーディオ信号を通信するための通信システムであって、
    複数のオーディオオブジェクトを受信するための手段と、
    前記複数のオーディオオブジェクトを、ダウンミクスされた幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてのオブジェクトパラメータのセットを有するパラメトリックデータと、にエンコードするためのエンコード手段と、
    前記幾つかのオーディオ信号及び前記パラメトリックデータを受信器に送信するための手段と、
    を有する送信器、及び
    前記幾つかのオーディオ信号及び前記パラメトリックデータを前記送信器から受信するための受信部と、
    前記パラメトリックデータに応じて前記幾つかのオーディオ信号から前記オーディオオブジェクトをデコードするためのデコード手段と、
    前記オーディオオブジェクトから空間多チャネル出力信号を生成するための再生手段と、
    オーディオオブジェクトのダウンミクスに関するエンコード変更データを生成するための手段と、
    前記エンコード変更データを前記送信器に送信するための手段と、
    を有する受信器
    を有し、前記送信器は、
    前記エンコード変更データを前記受信器から受信するための手段と、
    前記エンコード変更データに応じて前記パラメトリックデータを決定するためのパラメータ手段と、
    を有する、通信システム。
  16. オーディオ信号をエンコードする方法であって、
    複数のオーディオオブジェクトを受信するステップと、
    前記複数のオーディオオブジェクトを、ダウンミクスされた幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてのオブジェクトパラメータのセットを有するパラメトリックデータと、にエンコードするステップと、
    オーディオオブジェクトのダウンミクスに関するエンコード変更データをリモートのユニットから受信するステップと、
    前記エンコード変更データに応じて前記パラメトリックデータを決定するステップと、
    を有する方法。
  17. オーディオ信号をデコードする方法であって、
    複数のオーディオオブジェクトのダウンミクスである幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてオブジェクトパラメータのセットを有するパラメトリックデータとを、エンコーダから受信するステップと、
    前記パラメトリックデータに応じて前記幾つかのオーディオ信号から前記オーディオオブジェクトをデコードするステップと、
    前記オーディオオブジェクトから空間多チャネル出力信号を生成するステップと、
    オーディオオブジェクトのダウンミクスに関するエンコード変更データを生成するステップと、
    前記エンコード変更データを前記オブジェクトエンコーダに送信するステップと、
    を有する方法。
  18. オーディオ信号を送信する方法であって、
    複数のオーディオオブジェクトを受信するステップと、
    前記複数のオーディオオブジェクトを、ダウンミクスされた幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてのオブジェクトパラメータのセットを有するパラメトリックデータと、にエンコードするステップと、
    オーディオオブジェクトのダウンミクスに関するエンコード変更データをリモートのユニットから受信するステップと、
    前記エンコード変更データに応じて前記パラメトリックデータを決定するステップと、
    前記幾つかのオーディオ信号及び前記パラメトリックデータを送信するステップと、
    を有する方法。
  19. オーディオ信号を受信する方法であって、
    複数のオーディオオブジェクトのダウンミクスである幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてオブジェクトパラメータのセットを有するパラメトリックデータとを、エンコーダから受信するステップと、
    前記パラメトリックデータに応じて前記幾つかのオーディオ信号から前記オーディオオブジェクトをデコードするステップと、
    前記オーディオオブジェクトから空間多チャネル出力信号を生成するステップと、
    オーディオオブジェクトのダウンミクスに関するエンコード変更データを生成するステップと、
    前記エンコード変更データを前記オブジェクトエンコーダに送信するステップと、
    を有する方法。
  20. オーディオ信号を送信及び受信する方法であって、
    送信器が、
    複数のオーディオオブジェクトを受信するステップと、
    前記複数のオーディオオブジェクトを、ダウンミクスされた幾つかのオーディオ信号と、前記幾つかのオーディオ信号に対する前記複数のオーディオオブジェクトを表すパラメトリックデータであって少なくとも1つの異なるオーディオオブジェクトについてのオブジェクトパラメータのセットを有するパラメトリックデータと、にエンコードするステップと、
    前記幾つかのオーディオ信号及び前記パラメトリックデータを受信器に送信するステップと、
    を実行し、前記受信器が、
    前記送信器から、前記幾つかのオーディオ信号及び前記パラメトリックデータを受信するステップと、
    前記パラメトリックデータに応じて前記幾つかのオーディオ信号から前記オーディオオブジェクトをデコードするステップと、
    前記オーディオオブジェクトから空間多チャネル出力信号を生成するステップと、
    オーディオオブジェクトのダウンミクスに関するエンコード変更データを生成するステップと、
    前記エンコード変更データを前記オブジェクトエンコーダに送信するステップと、
    を実行し、前記送信器は更に、
    前記エンコード変更データを前記受信器から受信するステップと、
    前記エンコード変更データに応じて前記パラメトリックデータを決定するステップと、
    を実行する方法。
  21. 請求項16乃至20のいずれか一項に記載の方法を実行するためのコンピュータプログラム。
  22. 請求項11に記載のデコーダを有するオーディオ再生装置。
JP2009527954A 2006-09-18 2007-09-17 オーディオオブジェクトのエンコード及びデコード Active JP5281575B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP06120819.5 2006-09-18
EP06120819 2006-09-18
EP06123799 2006-11-10
EP06123799.6 2006-11-10
PCT/IB2007/053748 WO2008035275A2 (en) 2006-09-18 2007-09-17 Encoding and decoding of audio objects

Publications (2)

Publication Number Publication Date
JP2010503887A JP2010503887A (ja) 2010-02-04
JP5281575B2 true JP5281575B2 (ja) 2013-09-04

Family

ID=39079648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009527954A Active JP5281575B2 (ja) 2006-09-18 2007-09-17 オーディオオブジェクトのエンコード及びデコード

Country Status (12)

Country Link
US (1) US8271290B2 (ja)
EP (1) EP2067138B1 (ja)
JP (1) JP5281575B2 (ja)
KR (1) KR101396140B1 (ja)
CN (1) CN101517637B (ja)
AT (1) ATE499677T1 (ja)
BR (1) BRPI0716854B1 (ja)
DE (1) DE602007012730D1 (ja)
MX (1) MX2009002795A (ja)
PL (1) PL2067138T3 (ja)
RU (1) RU2460155C2 (ja)
WO (1) WO2008035275A2 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9711153B2 (en) 2002-09-27 2017-07-18 The Nielsen Company (Us), Llc Activating functions in processing devices using encoded audio and detecting audio signatures
US8959016B2 (en) 2002-09-27 2015-02-17 The Nielsen Company (Us), Llc Activating functions in processing devices using start codes embedded in audio
WO2007033150A1 (en) 2005-09-13 2007-03-22 Srs Labs, Inc. Systems and methods for audio processing
KR101346490B1 (ko) 2006-04-03 2014-01-02 디티에스 엘엘씨 오디오 신호 처리 방법 및 장치
KR100987457B1 (ko) * 2006-09-29 2010-10-13 엘지전자 주식회사 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
US20080269929A1 (en) 2006-11-15 2008-10-30 Lg Electronics Inc. Method and an Apparatus for Decoding an Audio Signal
EP2122613B1 (en) 2006-12-07 2019-01-30 LG Electronics Inc. A method and an apparatus for processing an audio signal
EP2102855A4 (en) 2006-12-07 2010-07-28 Lg Electronics Inc METHOD AND APPARATUS FOR DECODING AUDIO SIGNAL
WO2010005264A2 (ko) * 2008-07-10 2010-01-14 한국전자통신연구원 공간정보 기반의 다객체 오디오 부호화에서의 오디오 객체 편집 방법 및 그 장치
KR101230691B1 (ko) 2008-07-10 2013-02-07 한국전자통신연구원 공간정보 기반의 다객체 오디오 부호화에서의 오디오 객체 편집 방법 및 그 장치
CN102138176B (zh) * 2008-07-11 2013-11-06 日本电气株式会社 信号分析装置、信号控制装置及其方法
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
US8121830B2 (en) * 2008-10-24 2012-02-21 The Nielsen Company (Us), Llc Methods and apparatus to extract data encoded in media content
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8508357B2 (en) 2008-11-26 2013-08-13 The Nielsen Company (Us), Llc Methods and apparatus to encode and decode audio for shopper location and advertisement presentation tracking
JP5274359B2 (ja) * 2009-04-27 2013-08-28 三菱電機株式会社 立体映像および音声記録方法、立体映像および音声再生方法、立体映像および音声記録装置、立体映像および音声再生装置、立体映像および音声記録媒体
AU2010242814B2 (en) 2009-05-01 2014-07-31 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to provide secondary content in association with primary broadcast media content
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
EP3697083B1 (en) 2009-08-14 2023-04-19 Dts Llc System for adaptively streaming audio objects
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
CN101877643B (zh) * 2010-06-29 2014-12-10 中兴通讯股份有限公司 多点混音远景呈现方法、装置及系统
TWI496461B (zh) * 2010-12-03 2015-08-11 Dolby Lab Licensing Corp 利用多媒體處理節點之適應性處理技術
US9026450B2 (en) 2011-03-09 2015-05-05 Dts Llc System for dynamically creating and rendering audio objects
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
EP2891149A1 (en) 2012-08-31 2015-07-08 Dolby Laboratories Licensing Corporation Processing audio objects in principal and supplementary encoded audio signals
CN103152500B (zh) * 2013-02-21 2015-06-24 黄文明 多方通话中回音消除方法
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9786286B2 (en) 2013-03-29 2017-10-10 Dolby Laboratories Licensing Corporation Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals
CN105264600B (zh) 2013-04-05 2019-06-07 Dts有限责任公司 分层音频编码和传输
PL3005355T3 (pl) 2013-05-24 2017-11-30 Dolby International Ab Kodowanie scen audio
EP2973551B1 (en) 2013-05-24 2017-05-03 Dolby International AB Reconstruction of audio scenes from a downmix
KR101761099B1 (ko) 2013-05-24 2017-07-25 돌비 인터네셔널 에이비 오디오 인코딩 및 디코딩 방법들, 대응하는 컴퓨터-판독 가능한 매체들 및 대응하는 오디오 인코더 및 디코더
ES2640815T3 (es) * 2013-05-24 2017-11-06 Dolby International Ab Codificación eficiente de escenas de audio que comprenden objetos de audio
JP6192813B2 (ja) * 2013-05-24 2017-09-06 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
US10049683B2 (en) 2013-10-21 2018-08-14 Dolby International Ab Audio encoder and decoder
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
CN104882145B (zh) * 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
CN110097892B (zh) 2014-06-03 2022-05-10 华为技术有限公司 一种语音频信号的处理方法和装置
US9510125B2 (en) * 2014-06-20 2016-11-29 Microsoft Technology Licensing, Llc Parametric wave field coding for real-time sound propagation for dynamic sources
CN105989845B (zh) * 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
CN107358959B (zh) * 2016-05-10 2021-10-26 华为技术有限公司 多声道信号的编码方法和编码器
EP3488623B1 (en) 2016-07-20 2020-12-02 Dolby Laboratories Licensing Corporation Audio object clustering based on renderer-aware perceptual difference
JP7230799B2 (ja) * 2017-03-28 2023-03-01 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
US10602296B2 (en) * 2017-06-09 2020-03-24 Nokia Technologies Oy Audio object adjustment for phase compensation in 6 degrees of freedom audio
US10602298B2 (en) 2018-05-15 2020-03-24 Microsoft Technology Licensing, Llc Directional propagation
US10932081B1 (en) 2019-08-22 2021-02-23 Microsoft Technology Licensing, Llc Bidirectional propagation of sound
CN111462767B (zh) * 2020-04-10 2024-01-09 全景声科技南京有限公司 音频信号的增量编码方法及装置
US11662975B2 (en) 2020-10-06 2023-05-30 Tencent America LLC Method and apparatus for teleconference

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US7116787B2 (en) 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
JP2003188731A (ja) * 2001-12-18 2003-07-04 Yrp Mobile Telecommunications Key Tech Res Lab Co Ltd 可変レート符号化方法、符号化装置および復号装置
JP4578243B2 (ja) * 2002-10-15 2010-11-10 韓國電子通信研究院 空間性が拡張された音源を有する3次元音響シーンの生成及び消費方法
KR101049751B1 (ko) * 2003-02-11 2011-07-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
DE10344638A1 (de) * 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
JP2005352396A (ja) * 2004-06-14 2005-12-22 Matsushita Electric Ind Co Ltd 音響信号符号化装置および音響信号復号装置
JP4892184B2 (ja) * 2004-10-14 2012-03-07 パナソニック株式会社 音響信号符号化装置及び音響信号復号装置
DE102005008369A1 (de) * 2005-02-23 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Simulieren eines Wellenfeldsynthese-Systems
US7974422B1 (en) * 2005-08-25 2011-07-05 Tp Lab, Inc. System and method of adjusting the sound of multiple audio objects directed toward an audio output device
KR20080093422A (ko) * 2006-02-09 2008-10-21 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그장치
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability

Also Published As

Publication number Publication date
RU2009114741A (ru) 2010-10-27
KR20090080945A (ko) 2009-07-27
JP2010503887A (ja) 2010-02-04
WO2008035275A3 (en) 2008-05-29
US8271290B2 (en) 2012-09-18
EP2067138A2 (en) 2009-06-10
BRPI0716854A8 (pt) 2019-01-15
CN101517637B (zh) 2012-08-15
BRPI0716854A2 (pt) 2013-10-01
MX2009002795A (es) 2009-04-01
BRPI0716854B1 (pt) 2020-09-15
KR101396140B1 (ko) 2014-05-20
DE602007012730D1 (de) 2011-04-07
ATE499677T1 (de) 2011-03-15
EP2067138B1 (en) 2011-02-23
PL2067138T3 (pl) 2011-07-29
CN101517637A (zh) 2009-08-26
WO2008035275A2 (en) 2008-03-27
US20090326960A1 (en) 2009-12-31
RU2460155C2 (ru) 2012-08-27

Similar Documents

Publication Publication Date Title
JP5281575B2 (ja) オーディオオブジェクトのエンコード及びデコード
JP5081838B2 (ja) オーディオ符号化及び復号
JP4838361B2 (ja) オーディオ信号のデコーディング方法及びその装置
JP5455647B2 (ja) オーディオデコーダ
Faller Coding of spatial audio compatible with different playback formats
US9460729B2 (en) Layered approach to spatial audio coding
US9460724B2 (en) Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
CN101479787B (zh) 用于编码和解码基于对象的音频信号的方法和装置
CN114600188B (zh) 用于音频编码的装置和方法
CN110890101B (zh) 用于基于语音增强元数据进行解码的方法和设备
CN104054126A (zh) 空间音频渲染和编码
JP2010504017A (ja) 多チャネル信号のためのスイートスポット操作
JP6010176B2 (ja) オーディオ信号のデコーディング方法及びその装置
CN104428835A (zh) 音频信号的编码和解码
ES2360740T3 (es) Codificación y decodificación de objetos de audio.
HK1036728A1 (en) Low bit-rate spatial coding method and system, decoder and decoding method of low bit-rate spatial coding system
HK1036728B (en) Low bit-rate spatial coding method and system, decoder and decoding method of low bit-rate spatial coding system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130524

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5281575

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250