RU2573738C2 - Устройство для оптимизации одного или более параметров представления сигнала повышающего микширования на основе представления сигнала понижающего микширования, декодер аудиосигнала, транскодер аудиосигнала, кодер аудиосигнала, аудиобитстрим, способ и компьютерная программа с использованием объектно-ориентированной параметрической информации - Google Patents
Устройство для оптимизации одного или более параметров представления сигнала повышающего микширования на основе представления сигнала понижающего микширования, декодер аудиосигнала, транскодер аудиосигнала, кодер аудиосигнала, аудиобитстрим, способ и компьютерная программа с использованием объектно-ориентированной параметрической информации Download PDFInfo
- Publication number
- RU2573738C2 RU2573738C2 RU2011145866/08A RU2011145866A RU2573738C2 RU 2573738 C2 RU2573738 C2 RU 2573738C2 RU 2011145866/08 A RU2011145866/08 A RU 2011145866/08A RU 2011145866 A RU2011145866 A RU 2011145866A RU 2573738 C2 RU2573738 C2 RU 2573738C2
- Authority
- RU
- Russia
- Prior art keywords
- parameters
- signal
- rendering
- audio
- signals
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims description 55
- 238000004590 computer program Methods 0.000 title claims description 18
- 230000002829 reductive effect Effects 0.000 claims abstract description 16
- 238000009877 rendering Methods 0.000 claims description 365
- 239000011159 matrix material Substances 0.000 claims description 73
- 239000000203 mixture Substances 0.000 claims description 57
- 230000015556 catabolic process Effects 0.000 claims description 15
- 238000006731 degradation reaction Methods 0.000 claims description 15
- 230000000875 corresponding effect Effects 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 13
- 230000000670 limiting effect Effects 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 5
- 230000003247 decreasing effect Effects 0.000 claims description 5
- 239000000463 material Substances 0.000 claims description 3
- 230000003071 parasitic effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 4
- 239000000126 substance Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 18
- 238000013459 approach Methods 0.000 description 17
- 238000013461 design Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 230000002452 interceptive effect Effects 0.000 description 8
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 230000003321 amplification Effects 0.000 description 5
- 238000003199 nucleic acid amplification method Methods 0.000 description 5
- 230000008447 perception Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000033228 biological regulation Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 235000019640 taste Nutrition 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000013065 commercial product Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004313 glare Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Изобретение относится к средствам оптимизации одного и более параметров для формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и объектно-ориентированной параметрической информации. Технический результат заключается в уменьшении акустических искажений при повышающем микшировании аудиосигнала. Средство включает в себя регулятор параметров. Регулятор параметров принимает один или более входных параметров, на основе которых генерирует один или более скорректированных параметров. Регулятор параметров генерирует один или более скорректированных параметров с использованием одного или более входных параметров и объектно-ориентированной параметрической информации таким образом, что искажение представления сигнала повышающего микширования, вызванного использованием неоптимальных параметров, уменьшается по крайней мере для входных параметров, отклоняющихся от оптимальных параметров на величину, превышающую заданный предел отклонений.13 н. и 23 з.п. ф-лы, 12 ил.
Description
Область техники
Конструктивные решения, основанные на заявляемом изобретении, относятся к устройству оптимизации одного или более параметров представления микшированного с повышением сигнала [апмикса] на основе представления микшированного с понижением сигнала [даунмикса] и объектно-ориентированной параметрической информации.
Одно из технических решений по данному изобретению относится к декодеру аудиосигнала.
Другое техническое решение заявляемого изобретения связано с транскодером аудиосигнала.
Еще одно аппаратное исполнение предлагаемого изобретения относится к способу оптимизации одного или более параметров.
Кроме того, ряд конструктивных решений связан со способом представления в виде сигнала повышающего микширования [апмикс-сигнснала] множества аудиоканалов повышающего микширования на основе представления микшированного с понижением сигнала [даунмикс-сигнала], объектно-ориентированной параметрической информации и параметров задаваемого рендеринга [желаемого звучания].
Один из вариантов осуществления имеет отношение к способу представления в виде апмикс-сигнала представления даунмикс-сигнала и параметрических данных каналов, сформированных на базе представления даунмикс-сигнала, объектно-ориентированной параметрической информации и параметров задаваемого рендеринга.
Далее, реализации заявляемого изобретения относятся к кодеру аудиосигнала, способу кодированного представления аудиосигнала и двоичному потоку представления звука [аудиобитстрму].
Логическим оформлением указанных версий осуществления являются соответствующие компьютерные программы.
Помимо указанного, изобретение осуществлено в виде способов, устройства и компьютерных программ для обработки аудиосигнала с устранением искажений.
Уровень техники
Технология обработки, передачи и хранения звука все больше стремится к такому преобразованию многоканального аудиоконтента, которое совершенствует качество акустического образа. Использование многоканального аудиоконтента способствует значительному улучшению слухового восприятия. Можно получить, например, трехмерный акустический эффект, при котором возрастает степень удовлетворенности развлекательным приложением. Более того, многоканальный аудиоконтент применяют также в профессиональных средах, в частности, в телеконференцсвязи, где разборчивость речи говорящего может быть скорректирована путем многоканального воспроизведения звука.
При этом необходимо выбрать оптимальное соотношение качества звука и скорости передачи данных [битрейта] во избежание чрезмерной нагрузки на ресурс за счет многоканальных приложений.
В последнее время предложен ряд параметрических инструментов эффективной передачи и/или хранения многообъектных аудиосцен, куда можно причислить, например, кодирование бинаурального сигнала (Тип 1) (см., например, ссылку [ВСС]), кодирование совокупного источника (см., например, ссылку [JSC]), и пространственное кодирование аудиообъекта в стандарте MPEG (SAOC) (см., например, ссылки [SAOC1], [SAOC2]).
Эти инструментальные средства применяют с целью воссоздания выбранной звуковой сцены перцептуально, а не за счет волнового согласования.
На фиг.8 представлена общая схема подобной системы (здесь - системы пространственного кодирования аудиообъекта SAOC формата MPEG-MPEG SAOC). Система MPEG SAOC 800 на фиг.8 состоит из кодера SAOC 810 и декодера SAOC 820. Кодер SAOC 810 принимает множество сигналов объектов x1-xN, которые могут представлять собой, скажем, сигналы временной области или сигналы частотно-временной области (допустим, в виде набора коэффициентов одного из преобразований Фурье или в виде подполосовых сигналов КЗФ [квадратурно-зеркального фильтра]). Помимо этого, кодер SAOC 810 часто получает коэффициенты понижающего микширования [даунмикса] d1-dN, соотнесенные с сигналами объектов x1 to xN. Отдельные комбинации коэффициентов понижающего микширования [даунмикс-коэффициентов] можно применять для каждого канала микшированного с понижением сигнала [даунмикс-сигнала]. С помощью кодера SAOC 810 обычно формируют канал микшированного с понижением сигнала, комбинируя сигналы объектов x1-xN в соответствии с присвоенными коэффициентами понижающего микширования d1-dN. Типично, даунмикс-каналов меньше, чем сигналов объектов x1-xN. Предусматривая (хотя бы, приблизительное) разделение (или раздельное преобразование) сигналов объектов на стороне декодера SAOC 820, кодер SAOC 810 генерирует один или более даунмикс-сигналов (обозначенных как даунмикс-каналы) 812 и сопроводительную служебную информацию 814. Служебная информация 814 отражает характеристики сигналов объектов x1-xN, что обеспечивает объектно-ориентированную обработку на стороне декодера.
Декодер SAOC 820 предусматривает прием одного или более даунмикс-сигналов 812 и сопроводительной служебной информации 814. Кроме того, декодер SAOC 820, как правило, рассчитан на получение от пользователя интерактивной информации и/или управляющей информации 822, в которой описывается желаемый режим воспроизведения [рендеринг]. Так, предположим, информация от пользователя в реальном времени/пользовательские параметры управления 822 могут задавать параметры громкоговорителя и желаемое пространственное расположение объектов-источников сигналов x1-xN.
Декодер SAOC 820 предусматривает, например, генерирование множества декодированных сигналов канала повышающего микширования [апмикс-канала]
. Сигналы канала повышающего микширования могут, к примеру, быть привязаны к индивидуальным динамикам многоколоночной системы воспроизведения звука. Декодер SAOC 820 может, в частности, включать в себя разделитель объектов 820а, выполняющий, по крайней мере, приближенную, реконструкцию сигналов объектов x1-xN на основе одного или более микшированных с понижением сигналов 812 и служебной информации 814, получая в результате реконструированные сигналы объектов 820b. Однако, реконструированные сигналы объектов 820b могут иметь некоторые девиации относительно оригинальных сигналов объектов x1-xN потому, например, что сопроводительная служебная информация 814 не всегда достаточна для адекватного воссоздания исходного материала в силу ограничений по скорости передачи данных. Кроме того, декодер SAOC 820 может иметь в своем составе смеситель [микшер] 820 с, способный принимать реконструированные сигналы объектов 820b и информацию обратной связи с пользователем/управляющую информацию пользователя 822 и на их базе генерировать сигналы канала повышающего микширования
. Смеситель 820 предусматривает задействование интерактивной информации от пользователя/пользовательских управляющих данных 822 для расчета соотношения составляющих индивидуальных реконструированных сигналов объектов 820b в сигналах апмикс-каналов
. Интерактивная пользовательская информация/управляющая пользовательская информация 822 может, в частности, включать в себя параметры воспроизведения (называемые также коэффициентами рендеринга), которые определяют соотношение составляющих отдельных сигналов реконструируемых объектов 822 в сигналах каналов повышающего микширования
.
Здесь следует обратить внимание на то, что при реализации часто разделение объектов, обозначенное на фиг.8 как разделитель объектов 820а, и микширование, обозначенное на фиг.8 как смеситель 820 с, осуществляют за одну операцию. Для этого рассчитывают сводные параметры, описывающие прямое соотнесение одного или более микшированных с понижением сигналов 812 с сигналами каналов повышающего микширования
. Эти параметры могут быть рассчитаны, исходя из служебной информации и пользовательской информации обратной связи/управления 820.
Теперь, со ссылкой на фигуры 9а, 9b и 9c рассмотрим другой вариант реализации устройства, формирующего представления сигнала, микшированного с повышением на базе представления сигнала, микшированного с понижением, и объектно-ориентированной служебной информации. На фиг.9а дана принципиальная блочная схема системы MPEG SAOC 900, включающей в себя декодер SAOC 920. Декодер SAOC 920 в качестве самостоятельных функциональных блоков содержит декодер объекта 922 и смеситель/рендерер 926. Декодер объектов 922 генерирует множество восстановленных сигналов объектов 924, опираясь на полученное им представление даунмикс-сигнала (допустим, в виде одного или более сигналов понижающего микширования во временной области или в частотно-временной области) и на объектно-ориентированную сопутствующую информацию (допустим, в виде метаданных объекта). Смеситель/рендерер 924 получает восстановленные сигналы объектов 924, относящиеся к множеству N объектов, и на их основе формирует один или более сигналов апмикс-канала 928. В компоновке SAOC-декодера 920 экстракция сигналов объекта 924 выполняется отдельно от микширования/рендеринга, что позволяет разделить функции декодирования объекта и микширования/рендеринга, однако приводит к относительно высокой вычислительной сложности.
Далее, обратившись к фиг.9b, кратко обсудим еще одно конструктивное решение системы MPEG SAOC 930, куда введен декодер SAOC 950. Декодер SAOC 950 генерирует множество восстановленных сигналов объектов 958, опираясь на полученное им представление даунмикс-сигнала (допустим, в виде одного или более сигналов понижающего микширования) и на объектно-ориентированную служебную информацию (допустим, в виде метаданных объекта). Декодер SAOC 950 представляет собой интегрированный декодер и смеситель/рендерер объекта, выполненный с возможностью генерирования сигналов апмикс-каналов 958 в ходе комбинированного процесса микширования без разделения декодирования и микширования/рендеринга объектов, параметры которого строятся на объектно-ориентированный служебной информации и данных рендеринга. Комбинированный процесс повышающего микширования зависит также от информации понижающего микширования, которая рассматривается как часть объектно-ориентированной служебной информации.
Делая вывод из сказанного, сигналы каналов повышающего микширования 928, 958 могут быть сгенерированы в ходе одноэтапной или двухэтапной операции.
Теперь, обращаясь к фиг.9 с, охарактеризуем систему MPEG SAOC 960. Система [пространственного кодирования оудиообъекта] SAOC 960 предпочтительно включает в себя транскодер SAOC в MPEG Surround 980 вместо декодера SAOC.
Преобразователь кода [транскодер] SAOC в MPEG Surround состоит из перекодировщика [транскодера] служебной информации 982, который предназначен для приема объектно-ориентированной служебной информации (предположительно, в форме метаданных объекта) и, факультативно, информации об одном или более даунмикс-сигналов и параметров рендеринга. Перекодировщик служебной информации предназначен также для выработки на базе полученных данных служебной информации формата MPEG Surround (например, в форме битстрима MPEG Surround). Соответственно, транскодер служебной информации 982 выполняет функцию преобразования объектно-ориентированной (параметрической) служебной информации, поступающей от кодера объектов, в служебную (параметрическую) информацию, описывающую каналы с учетом параметров рендеринга и, произвольно, информации о контенте одного или более микшированных с понижением сигналов.
В качестве опции транскодер SAOC в MPEG Surround 980 может выполнять функцию манипулирования одним или более даунмикс-сигналами, описанными, например, посредством представления даунмикс-сигнала с получением видоизмененного [манипуляцией] представления сигнала понижающего микширования 988. Тем не менее, манипулятор даунмикс-сигналом 986 можно не включать в компоновку, в результате чего представление сигнала понижающего микширования 988 на выходе транскодера SAOC в MPEG Surround 980 будет идентичным представлению сигнала понижающего микширования на входе транскодера SAOC в MPEG Surround. Манипулятор даунмикс-сигналом 986 может найти применение, например, когда служебная информация MPEG Surround 984 с привязкой к каналам не позволяет создать желаемое слуховое впечатление на базе представления сигнала понижающего микширования на входе транскодера SAOC в MPEG Surround 980, что может иметь место при некоторых констелляциях [совокупностях факторов] акустического рендеринга.
Следовательно, транскодер SAOC в MPEG Surround 980 формирует представление сигнала понижающего микширования 988 и битстрим формата MPEG Surround 984 таким образом, что множество сигналов каналов повышающего микширования, отображающих аудиообъекты в соответствии с данными рендеринга, вводимыми в транскодер SAOC -MPEG Surround 980, могут быть сгенерированы с помощью декодера MPEG Surround, на который поступают битстрим MPEG Surround 984 и представление даунмикс-сигнала 988.
Из сказанного вытекает, что для декодирования аудиосигналов, закодированных в SAOC, можно применять различные подходы. В некоторых случаях используют декодер SAOC, который генерирует сигналы каналов повышающего микширования (например, сигналы апмикс-каналов 928, 958) на основе представления сигналов понижающего микширования и объектно-ориентированной служебной параметрической информации. Примеры такого подхода приведены на фиг.9а и 9b. В другом случае аудиоданные, закодированные в SAOC, могут быть перекодированы с получением представления сигнала понижающего микширования (например, представления даунмикс-сигнала 988) и сопроводительной информации, специфицирующей канал (например, битстрима MPEG Surround 984, характеризующего канал), которые будут использованы декодером MPEG Surround для выработки необходимых сигналов каналов повышающего микширования.
На фиг.8 показана общая схема системы MPEG SAOC 800, которая предусматривает частотно-избирательную обработку каждого частотного диапазона таким образом, что: кодер SAOC микширует с понижением N входных сигналов аудиообъектов x1-xN. Для понижающего монофонического микширования коэффициенты указаны как d1-dN. В дополнение к этому кодер SAOC 810 извлекает служебную информацию 814, описывающую входные аудиообъекты. Для процедуры пространственного кодирования оудиообъекта SAOC в формате MPEG базовым видом сопроводительной информации является соотношение мощностей объектов.
Микшированный с понижением сигнал (или сигналы) 812 и служебная информация 814 пересылают и/или вводят в память. Для этого микшированный с понижением аудиосигнал сжимают, используя такие известные аудиокодеры перцептуального типа, как MPEG-1 уровня II или III (также известный как „.mp3"), как Передовая технология аудиокодирования ААС формата MPEG, или любой другой аудиокодер.
Концептуальная задача декодера SAOC 820 на приемном конце - восстановить исходный сигнал объекта („дифференцировать объекты"), используя полученную служебную информацию 814 (и, естественно, один или более даунмикс-сигналов 812). Затем, из таких приближенных к оригиналам объектных сигналов (определяемых также как реконструированные сигналы объектов [/сигналы реконструированных объектов] 820b) микшируют целевую сцену, отображаемую посредством М выходных звуковых каналов (которые, например, могут быть представлены сигналами каналов повышающего микширования
) с приложением матрицы аудиорендеринга. Для монофонического звукового выхода, коэффициенты матрицы аудиорендеринга представлены как r1-rN.
В действительности, сепарация [дифференциация] сигналов объекта выполняется редко (или даже никогда не выполняется), поскольку и шаг сепарации (обозначенный как разделитель объектов 820а), и шаг микширования (обозначенный как смеситель 820c), объединены в общую процедуру транскодирования, в результате которой зачастую происходит значительное снижение вычислительной сложности.
Было установлено, что такая схема чрезвычайно эффективна, как с точки зрения скорости передачи данных (когда необходимо передавать только несколько даунмикс-каналов и некоторую служебную информацию вместо N дискретных сигналов аудиообъектов или дискретной системы), так и с точки зрения вычислительной трудоемкости (трудоемкость обработки относится, больше, к числу выходных каналов, чем к количеству отображаемых аудиообъектов). Дополнительные преимущества пользователя на приемном конце состоят в свободе выбора воспроизводимого акустического образа (моно-, стереофония, охватывающее, виртуализированное [приближенное к реальности] звучание в наушниках и тому подобное) и в возможности непосредственного участия слушателя/слушательницы: матрица аудиорендеринга обеспечивает возможность адаптации звуковой сцены в режиме реального времени к запросам пользователя в соответствии с его/ее вкусами, личными предпочтениями или иными критериями. Например, можно пространственно ощутимо отделять собеседников одной группы в одной части звукового объема от других участников разговора. Такая интерактивность достигается за счет интерфейса пользователя с декодером:
Регулируются относительный уровень и (для немонофонического рендеринга) пространственное положение каждого звукового объекта. Пользователь может выполнять это в режиме реального времени, изменяя положение соответствующего ползунка устройства пользовательского графического интерфейса (GUI/ГИП) (например: уровень объекта = +5 дБ, положение объекта = -30°).
Тем не менее, было установлено, что в некоторых случаях на стороне декодера выбор параметров представления сигналов повышающего микширования (например, сигналов каналов повышающего микширования
) ведет к искажениям звука.
Ввиду описанной ситуации целью заявляемого изобретения является создание концепции уменьшения или, возможно, устранения акустических искажений при повышающем микшировании аудиосигнала (например, в виде сигналов каналов повышающего микширования
).
Сущность изобретения
Поставленная цель достигается с помощью устройства оптимизации одного и более параметров представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и объектно-ориентированной параметрической информации по пункту 1 формулы изобретения, декодера аудиосигнала по п.24, транскодера аудиосигнала по п.25, способов согласно пунктам 26, 27 и 28, кодера аудиосигнала по п.29, способа по п.31, аудиобитстрима по п.32 и компьютерной программы по п.34.
Заявляемое изобретение реализовано в виде устройства оптимизации одного и более параметров представления сигнала повышающего микширования [апмикс-сигнала] на базе представления сигнала понижающего микширования [даунмикс-сигнала] и объектно-ориентированной параметрической информации. Устройство имеет в своем составе регулятор параметров (например, регулятор коэффициентов рендеринга) выполненный с возможностью приема одного или более входных параметров (например, коэффициента рендеринга или описания задаваемой матрицы аудиорендеринга) и генерации на их основе одного или более скорректированных параметров. Регулятор параметров реализован с целью настройки одного или более параметров, исходя из одного или более входных параметров и объектно-ориентированной параметрической информации (например, в зависимости от одного или более коэффициентов понижающего микширования и/или одного или более показателей разности уровней объектов и/или одного или более значений межобъектной корреляции), таким образом, чтобы искажение представления микшированного с повышением сигнала, которое может быть вызвано использованием неоптимальных параметров, было ослаблено, по меньшей мере, для входных параметров, имеющих отклонение от оптимальных параметров на величину, превышающую расчетное отклонение.
Конструктивное исполнение изобретения базируется на идее, что искажения акустического сигнала, вызываемые выбором ненадлежащих входных параметров, могут быть уменьшены путем ввода откорректированных параметров представления апмикс-сигнала, и что корректировка параметров может быть выполнена с подобающей точностью, если в расчет принимать объектно-ориентированную параметрическую информацию. Установлено, что использование объектно-ориентированной параметрической информации позволяет оценивать меру акустических искажений, вызываемых входными параметрами, что, в свою очередь, дает возможность такой корректировки параметров, при которой искажения звука будут удерживаться в пределах заданного диапазона, или при которой искажения звука будут ослаблены по сравнению с входными параметрами. Объектно-ориентированная информация описывает, например, характеристики аудиообъектов и/или содержит параметры обработки объектов на стороне кодера.
Следовательно, нежелательные и часто раздражающие искажения аудиосигнала как следствие использования неадекватных характеристик (допустим, несоответствующих коэффициентов рендеринга) можно уменьшить или даже устранить за счет оптимизации одного или более параметров, выбор которых с использованием объектно-ориентированной параметрической информации обеспечивает эффективное ослабление и/или компенсацию искажений аудиосигнала благодаря достаточно достоверной оценке акустических искажений.
В предпочтительной версии исполнения устройство предусматривает получение в качестве входных характеристик желаемых параметров рендеринга, отражающих требуемый масштабируемый уровень интенсивности множества сигналов аудиообъектов по одному или более каналов, описанных в представлении апмикс-сигнала. В этом случае регулятор параметров выполняет функцию актуализации одного или более параметров рендеринга в зависимости от одного или более параметров рендеринга, выбранных по желанию. Было определено, что выбор несоответствующих параметров рендеринга влечет за собой существенную (и, часто, ощутимую на слух) деградацию представления сигнала повышающего микширования, являющуюся следствием приложения подобных неадекватно подобранных параметров рендеринга. Также установлено, что параметры рендеринга могут быть эффективно скорректированы на основе объектно-ориентированной параметрической информации, так как объектно-ориентированная параметрическая информация позволяет оценивать возможные искажения, вносимые выбранными параметрами рендеринга (которые могут быть заданы входными параметрами).
Предпочтительный вариант осуществления отличается тем, что регулятор параметров выполнен с возможностью выведения одного или более предельных значений параметров рендеринга в зависимости от объектно-ориентированной параметрической информации и данных понижающего микширования, характеризующих соотношение составляющих сигналов аудиообъектов в представлении сигнала понижающего микширования, причем, таким образом, что метрика искажения остается внутри заданного диапазона, ограничивающего значения параметров рендеринга. Для этого регулятор параметров реализован с возможностью актуализации параметров рендеринга в зависимости от желаемых параметров рендеринга и одного или более предельных значений параметров рендеринга таким образом, что актуализованные параметры рендеринга удовлетворяют условиям интервала значений, определенного предельными значениями параметров рендеринга. Расчет предельных значений параметров рендеринга представляет собой простой в вычислительном отношении и надежный механизм, обеспечивающий удержание акустических искажений в пределах допустимого диапазона в соответствии с метрикой искажений.
Предпочтительное техническое решение регулятора параметров характеризуется тем, что задает одну или более величин, ограничивающих параметры рендеринга таким образом, чтобы относительная составляющая сигнала объекта при наложении множества сигналов объектов с использованием параметра рендеринга, удовлетворяющего одной или более пороговых величин параметров рендеринга, отличалась от относительной составляющей сигнала этого объекта в микшированном с понижением сигнале не более, чем на заданную разность. Было определено, что искажения, как правило, достаточно невелики, если соотношение составляющих сигнала объекта во всей совокупности наложенных сигналов отображаемых объектов подобна соотношению составляющих сигнала этого объекта в даунмикс-сигнале, в то время как значительное расхождение указанных соотношений составляющих обычно способствует возникновению искажений звука. Это происходит вследствие того, что сильное изменение (относительного) уровня сигнала объекта по сравнению с (относительным) уровнем этого сигнала объекта в представлении сигнала понижающего микширования часто влечет за собой возникновение артефактов, ибо зачастую невозможно образцово точно разделить сигналы разных аудиообъектов. В результате установлено, что удовлетворительные результаты настройки параметров аудиорендеринга получают преимущественно за счет плавного изменения параметров рендеринга.
Другой вариант аппаратной реализации регулятора параметров отличается тем, что он задает одно или более пороговых значений параметров рендеринга таким образом, что мера искажения, отражающая соотношение между микшированным с понижением сигналом, описанным посредством представления микшированного с понижением сигнала, и сигналом, полученным в результате рендеринга с использованием одного или более параметров рендеринга, удовлетворяющих одному или более пороговых значений параметров рендеринга, находится в пределах заданного диапазона. Было установлено, что параметры рендеринга, выбранные по желанию как входные параметры регулятора параметров, должны подбираться с соблюдением достаточного „сходства" между даунмикс-сигналом, описанным посредством представления даунмикс-сигнала, и сигналом, полученным рендерингом, поскольку иначе возрастает риск возникновения слышимых артефактов при повышающем микшировании.
Еще один предпочтительный вариант осуществления регулятора параметров отличается тем, что вычисляет линейную комбинацию квадрата желаемого параметра рендеринга (как возможного входного параметра регулятора параметров) и квадрата оптимального параметра рендеринга (например, как возможного параметра рендеринга, минимизирующего уровень искажения) с выработкой актуализованного параметра рендеринга (как возможного отрегулированного выходного параметра устройства). В данном случае регулятор параметров выполняет функцию определения соотношения желаемых параметров рендеринга и оптимального параметра рендеринга в линейной комбинации в зависимости от заданного порогового параметра Т и метрики искажения, где метрика искажения [дальше см. 2.3., 2.3.1] отражает искажение, которое может возникнуть при использовании одного или более желаемых параметров рендеринга вместо оптимальных параметров рендеринга для формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования. Такой подход позволяет уменьшить искажения до приемлемой меры при сохранении оптимального воздействия желаемых параметров рендеринга. Эта концепция позволяет найти разумный компромисс между оптимальными параметрами рендеринга и желаемыми параметрами рендеринга с учетом желаемой степени ограничения акустических искажений.
В предпочтительном варианте технического решения регулятор параметров реализован с возможностью генерировать один или более оптимизированных параметров в зависимости от вычислительной меры перцепционной деградации [меры расчета ухудшения качества звучания], чтобы ограничить воспринимаемые на слух искажения представления сигнала повышающего микширования, вызванные использованием неоптимальных параметров и представленные вычислительной мерой перцепционной деградации. Таким образом, параметры можно настраивать в соответствии со слуховым впечатлением, избегая неприемлемо плохого звучания, но добиваясь при этом достаточной глубины регулировки параметров в соответствии с желаниями пользователя.
В предпочтительной версии регулятор параметров отличается возможностью приема информации о свойствах объекта, описывающей характеристики одного или более оригинальных сигналов объекта, которые формируют основу даунмикс-сигнала, отображаемого представлением даунмикс-сигнала. В этом случае регулятор параметров выполнен с возможностью учета информации о свойствах объекта при формировании скорректированных параметров таким образом, чтобы искажение представления сигнала повышающего микширования по сравнению со свойствами сигналов объектов, входящих в представление сигнала повышающего микширования, понижалось, по меньшей мере, для входных параметров, отклоняющихся от оптимальных параметров, на величину, большую, чем заданное отклонение. Такой вариант реализации заявляемого изобретения основан на заключении, что свойства одного или более исходных сигналов объекта могут быть использованы для оценки того, отвечают ли входные параметры требованиям или должны быть откорректированы, поскольку микшированный с повышением сигнал должен быть сформирован так, чтобы его характеристики соответствовали свойствам одного или более исходных сигналов объекта, потому что в противном случае перцептивный образ будет значительно искажен по многим показателям.
В предпочтительной реализации регулятор параметров отличается тем, что принимает и учитывает в качестве информации о свойствах объекта тональные данные сигнала объекта для формирования одного или более отрегулированных параметров. Установлено, что тональные характеристики сигналов объекта - показатель, который существенно влияет на перцептивное впечатление, и что следует избегать выбор характеристик, которые значительно изменяют тональное восприятие, чтобы сохранить хорошее слуховое впечатление.
Предпочтительное конструктивное исполнение регулятора параметров характеризуется возможностью оценивания тональных особенностей для идеального рендеринга сигнала повышающего микширования, исходя из полученных тональных данных сигналов объектов и полученных уровней мощности объектов. В этом случае регулятор параметров выполняет функцию генерирования одного или более скорректированных параметров для нивелирования разницы между оцененной тональностью и тональностью апмикс-сигнала, сформированного с использованием одного или более скорректированных параметров, относительно разницы между оцененной тональностью и тональностью апмикс-сигнала, сформированного с использованием входных параметров, или функцию сохранения разницы между оцененной тональностью и тональностью микшированного с повышением сигнала, образованного с использованием одного или более откорректированных параметров, в пределах заданного диапазона. Применение этой концепции обеспечивает высокую вычислительную эффективность оценивания меры деградации слухового восприятия, что позволяет сообразно регулировать параметры рендеринга.
Предпочтительное техническое решение регулятора параметров отличается тем, что предусматривает время-частотный вариант регулирования входных параметров. Благодаря этому настройку входных параметров с целью получения скорректированных параметров можно выполнять только для таких интервалов времени или таких частотных участков, где регулирование действительно способствует улучшению слухового впечатления или предотвращает выраженную деградацию акустического образа.
Еще один предпочтительный вариант реализации регулятора параметров выполнен с возможностью учета представления сигнала понижающего микширования для формирования одного или более скорректированных параметров. Беря в расчет представление даунмикс-сигнала, добиваются еще большей точности оценки потенциального искажения слухового восприятия.
Регулятор параметров в предпочтительной версии исполнения отличается тем, что способен рассчитывать совокупную меру искажения, то есть - сочетание мер искажения, отражающее множество типов артефактов. В таком варианте регулятор параметров выполнен с возможностью расчета совокупной меры искажения как комбинации мер искажений, которые могут быть вызваны использованием одного или более входных параметров рендеринга вместо оптимизированных параметров рендеринга для формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования. Путем совмещения множества мер искажения, отражающих множество типов артефактов, можно создать хорошо управляемый механизм настройки слухового восприятия.
В другое конструктивное решение заявляемого изобретения введен декодер аудиосигналов, отличающийся тем, что формирует представление сигнала повышающего микширования из множества аудиоканалов повышающего микширования на базе представления сигнала понижающего микширования, объектно-ориентированной параметрической информации и параметров задаваемого рендеринга [желаемого звучания]. Декодер аудиосигнала включает в себя повышающий микшер, выполненный с возможностью формирования аудиоканалов повышающего микширования на базе представления сигнала понижающего микширования и в зависимости от объектно-ориентированной параметрической информации и актуализованных характеристик рендеринга, специфицирующих распределение по аудиоканалам повышающего микширования множества сигналов аудиообъектов, описанных объектно-ориентированной параметрической информацией. Декодер аудиосигнала также включает в себя устройство оптимизации одного и более параметров, как рассмотрено раньше. Устройство оптимизации одного или более параметров предусматривает прием произвольно задаваемых параметров рендеринга в виде одного или более входных параметров и выработку одного или более откорректированных параметров в виде актуализованных данных рендеринга. Кроме того, устройство оптимизации одного и более параметров выполнено с возможностью генерации одного или более скорректированных параметров таким образом, чтобы искажения по аудиоканалам повышающего микширования, вызванные использованием актуализованных параметров рендеринга с отклонением от оптимальных параметров рендеринга, были сокращены, по меньшей мере, для произвольно задаваемых (желаемых) параметров рендеринга, имеющих отклонения от оптимальных параметров рендеринга, на величину, превышающую заданное отклонение.
Использование устройства оптимизации одного и более параметров в составе декодера аудиосигнала дает возможность предотвращать возникновение сильных слышимых искажений, вызываемых декодированием аудиосигнала при неправильно выбранных данных задаваемого по желанию рендеринга.
Частью осуществления заявляемого изобретения является транскодер аудиосигнала, предназначенный для формирования в виде представления сигнала повышающего микширования информации о параметрах каналов, основанной на представлении сигнала понижающего микширования, объектно-ориентированной параметрической информации и параметров желаемого рендеринга. Транскодер аудиосигнала включает в себя транскодер служебной информации, предназначенный для извлечения информации о параметрах каналов из представления даунмикс-сигнала и из объектно-ориентированной параметрической информации и актуализованных характеристик рендеринга, распределяющих по аудиоканалам повышающего микширования множество сигналов аудиообъектов, описанных объектно-ориентированной параметрической информацией. Декодер аудиосигнала также включает в себя устройство оптимизации одного и более параметров, как описано выше. Устройство оптимизации одного или более параметров предусматривает прием задаваемых параметров рендеринга в виде одного или более входных параметров и выработку одного или более откорректированных параметров в виде актуализованных данных рендеринга. Кроме того, устройство оптимизации одного или более параметров выполнено с возможностью уменьшения искажений по аудиоканалам повышающего микширования, представленным информацией о параметрах каналов (в сочетании с информацией о даунмикс-сигнале), вызванных использованием актуализованных параметров рендеринга, которые подвержены девиации относительно оптимальных параметров рендеринга, по меньшей мере, для желаемых параметров рендеринга, отклоняющихся от оптимальных параметров рендеринга, на величину, превышающую ожидаемое отклонение. Было установлено, что предлагаемая концепция корректировки параметров также хорошо применима в комплексе с транскодером аудиосигнала.
Далее, к заявляемому изобретению относятся способ оптимизации одного или более параметров, способ декодирования аудиосигнала и способ перекодирования [транскодирования] аудиосигнала. Названные способы базируются на тех же ключевых идеях, что и описанное выше устройство.
Еще одним компонентом данного изобретения является кодер аудиосигнала, формирующий представление сигнала понижающего микширования и объектно-ориентированную параметрическую информацию на базе множества сигналов объектов. В состав аудиокодера входит понижающий микшер, генерирующий один или более даунмикс-сигналов на основе коэффициентов понижающего микширования [коэффициентов даунмикса], связанных с сигналами объектов таким образом, что один или более даунмикс-сигналов отражает суперпозицию множества сигналов объектов. Наряду с этим, аудиокодер включает в себя драйвер доступа к служебной информации, обеспечивающий сопутствующую информацию о межобъектном соотношении, содержащую разности уровней и корреляционные характеристики сигналов объектов, и сопутствующую информацию об обособленных объектах, описывающую одно или более индивидуальных свойств сигналов обособленных объектов. Сделано заключение, что как сопутствующие данные межобъектного соотношения, так и сопутствующие данные обособленных объектов, обеспечиваемые аудиокодером, позволяют эффективно редуцировать или даже купировать слышимые искажения на стороне декодера многоканального аудиосигнала. В то время как служебная информация по межобъектному соотношению используется для сепарации сигналов объектов на стороне декодера, служебные данные обособленного объекта могут быть использованы для определения, сохраняются ли индивидуальные характеристики сигналов объектов на стороне декодера, что указывает на то, что искажения находятся внутри поля приемлемых допусков.
Предпочтительный вариант реализации драйвера доступа к служебной информации отличается тем, что обеспечиваемые им служебные данные обособленного объекта описывают тональность индивидуальных звуковых объектов. Было установлено, что тональная индивидуальность обособленных аудиообъектов является важным психоакустическим показателем, обеспечивающим ограничение искажений на стороне декодера.
Другое осуществление заявляемого изобретения представляет собой способ кодирования аудиосигнала.
Кроме того, заявляемое изобретение осуществляется в виде потока двоичного представления звука (аудиобитстрима), отображающего множество сигналов (аудио-) объектов в кодированной форме. Аудиобитстрим включает в поток представление одного или более сигналов понижающего микширования, из которых, по меньшей мере, один микшированный с понижением сигнал отображает суперпозицию множества сигналов (аудио-) объектов. Кроме того, в состав аудиобитстрима включена служебная информация о межобъектном соотношении, содержащая разности уровней и характеристики корреляции сигналов объектов, а также служебная информация об обособленных объектах, описывающая одно или более индивидуальных свойств сигналов обособленных объектов. Как обсуждалось выше, такой аудиобитстрим дает возможность реконструировать многоканальный аудиосигнал, в котором слышимые искажения, вызываемые введением несоответствующих параметров аудиорендеринга, могут быть распознаны и уменьшены, или даже устранены.
Кроме описанного, заявляемое изобретение реализовано в виде компьютерной программы, составленной с целью осуществления указанных ранее способов.
Краткое описание графических фигур
Далее, варианты технических решений в соответствии с предлагаемым изобретением будут описаны со ссылкой на прилагаемые фигуры, где:
на фиг.1 показана принципиальная блочная схема устройства оптимизации одного и более параметров для представления сигнала повышающего микширования на базе представления сигнала понижающего микширования и объектно-ориентированной параметрической информации;
на фиг.2 показана принципиальная блочная схема системы SAOC формата MPEG в техническом исполнении согласно изобретению;
на фиг.3 показана принципиальная блочная схема системы SAOC формата MPEG в другом варианте технического исполнения согласно изобретению;
на фиг.4 дана схема соотношения составляющих сигналов объекта в даунмикс-сигнале и в микшированном сигнале;
на фиг.5а показана принципиальная блочная схема реализации транскодера SAOC в MPEG Surround на базе монодаунмикса в соответствии с изобретением;
на фиг.5b показана принципиальная блочная схема реализации транскодера SAOC в MPEG Surround на базе стереодаунмикса в соответствии с изобретением;
на фиг.6 показана принципиальная блочная схема реализации кодера аудиосигнала в соответствии с изобретением;
на фиг.7 дана схема осуществления аудиобитстрима в соответствии с изобретением;
на фиг.8 показана принципиальная блочная схема стандартной системы MPEG SAOC;
на фиг.9а показана принципиальная блочная схема стандартной системы SAOC с раздельными декодером и микшером; на фиг.9b показана принципиальная блочная схема стандартной системы SAOC с объединенными декодером и микшером; и на фиг.9 с показана принципиальная блочная схема стандартной системы SAOC с транскодером SAOC в MPEG.
Техническая детализация изобретения
1. Устройство для оптимизации одного и более параметров на фиг.1
Ниже, со ссылкой на фиг.1 дается описание устройства 100, предназначенного для оптимизации одного или более параметров с целью формирования представления сигнала повышающего микширования (апмикс-сигнала) на базе представления сигнала понижающего микширования (даунмикс-сигнала) и объектно-ориентированной параметрической информации. На фиг.1 дана принципиальная блочная схема такого устройства 100, предусматривающего прием одного или более входных параметров 110. Входными параметрами 110 могут быть, например, выбранные по желанию параметры рендеринга (звучания). На их основе устройство 100 генерирует один или более скорректированных параметров 120. Скорректированные параметры могут представлять собой, например, оптимизированные параметры рендеринга. Кроме того, устройство 100 предусматривает прием объектно-ориентированной параметрической информации 130. Объектно-ориентированная параметрическая информация 130 может представлять собой, например, показатели разности уровней объектов и/или значения межобъектной корреляции, описывающие множество [звуковых] объектов. Устройство 100 включает в себя регулятор параметров 140, принимающий один или более указанных входных параметров 110 и генерирующий из них один или более скорректированных параметров 120. Регулятор параметров 140 отличается тем, что генерирует один или более скорректированных параметров 120 на основе одного или более входных параметров 110 и объектно-ориентированной параметрической информации 130 так, что искажение представления сигнала повышающего микширования, вызванное использованием неоптимальных параметров (допустим, одного или более входных параметров 110), в устройстве формирования представления сигнала повышающего микширования на базе представления сигнала понижающего микширования и объектно-ориентированной параметрической информации 130, ослабляется, по крайней мере, для входных параметров 110, имеющих отклонение от оптимальных параметров выше расчетного.
Следовательно, устройство 100 принимает один или более входных параметров 110 и генерирует из них один или более скорректированных (оптимизированных) параметров 120. Генерируя один или более оптимизированных параметров 120, устройство 100 рассчитывает прямым или косвенным образом, вызовет ли использование без изменения одного или более входных параметров 110 неприемлемо сильные искажения, если эти один или более входных параметров 110 были использованы для формирования представления апмикс-сигнала на базе представления даунмикс-сигнала и объектно-ориентированной параметрической информации 130. Отсюда следует, что откорректированные параметры 120, как правило, более эффективны при управлении средством формирования представления сигнала повышающего микширования, чем один или более входных параметров 110, по крайней мере, в том случае, когда один или более входных параметров 110 выбраны ненадлежащим образом.
В силу этого, устройство 100 обеспечивает лучшее перцептивное впечатление от представления сигнала повышающего микширования, сформированного соответствующим устройством повышающего микширования аудиосигнала на основе одного или более скорректированных параметров 120. Установлено, что применение объектно-ориентированной параметрической информации для корректировки одного или более входных параметров с целью генерации одного или более оптимизированных параметров дает хорошие результаты, поскольку, как правило, представление сигнала повышающего микширования имеет хорошее качество, если один или более скорректированных параметров 120 соответствуют объектно-ориентированной параметрической информации 130, в то время как параметры, нарушающие желаемое соответствие объектно-ориентированной параметрической информации 130 чаще всего приводят к искажениям звука. Например, объектно-ориентированная параметрическая информация может содержать параметры понижающего микширования, которые описывают соотношение составляющих сигналов отдельных объектов (из множества акустических объектов) в одном или более даунмикс-сигналов. Наряду с этим, или вместо этого, объектно-ориентированная параметрическая информация может содержать показатели разности уровней объектов и/или характеристики межобъектной корреляции, которые отражают свойства сигналов объектов. Опыт показал, что, как параметры, описывающие процессы обработки на стороне кодера сигналов аудиообъектов, так и параметры, описывающие свойства самих аудиообъектов можно рассмотреть как информацию, полезную для использования регулятором параметров 120. Вместе с этим, или вместо этого, устройство 100 может использовать другую объектно-ориентированную параметрическую информацию 130.
Тем не менее, следует подчеркнуть, что регулятор параметров 140 использует вспомогательную информацию для выведения одного или более оптимизированных параметров 120 из одного или более входных параметров 110. Например, в качестве опции, регулятор (оптимизатор) параметров 140 может рассчитывать даунмикс-коэффициенты, один или более даунмикс-сигналов или любую другую дополнительную информацию для наибольшей оптимизации одного или более скорректированных параметров 120.
2. Система на фиг.2
Далее, рассмотрим в деталях систему SAOC формата MPEG 200, отображенную на фиг.2.
Для лучшего понимания технической сущности системы MPEG SAOC 200 рассмотрим ее с точки зрения предпочтительных технических характеристик и конструкции. Проанализируем структуру системы. Кроме того, будет обсуждена метрика искажений пространственного кодирования аудиообъектов SAOC и приложение такой метрики для компенсации искажений. В дополнение к этому будут рассмотрены возможности дальнейшего расширения системы 200.
2.1 Конструкция системы
Как обсуждалось выше, параметрические техники передачи/хранения аудиосцен со множественными аудиообъектами, в целом, эффективны как в плане скорости передачи данных (битрейта), так и в плане вычислительной трудоемкости. Сверх того, преимущества пользователя подобной системой на приемном конце состоят в свободном выборе режима рендеринга (моно-, стереофоническое, охватывающее, виртуализированное звучание в наушниках и тп) и режима интерактивного прослушивания: наличие матрицы аудиорендеринга обеспечивает возможность интерактивной установки и изменения аудиосцены в зависимости от запросов слушателя в соответствии с его/ее вкусами, личными предпочтениями и другими критериями. Например, можно максимально ощутимо разделять группы собеседников в разных частях акустического пространства. Такая интерактивность достигается за счет интерфейса между пользователем и декодером:
При этом регулируют относительный уровень и (для немонофонического рендеринга) пространственное положение каждого звукового объекта. Пользователь может выполнять это в режиме реального времени, изменяя положение соответствующего ползунка устройства графического интерфейса пользователя (GUI/ГИП) (например: уровень объекта = +5 дБ, положение объекта = -30°). Тем не менее, опытным путем было определено, что благодаря параметрическому подходу на основе понижающего микширования с разделением/смешением субъективно оцениваемое качество сгенерированного выходного акустического сигнала зависит от настроек параметров аудиорендеринга (звукоотображения). Было установлено, что изменение соотношения уровней аудиообъектов при воспроизведении больше влияет на конечное качество звучания, чем изменение их пространственного положения („перепанорамирование"). Было также выявлено, что критические установки относительных параметров (например, +20 дБ) могут даже приводить к неприемлемому качеству выходного сигнала. Хотя, это - простой результат нарушения некоторых перцепционных уставок, введенных в основу данной схемы, для коммерческого продукта неприемлемо, чтобы при настройке параметров с помощью пользовательского интерфейса на выходе возникали плохой звук и артефакты. Отсюда следует, что варианты реализации изобретения, например, система 200, направлены на решение обозначенной задачи предотвращения неприемлемых искажений независимо от настроек пользовательского интерфейса (которые можно обозначить как „входные параметры").
Дальше рассмотрим некоторые детали подходов к предотвращению искажений SAOC (пространственного кодирования аудиообъектов). В основу представленного здесь подхода к компенсации искажений SAOC положены приведенные ниже принципы.
- Выраженные искажения SAOC возникают в случае ненадлежащего выбора коэффициентов рендеринга (которые можно рассматривать как входные параметры). Такой выбор обычно делается пользователем в диалоговом режиме (допустим, через графический интерфейс пользователя в режиме реального времени (GUI / ГИП) в интерактивных приложениях). В силу этого выполняют дополнительную операцию модификации коэффициентов рендеринга, заданных пользователем (которая, например, лимитирует их, выполняя некоторые вычисления), и введения этих модифицированных коэффициентов в процессор рендеринга SAOC. Предположим, коэффициенты рендеринга, введенные пользователем, являются входными параметрами, тогда модифицированные коэффициенты для процессора рендеринга SAOC можно рассматривать как модифицированные (скорректированные) параметры.
- Для контроля чрезмерного ухудшения качества звукового выхода SAOC необходимо выработать вычислительную меру перцепционной деградации (именуемой также мерой искажения DM). Установлено, что такая мера искажения должна отвечать определенным критериям, указанным ниже.
- Мера искажения должна быть легко вычислимой из внутренних параметров процессора декодирования SAOC. Например, желательно отсутствие необходимости расчетов дополнительного банка фильтров для определения меры искажения.
- Показатель меры искажения должен коррелировать с субъективно воспринимаемым качеством звука (перцепционной деградацией), то есть соответствовать основным положениям психоакустики. Для этого расчет меры искажения предпочтительно выполняют частотно-избирательным методом, поскольку он, в основном, известен из области перцептуального кодирования и обработки звука.
Выяснена возможность определения и расчета множества показателей меры искажения SAOC. Однако, поскольку было установлено, что показатели меры искажения SAOC предпочтительно должны учитывать определенные базовые факторы, чтобы обеспечивать правильную оценку качества рендеринга SAOC, то нередко (но не обязательно) они имеют определенные общие свойства, описанные ниже.
- Они учитывают коэффициенты понижающего микширования (даунмикс-коэффициенты). Эти коэффициенты определяют относительные доли микшируемых составляющих каждого аудиообъекта в структуре одного или более даунмикс-сигналов. В качестве пояснения следует указать на то, что было установлено, что возникновение искажения SAOC зависит от соотношения коэффициентов понижающего микширования и рендеринга: если относительная доля составляющей сигнала объекта, определяемая коэффициентами рендеринга, существенно отличается от относительной доли составляющей сигнала объекта в структуре сигнала понижающего микширования, то процессор декодирования SAOC (который использует модифицированные параметры) вынужден выполнять значительную корректировку даунмикс-сигнала, чтобы преобразовать его в выходной сигнал аудиорендеринга. Был сделан вывод, что это приводит к искажениям SAOC.
- Они учитывают коэффициенты рендеринга. Эти коэффициенты определяют относительную выходную мощность каждого аудиообъекта в каждом из преобразованных аудиорендерингом выходных сигналов. В качестве пояснения следует указать на то, что было установлено, что возникновение искажения SAOC зависит также от взаимного соотношения мощностей объектов. Если мощность какого-либо объекта в определенный момент времени выше мощности других объектов (и если даунмикс-коэффициент этого объекта не очень низок), то этот объект доминирует в даунмикс-сигнале и воспроизводится очень отчетливо в преобразованном аудиорендерингом выходном сигнале. И наоборот, маломощные объекты представлены очень слабо в даунмикс-сигнале и, следовательно, не могут быть усилены без значительных искажений.
- Они учитывают (относительные) мощность/ уровень каждого объекта в сопоставлении с другими аудиообъектами. Эти данные описываются, например, как разности уровней объектов (OLD) SAOC. В качестве пояснения следует указать на то, что было установлено, что возникновение искажения SAOC зависит, кроме названного, от свойств сигналов обособленных объектов. В частности, усиление объекта тонального характера в выходном сигнале аудиорендеринга до высокого уровня (в то время, как другие объекты могут быть, более, шумового происхождения) даст в результате сильно выраженное искажение.
- В дополнение к этому может учитываться другая информация о свойствах исходных сигналов объектов. Такая информация может быть передана кодером SAOC как часть служебной информации SAOC. Допустим, информация о тональных или шумовых характеристиках каждого объекта может быть передана как часть сопроводительной информации SAOC и использоваться для компенсации искажений.
2.2 Общий обзор системы
Теперь, опираясь на изложенные выше соображения, кратко проанализируем систему SAOC формата MPEG 200 для лучшего понимания представляемого изобретения. Обратим внимание на то, что система SAOC 200 на фиг.2 представляет собой расширенную версию системы MPEG SAOC 800 на фиг.8, в силу чего предшествующее обсуждение применимо и в этом случае. Кроме того, следует указать на то, что система MPEG SAOC 200 может быть модифицирована в соответствии с альтернативными реализациями 900, 930, 960 на фиг.9а, 9b и 9 с, где кодер объектов соответствует кодеру SAOC, где пользовательская интерактивная информация/пользовательская управляющая информация 822 соответствует параметрам управления рендерингом/коэффициентам рендеринга.
Помимо этого, декодер SAOC системы MPEG SAOC 100 может быть заменен раздельными блоками декодера объекта и смесителя/рендерера 920, интегрированным блоком декодера объекта и смесителя/рендерера 930, или транскодером SAOC в MPEG Surround 980.
Теперь, обратившись к фиг.2, можно увидеть, что система MPEG SAOC 200 включает в себя кодер SAOC 210, предназначенный для приема множества сигналов объектов x1-xN, ассоциированных с множеством объектов с 1 по N. Кодер SAOC 210 также предназначен для приема (или получения каким-либо иным способом) коэффициентов понижающего микширования d1-dN. К примеру, кодер SAOC 210 для каждого канала даунмикс-сигнала 212, генерируемого им, может получить один набор даунмикс-коэффициентов d1-dN. Кодер SAOC 210 может, например, получать взвешенную комбинацию сигналов объектов x1-xN для генерации микшированного с понижением сигнала, при этом каждый из сигналов объектов x1-xN взвешен с присвоенным ему коэффициентом понижающего микширования d1-dN. Кроме того, кодер SAOC 210 получает информацию о межобъектной взаимосвязи, которая отражает соотношение между сигналами различных объектов. Информация о межобъектной взаимосвязи может содержать, скажем, показатели разности уровней объектов, например, в виде параметров OLD, и информацию о межобъектной корреляции, например, в форме параметров IOC. Соответственно, кодер SAOC 200 характеризуется тем, что генерирует один или более даунмикс-сигналов 212, каждый из которых содержит взвешенную комбинацию одного или более сигналов объектов, взвешенных в соответствии с набором параметров понижающего микширования, связанных с соответствующим микшированным с понижением сигналом (или каналом многоканального микшированного с понижением сигнала 212). Также, кодер SAOC 210 выполнен с возможностью формирования сопроводительной служебной информации 214, которая содержит данные межобъектного соотношения (например, в форме показателей разности уровней объектов [OLD] и параметров межобъектной корреляции [IOC]). Служебная информация 214 содержит, кроме того, параметрическую информацию понижающего микширования, например, в виде коэффициентов усиления понижающего микширования и показателей разности уровней каналов понижающего микширования. Помимо этого, служебная информация 214 может включать в себя вспомогательную сопроводительную информацию об индивидуальных свойствах обособленных объектов.
Система MPEG SAOC 200 также включает в себя декодер SAOC 220, выполненный с функциональными возможностями декодера SAOC 820. В силу этого декодер SAOC 220 принимает один или более даунмикс-сигналов 212 и сопроводительную информацию 214, а также модифицированный (или „откорректированный" или „актуализованный") коэффициенты рендеринга 222 и на их основе генерирует сигналы канала повышающего микширования
.
Кроме того, система MPEG SAOC 200 включает в свой состав устройство 240, предназначенное для формирования одного или более модифицированных (или откорректированных или „актуализованных") параметров, а именно, модифицированных коэффициентов рендеринга 222, в зависимости от одного или более входных параметров, а именно, входных параметров, описывающих данные управления рендерингом или коэффициентов рендеринга 242. Кроме того, устройство 240 выполнено с возможностью принимать, хотя бы, часть служебной информации 214. Скажем, устройство 240 может принимать параметры 214а, описывающие мощности объектов (например, показатели мощности сигналов объектов x1-xN). Параметры 214а могут содержать, допустим, показатели разности уровней объектов (OLD). Предпочтительно, устройство 240 предусматривает ввод содержащихся в служебной информации 214 даунмикс-коэффициентов 214b. Например, параметры 214b описывают даунмикс-коэффициенты d1-dN. Дополнительно устройство 240 может принимать служебную информацию 214c, описывающую индивидуальные свойства звукового объекта.
В целом, устройство 240 отличается тем, что обеспечивает модифицированные коэффициенты рендеринга 222 на базе входных коэффициентов рендеринга 242 (например, полученных через пользовательский интерфейс или рассчитанных, исходя из ввода пользователя, или заданных как уставка) с целью подавления искажения в представлении сигнала повышающего микширования, возникшего вследствие использования декодером SAOC 220 неоптимальных параметров рендеринга. Другими словами, модифицированные коэффициенты рендеринга 222 представляют собой оптимизированную версию входных коэффициентов рендеринга 242, скорректированных на основе параметров 214а, 214b с целью ослабления или компенсации слышимых искажений сигналов
канала повышающего микширования (формирующих представление апмикс-сигнала).
Устройство 240 оптимизации одного и более параметров 242 рассчитано, например, на введение в его конструкцию регулятора коэффициентов рендеринга 250, предназначенного для приема входных коэффициентов рендеринга 242 и расчета из них модифицированных коэффициентов рендеринга 222. Для этого на регулятор коэффициентов рендеринга 250 может быть передан показатель меры искажения [DM] 252, характеризующий искажения, которые могут возникнуть в результате использования входных коэффициентов рендеринга 242. Например, показатель меры искажения 252 может быть задан вычислителем искажения 260, исходя из параметров 214а, 214b и входных коэффициентов рендеринга 242.
Однако, функциональные возможности регулятора коэффициентов рендеринга 250 и вычислителя искажения 260 могут быть интегрированы в общий функциональный блок таким образом, что модифицированные коэффициенты рендеринга 222 будут рассчитываться без эксплицитного (намеренного) вычисления меры искажения 252. Вернее сказать, могут быть применены имплицитные (скрытые) механизмы ослабления или ограничения меры искажения (DM).
Относительно системы MPEG SAOC 200 следует отметить, что представление сигнала повышающего микширования, которое выводится в форме сигналов канала повышающего микширования
, формируется с хорошими перцептуальными свойствами в силу того, что акустические искажения, которые могут являться следствием ненадлежащего выбора интерактивной информации пользователя/управляющей информация пользователя 822 в базовой компоновке системы 800, удается предотвратить путем модификации или регулирования коэффициентов рендеринга. Такую модификацию или регулирование выполняет устройство 240, купируя или, по крайней мере, редуцируя серьезную деградацию перцептивного впечатления по сравнению с тем случаем, когда входные коэффициенты рендеринга 242 используются декодером SAOC 220 напрямую (без модификации или регулирования).
Далее представлен краткий обзор конструктивных возможностей предлагаемой концепции изобретения. При наличии меры искажения (DM) чрезмерное искажение звукового выхода можно избежать путем расчета значения меры искажения для данных сигналов и путем модификации алгоритма декодирования SAOC (ограничения фактически используемых коэффициентов рендеринга 212) таким образом, чтобы значение меры искажения не превышало определенную пороговую величину. Система 200, реализованная в соответствии с предлагаемой концепцией, показана на фиг.2 и подробно уже рассматривалась выше.
В отношении системы 200 можно обратить внимание на следующее:
- желаемые коэффициенты рендеринга 242 вводят через пользовательский или иной интерфейс;
- перед введением в процессор декодирования SAOC 220 коэффициенты рендеринга 242 модифицируют с помощью регулятора коэффициентов рендеринга 250, который использует один или более рассчитанных показателей меры искажения 252, поступающих от вычислителя искажений 260;
- вычислитель искажений 260 оценивает характеристики служебной информации 214 (допустим, параметры 214а, 214b, в частности, относительную мощность объекта / OLD, даунмикс-коэффициенты и - произвольно - данные о свойствах сигналов объектов). Дополнительно вводят желаемые коэффициенты рендеринга 242.
В предпочтительном варианте осуществления устройство 240 отличается тем, что модифицирует коэффициенты рендеринга, исходя из меры искажения. Преимущественно, коэффициенты рендеринга корректируют частотно-избирательно, применяя, скажем, частотное взвешивание.
Модификация коэффициентов рендеринга может основываться на данном фрейме (например, на текущем фрейме), или же коэффициенты рендеринга можно корректировать во времени не только на пофреймовой основе, но и выполнять обработку/регулировку во времени (например, сглаживание во времени), при которой могут быть использованы разные константы времени атаки/затухания, например, для компрессии/ограничения динамического диапазона.
Некоторые конструктивные решения предусматривают частотно-селективную меру искажения.
В некоторых конструктивных решениях мера искажения может учитывать одну или более характеристик, указанных ниже:
- мощность/энергию/уровень каждого объекта;
- даунмикс-коэффициенты;
- коэффициенты рендеринга; и/или
- при необходимости - дополнительную сопроводительную информацию о свойствах объектов.
Некоторые аппаратные версии решены с возможностью расчета меры искажения для каждого объекта и комбинирования с последующей оценкой общего искажения.
Ряд технических решений позволяет оценивать дополнительную сопроводительную информацию о свойствах объектов 214 с.Дополнительная сопроводительная информация о свойствах объектов 214c может быть извлечена с помощью, например, усовершенствованного кодера SAOC 210. Дополнительная сопутствующая информация о свойствах объектов может быть введена, в частности, в расширенный битстрим SAOC, который будет описан со ссылкой на фиг.7. Кроме того, дополнительная сопроводительная информация о свойствах объектов может использоваться для компенсации искажений расширенным декодером SAOC.
В отдельных случаях в качестве характеристики объекта, описываемой дополнительной служебной информацией, используют соотношение шума/тона. В подобном случае показатель отношения шум/тон может быть передан с более грубым частотным разрешением, чем другие параметры объектов (скажем, OLD), входящие в служебную информацию. В крайнем случае служебная информация, отображающая характеристики шумов/тонов объектов, может быть передана с помощью только одного показателя для каждого объекта (допустим, характеристики ширины полосы).
2.3 Метрика искажения SAOC
В последующем будет описано множество мер искажения, которые можно получить, например, с использованием вычислителя искажений 260. Частности приложения таких мер искажения для ограничения коэффициентов рендеринга будут рассмотрены ниже в разделе 2.4.
Другими словами, в этом разделе рассмотрено несколько мер искажения. Их можно использовать по-отдельности или комбинировать, формируя более сложную метрику искажения, например, путем взвешенного сложения отдельных значений метрик искажения. Здесь следует принять во внимание, что термины „мера искажения" и „метрика искажения" характеризуют аналогичные понятия и в большинстве случаев не требуется специальное различие между ними.
Дальше дается описание множества метрик искажения, которые могут быть оценены вычислителем искажений 260 и которые могут быть использованы регулятором коэффициентов рендеринга 250 для расчета модифицированных коэффициентов рендеринга 222, исходя из входных коэффициентов рендеринга 242.
2.3.1 Мера искажения №1
Ниже рассматривается первая мера искажения (также обозначенная как мера искажения #.1).
Для упрощения понимания представляемой концепции рассмотрим систему пространственного кодирования аудиообъекта SAOC N-1-1 (например, моносигнал понижающего микширования [монодаунмикс-сигнал] (212) и одиночный канал (сигнал) повышающего микширования [апмикс-канал/-сигнал]). N входных аудиообъектов микшируют с понижением в моносигнал и выполняют рендеринг в виде выходного моносигнала. Как показано на фигуре 8, коэффициенты понижающего микширования обозначены как d1..dN, а коэффициенты рендеринга - как r1..rN. Для упрощения последующих формул коэффициенты времени в них опущены. Аналогично не приняты во внимание частотные коэффициенты, что указывает на то, что уравнения относятся к подполосовым сигналам. В некоторых приведенных ниже уравнениях буквами нижнего регистра обозначены коэффициенты или сигналы, а буквами верхнего регистра - соответствующие мощности, что можно определить по контексту уравнений. Также, следует указать на то, что некоторые сигналы представлены соответствующими коэффициентами частотно-временной области, а не во временной области.
Предположим, нас интересует объект #m (с коэффициентом слышимости объекта т), скажем, доминирующий объект, относительный уровень которого усиливают, ограничивая тем самым общее качество звучания. Тогда, идеальный желаемый выходной сигнал (сигнал апмикс-канала) можно выразить как:
Здесь первый член выражения представляет собой желаемую составляющую интересующего нас объекта в выходном сигнале, тогда как второй член указывает на составляющие всех других объектов („интерференцию"). Однако, в действительности благодаря понижающему микшированию (даунмиксу) выходной сигнал формируется как:
то есть микшированный с понижением сигнал в последующем масштабируется с использованием коэффициента транскодирования t, соответствующего матрице „m2" декодера MPEG Surround. Далее, выражение вновь может быть разбито на первый член (фактическую составляющую сигнала объекта в выходном сигнале) и второй член (фактическую „интерференцию" сигналов других объектов). Здесь система SAOC (предположим, декодер SAOC 220 и, произвольно дополнительно, устройство 240) динамически определяет коэффициент транскодирования t, чтобы мощность актуализированного рендерингом выходного аудиосигнала согласовывалась с мощностью идеального сигнала:
Мера искажения (DM) может быть определена вычислением соотношения идеальной составляющей мощности объекта #т и его фактической составляющей мощности:
Здесь,
отображает мощность окончательно сформированного рендерингом сигнала, a
- мощность даунмикс-сигнала. Следует обратить внимание, что на практике вместо значении Xi могут быть непосредственно подставлены соответствующие значения разности уровней объектов (OLDi), пересылаемые как часть служебной информации SAOC 214.
Для лучшей интерпретации dm1 его определение может быть повторно сформулировано как:
По сути это значит, что метрика искажения представляет собой пропорцию относительной составляющей мощности объекта в идеальном (выходном) рендеринг-сигнале к такой составляющей в даунмикс - (входном) сигнале. Это согласуется с заключением, что схема SAOC действует лучше всего, когда отсутствует необходимость изменения относительных мощностей объектов на большие коэффициенты.
Возрастающие значения dm1 означают снижение качества звучания относительно аудиообъекта #m. Было установлено, что значение dm1 остается постоянным, если все коэффициенты рендеринга масштабируются с одним и тем же коэффициентом, или если аналогично масштабируются все коэффициенты понижающего микширования. Также выявлено, что увеличение коэффициента рендеринга для объекта #m (увеличение его относительного уровня) ведет к росту искажений. Значения dm1 могут быть интерпретированы следующим образом:
- значение 1 служит показателем идеального качества относительно объекта #m;
- превышение значениями dm1 1 означает ухудшение качества;
- уменьшение значений dm1 ниже 1 не означает дальнейшее повышение качества относительно объекта #m.
Отсюда следует, что общая мера качества звуковой сцены (т.е. качества звучания всех аудиообъектов) может быть рассчитана следующим образом:
В этом уравнении w(m) служит показателем весового коэффициента объекта #m, определяющим соотношение значимости и выразительности конкретного объекта аудиосцены. Тогда, например, w(m) можно выбрать в зависимости от мощности/громкости объекта
, где для α, в среднем, может быть задано значение 0,25, что будет способствовать приближенной эмуляции психоакустического нарастания громкости для этого объекта. Более того, w(m) может учитывать тональные эффекты и явление маскирования. В другом случае w(m) может быть задано значение 1, что упрощает вычисление DM1.
2.3.2 Мера искажения #2
Возможен вариант, при котором мера искажения строится на базе уравнения (4) с выведением перцептуальной меры из отношения шум-маска (NMR), то есть - с вычислением соотношения между шумом/интерференцией и порогом слышимости:
В этом уравнении msr - показатель отношения маска-сигнал [отношения порога слышимости к сигналу (MSR)] полного аудиосигнала, которое зависит от тональности. Возрастающие величины dm2 служат показателем усиления искажения относительно звукового объекта #m. Вновь, значение dm2 остается постоянным, если все коэффициенты рендеринга будут масштабированы с общим множителем, или если все даунмикс-коэффициенты будут масштабированы идентично. Диапазон значений dm2 можно интерпретировать следующим образом:
- значение 0 означает идеальное качество относительно объекта #m;
- увеличение значений dm2 выше 1 указывает на прогрессирующую акустическую деградацию;
- значения dm2 ниже 1 отражают качество звука, нераспознаваемое по сравнению с объектом #m.
Отсюда следует, что общая мера качества звуковой сцены (т.е. качества звучания всех аудиообъектов) может быть рассчитана следующим образом:
Опять же, w(m) обозначает весовой коэффициент объекта #m, определяющий соотношение между выразительностью / уровнем / громкостью выделенного объекта в структуре аудиосцены, обычно выбираемый как
при α=-25.
В соответствии с уравнением (6) мера искажения определяет искажение как разность мощностей (что соответствует измерению „NMR с разницей спектров"). В качестве альтернативы искажение может быть рассчитано, исходя из формы сигнала, что дает в результате следующую меру, содержащую дополнительный смешанный терм произведения:
2.3.3 Мера искажения #3
Далее представлена третья мера искажения, которая описывает степень когерентности даунмикс-сигнала и рендеринг-сигнала. Более высокая когерентность дает лучшее субъективно воспринимаемое качество звука. Дополнительно в расчет принимается корреляция входных аудиообъектов, если на стороне декодера SAOC присутствуют данные IOC.
Исходя из параметров SAOC (например, данных 214а, которые могут содержать показатели разности уровней объектов и межобъектной корреляции), строится модель ковариации объектов
Для вычисления меры искажения строят матрицу M, которая содержит коэффициенты рендеринга и понижающего микширования (M может быть интерпретирована как матрица аудиорендеринга для системы SAOC N-1-2),
Тогда, ковариантность С сигнала понижающего микширования и сигнала, полученного рендерингом будет
Мера искажения ОМз определяется как
Значения DM3 могут интерпретироваться следующим образом:
- значения находятся в диапазон [0…1] и служат показателем когерентности даунмикс- и рендеринг-сигнала.
- значение 0 указывает на идеальное качество.
- увеличение значений DM3 означает ухудшение качества.
2.3.4 Мера искажения #4
2.3.4.1 Общие сведения
Предлагается использовать в качестве меры искажения усредненное взвешенное соотношение между заданной энергией аудиорендеринга (UPMIX) и оптимальной энергией понижающего микширования (рассчитанной из данного даунмикса DMX).
На фиг.4 дано графическое представление понижающего микширования (DMX), оптимальная энергия понижающего микширования (DMX_opt) и заданная энергия рендеринга (UPMIX).
2.3.4.2 Список условных обозначений
c -(1, 2,…, Nch} каналы повышающего микширования (апмикс-каналы)
dx=(1, 2) каналы понижающего микширования (даунмикс-каналы)
ob={1, 2,…, Nob} аудиообъекты
pb={1, 2,…, Npb} диапазоны параметров
rch,ob,pb=r(ch, ob, pb) матрица аудиорендеринга для канала ch, аудиообъекта ob и диапазона параметров pb
ddx,ob,pb=d(dx, ob, pb) матрица понижающего микширования для даунмикс-канала dx, аудиообъекта ob и диапазона параметров pb
wob,pb=w(ob, pb) весовой коэффициент, представляющий выразительность / уровень / громкость аудиообъекта ob для диапазона параметров pb
NRGpb=NRG(pb), абсолютная энергия аудиообъекта с наибольшей энергией для частотного диапазона pb
OLDob,pb=OLD(ob, pb) разность уровней объектов, описывающая разницу уровней интенсивности между одним аудиообъектом ob и объектом с самой высокой энергией для соответствующей полосы частот pb
2.3.4.3 Алгоритм
Ниже кратко представлены шаги алгоритма оценки меры искажения #4.
- Вычисление относительной энергии повышающего микширования и понижающего микширования:
Мультипликативные константы αch,ob,pb, β ch,ob,pb рассчитывают путем решения приведенной выше системы линейных уравнений для удовлетворения следующего условия
.
- Вычисление меры искажения:
2.3.4.4 Контроль над искажениями
Контроль над искажениями достигается за счет ограничения одного или более коэффициентов рендеринга в зависимости от меры искажения DM4.
Можно принять к сведению, что (i) эта мера применима только для понижающего стереомикширования, и (ii) что она может быть приведена к DM1 для #dx=1 и #ch=1.
2.3.4.5 Спецификация
Ниже приведены основные характеристики подхода к вычислению меры искажения номер 4. Данный подход
- подразумевает идеальное транскодирование,
- позволяет выполнять понижающее стереомикширование (стереодаунмикс); и
- предусматривает обобщение (генерализацию) с многоканальным рендерингом.
2.3.5 Мера искажения #5
Рассмотрим еще один вариант расчета коэффициента транскодирования t. Его интерпретация как расширения t дает в результате матрицу транскодирования Т, которая характеризуется межобъектной когерентностью (IOC) и одновременно расширяет текущие метрики DM#1 и DM#2 до стереодаунмикса и многоканального апмикса. Такое приложение коэффициента транскодирования t подразумевает согласование мощности выходного сигнала актуализированного рендеринга с мощностью сигнала идеального рендеринга, т.е.
Введение матрицы ковариантности приводит к модификации представления t, а именно, формирует матрицу транскодирования Т, которая учитывает также межобъектную когерентность. Элементы Е рассчитываются из параметров SAOC 214 как
Матрица транскодирования представляет преобразование понижающего микширования в выходной сигнал аудиорендеринга таким образом, что TDx≈Rx. Это достигается за счет минимизации среднеквадратической ошибки с получением
T=RED*(DED*)-1.
меру искажения типа dm1, но теперь - для каждой комбинации понижающего микширования/рендеринга (n, k) объекта m, выводим с помощью
Применяя dm1(m) отдельно для левого и правого капала понижающего микширования, приходим к
Если предположить, что лучший из двух трактов понижающего микширования/повышающего микширования выбирается по качеству выходного сигнал аудиорендеринга, то мера (критерий) соответствует минимальному значению, т.е.
Общая мера всех выходных каналов, обозначенных индексом k, может быть рассчитана как
Общая мера всех объектов может быть получена
2.3.6. Мера искажения #6
Дальше опишем шестую меру искажения.
Пусть ei(t) - квадратичная гилбертова огибающая сигнала объекта #i, а Pi - мощность сигнала объекта #i (оба - в пределах одного поддиапазона), тогда мера N тонально-шумового подобия может быть выведена из оценки нормализованной дисперсии (изменчивости) огибающей Гилберта как
В другом случае вместо дисперсии непосредственно огибающей Гилберта можно использовать мощность / дисперсию разностного сигнала гилбертовой огибающей. В любом случае мера отражает интенсивность флуктуации огибающей во времени.
Эта мера тонально-шумового соотношения N может быть определена как для сигнала, смикшированного в соответствии с идеальным рендерингом, так и для звука, смикшированного по актуализированному рендерингу SAOC, при этом мера искажения может быть выведена из разности между ними, так:
где β - показатель (например, β=2).
2.3.7. Расчет уровней энергии акустических образов сигналов источника для контрольной сцены и сцены, воспроизведенной по рендерингу SAOC
Чтобы для вычисления мер искажения рассчитать уровни энергии объектов в структуре звукового образа источника в контрольной сцене и в сцене, воссоздаваемой по рендерингу SAOC, необходимо брать в расчет матрицу транскодирования T для сцены, воспроизведенной по рендерингу SAOC, так как она сформирована согласно „Мере искажения 5", а также корреляцию сигналов источника для обеих сцен - базовой (контрольной) и воспроизведенной через рендеринг.
Примечание: прописные буквы в индексации сигналов в данном случае отражают матричное представление сигналов, а не энергии сигналов, как в разделах выше.
Для произвольного источника xm составляющие xm сигнала во всех источниках xi могут быть рассчитаны следующим образом:
Все сигналы источника xi распределяют между составляющей xi||m сигнала, коррелирующей с обрабатываемым объектом xm, и составляющей xi⊥m, некоррелирующующей с xm. Это может быть выполнено путем подпространственной проекции xm на все сигналы xi, т.е. xi=xi||m+xi⊥m. Коррелирующая составляющая выражена через
При Y=RX и X=X⊥m+X||m образ
аудиоисточника для всех каналов рендеринга может быть рассчитано через
, где
Это может быть выполнено способом, аналогичным
. При матрице транскодирования Т и матрице понижающего микширования D для всех каналов в рендеринг-сцене
будет:
.
2.3.7.3. Вычисление меры искажения
Мера искажения типа dm1 может быть оценена для каждого объекта m и выходного канала рендеринга k как
2.3.8 Характеристики сигнала объекта
Дальше рассмотрим некоторые параметры сигналов объектов, которые могут быть задействованы, например, устройством [регулятором коэффициентов рендеринга] 250 или подавителем артефактов 320 с целью оценки меры искажения (DM).
В процессе пространственного кодирования аудиообъекта - SAOC - несколько сигналов акустических объектов микшируют с понижением, формируя микшированный с понижением сигнал (даунмикс-сигнал), который в последующем используют для генерации в процессе аудиорендеринга итогового выходного звукового сигнала. Если тональный сигнал объекта микшируют вместе со вторым сигналом объекта, равным по мощности, но более приближенным к шуму, результирующий сигнал стремится быть „шумоподобным". Это остается в силе, когда второй сигнал объекта имеет более высокую мощность. Только, если мощность второго сигнала объекта значительно ниже мощности первого, результат будет приближен к тональному. Подобным же образом, соотношение тона / шума в выходном сигнале рендеринга SAOC, главным образом, определяется отношением тон / шум в даунмикс-сигнале, независимо от примененных коэффициентов рендеринга. Для достижения качественного звучания на выходе необходимо также, чтобы тонально-шумовое соотношение сигнала актуализированного рендеринга было приближено к „тональности/шумоподобию" сигнала идеального рендеринга. Чтобы применить такой подход для определения меры искажения, параметры соотношения тона/шума по каждому объекту должны передаваться в составе битстрима. Отношение тон/шум N выходного сигнала идеального рендеринга в таком случае может быть рассчитано декодером SAOC как функция отношения тон/шум каждого объекта Ni от мощности каждого объекта Pi, т.е.
N=f(N1, P1, N2, P2, N3, P3,…)
и сопоставлено с отношением тон/шум выходного сигнала актуализированного рендеринга для вычисления меры искажения. В качестве примера можно привести следующую функцию f():
которая объединяет отношения тон/шум объектов и мощности объектов в общий выходной показатель, таксирующий тонально-шумовое соотношение смеси сигналов. Показатель а выбирают, чтобы оптимизировать точность алгоритма оценивания данной меры тонально-шумового соотношения (например, α=2). Удовлетворяющая требованиям метрика искажения, базирующаяся на „тональности/шумоподобии", описана в разделе 2.3.6 как мера искажения #6.
2.4 Схемы компенсации искажений
2.4.1 Обзор схем компенсации искажений
Далее приведен краткий обзор существующих многообразных схем компенсации искажений. Как описано выше, регулятор коэффициентов рендеринга 250 получает входные коэффициенты рендеринга 242 и на их основе генерирует модифицированный коэффициент рендеринга 222 для декодера SAOC 220.
Можно выделить различные концепции расчета модифицированных коэффициентов рендеринга, некоторые из которых могут быть объединены в ряде конструктивных решений. Согласно первой концепции одно или более пороговых значений параметров рендеринга рассчитывают на первом этапе в зависимости от одного или более параметров служебной информации 214 (т.е., исходя из объектно-ориентированной параметрической информации 214). Затем, вычисляют актуализованные („модифицированные или откорректированные") коэффициенты рендеринга 222 в зависимости от произвольно заданного параметра рендеринга 242 и одного или более пороговых значений параметров рендеринга таким образом, что актуализованные параметры рендеринга входили в интервал пороговых значений параметров рендеринга. Соответственно, параметры рендеринга, которые выходят за пределы пороговых величин параметров рендеринга, регулируются (модифицируются) так, чтобы попадать в заданный диапазон предельных значений параметров рендеринга. Эта первая концепция легко осуществима, однако, может иногда не удовлетворять требованиям потребителя, поскольку выбор пользователем желаемых параметров рендеринга 242 не берется в расчет, если задаваемые по желанию пользователя параметры рендеринга 242 выходят за пределы диапазона пороговых значений параметров рендеринга.
Из второй концепции следует, что регулятор параметров вычисляет линейную комбинацию квадрата желаемого параметра рендеринга и квадрата оптимального параметра рендеринга для выведения актуализованного параметра рендеринга. В этом случае регулятор параметров определяет соотношение составляющих желаемого параметра рендеринга и оптимального параметра рендеринга в линейной комбинации с учетом заданного порогового параметра и метрики искажения (как описано выше).
Дополнительно можно определить, мера искажения (метрика искажения) вычислена с использованием свойств межобъектной взаимосвязи или индивидуальных свойств объектов, или же и тех и других. Некоторые конструктивные решения предусматривают оценивание только характеристик взаимного соотношения объектов без учета специфических характеристик отдельных объектов (связанных с одним конкретным объектом). Другие конструктивные решения оценивают только отличительные признаки обособленных объектов, не учитывая параметры взаимного соотношения объектов. Тем не менее, существуют версии реализации, основанные на совокупном оценивании как свойств межобъектной взаимосвязи, так и индивидуальных свойств объектов.
На основании этих соображений, а также на основании рассмотренных выше различных мер искажения можно сформулировать ряд схем компенсации искажений, о чем обзорно говорится в следующем разделе. Такие схемы компенсации искажений могут быть использованы регулятором коэффициентов рендеринга 250 для выведения модифицированных коэффициентов рендеринга на основе входных коэффициентов рендеринга 242.
2.4.2 Схема компенсации искажений #1
В параграфе 2.3.1 простая мера искажения была определена вычислением отношения идеальной составляющей мощности объекта #m к актуализованной составляющей его мощности (уравнение 4):
Это уравнение содержит единственные переменные, управляемые рендерером SAOC, -коэффициенты рендеринга, которые используются в процедуре перекодирования (транскодирования). Следовательно, если результирующая метрика искажения не будет превышать определенное пороговое значение Т, то это вводит некоторое условие для соответствующего коэффициента матрицы аудиорендеринга:
Первые N рядов А напрямую получены из уравнения (6.1.а). Вводится дополнительное ограничение, при котором энергия новых (ограниченных) коэффициентов рендеринга эквивалентна энергии заданных пользователем коэффициентов. Тогда решение для
(которые можно рассматривать как пороговые значения параметров рендеринга) будет выглядеть как:
x=(ATA)-1ATb
С этого момента можно начать рассматривать первую упрощенную схему компенсации искажения. Для SAOC-декодирования в декодер SAOC вместо коэффициентов матрицы рендеринга 242, получаемых непосредственно с пользовательского интерфейса, вводят эффективно примененный коэффициент рендеринга rm, 222 для объекта #m, предварительно модифицированный / ограниченный (например, регулятором коэффициентов рендеринга 240) на пофреймовой основе:
Как примечание, процедура компенсации зависит от индивидуальной энергии объектов в каждом конкретном фрейме. Подход прост, но имеет такие недостатки, как:
- он не учитывает относительный уровень громкости объекта и эффект перцептуального маскирования; и
- он улавливает только эффекты усиления выделенного объекта, но не улавливает эффекты ослабления усиления объекта.
Средством против этого могло бы быть установление более низкой границы значения [меры/метрики искажения] dm.
2.4.3 Схема компенсации #2
2.4.3.1 Обзор схемы компенсации
В этом разделе рассматриваются такие аспекты функции компенсации, как:
- мера искажения в рамках порога компенсации,
- деривация компенсированной матрицы рендеринга основано на функции компенсации и на расстоянии этой матрицы от исходной матрицы аудиорендеринга.
Такая функция компенсации (или схема компенсации) может выполняться, например, регулятором коэффициентов рендеринга 250 во взаимодействии с вычислителем искажений 260.
Мера искажения является функцией от матрицы аудиорендеринга, следовательно:
- исходная матрица рендеринга (описываемая, к примеру, входными коэффициентами рендеринга 242) формирует исходную меру искажения,
- оптимальная мера искажения формирует оптимальную матрицу аудиорендеринга, однако удаленность этой оптимальной матрицы аудиорендеринга от исходной матрицы рендеринга может быть не оптимальной,
- мера искажения линейно обратно пропорциональна расстоянию от матрицы аудиорендеринга до исходной матрицы рендеринга,
- для конкретного порогового значения компенсированная матрица рендеринга (описанная, например, скорректированными или модифицированными коэффициентами рендеринга 222) формируется интерполяцией (например, линейной) между исходной и оптимальной рабочими точками.
Кроме того, делают допущение, что мощность сигнала в результате рендеринга в каждой рабочей точке приблизительно постоянна, так, что
Схему компенсации #2 можно использовать с различными мерами искажения, что будет рассмотрено дальше.
2.4.3.2 Ограничение меры искажения #1
В каждом диапазоне параметров мера искажения dm1(m) для интересующего объекта m определяется как
Оптимальная матрица аудиорендеринга формируется при задании dm1(m) оптимального значения, т.е. dm1,opt(m)=1
Соответственно, оптимальные значения
матрицы рендеринга могут быть получены при применении системы уравнений, где
заменено на
.
При предварительно заданном пороговом значении T для dm1(m) компенсированную матрицу рендеринга получаем из
2.4.3.3 Ограничение меры искажения #2а
Меру искажения dm2a(m), которая иногда также кратко обозначается как ”dm2(m)”,определяют следующим образом:
для объекта m и каждого диапазона параметров. Для определенного диапазона pb параметров отношение маска-сигнал msr(pb) является функцией мощности сигнала, полученного рендерингом
Оптимальным значением меры искажения является ноль, т.е. dm2a,opt(m)=0. Это соответствует безупречному безошибочному транскодированию. Отсюда, оптимальная матрица рендеринга дает
При dm2a(m)=T компенсированная матрица рендеринга, которая может быть описана модифицированными коэффициентами рендеринга 222, приобретает вид
2.4.3.4 Ограничение меры искажения #2b
Мера искажения dm2b(m), иногда кратко обозначаемая dm2'(m) может быть также использована устройством 240 для выработки компенсированной матрицы рендеринга, которая может быть описана модифицированными коэффициентами рендеринга 222, исходя из входных коэффициентов рендеринга 242.
2.4.3.5 Ограничение меры искажения #4
Мера искажения dm4(m) определяется как
для объекта m и каждого диапазона параметров, и его оптимальное значение dm4,opt(m)=0.
Как результат оптимальная и компенсированная матрицы рендеринга приобретают вид:
и
Следовательно, устройство 240 может генерировать модифицированные коэффициенты рендеринга 222 на основании входных коэффициентов рендеринга 242, а также на основании меры искажения 252, который может быть равной четвертой мере искажения dm^ {т)
2.4.4 Схема компенсации #3
В соответствии с формулой (6.1.а) ограниченный коэффициент рендеринга для объекта т может быть вычислен для меры искажения #3 следующим образом. После сокращений
получаем квадратное уравнение
чье (положительное) решение представляет собой
Таким образом, устройство 240 может предусматривать предельные значения
параметров рендеринга и может ограничивать регулируемые (или модифицируемые) коэффициенты рендеринга 222 в соответствии с указанными предельными значениями параметров рендеринга.
2.4.5 Дополнительная подстройка
Описанная выше концепция ограничения коэффициентов рендеринга 222, вырабатываемых раздельно или в комплексе устройством 240, предусматривает последующую оптимизацию. Например, возможно сведение в М-канальное представление (рендеринг). Для этого может быть использована сумма квадратов/степень коэффициентов рендеринга вместо одного коэффициента рендеринга.
Кроме того, возможно сведение в стереосигнал понижающего микширования. С этой целью может быть применена сумма квадратов/степень коэффициентов понижающего микширования вместо одного коэффициента понижающего микширования.
В некоторых версиях реализации метрики искажений могут быть объединены по частотам в одну, используемую для контроля деградации. Иногда, наоборот, предпочтительнее (и проще) контролировать искажения независимо по каждой частотной полосе.
Многие концепции могут найти приложение для актуализации контроля искажений. Например, ограничения могут быть введены для одного или более коэффициентов рендеринга. В другом случае или дополнительно можно лимитировать матричный коэффициент т2 (например, при декодировании в формате MPEG Surround). Вместо этого или вместе с этим, может быть ограничен относительный коэффициент усиления объекта.
3. Конструктивное решение на фиг.3
Далее, со ссылкой на фиг.3 будет рассмотрен еще один возможный вариант компоновки декодера SAOC. Сначала, для ознакомления с тематикой кратко обсудим основные положения. На выходе системы „пространственного кодирования аудиообъекта" (SAOC) (согласно стандарту ISO/IEC 23003-2) могут возникать артефакты, зависящие от свойств конкретного аудиообъекта и взаимодействия между матрицей аудиорендеринга и матрицей понижающего микширования. Чтобы пояснить суть проблемы, рассмотрим, сохраняя общий подход, случай, где матрица понижающего микширование и матрица рендеринга имеют одну размерность. Соответствующие соображения остаются в силе при разном количества каналов понижающего микширования и воспроизводимой рендерингом сцены.
Как установлено, в целом, вероятность появления артефактов возрастает при значительном несовпадении матрицы аудиорендеринга с матрицей понижающего микширования. Различают несколько типов артефактов:
1. Недостатки рендеринга, то есть отличие матрицы „фактического" аудиорендеринга от матрицы желаемого аудиорендеринга, вводимой в декодер SAOC (получаемое в действительности ослабление или усиление аудиообъекта не соответствует тому, что задано в матрице аудиорендеринга). Обычно это происходит в результате перекрывания объектов в определенных параметрических диапазонах.
2. Нежелательные и, возможно, изменяющиеся во времени, колебания тембра аудиообъекта. Этот артефакт особенно неблагоприятен, когда „рассеяние", упомянутое в 1., возникает только локально в отдельном параметрическом диапазоне.
3. Такие артефакты, как модуляции сигналов объектов, тональных сигналов или модуляция шума, вызванные вариантной по времени и частоте обработкой сигналов декодером SAOC.
Было сделано заключение о необходимости минимизации всех типов артефактов.
Унифицированный подход к решению этой проблемы и к минимизации артефактов должен включать в себя вариантный по времени и частоте пост-процессинг (доработку) матрицы желаемого рендеринга перед ее введением в декодер SAOC. Такой подход отображен на фиг.3.
На фиг.3 дана принципиальная блочная схема декодера SAOC 300. Декодер SAOC 300 для краткости может быть назван как декодер аудиосигнала. Декодер аудиосигнала 300 имеет в своем составе ядро декодера SAOC 310, реализованное с целью приема представления сигнала понижающего микширования 312 и битстрима SAOC 314 и с целью формирования на их основе описания 316 преобразованной рендерингом сцены, например, в форме представления множества аудиоканалов повышающего микширования.
Также, декодер аудиосигнала 300 включает в свой состав подавитель артефактов 320, который, в частности, может быть выполнен в форме устройства оптимизации одного и более параметров на базе одного или более входных параметров. Подавитель артефактов 320 принимает информацию 322 о матрице произвольно выбранного (желаемого) рендеринга. Информация 322 может быть в виде, например, множества произвольно заданных (желаемых) параметров рендеринга, которые могут содержать входные данные для подавления артефактов. Кроме того, подавитель артефактов 320 принимает представление даунмикс-сигнала 312 и битстрим SAOC 314, причем битстрим SAOC 314 может содержать объектно-ориентированную параметрическую информацию. Далее, подавитель артефактов 320 генерирует модифицированную матрицу аудиорендеринга 324 (например, в форме множества скорректированных параметров рендеринга) в зависимости от информации 322 о желаемой матрице рендеринга.
Следовательно, ядро декодера SAOC 310 характеризуется тем, что формирует представление 316 звуковой сцены на основании представления сигнала понижающего микширования 312, потока двоичных данных пространственного кодирования аудиообъекта (SAOC) 314 и модифицированной матрицы аудиорендеринга 324.
Далее дана краткая детализация конструктивных возможностей декодера аудиосигнала. Выявлено, что для оценки риска возникновения артефактов из-за потенциально ограниченных сепарационных возможностей системы SAOC для конкретной желаемой рендеринг-матрицы следует задействовать как даунмикс-сигнал (в представлении даунмикс-сигнала 312), так и битстрим SAOC 314. Наличие этих данных позволяет реализовать попытку устранить такие артефакты путем, допустим, модификации матрицы звукоотображения (аудиорендеринга). Эту функцию реализует подавитель артефактов 320. Передовые подходы к подавлению учитывают наряду с ограничениями системы SAOC по временной и частотной селективности (за счет перекрывания), также психоакустические эффекты, что означает, что эти подходы нацелены на формирование в процессе рендеринга аудиосигнала, как можно более приближенного к желаемому звучанию на выходе с как можно меньшим числом воспринимаемых на слух артефактов.
Предпочтительный подход к устранению артефактов, реализованный в декодере аудиосигнала 300 на фиг.3, основан на применении совокупной меры искажения, которая является взвешенной комбинацией мер искажения, оценивающих различные виды упомянутых выше артефактов. Эти весовые показатели устанавливают оптимальное соотношение между различными видами названных артефактов. Следует указать на то, что весовые показатели для этих разновидностей артефактов могут зависеть от назначения применения системы SAOC.
Другими словами, подавитель артефактов 320 реализуется с возможностью определения мер искажения для множества разновидностей артефактов. Например, возможно применение подавителем артефактов 320 некоторых мер искажения dm1 к dm6, рассмотренному выше. Как вариант, или дополнительно, подавитель артефактов 320 может использовать другие меры искажения, описывающие другие типы артефактов, о которых говорилось в текущем разделе. Более того, подавление артефактов может предусматривать формирование модифицированной матрицы рендеринга 324 на базе матрицы произвольно задаваемого рендеринга 322 с задействованием одной или более схем компенсации искажений, которые рассматривались выше (например, в разделах 2.4.2, 2.4.3 и 2.4.4), или сопоставимых схем гашения артефактов.
4. Транскодеры аудиосигнала на фиг.5а и 5b
4.1 Транскодер аудиосигнала на фиг.5а
Следует отметить, что концепции, рассмотренные выше, могут быть отнесены как к декодеру, так и к транскодеру аудиосигнала. Ранее фиг.2 и 3 были использованы для иллюстрации концепции изобретения при компоновке в сочетании с декодерами аудиосигнала. Далее приложение концепции изобретения будет кратко рассмотрено в варианте компоновки с транскодерами аудиосигнала.
Обратим внимание на то, что элементы сходства аудиодекодеров и аудиотранскодеров уже обсуждались со ссылкой на фиг.9а, 9b и 9c, поэтому данные ранее пояснения остаются в силе для концепции изобретения.
Фиг.5а отображает принципиальную блочную схему транскодера аудиосигнала 500 в компоновке с декодером формата MPEG Surround 510. Как можно видеть, аудиотранскодер 500, например, транскодер SAOC в MPEG Surround, реализован с возможностью приема битстрима SAOC 520 и генерации на его основе битстрима MPEG Surround 522 без модификации или воздействия на представление даунмикс-сигнала 524. Аудиотранскодер 500 включает в свой состав анализатор SAOC 530, предназначенный для приема битстрима SAOC 520 и извлечения из него необходимых параметров SAOC. Далее, аудиотранскодер 500 включает в себя процессор рендеринга сцены 540, предназначенный для приема параметров SAOC, поступающих от анализатора SAOC 530, и данных матрицы аудиорендеринга 542, которые можно рассматривать как данные (матрицы) актуализированного рендеринга, и которые могут быть представлены, например, в форме множества скорректированных (или модифицированных) параметров аудиорендеринга. Процессор рендеринга сцены 540 генерирует битстрим MPEG Surround 522, исходя из названных параметров SAOC и матрицы рендеринга 542. С этой целью процессор рендеринга сцены 540 рассчитывает параметры битстрима MPEG Surround 522, являющиеся параметрами каналов (называемыми также параметрическими данными). Таким образом, процессор рендеринга сцены 540 выполняет функцию преобразования (или перекодирования - „транскодирования") параметров битстрима SAOC 520, представляющих собой поток объектно-ориентированной параметрической информации, в параметры битстрима MPEG Surround, содержащие параметрические данные каналов, на основании актуализованной матрицы аудиорендеринга 542.
Кроме того, транскодер аудиосигнала 500 включает в свой состав генератор актуализованной матрицы аудиорендеринга 550, который принимает информацию о матрице желаемого рендеринга, например, в виде данных построения звукового образа 552 и пространственной конфигурации акустических объектов 554. В другом случае генератор актуализованной матрицы рендеринга 550 может принимать информацию о произвольно заданных параметрах рендеринга (например, элементы матрицы аудиорендеринга). Кроме того, генератор матрицы аудиорендеринга принимает битстрим SAOC 520 (или, по меньшей мере, набор объектно-ориентированных параметров из битстрима SAOC 520). Далее, на базе полученной информации генератор матрицы рендеринга 550 формирует актуализованную (откорректированную или модифицированную) матрицу аудиорендеринга 542. В этих пределах генератор актуализованной матрицы рендеринга 550 может выполнять функции устройства 100 или устройства 240.
Декодер MPEG Surround 510 стандартно реализован для вырабатывания множества сигналов апмикс-каналов на базе информации даунмикс-сигнала 524 и потока данных MPEG Surround 522, поступающего от процессора рендеринга сцены 540.
Итак, транскодер аудиосигнала 500 характеризуется тем, что формирует битстрим MPEG Surround 522 который позволяет на базе представления сигнала понижающего микширования 524 формировать представление сигнала повышающего микширования, которое, в основном, строится декодером MPEG Surround 510. Генератор актуализованной матрицы рендеринга 550 настраивает матрицу аудиорендеринга 542, используемую процессором рендеринга сцены 540, таким образом, чтобы представление сигнала повышающего микширования, генерируемое декодером MPEG Surround 510, не содержало неприемлемое слышимое искажение.
4.2 Транскодера аудиосигнала на фиг.5b
На фиг.5b показан вариант компоновки транскодера аудиосигнала 560 и декодера MPEG Surround 510. Очевидно, что компоновка на фиг.5b сходна с фиг.5а, в силу чего для обозначения идентичных аппаратных средств и сигналов использованы одинаковые номера ссылок. Аудиотранскодер 560 отличается от аудиотранскодера 500 тем, что имеет в своем составе транскодер сигнала понижающего микширования 570, который принимает входящее представление даунмикс-сигнала 524 и формирует модифицированное представление даунмикс-сигнала 574, которое пересылает на декодер MPEG Surround 510. Модификация представления сигнала понижающего микширования необходима для большей гибкости при построении желаемого акустического результата. Это является следствием того, что битстрим MPEG Surround 522 не может выполнять некоторые преобразования входного сигнала декодера MPEG Surround 510 в сигналы канала повышающего микширования, выводимые декодером MPEG Surround 510. В силу этого, модификация представления даунмикс-сигнала транскодером даунмикс-сигнала 570 обеспечивает лучшую адаптивность.
Вновь, генератор актуализованной матрицы рендеринга 550 может взять на себя функции устройства 100 или устройства 240, обеспечивая таким образом сохранение вполне низкого уровня слышимых искажений в представлении сигнала повышающего микширования, генерируемом декодером MPEG Surround 510.
5. Кодер аудиосигнала на фиг.6
Далее, рассмотрим кодер аудиосигнала 600, опираясь на фиг.6, где представлена принципиальная блочная схема такого аудиокодера. Аудиокодер 600 реализован с целью получения на входе множества сигналов объектов 612а, 612N (обозначенных также x1-xN) и формирования на их основе представления даунмикс-сигнала 614 и объектно-ориентированной параметрической информации 616. Аудиокодер 600 включает в себя понижающий микшер 620, генерирующий один или более даунмикс-сигналов (которые составляют представление даунмикс-сигнала 614), используя коэффициенты понижающего микширования d1-dN, соотнесенные с сигналами объектов, таким образом, что один или более даунмикс-сигналов отображают суперпозицию совокупности сигналов объектов. Кроме того, аудиокодер 600 включает в себя драйвер доступа к служебной информации 630, обеспечивающий дополнительные данные межобъектного соотношения, описывающие разности уровней и характеристики корреляции двух или более сигналов объектов 612а-612N. Кроме обозначенного, драйвер доступа к служебной информации 630 обеспечивает сопутствующие данные обособленных объектов, описывающие одно или более специфических свойств сигналов обособленных объектов.
Таким образом, кодер аудиосигнала 600 формирует объектно-ориентированную параметрическую информацию 616, которая должна содержать дополнительные данные межобъектного соотношения и индивидуальную сопроводительную информацию аудиообъекта.
Было установлено, что объектно-ориентированная параметрическая информация, которая отражает одновременно взаимосвязь между сигналами объектов и индивидуальные характеристики сигналов обособленных объектов, позволяет построить многоканальный акустический сигнал с использованием декодера аудиосигнала, как обсуждалось выше. Дополнительные данные межобъектного соотношения могут быть полезны для использования аудиодекодером, который принимает объектно-ориентированную параметрическую информацию 616 для извлечения из представления сигнала понижающего микширования, хотя бы приближенно, сигналов обособленных объектов. Сопроводительная информация обособленного объекта, включенная в объектно-ориентированную параметрическую информацию 614, может быть использована декодером аудиосигнала для контроля в процессе повышающего микширования за искажениями избыточной мощности, чтобы параметры повышающего микширования (например, параметры рендеринга) могли быть скорректированы.
Предпочтительно, чтобы драйвер доступа к служебной информации 630 отличался возможностью предоставлять дополнительные данные обособленных объектов таким образом, чтобы они описывали тональные характеристики сигналов обособленных объектов. Было выявлено, что тональные характеристики могут служить надежным критерием оценки того, возникают, или нет, в процессе повышающего микширования существенные искажениям.
Здесь также следует отметить, что аудиокодер 600 может быть дополнен любой из рассмотренных ранее конструктивных и функциональных возможностей кодера аудиосигналов, и что аудиокодер 600 может сформировать представление даунмикс-сигнала 614 и объектно-ориентированную параметрическую информацию 616 таким образом, что они будут содержать те характеристики, которые рассматривались как необходимые для функционирования относящегося к изобретению декодера аудиосигнала.
6. Аудиобитстрим на фиг.7
На фиг.7 схематически представлен поток двоичного представления звука (аудиобитстрим) 700, относящийся к заявляемому изобретению. Аудиобитстрим представляет собой множество сигналов объектов в кодированной форме.
Аудиобитстрим 700 включает в себя представление сигнала понижающего микширования 710, содержащее один или более сигналов понижающего микширования, из которых, по меньшей мере, один микшированный с понижением сигнал отображает суперпозицию совокупности сигналов объектов. Аудиобитстрим 700 включает в себя также дополнительные данные межобъектного соотношения 720, описывающие разности уровней и корреляционные характеристики сигналов объектов. Кроме того, аудиобитстрим заключает в себе служебную информацию о индивидуальных объектах 730, отражающую одно или более специфических свойств сигналов обособленных объектов (которые составляют основу представления даунмикс-сигнала 710).
Дополнительные данные межобъектного соотношения и информация о индивидуальных объектах может рассматриваться как совокупная объектно-ориентированная служебная параметрическая информация.
Предпочтительное конструктивное решение отличается тем, что вспомогательные данные обособленного объекта описывают тональные характеристики сигналов обособленного объекта.
Как и надлежит, аудиобитстрим 700 стандартно генерируется кодером аудиосигнала, о чем говорилось выше, и обрабатывается декодером аудиосигнала, что также обсуждалось здесь. Аудиобитстрим (как поток двоичного представления звука) содержит характеристики, необходимые для работы аудиокодера и аудиодекодера, что также не осталось здесь без внимания. Следовательно, аудиобитстрим 700 полностью удовлетворяет условиям формирования многоканального акустического сигнала с использованием декодера аудиосигнала, о чем здесь также шла речь.
7. Заключение
Рассмотренные реализации заявляемого изобретения обеспечивают решение изложенной выше проблемы ослабления или предупреждения искажений, возникающей вследствие того, что одиночные исходные сигналы объекта-источника не могут быть восстановлены идеально из немногих транслируемых микшированных с понижением сигналов.
Известны более простые способы решения этой задачи:
- упрощенно это выглядит как ограничение диапазона относительного коэффициента усиления объекта, например, до +/-12 dB. Хотя, это справедливо, столь высокие уставки коэффициента усиления объекта могут привести к различимой на слух деградации звука (пример: усиление одного объекта на 20 дБ при сохранении уровней других объектов на 0 дБ), тем более, что в этом нет необходимости. Например, усиление всех относительных уровней объектов с одинаковым коэффициентом не ухудшает качество выхода системы.
- Более сложным выглядит подход, при котором относительные уровни объектов изменяются по-разному. При рендеринге (звукоотображении) двух аудиообъектов разница двух относительных уровней этих объектов, несомненно, представляет собой источник возможной деградации выходного сигнала аудиорендеринга. Тем менее понятно, как этот аспект распространяется на рендеринг более, чем двух объектов.
В данной ситуации конструктивные решения, относящиеся к изобретению, предоставляют средства, обеспечивающие возможность обращения к этой проблеме и, тем самым, предупреждения нежелательного пользовательского опыта. Некоторые варианты осуществления настоящего изобретения могут послужит основой для еще более сложных решений, чем предложены в предыдущих разделах.
Следовательно, при использовании настоящего изобретения положительное слуховое впечатление достигается, даже если пользователь задает неблагоприятные параметры рендеринга.
Говоря в целом, реализации заявляемого изобретения относятся к устройству, способу или компьютерной программе, предназначенных для кодирования аудиосигнала или декодирования закодированного аудиосигнала, или к кодированному аудиосигналу (например, в форме аудиобитстрима), как описано выше.
8. Альтернативные решения
Несмотря на то, что здесь в основном рассматривается оборудование с точки зрения его технического устройства, понятно, что аспекты материальной части тесно связаны с описанием соответствующих способов ее применения, и какое-либо изделие или блок соответствуют особенностям метода или технологической операции. Аналогично, рассматриваемые технологии и рабочие операции непосредственно связаны с соответствующим машинным оборудованием и его элементной базой. Некоторые или все шаги предлагаемого способа могут быть выполнены с использованием аппаратных средств, таких, например, как микропроцессор, программируемый компьютер или электронная схема. В некоторых случаях осуществления одна или больше ответственных операций, составляющих данный способ, могут быть выполнены таким устройством.
Относящийся к изобретению кодированный аудиосигнал или аудиобитстрим могут быть сохранены на цифровом носителе или могут передаваться с использованием средств беспроводной или проводной связи, например, Интернета.
В зависимости от конечного назначения и особенностей практического применения изобретение может быть реализовано в аппаратных или программных средствах. В реализации могу быть применены такие цифровые носители информации, как гибкий диск, DVD, „Блю-рей", CD, ПЗУ, ППЗУ, программируемое ПЗУ, СППЗУ или ФЛЭШ-память, содержащие электронно-считываемые управляющие сигналы, которые взаимодействуют (или совместимы) с программируемой компьютерной системой таким образом, что предлагаемый способ может быть осуществлен. Следовательно, цифровая среда хранения данных может быть читаемой компьютером.
Некоторые варианты конструкции согласно данному изобретению имеют в своем составе носитель информации, содержащий электронно считываемые сигналы управления, совместимый с программируемой компьютерной системой и способный участвовать в реализации одного из описанных здесь способов.
В целом данное изобретение может быть реализовано как компьютерный программный продукт с кодом программы, обеспечивающим осуществление одного из предлагаемых способов при условии, что компьютерный программный продукт используется с применением компьютера. Код программы может, например, храниться на машиночитаемом носителе.
Различные варианты реализации включают в себя компьютерную программу, хранящуюся на машиночитаемом носителе, для осуществления одного из описанных здесь способов.
Таким образом, формулируя иначе, относящийся к изобретению способ осуществляется с помощью компьютерной программы, имеющей код программы, обеспечивающий реализацию одного из описанных здесь способов, если компьютерную программу выполняют с использованием компьютера.
Далее, следовательно, техническое исполнение изобретенного способа включает в себя носитель данных (либо цифровой накопитель информации, либо читаемую компьютером среду), содержащий записанную на нем компьютерную программу, предназначенную для осуществления одного из способов, описанных здесь.
Отсюда следует, что реализация изобретения подразумевает наличие потока данных или последовательности сигналов, представляющих компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов могут быть рассчитаны на передачу через средства связи, например, Интернет.
Кроме того, реализация включает в себя аппаратные средства, например, компьютер или программируемое логическое устройство, предназначенные или приспособленные для осуществления одного из описанных здесь способов.
Далее, для технического исполнения требуется компьютер с установленной на нем компьютерной программой для осуществления одного из описанных здесь способов.
Некоторые версии конструкции для реализации одной или всех функциональных возможностей описанных здесь способов могут потребовать применения программируемого логического устройства (например, полевой программируемой матрицы логических элементов). В зависимости от назначения версии базовый матричный кристалл может сочетаться с микропроцессором с целью осуществления одного из описанных здесь способов. Как правило, описываемые способы могут быть реализованы с использованием любого аппаратного средства.
Описанные выше конструктивные решения являются только иллюстрациями основных принципов настоящего изобретения. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого, представленные здесь описания и пояснения вариантов реализации изобретения ограничиваются только рамками патентных требований, а не конкретными деталями.
Список литературы
[ВСС] С.Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[JSC] С.Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752.
[SAOC1] J. Herre, S. Disch, J. Hilpert, 0. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J.Engdegard, B.Resch, C.Falch, O.Hellmuth, J.Hilpert, A.Hölzer, L.Terentiev, J.Breebaart, J.Koppens, E.Schuijers and W.Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377.
Claims (36)
1. Устройство (100; 240; 320; 550) для оптимизации одного или более параметров (120; 222; 324; rm', rlim,m) представления сигнала повышающего микширования (; 316; 522, 524; 522, 574), которое является представлением аудиосигнала повышающего микширования, на основе представления сигнала понижающего микширования (212; 312; 524), при котором несколько сигналов аудиообъектов микшируются с понижением в сигнал понижающего микширования, и обеспечения объектно-ориентированной параметрической информации (214; 314; 520), включающее: регулятор параметров (140; 240), выполненный с возможностью принимать один или более входных параметров (110; 242; 322; 552, 554; ri) и на их основе генерировать один или более оптимизированных параметров (120; 222; 324; 542), причем регулятор параметров характеризуется тем, что генерирует один или более оптимизированных параметров в зависимости от одного или более входных параметров и объектно-ориентированной параметрической информации (130; 214а, 214b, 214с; 314; 520) таким образом, что искажение представления сигнала повышающего микширования, вызванное приложением неоптимальных параметров, уменьшается, по меньшей мере, для входных параметров, которые имеют отклонение от оптимальных параметров, выходящее за установленный допустимый диапазон отклонений; при этом устройство предназначено для приема в качестве входных параметров (110; 242; 322; 552, 554; ri) желаемых параметров аудиорендеринга (ri), описывающих желаемое масштабирование интенсивности множества сигналов аудиообъектов (x1-xN) по одному или более аудиоканалов, описанных в представлении сигнала повышающего микширования (; 316; 522, 524; 522, 574); и в его составе регулятор параметров обеспечивает в качестве оптимизированных параметров один или более актуализованных параметров аудиорендеринга (rm', rlim,m) исходя из одного или более желаемых параметров аудиорендеринга (ri) и объектно-ориентированной параметрической информации.
2. Устройство по п. 1, в котором регулятор параметров выполнен с возможностью генерировать одно или более пороговых значений параметров рендеринга в зависимости от объектно-ориентированной параметрической информации (130; 214а, 214b, 214с; 314; 520) и информации понижающего микширования (214b; di), описывающих соотношение составляющих сигналов аудиообъектов (x1-xN) для представления сигнала понижающего микширования, при этом генерировать таким образом, что метрика искажений (dm1(m),dm2(m),dm5(m),dm6(m), DM1, DM2, DM3, DM4, DM5, DM6) находится в пределах заданного диапазона значений параметров рендеринга, удовлетворяющих интервалу значений, установленному предельными значениями параметров рендеринга, и в составе которого регулятор параметров выполнен с возможностью выведения актуализованных параметров аудиорендеринга (rm', rlim,m) исходя из желаемых параметров аудиорендеринга (ri) и одного или более пороговых значений параметров рендеринга таким образом, что актуализованные параметры рендеринга удовлетворяют интервалу значений, заданному предельными значениями параметров аудиорендеринга.
3. Устройство по п. 1, в котором регулятор параметров выполнен с возможностью выведения одного или более пороговых значений параметров рендеринга таким образом, что относительная составляющая сигнала объекта (x1-xN) в суперпозиции из множества сигналов объектов, сформированной в процессе аудиорендеринга с использованием одного или более параметров рендеринга (rm', rlim,m), отвечающих одному или более пороговым значениям параметров рендеринга, отличается от относительной составляющей сигнала объекта (x1-xN) в структуре микшированного с понижением сигнала (212; 312; 524) не больше, чем на расчетную разность.
4. Устройство по п. 3, в котором регулятор параметров выполнен с возможностью расчета одного или более значений параметров рендеринга rm таким образом, что уравнение
выполняется для одного или более аудиообъектов, обозначенных индексом объекта m, где rm - параметр рендеринга, описывающий составляющую сигнала аудиообъекта с индексом m в определенном канале микшированного с повышением сигнала, где dm - параметр понижающего микширования, описывающий составляющую сигнала объекта (x1-xN) с индексом m в микшированном с понижением сигнале, и
где Xi - мера энергии аудиообъекта с индексом i, определяемая объектно-ориентированной параметрической информацией.
выполняется для одного или более аудиообъектов, обозначенных индексом объекта m, где rm - параметр рендеринга, описывающий составляющую сигнала аудиообъекта с индексом m в определенном канале микшированного с повышением сигнала, где dm - параметр понижающего микширования, описывающий составляющую сигнала объекта (x1-xN) с индексом m в микшированном с понижением сигнале, и
где Xi - мера энергии аудиообъекта с индексом i, определяемая объектно-ориентированной параметрической информацией.
5. Устройство по п. 1, в котором регулятор параметров выполнен с возможностью выведения одного или более предельных значений параметров рендеринга таким образом, что мера искажения (DM3), описывающая когерентность даунмикс-сигнала, отраженную в представлении даунмикс-сигнала, и сигнала, полученного рендерингом с использованием одного или более параметров аудиорендеринга (rm), удовлетворяющих одному или более предельным значениям параметров рендеринга , находится в пределах заданного диапазона.
6. Устройство по п. 5, в котором регулятор параметров выполнен с возможностью
выведения одного или более предельных значений параметров рендеринга для так, чтобы мера искажения
принимала заданное значение, где С определяется как
характеризующееся тем, что
- матрица, в которой первый ряд параметров рендеринга r1-rn и второй ряд параметров понижающего микширования d1-dn описывают составляющие сигналов аудиообъектов в структуре представления сигнала понижающего микширования;
где Е - матрица ковариации объектов, сформированная с использованием параметров (OLD, IOC) объектно-ориентированной параметрической информации, и где "*" - комплексно-сопряженный оператор.
выведения одного или более предельных значений параметров рендеринга для так, чтобы мера искажения
принимала заданное значение, где С определяется как
характеризующееся тем, что
- матрица, в которой первый ряд параметров рендеринга r1-rn и второй ряд параметров понижающего микширования d1-dn описывают составляющие сигналов аудиообъектов в структуре представления сигнала понижающего микширования;
где Е - матрица ковариации объектов, сформированная с использованием параметров (OLD, IOC) объектно-ориентированной параметрической информации, и где "*" - комплексно-сопряженный оператор.
7. Устройство по п. 1, в котором регулятор параметров выполнен с возможностью вычисления линейной комбинации квадрата желаемого параметра рендеринга (rm) и квадрата оптимального параметра рендеринга (ropt,m) для актуализации параметра аудиорендеринга (rlim,m), в составе которого регулятор параметров выполнен с возможностью расчета соотношения составляющих желаемого параметра рендеринга (rm) и оптимального параметра рендеринга (ropt,m) в линейной комбинации, исходя из заданного порогового параметра Т и метрики искажения (dm1, dm2, dm3, dm4, dm5, dm6), описывающей искажение, возможное в случае применения одного или более желаемых параметров аудиорендеринга (rm) вместо оптимальных параметров рендеринга (ropt,m) для формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования.
8. Устройство по п. 7, в котором регулятор параметров выполнен с возможностью вычисления уравнения
для актуализации (выведения актуализованного) параметра рендеринга rlim,m, описывающего составляющую сигнала объекта с индексом m в данном апмикс-сигнале,
где Т - расчетный предельный показатель искажения,
dmx (m) - метрика искажения, соотнесенная с желаемым параметром рендеринга rm, описывающим желаемую составляющую сигнала аудиообъекта с индексом объекта m в структуре канала апмикс-сигнала;
ropt,m - оптимальный параметр рендеринга, описывающий оптимальную составляющую сигнала аудиообъекта с индексом объекта m в канале апмикс-сигнала.
для актуализации (выведения актуализованного) параметра рендеринга rlim,m, описывающего составляющую сигнала объекта с индексом m в данном апмикс-сигнале,
где Т - расчетный предельный показатель искажения,
dmx (m) - метрика искажения, соотнесенная с желаемым параметром рендеринга rm, описывающим желаемую составляющую сигнала аудиообъекта с индексом объекта m в структуре канала апмикс-сигнала;
ropt,m - оптимальный параметр рендеринга, описывающий оптимальную составляющую сигнала аудиообъекта с индексом объекта m в канале апмикс-сигнала.
9. Устройство по п. 7, в котором регулятор параметров выполнен с возможностью расчета метрики искажения, находящейся в зависимости от соотношения составляющей сигнала объекта в суперпозиции множества сигналов объектов, образованной в процессе рендеринга с введением желаемых параметров рендеринга, и составляющей данного сигнала объекта в структуре даунмикс-сигнала, включающего в себя данный сигнал объекта.
10. Устройство по п. 7, в котором регулятор параметров выполнен с возможностью расчета метрики искажения (dm1), зависящей от соотношения составляющей данного сигнала объекта (x1-xN) в суперпозиции множества сигналов объектов, сформированной в процессе рендеринга с использованием желаемых параметров рендеринга (rm), и составляющей данного сигнала объекта (x1-xN) в даунмикс-сигнале, включающем в себя данный сигнал объекта (x1-xN).
11. Устройство по п 7, в в котором регулятор параметров выполнен с возможностью расчета метрики искажения dmx (m) согласно
где rm и ri - произвольно заданные (желаемые) параметры рендеринга, соотнесенные с аудиообъектами, имеющими индексы объектов m и i, соответственно;
dm и di - параметры понижающего микширования, описывающие относительные составляющие сигналов аудиообъектов с индексами объектов m и i, соответственно, в даунмикс-сигнале в представлении даунмикс-сигнала;
Nob - количество выделенных аудиообъектов;
Xi - показатели уровня энергии, относящиеся к сигналам аудиообъектов с индексом объекта i.
где rm и ri - произвольно заданные (желаемые) параметры рендеринга, соотнесенные с аудиообъектами, имеющими индексы объектов m и i, соответственно;
dm и di - параметры понижающего микширования, описывающие относительные составляющие сигналов аудиообъектов с индексами объектов m и i, соответственно, в даунмикс-сигнале в представлении даунмикс-сигнала;
Nob - количество выделенных аудиообъектов;
Xi - показатели уровня энергии, относящиеся к сигналам аудиообъектов с индексом объекта i.
12. Устройство по п. 7, в котором регулятор параметров выполнен с возможностью расчета метрики искажения (dm2), находящейся в зависимости от разности между относительной составляющей данного сигнала объекта (x1-xN) в суперпозиции множества сигналов объектов, сформированной в процессе аудиорендеринга с использованием желаемых параметров рендеринга (rm) и относительной составляющей данного сигнала объекта (x1-xN) в структуре сигнала понижающего микширования, включающего в себя данный сигнал объекта (x1-xN).
13. Устройство по п. 7, в котором регулятор параметров выполнен с возможностью расчета метрики искажения (dm2), находящейся в зависимости от отношения маска-сигнал (порога слышимости к сигналу) (msr), таким образом, что метрика искажения (dm2) убывает, служа показателем меньшего искажения, если отношение маска-сигнал возрастает.
14. Устройство по п. 7, в котором регулятор параметров выполнен с возможностью расчета метрики искажения на основании
или
где rm и ri - желаемые параметры рендеринга, соотнесенные с аудиообъектами, имеющими индексы объектов m и i, соответственно;
dm и di - параметры понижающего микширования, описывающие относительные составляющие сигналов аудиообъектов с индексами объектов m и i, соответственно, в даунмикс-сигнале в представлении даунмикс-сигнала;
N - количество выделенных аудиообъектов;
Xi и Xm - показатели уровня энергии, относящиеся к сигналам аудиообъектов с индексами объекта i и m, соответственно; и
msr - отношение маска-сигнал.
или
где rm и ri - желаемые параметры рендеринга, соотнесенные с аудиообъектами, имеющими индексы объектов m и i, соответственно;
dm и di - параметры понижающего микширования, описывающие относительные составляющие сигналов аудиообъектов с индексами объектов m и i, соответственно, в даунмикс-сигнале в представлении даунмикс-сигнала;
N - количество выделенных аудиообъектов;
Xi и Xm - показатели уровня энергии, относящиеся к сигналам аудиообъектов с индексами объекта i и m, соответственно; и
msr - отношение маска-сигнал.
15. Устройство по п. 1, в котором регулятор параметров выполнен с возможностью генерировать один или более оптимизированных параметров в зависимости от вычислительной меры перцепционной деградации таким образом, что перцептивно оцениваемое искажение представления сигнала повышающего микширования, возбужденное введением неоптимальных параметров и выраженное вычислительной мерой перцепционной деградации, ограничено.
16. Устройство по п. 1, в котором регулятор параметров выполнен с возможностью приема информации о свойствах обособленного объекта, описывающей характеристики одного или более сигналов исходного объекта, которые составляют основу сигнала понижающего микширования, описанного посредством представления сигнала понижающего микширования; и в составе которого регулятор параметров выполнен с возможностью учета индивидуальных данных обособленного объекта и генерации оптимизированных параметров таким образом, что искажение представления сигнала повышающего микширования относительно идеального представления сигнала повышающего микширования уменьшается, по крайней мере, для входных параметров, имеющих отклонение от оптимальных параметров, превышающее расчетное отклонение.
17. Устройство по п. 16, в котором регулятор параметров характеризуется тем, что принимает и учитывает в качестве индивидуальных данных аудиообъекта тональные характеристики сигнала объекта для формирования одного или более оптимизированных параметров.
18. Устройство по п. 17, в котором регулятор параметров характеризуется тем, что оценивает тональные характеристики (N) апмикс-сигнала идеального рендеринга исходя из полученной информации о тональных свойствах сигнала объекта и полученной информации о мощности объекта (OLD, Р); и в составе которого регулятор параметров характеризуется тем, что генерирует один или более оптимизированных параметров с целью уменьшения различия между оцененной тональностью и тональностью апмикс-сигнала, сформированного с использованием одного или более оптимизированных параметров, по сравнению с различием между оцененной тональностью и тональностью апмикс-сигнала, сформированного с использованием одного или более входных параметров, или с целью сохранения различия между оцененной тональностью и тональностью апмикс-сигнала, сформированного с использованием одного или более оптимизированных параметров в пределах заданного диапазона.
19. Устройство по п. 1, в составе которого регулятор параметров характеризуется тем, что выполняет подстройку входных параметров по частоте и времени.
20. Устройство по п. 1, в котором регулятор параметров характеризуется тем, что при формировании одного или более оптимизированных параметров учитывает также представление сигнала понижающего микширования.
21. Устройство по п. 1, в котором регулятор параметров характеризуется тем, что определяет совокупную меру искажения, представляющую собой взвешенную совокупность мер искажения, описывающих множество типов артефактов; в составе которого регулятор параметров характеризуется тем, что определяет совокупную меру искажения как меру искажений, которые могли быть вызваны введением одного или более входных параметров рендеринга вместо оптимальных параметров рендеринга при формировании представления сигнала повышающего микширования на основе представления сигнала понижающего микширования.
22. Устройство по п. 21, в котором регулятор параметров характеризуется тем, что объединяет по меньшей мере две из перечисленных ниже мер искажения для выработки совокупной меры искажения:
- мера, описывающая паразитное изменение тембра аудиообъекта;
- мера, описывающая паразитную модуляцию сигнала аудиообъекта;
- мера, описывающая присутствие паразитного музыкального тона;
- мера, описывающая наличие паразитного модулированного шума.
- мера, описывающая паразитное изменение тембра аудиообъекта;
- мера, описывающая паразитную модуляцию сигнала аудиообъекта;
- мера, описывающая присутствие паразитного музыкального тона;
- мера, описывающая наличие паразитного модулированного шума.
23. Декодер аудиосигнала (220; 240; 300;) для представления в виде сигнала повышающего микширования множества аудиоканалов повышающего микширования (; 316) на основе представления сигнала понижающего микширования (212; 312), объектно-ориентированной параметрической информации (214; 314) и параметров (желаемого) рендеринга (242; 322), включающий: повышающий микшер (220; 310), реализованный с целью формирования аудиоканалов повышающего микширования (; 316) на основе представления сигнала понижающего микширования (212; 312) с учетом объектно-ориентированной параметрической информации (214; 314) и актуализованных данных рендеринга (222; 324), описывающих пространственное расположение множества сигналов аудиообъектов, отображенных в объектно-ориентированной параметрической информации, для аудиоканалов повышающего микширования; и устройство (100; 240; 320) для оптимизации одного или более параметров, включающее регулятор параметров (140; 240), предназначенный для приема одного или более входных параметров (110; 242; 322; 552 554; ri) и выведения на его основе одного или более оптимизированных параметров (120; 222; 324; 542), при этом регулятор параметров выполнен с возможностью выведения одного или более оптимизированных параметров исходя из одного или более входных параметров и объектно-ориентированной параметрической информации (130; 214а, 214b, 214с; 314; 520) таким образом, что искажение представления сигнала повышающего микширования, вызванное использованием неоптимальных параметров, уменьшается по крайней мере для входных параметров, которые отклоняются от оптимальных параметров больше, чем на предусмотренную величину девиации, и в составе которого устройство для оптимизации одного и более параметров характеризуется тем, что принимает информацию о желаемом рендеринге (242; 322) в виде одного или более входных параметров (110) и генерирует один или более оптимизированных параметров (222; 324) в виде данных актуализированного рендеринга; и характеризуется тем, что генерирует один или более оптимизированных параметров таким образом, что искажения аудиоканалов повышающего микширования (; 316), вызванные использованием актуализованных параметров рендеринга (rm', rlim,m), которые имеют отклонения от оптимальных параметров рендеринга (ropt,m), уменьшаются, по крайней мере, для желаемых параметров рендеринга (ri), чье отклонение от оптимальных параметров рендеринга (ropt,m) превышает расчетное отклонение.
24. Транскодер аудиосигнала (500; 560) для представления в виде сигнала повышающего микширования (522) информации о параметрах каналов на основе представления сигнала понижающего микширования (524), объектно-ориентированной параметрической информации (520) и желаемых параметров рендеринга (552, 554), при этом транскодер служебной информации (540) реализован с целью подготовки параметрических данных каналов (522) на основе представления сигнала понижающего микширования (524) с учетом объектно-ориентированной параметрической информации (520) и актуализованных данных рендеринга (542), описывающих пространственное расположение множества сигналов аудиообъектов, отображенных в объектно-ориентированной параметрической информации (522), для аудиоканалов повышающего микширования, описываемых информацией о параметрах каналов; и устройство (100; 550) оптимизации одного или более параметров (542) включает регулятор параметров (140; 240), предназначенный для приема одного или более входных параметров (110; 242; 322; 552 554; ri) и генерирования на его основе одного или более оптимизированных параметров (120; 222; 324; 542), при этом регулятор параметров выполнен с возможностью выведения одного или более оптимизированных параметров исходя из одного или более входных параметров и объектно-ориентированной параметрической информации (130; 214а, 2Mb, 214 с; 314; 520) таким образом, что искажение представления сигнала повышающего микширования, вызванное использованием неоптимальных параметров, уменьшается по крайней мере для входных параметров, которые отклоняются от оптимальных параметров больше, чем на предусмотренную величину девиации, и где устройство оптимизации одного и более параметров принимает желаемые параметры рендеринга (552, 554) как один или более входных параметров (110) и формирует один или более оптимизированных параметров (120) в виде актуализованных данных рендеринга (542); и где устройство оптимизации одного или более параметров формирует один или более оптимизированных параметров (120) таким образом, что искажения аудиоканалов повышающего микширования, вызванные использованием актуализованных параметров рендеринга (542), отклоняющиеся от оптимальных параметров рендеринга, уменьшаются по крайней мере для желаемых параметров рендеринга (552, 554), отклоняющихся от оптимальных параметров рендеринга больше, чем на предусмотренную величину девиации.
25. Способ оптимизации одного или более параметров для представления сигнала повышающего микширования, которое является представлением аудиосигнала повышающего микширования на основе представления сигнала понижающего микширования, в котором несколько сигналов аудиообъектов микшированы с понижением в сигнал понижающего микширования, и объектно-ориентированной параметрической информации, для осуществления которого: принимают один или более входных параметров и генерируют на их основе один или более оптимизированных параметров, причем один или более оптимизированных параметров генерируют на основе одного или более входных параметров с учетом объектно-ориентированной параметрической информации таким образом, что искажение представления сигнала повышающего микширования, вызванное использованием неоптимальных параметров, уменьшается, по крайней мере, для входных параметров, имеющих отклонение от оптимальных параметров, превышающее расчетное отклонение; при этом выбранные по желанию параметры рендеринга, описывающие желаемое масштабирование интенсивности множества сигналов аудиообъектов по одному или более аудиоканалам, описанные посредством представления сигнала повышающего микширования, принимают как входные параметры; и при этом один или более актуализованных параметров рендеринга формируют как оптимизированные параметры в зависимости от одного или более желаемых параметров аудиорендеринга и объектно-ориентированной параметрической информации.
26. Способ формирования множества аудиоканалов повышающего микширования в виде представления сигнала повышающего микширования на базе представления сигнала понижающего микширования, объектно-ориентированной параметрической информации и задаваемых по желанию параметров рендеринга, для осуществления которого: оптимизируют один или более параметров на основе одного или более принятых входных параметров, где один или более оптимизированных параметров формируют исходя из одного или более входных параметров и объектно-ориентированной параметрической информации таким образом, что искажение представления сигнала повышающего микширования, вызванное использованием неоптимальных параметров уменьшается, по крайней мере, для входных параметров, отклоняющихся от оптимальных параметров больше, чем на предусмотренную величину девиации, и где желаемые параметры рендеринга принимают как один или более входных параметров, и где один или более оптимизированных параметров формируют как актуализованные данные рендеринга, и где один или более оптимизированных параметров формируют таким образом, что искажения аудиоканалов повышающего микширования, вызываемые использованием актуализованных параметров рендеринга, которые отклоняются от оптимальных параметров рендеринга, уменьшаются по крайней мере для желаемых параметров рендеринга, отклоняющихся от оптимальных параметров рендеринга больше, чем на предусмотренную величину девиации; и формируют аудиоканалы повышающего микширования на базе представления сигнала понижающего микширования с учетом объектно-ориентированной параметрической информации и актуализованных данных рендеринга, описывающих пространственное расположение множества сигналов аудиообъектов, отображенных в объектно-ориентированной параметрической информации, для аудиоканалов повышающего микширования.
27. Способ представления параметрических данных каналов в виде сигнала повышающего микширования на базе представления сигнала понижающего микширования, объектно-ориентированной параметрической информации и желаемых параметров рендеринга, для осуществления которого: оптимизируют один или более параметров на основе одного или более принятых входных параметров, где один или более оптимизированных параметров формируют исходя из одного или более входных параметров и объектно-ориентированной параметрической информации таким образом, что искажение представления сигнала повышающего микширования, вызванное использованием неоптимальных параметров, уменьшается по крайней мере для входных параметров, отклоняющихся от оптимальных параметров больше, чем на предусмотренную величину девиации, и где желаемые параметры рендеринга принимают как один или более входных параметров, и где один или более оптимизированных параметров формируют как актуализованные данные рендеринга, и где один или более оптимизированных параметров формируют таким образом, что искажения аудиоканалов повышающего микширования, вызываемые использованием актуализованных параметров рендеринга, которые отклоняются от оптимальных параметров рендеринга, уменьшаются по крайней мере для желаемых параметров рендеринга, отклоняющихся от оптимальных параметров рендеринга больше, чем на предусмотренную величину девиации; и
формируют информацию о параметрах каналов, которая описывает аудиоканалы повышающего микширования на основе представления сигнала понижающего микширования и исходя из объектно-ориентированной параметрической информации и актуализованных данных рендеринга, описывающих расположение множества сигналов аудиообъектов, отраженных в объектно-ориентированной параметрической информации для аудиоканалов повышающего микширования, которые содержатся в относящейся к каналам параметрической информации.
формируют информацию о параметрах каналов, которая описывает аудиоканалы повышающего микширования на основе представления сигнала понижающего микширования и исходя из объектно-ориентированной параметрической информации и актуализованных данных рендеринга, описывающих расположение множества сигналов аудиообъектов, отраженных в объектно-ориентированной параметрической информации для аудиоканалов повышающего микширования, которые содержатся в относящейся к каналам параметрической информации.
28. Кодер аудиосигнала (600), предназначенный для формирования представления сигнала понижающего микширования (614) и объектно-ориентированной параметрической информации (616) на основе множества сигналов объектов (x1-xN), включающий: понижающий микшер (620), генерирующий один или более сигналов понижающего микширования на основании даунмикс-коэффициентов (d1-dN), соотнесенных с сигналами объектов (x1-xN), таким образом, что один или более даунмикс-сигналов отображают множество наложенных сигналов объектов; драйвер доступа к служебной информации (630), обеспечивающий дополнительные данные межобъектного соотношения (OLD, IOC), описывающие разности уровней и корреляционные характеристики сигналов объектов (x1-xN), и сопутствующие данные обособленного объекта, описывающие одно или более индивидуальных свойств сигналов обособленных объектов (x1-xN).
29. Кодер по п. 28, в котором драйвер доступа к служебной информации (630) обеспечивает дополнительные данные обособленного объекта, описывающие тональные характеристики сигналов обособленного объекта (x1-xN).
30. Способ формирования представления сигнала понижающего микширования и объектно-ориентированной параметрической информации на материале массива сигналов объектов, для осуществления которого: формируют один или более микшированных с понижением сигналов в зависимости от даунмикс-коэффициентов, соотнесенных с сигналами объектов, таким образом, что один или более даунмикс-сигналов отображают совокупность наложенных сигналов объектов; и формируют дополнительные данные межобъектного соотношения, описывающие разности уровней и корреляционные характеристики сигналов объектов; и формируют сопутствующие данные обособленного объекта, описывающие одно или более индивидуальных свойств сигналов обособленных объектов.
31. Цифровой носитель информации с сохраненным на нем аудиобитстримом (700), представляющем множество сигналов объектов (x1-xN) в кодированной форме, содержащем представление даунмикс-сигнала (710), включающее один или более даунмикс-сигналов, из которых по меньшей мере один даунмикс-сигнал отображает наложение множества сигналов объектов; и служебную информацию о межобъектном соотношении (720), описывающую разности уровней и характеристики корреляции сигналов объектов; и сопутствующие данные обособленного объекта (730), описывающие одно или более индивидуальных свойств сигналов обособленных объектов.
32. Цифровой носитель по п. 31, в структуре которого сопутствующие данные обособленного объекта отображают тональные характеристики сигналов обособленных объектов.
33. Цифровой носитель информации с сохраненным на нем кодом компьютерной программы для осуществления способа по п. 25.
34. Цифровой носитель информации с сохраненным на нем кодом компьютерной программы для осуществления способа по п. 26.
35. Цифровой носитель информации с сохраненным на нем кодом компьютерной программы для осуществления способа по п. 27.
36. Цифровой носитель информации с сохраненным на нем кодом компьютерной программы для осуществления способа по п. 30.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US17345609P | 2009-04-28 | 2009-04-28 | |
| US61/173,456 | 2009-04-28 | ||
| PCT/EP2010/055717 WO2010125104A1 (en) | 2009-04-28 | 2010-04-28 | Apparatus for providing one or more adjusted parameters for a provision of an upmix signal representation on the basis of a downmix signal representation, audio signal decoder, audio signal transcoder, audio signal encoder, audio bitstream, method and computer program using an object-related parametric information |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| RU2011145866A RU2011145866A (ru) | 2013-05-27 |
| RU2573738C2 true RU2573738C2 (ru) | 2016-01-27 |
Family
ID=42272162
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| RU2011145866/08A RU2573738C2 (ru) | 2009-04-28 | 2010-04-28 | Устройство для оптимизации одного или более параметров представления сигнала повышающего микширования на основе представления сигнала понижающего микширования, декодер аудиосигнала, транскодер аудиосигнала, кодер аудиосигнала, аудиобитстрим, способ и компьютерная программа с использованием объектно-ориентированной параметрической информации |
Country Status (18)
| Country | Link |
|---|---|
| US (2) | US8731950B2 (ru) |
| EP (2) | EP2816555B1 (ru) |
| JP (2) | JP5554830B2 (ru) |
| KR (1) | KR101431889B1 (ru) |
| CN (1) | CN102576532B (ru) |
| AR (1) | AR076434A1 (ru) |
| AU (1) | AU2010243635B2 (ru) |
| BR (1) | BRPI1007777A2 (ru) |
| CA (2) | CA2760515C (ru) |
| ES (2) | ES2521715T3 (ru) |
| MX (1) | MX2011011399A (ru) |
| MY (1) | MY157169A (ru) |
| PL (2) | PL2425427T3 (ru) |
| RU (1) | RU2573738C2 (ru) |
| SG (1) | SG175392A1 (ru) |
| TW (2) | TWI529704B (ru) |
| WO (1) | WO2010125104A1 (ru) |
| ZA (1) | ZA201107895B (ru) |
Families Citing this family (42)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| MX2011011399A (es) | 2008-10-17 | 2012-06-27 | Univ Friedrich Alexander Er | Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto. |
| WO2011083979A2 (en) | 2010-01-06 | 2011-07-14 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
| CN116390017A (zh) | 2010-03-23 | 2023-07-04 | 杜比实验室特许公司 | 音频再现方法和声音再现系统 |
| US10158958B2 (en) | 2010-03-23 | 2018-12-18 | Dolby Laboratories Licensing Corporation | Techniques for localized perceptual audio |
| KR20120071072A (ko) * | 2010-12-22 | 2012-07-02 | 한국전자통신연구원 | 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법 |
| ITTO20120067A1 (it) * | 2012-01-26 | 2013-07-27 | Inst Rundfunktechnik Gmbh | Method and apparatus for conversion of a multi-channel audio signal into a two-channel audio signal. |
| CN121122295A (zh) | 2012-05-18 | 2025-12-12 | 杜比实验室特许公司 | 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统 |
| US10844689B1 (en) | 2019-12-19 | 2020-11-24 | Saudi Arabian Oil Company | Downhole ultrasonic actuator system for mitigating lost circulation |
| MY176410A (en) * | 2012-08-03 | 2020-08-06 | Fraunhofer Ges Forschung | Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases |
| MX350687B (es) * | 2012-08-10 | 2017-09-13 | Fraunhofer Ges Forschung | Métodos y aparatos para adaptar información de audio en codificación de objeto de audio espacial. |
| EP2896040B1 (en) * | 2012-09-14 | 2016-11-09 | Dolby Laboratories Licensing Corporation | Multi-channel audio content analysis based upmix detection |
| ES2924427T3 (es) * | 2013-01-29 | 2022-10-06 | Fraunhofer Ges Forschung | Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta |
| EP2804176A1 (en) | 2013-05-13 | 2014-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
| ES2640815T3 (es) * | 2013-05-24 | 2017-11-06 | Dolby International Ab | Codificación eficiente de escenas de audio que comprenden objetos de audio |
| KR101761099B1 (ko) * | 2013-05-24 | 2017-07-25 | 돌비 인터네셔널 에이비 | 오디오 인코딩 및 디코딩 방법들, 대응하는 컴퓨터-판독 가능한 매체들 및 대응하는 오디오 인코더 및 디코더 |
| CA3211326A1 (en) | 2013-05-24 | 2014-11-27 | Dolby International Ab | Coding of audio scenes |
| RU2745832C2 (ru) * | 2013-05-24 | 2021-04-01 | Долби Интернешнл Аб | Эффективное кодирование звуковых сцен, содержащих звуковые объекты |
| US9666198B2 (en) | 2013-05-24 | 2017-05-30 | Dolby International Ab | Reconstruction of audio scenes from a downmix |
| GB2515089A (en) * | 2013-06-14 | 2014-12-17 | Nokia Corp | Audio Processing |
| EP3014901B1 (en) | 2013-06-28 | 2017-08-23 | Dolby Laboratories Licensing Corporation | Improved rendering of audio objects using discontinuous rendering-matrix updates |
| ES2653975T3 (es) | 2013-07-22 | 2018-02-09 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Decodificador de audio multicanal, codificador de audio multicanal, procedimientos, programa informático y representación de audio codificada mediante el uso de una decorrelación de señales de audio renderizadas |
| EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
| EP2830048A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
| EP2830047A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for low delay object metadata coding |
| EP2830334A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals |
| EP2830053A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal |
| CN109903776B (zh) | 2013-09-12 | 2024-03-01 | 杜比实验室特许公司 | 用于各种回放环境的动态范围控制 |
| WO2015038522A1 (en) | 2013-09-12 | 2015-03-19 | Dolby Laboratories Licensing Corporation | Loudness adjustment for downmixed audio content |
| EP3561809B1 (en) * | 2013-09-12 | 2023-11-22 | Dolby International AB | Method for decoding and decoder. |
| EP2879131A1 (en) * | 2013-11-27 | 2015-06-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder, encoder and method for informed loudness estimation in object-based audio coding systems |
| CN105900169B (zh) | 2014-01-09 | 2020-01-03 | 杜比实验室特许公司 | 音频内容的空间误差度量 |
| KR102005298B1 (ko) | 2014-03-24 | 2019-07-30 | 돌비 인터네셔널 에이비 | 고차 앰비소닉스 신호에 동적 범위 압축을 적용하는 방법 및 디바이스 |
| EP3127109B1 (en) | 2014-04-01 | 2018-03-14 | Dolby International AB | Efficient coding of audio scenes comprising audio objects |
| SG11201706101RA (en) | 2015-02-02 | 2017-08-30 | Fraunhofer Ges Forschung | Apparatus and method for processing an encoded audio signal |
| CN105989845B (zh) | 2015-02-25 | 2020-12-08 | 杜比实验室特许公司 | 视频内容协助的音频对象提取 |
| WO2017132366A1 (en) * | 2016-01-26 | 2017-08-03 | Dolby Laboratories Licensing Corporation | Adaptive quantization |
| US10210874B2 (en) * | 2017-02-03 | 2019-02-19 | Qualcomm Incorporated | Multi channel coding |
| CN113242508B (zh) * | 2017-03-06 | 2022-12-06 | 杜比国际公司 | 基于音频数据流渲染音频输出的方法、解码器系统和介质 |
| GB2582749A (en) * | 2019-03-28 | 2020-10-07 | Nokia Technologies Oy | Determination of the significance of spatial audio parameters and associated encoding |
| WO2020216459A1 (en) * | 2019-04-23 | 2020-10-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method or computer program for generating an output downmix representation |
| KR20230116895A (ko) | 2020-12-02 | 2023-08-04 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 적응적 다운믹스 전략을 통한 몰입형 음성 및 오디오서비스(ivas) |
| EP4243014A4 (en) | 2021-01-25 | 2024-07-17 | Samsung Electronics Co., Ltd. | DEVICE AND METHOD FOR PROCESSING A MULTI-CHANNEL AUDIO SIGNAL |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2008035275A2 (en) * | 2006-09-18 | 2008-03-27 | Koninklijke Philips Electronics N.V. | Encoding and decoding of audio objects |
| WO2008084427A2 (en) * | 2007-01-10 | 2008-07-17 | Koninklijke Philips Electronics N.V. | Audio decoder |
| WO2009049895A1 (en) * | 2007-10-17 | 2009-04-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding using downmix |
| EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
| RU2009109125A (ru) * | 2006-10-16 | 2010-11-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE) | Аппаратура и метод многоканального параметрического преобразования |
Family Cites Families (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20050228648A1 (en) * | 2002-04-22 | 2005-10-13 | Ari Heikkinen | Method and device for obtaining parameters for parametric speech coding of frames |
| FR2867649A1 (fr) * | 2003-12-10 | 2005-09-16 | France Telecom | Procede de codage multiple optimise |
| US8843378B2 (en) * | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
| US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
| US7983922B2 (en) * | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
| US8081764B2 (en) * | 2005-07-15 | 2011-12-20 | Panasonic Corporation | Audio decoder |
| US20080255859A1 (en) * | 2005-10-20 | 2008-10-16 | Lg Electronics, Inc. | Method for Encoding and Decoding Multi-Channel Audio Signal and Apparatus Thereof |
| JP4695197B2 (ja) * | 2006-01-19 | 2011-06-08 | エルジー エレクトロニクス インコーポレイティド | メディア信号の処理方法及び装置 |
| EP1853092B1 (en) * | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
| BRPI0711102A2 (pt) * | 2006-09-29 | 2011-08-23 | Lg Eletronics Inc | métodos e aparelhos para codificar e decodificar sinais de áudio com base em objeto |
| JP2010518452A (ja) * | 2007-02-13 | 2010-05-27 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
| AU2008215230B2 (en) * | 2007-02-14 | 2010-03-04 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
| MX2011011399A (es) | 2008-10-17 | 2012-06-27 | Univ Friedrich Alexander Er | Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto. |
| KR101137360B1 (ko) * | 2009-01-28 | 2012-04-19 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
| TWI431611B (zh) * | 2009-10-20 | 2014-03-21 | Dolby Int Ab | 用以基於下混信號表示型態提供上混信號表示型態之裝置、用以提供表示多聲道音訊信號的位元串流之裝置、使用失真控制發訊之方法、電腦程式與位元串流 |
| WO2011061174A1 (en) | 2009-11-20 | 2011-05-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter |
-
2008
- 2008-10-17 MX MX2011011399A patent/MX2011011399A/es active IP Right Grant
-
2010
- 2010-04-28 WO PCT/EP2010/055717 patent/WO2010125104A1/en not_active Ceased
- 2010-04-28 TW TW099113479A patent/TWI529704B/zh active
- 2010-04-28 CA CA2760515A patent/CA2760515C/en active Active
- 2010-04-28 EP EP14180279.3A patent/EP2816555B1/en active Active
- 2010-04-28 PL PL10716830T patent/PL2425427T3/pl unknown
- 2010-04-28 PL PL14180279.3T patent/PL2816555T3/pl unknown
- 2010-04-28 ES ES10716830.4T patent/ES2521715T3/es active Active
- 2010-04-28 RU RU2011145866/08A patent/RU2573738C2/ru active
- 2010-04-28 SG SG2011079464A patent/SG175392A1/en unknown
- 2010-04-28 JP JP2012507733A patent/JP5554830B2/ja active Active
- 2010-04-28 KR KR1020117028264A patent/KR101431889B1/ko active Active
- 2010-04-28 BR BRPI1007777A patent/BRPI1007777A2/pt not_active Application Discontinuation
- 2010-04-28 ES ES14180279T patent/ES2572083T3/es active Active
- 2010-04-28 CN CN201080019185.0A patent/CN102576532B/zh active Active
- 2010-04-28 AR ARP100101428A patent/AR076434A1/es active IP Right Grant
- 2010-04-28 CA CA2852503A patent/CA2852503C/en active Active
- 2010-04-28 EP EP10716830.4A patent/EP2425427B1/en active Active
- 2010-04-28 TW TW103126579A patent/TWI560706B/zh active
- 2010-04-28 AU AU2010243635A patent/AU2010243635B2/en active Active
- 2010-04-28 MY MYPI2011005228A patent/MY157169A/en unknown
-
2011
- 2011-10-28 ZA ZA2011/07895A patent/ZA201107895B/en unknown
- 2011-10-28 US US13/284,583 patent/US8731950B2/en active Active
-
2014
- 2014-04-10 US US14/250,026 patent/US9786285B2/en active Active
- 2014-05-29 JP JP2014111756A patent/JP2014206747A/ja active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2008035275A2 (en) * | 2006-09-18 | 2008-03-27 | Koninklijke Philips Electronics N.V. | Encoding and decoding of audio objects |
| RU2009109125A (ru) * | 2006-10-16 | 2010-11-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE) | Аппаратура и метод многоканального параметрического преобразования |
| WO2008084427A2 (en) * | 2007-01-10 | 2008-07-17 | Koninklijke Philips Electronics N.V. | Audio decoder |
| WO2009049895A1 (en) * | 2007-10-17 | 2009-04-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding using downmix |
| EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
Also Published As
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| RU2573738C2 (ru) | Устройство для оптимизации одного или более параметров представления сигнала повышающего микширования на основе представления сигнала понижающего микширования, декодер аудиосигнала, транскодер аудиосигнала, кодер аудиосигнала, аудиобитстрим, способ и компьютерная программа с использованием объектно-ориентированной параметрической информации | |
| US20220351736A1 (en) | Decoder, encoder and method for informed loudness estimation employing by-pass audio object signals in object-based audio coding systems | |
| JP5645951B2 (ja) | ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム | |
| CA2777665C (en) | Apparatus, method and computer program for providing one or more adjusted parameters for provision of an upmix signal representation on the basis of a downmix signal representation and a parametric side information associated with the downmix signal representation, using an average value | |
| HK40114224A (en) | Apparatus, method and computer program for providing adjusted parameters | |
| HK40073662A (en) | Apparatus, method and computer program for providing adjusted parameters | |
| HK1205340B (en) | Audio signal encoder, audio bitstream, method and computer program using an object-related parametric information | |
| HK1173551B (en) | Apparatus for providing one or more adjusted parameters for a provision of an upmix signal representation on the basis of a downmix signal representation, audio signal decoder, audio signal transcoder, audio signal encoder, audio bitstream, method and computer program using an object-related parametric information |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FZ9A | Application not withdrawn (correction of the notice of withdrawal) |
Effective date: 20150723 |