RU2841604C2 - Reverberation level automated control device and method using perceptual model - Google Patents
Reverberation level automated control device and method using perceptual model Download PDFInfo
- Publication number
- RU2841604C2 RU2841604C2 RU2024130878A RU2024130878A RU2841604C2 RU 2841604 C2 RU2841604 C2 RU 2841604C2 RU 2024130878 A RU2024130878 A RU 2024130878A RU 2024130878 A RU2024130878 A RU 2024130878A RU 2841604 C2 RU2841604 C2 RU 2841604C2
- Authority
- RU
- Russia
- Prior art keywords
- audio signal
- reverberation
- input audio
- signal
- input
- Prior art date
Links
Abstract
Description
Настоящее изобретение относится к обработке аудиосигналов, в частности, к устройству и к способу автоматизированного управления уровнем реверберации, например, посредством использования перцепционной модели.The present invention relates to audio signal processing, in particular to a device and a method for automated control of reverberation level, for example by using a perceptual model.
Реверберация представляет собой очень сложный элемент в акустике и обработке аудиосигналов, и ее воспринимаемая интенсивность и ее управление представляет конкретный интерес. Аудиосигналы, такие как музыкальные записи или широковещательная радиопередача, например, могут обрабатываться посредством искусственной реверберации, чтобы эмулировать акустические свойства конкретного окружения, например, концертной площадки или зала. Входные сигналы, например, могут представлять собой смешения прямых сигналов и объемных окружающих сигналов. Прямые сигналы, например, могут представлять собой записи пения, музыкальных инструментов и звуковых событий, таких как выстрелы из оружия и тревожные сирены. Термин «прямые звуки» указывает на то, что эти звуки являются направленными и могут локализоваться как исходящие из одного направления. Объемные окружающие (или рассеянные) звуковые компоненты, например, могут представлять собой реверберацию и звуки окружающей среды, которые не воспринимаются как исходящие из конкретных направлений, например, шум ветра и дождя. В музыкальных записях реверберация представляет собой самый заметный источник окружающих звуков.Reverberation is a very complex element in acoustics and audio signal processing, and its perceived intensity and its control are of particular interest. Audio signals such as musical recordings or radio broadcasts, for example, can be processed through artificial reverberation to emulate the acoustic properties of a particular environment, such as a concert venue or hall. The input signals, for example, can be mixtures of direct signals and spatial ambient signals. Direct signals, for example, can be recordings of singing, musical instruments, and sound events such as gunshots and alarm sirens. The term "direct sounds" indicates that these sounds are directional and can be localized as coming from a single direction. Spatial ambient (or diffuse) sound components, for example, can be reverberation and environmental sounds that are not perceived as coming from specific directions, such as wind and rain. In musical recordings, reverberation is the most noticeable source of ambient sounds.
Воспринимаемый уровень реверберации зависит от входного сигнала и импульсного отклика реверберации, например, длины предварительной задержки и хвоста реверберации (см. [1]). Нестационарные входные сигналы с переходными частями и быстрыми атаками огибающих подполос частот, например, звуки барабана, формируют более высокую интенсивность реверберации.The perceived level of reverberation depends on the input signal and the impulse response of the reverberation, such as the length of the pre-delay and the reverberation tail (see [1]). Non-stationary input signals with transient parts and fast attacks of the sub-band envelopes, such as drum sounds, produce higher reverberation intensity.
Входные сигналы с быстро затухающими огибающими и тихими частями являются менее эффективными в маскировании реверберации (см. [2]). Когда времена реверберации и предварительные задержки являются небольшими, входной сигнал совпадает и частично маскирует сигнал реверберации на большей протяженности, чем тогда, когда времена реверберации и предварительные задержки являются большими. Кроме того, акустическое окружение (см. [3]), система воспроизведения (см. [4]) и другие эстетические аспекты, связанные с жанром музыки, оказывают влияние на предпочтительную настройку параметров усиления.Input signals with fast decaying envelopes and quiet parts are less effective in masking reverberation (see [2]). When reverberation times and pre-delays are short, the input signal coincides with and partially masks the reverberation signal over a greater extent than when reverberation times and pre-delays are long. In addition, the acoustic environment (see [3]), the playback system (see [4]) and other aesthetic aspects related to the genre of music influence the preferred gain setting.
Модель для прогнозирования множества пространственных атрибутов, подстроенная с помощью тестовых данных на основе прослушивания, описана в [5], но предложенная модель не применяется в реальном времени, и непосредственно модель также является более комплексной, поскольку она использует до 12 аудиопризнаков, обеспечивая в результате производительность, сравнимую с приведенным алгоритмом, который использует только 3 признака. Модель воспринимаемого уровня поздней реверберации в (см. [6]) использует частичный уровень громкости прямых и реверберирующих компонентов входного аудиосигнала. Исследование воспринимаемого уровня искусственной поздней реверберации в [1] показывает, что воспринимаемый уровень зависит от времени реверберации и входных сигналов, а не от межканальной корреляции импульсного отклика и разностей рейтинга между людьми, и повторные тесты идентичного человека являются аналогичными. Предпочтительный уровень изучается в [7], причем делается вывод, что эстетическое качество страдает больше, когда применяемая реверберация выше предпочтительного уровня, чем тогда, когда она ниже.A model for predicting multiple spatial attributes trained using listening-based test data is described in [5], but the proposed model is not applied in real time, and the model itself is also more complex since it uses up to 12 audio features, resulting in performance comparable to the presented algorithm that uses only 3 features. The model for the perceived level of late reverberation in (see [6]) uses the partial loudness level of the direct and reverberant components of the input audio signal. A study of the perceived level of artificial late reverberation in [1] shows that the perceived level depends on the reverberation time and the input signals, rather than on the interchannel correlation of the impulse response and the differences in rating between individuals, and repeated tests on an identical individual are similar. The preferred level is studied in [7], concluding that aesthetic quality suffers more when the applied reverberation is higher than the preferred level than when it is lower.
Задача настоящего изобретения состоит в создании усовершенствованных концепций автоматического управления уровнем реверберации. Задача настоящего изобретения решается устройством по пункту 1 формулы, способом по пункту 19 формулы и компьютерной программой по пункту 20 формулы.The objective of the present invention is to create improved concepts for automatic control of reverberation level. The objective of the present invention is achieved by the device according to claim 1, the method according to claim 19 and the computer program according to claim 20.
Предусмотрено устройство для обработки входного аудиосигнала, содержащего один или более аудиоканалов для получения выходного аудиосигнала согласно варианту осуществления. Устройство содержит модуль определения усиления реверберации, выполненный с возможностью определения информации усиления реверберации в зависимости от входного аудиосигнала. Кроме того, устройство содержит процессор сигналов, выполненный с возможностью получения выходного аудиосигнала в зависимости от информации усиления реверберации посредством суммирования искусственной реверберации с входным аудиосигналом или с предварительно обработанным аудиосигналом, который зависит от входного аудиосигнала.A device is provided for processing an input audio signal comprising one or more audio channels to obtain an output audio signal according to an embodiment. The device comprises a reverberation gain determination module configured to determine reverberation gain information depending on the input audio signal. In addition, the device comprises a signal processor configured to obtain an output audio signal depending on the reverberation gain information by summing artificial reverberation with the input audio signal or with a pre-processed audio signal that depends on the input audio signal.
Кроме того, предусмотрен способ обработки входного аудиосигнала таким образом, чтобы получать выходной аудиосигнал согласно варианту осуществления. Способ содержит:In addition, a method for processing an input audio signal in such a way as to obtain an output audio signal according to an embodiment is provided. The method comprises:
- определение информации усиления реверберации в зависимости от входного аудиосигнала, и- determining the reverberation gain information depending on the input audio signal, and
- получение выходного аудиосигнала в зависимости от информации усиления реверберации посредством суммирования искусственной реверберации с входным аудиосигналом или с предварительно обработанным аудиосигналом, который зависит от входного аудиосигнала.- obtaining an output audio signal depending on the reverberation gain information by summing artificial reverberation with the input audio signal or with a pre-processed audio signal that depends on the input audio signal.
Кроме того, предусмотрена компьютерная программа для реализации вышеописанного способа при выполнении на компьютере или в процессоре сигналов.In addition, a computer program is provided for implementing the above-described method when executed on a computer or in a signal processor.
Ниже более подробно описаны варианты осуществления настоящего изобретения с обращением к чертежам, на которых:Embodiments of the present invention are described in more detail below with reference to the drawings, in which:
Фиг. 1 иллюстрирует устройство для обработки входного аудиосигнала, содержащего один или более аудиоканалов для получения выходного аудиосигнала согласно варианту осуществления.Fig. 1 illustrates a device for processing an input audio signal comprising one or more audio channels to obtain an output audio signal according to an embodiment.
Фиг. 2 иллюстрирует блок-схему алгоритма управления реверберацией согласно варианту осуществления.Fig. 2 illustrates a block diagram of a reverberation control algorithm according to an embodiment.
Фиг. 3 иллюстрирует средние рейтинги в расчете на тестовый элемент на основе прослушивания и полное среднее значение с 95 доверительными интервалами согласно варианту осуществления.Fig. 3 illustrates the mean ratings per test item based on listening and the overall mean with 95 confidence intervals according to an embodiment.
Фиг. 4 иллюстрирует прогнозированную интенсивность реверберации по сравнению с наблюдаемой интенсивностью реверберации согласно варианту осуществления.Fig. 4 illustrates predicted reverberation intensity compared to observed reverberation intensity according to an embodiment.
Фиг. 5 иллюстрирует: на фиг. 5 - вверху - спектрограмма аудиосигнала с переходом от классической музыки до поп-музыки после 25 с; на фиг. 5, - в середине - эквивалентный уровень реверберации до и после временного сглаживания; и на фиг. 5 - внизу - коэффициент сглаживания и общее значение масштабирования согласно варианту осуществления.Fig. 5 illustrates: in Fig. 5 - top - a spectrogram of an audio signal with a transition from classical music to pop music after 25 s; in Fig. 5 - in the middle - the equivalent reverberation level before and after temporal smoothing; and in Fig. 5 - bottom - the smoothing factor and the overall scaling value according to an embodiment.
Фиг. 6 иллюстрирует опорное усиление при отправке реверберации по сравнению с эквивалентным уровнем реверберации с подогнанным полиномом согласно варианту осуществления.Fig. 6 illustrates the reference gain when sending reverberation compared to the equivalent reverberation level with a fitted polynomial according to an embodiment.
Фиг. 7 иллюстрирует эквивалентный уровень реверберации по сравнению с ошибкой усиления при отправке реверберации согласно варианту осуществления.Fig. 7 illustrates the equivalent reverberation level compared to the gain error when sending reverberation according to an embodiment.
Фиг. 1 иллюстрирует устройство для обработки входного аудиосигнала, содержащего один или более аудиоканалов для получения выходного аудиосигнала согласно варианту осуществления.Fig. 1 illustrates a device for processing an input audio signal comprising one or more audio channels to obtain an output audio signal according to an embodiment.
Устройство содержит модуль 110 определения усиления реверберации, выполненный с возможностью определения информации усиления реверберации в зависимости от входного аудиосигнала.The device comprises a reverberation gain determination module 110 configured to determine reverberation gain information depending on an input audio signal.
Кроме того, устройство содержит процессор 120 сигналов, выполненный с возможностью получения выходного аудиосигнала в зависимости от информации усиления реверберации посредством суммирования искусственной реверберации с входным аудиосигналом или с предварительно обработанным аудиосигналом, который зависит от входного аудиосигнала.In addition, the device comprises a signal processor 120, configured to obtain an output audio signal depending on the reverberation gain information by summing the artificial reverberation with the input audio signal or with a pre-processed audio signal, which depends on the input audio signal.
Согласно варианту осуществления, модуль 110 определения усиления реверберации, например, может быть выполнен с возможностью определения информации усиления реверберации в зависимости от оценки воспринимаемой интенсивности реверберации во входном аудиосигнале.According to an embodiment, the reverberation gain determination module 110 may, for example, be configured to determine reverberation gain information depending on an estimated perceived reverberation intensity in the input audio signal.
В варианте осуществления, модуль 110 определения усиления реверберации, например, может быть выполнен с возможностью определения информации усиления реверберации посредством использования модели, которая возвращает оценку воспринимаемой интенсивности реверберации во входном аудиосигнале при приеме информации об одном или более признаках входного аудиосигнала.In an embodiment, the reverberation gain determination module 110, for example, may be configured to determine reverberation gain information by using a model that returns an estimate of the perceived intensity of reverberation in the input audio signal upon receiving information about one or more features of the input audio signal.
Согласно варианту осуществления, модель, используемая посредством модуля 110 определения усиления реверберации, например, может представлять собой линейную регрессионную модель с использованием одного или более значений признаков для одного или более признаков входного аудиосигнала в качестве ввода для линейной регрессионной модели.According to an embodiment, the model used by the reverberation gain determination module 110 may, for example, be a linear regression model using one or more feature values for one or more features of the input audio signal as input to the linear regression model.
В варианте осуществления, для получения усиления при отправке реверберации, модуль 110 определения усиления реверберации, например, может быть выполнен с возможностью определения усиления при отправке реверберации в качестве информации усиления реверберации посредством преобразования оценки воспринимаемой интенсивности реверберации во входном аудиосигнале согласно функции преобразования. Эквивалентная интенсивность реверберации (= воспринимаемая интенсивность после применения значений масштабирования), например, может подаваться в функцию преобразования. Например, оценка воспринимаемой интенсивности реверберации преобразуется в тестовые данные на основе прослушивания, и, соответственно, подогнанная кривая, например, затем может использоваться для преобразования в усиление при отправке реверберации.In an embodiment, to obtain the reverberation sending gain, the reverberation gain determining module 110, for example, may be configured to determine the reverberation sending gain as reverberation gain information by transforming an estimate of the perceived reverberation intensity in the input audio signal according to a transform function. An equivalent reverberation intensity (= the perceived intensity after applying the scaling values), for example, may be supplied to the transform function. For example, the estimate of the perceived reverberation intensity is transformed into test data based on listening, and accordingly, a fitted curve, for example, may then be used for transforming into the reverberation sending gain.
Согласно варианту осуществления, один или более признаков входного аудиосигнала, например, могут зависеть от межканальной корреляции по меньшей мере одной из одной или более подполос частот двух аудиоканалов для одного или более аудиоканалов входного аудиосигнала.According to an embodiment, one or more features of the input audio signal may, for example, depend on an inter-channel correlation of at least one of the one or more frequency subbands of two audio channels for one or more audio channels of the input audio signal.
В варианте осуществления, один или более признаков входного аудиосигнала, например, могут зависеть от показателя спектральной сглаженности по меньшей мере одной из одной или более подполос частот одного или более аудиоканалов входного аудиосигнала.In an embodiment, one or more features of the input audio signal, for example, may depend on a spectral smoothness index of at least one of the one or more frequency subbands of one or more audio channels of the input audio signal.
Согласно варианту осуществления, модуль определения усиления реверберации, например, может быть выполнен с возможностью определения оценки воспринимаемой интенсивности реверберации во входном аудиосигнале посредством использования модели. Модуль определения усиления реверберации, например, может быть выполнен с возможностью определения одного или более коэффициентов масштабирования в зависимости от одного или более признаков входного аудиосигнала. Кроме того, модуль определения усиления реверберации, например, может быть выполнен с возможностью определения информации усиления реверберации в зависимости от оценки воспринимаемой интенсивности реверберации и в зависимости от одного или более коэффициентов масштабирования.According to an embodiment, the reverberation gain determination module, for example, may be configured to determine an estimate of the perceived intensity of reverberation in the input audio signal by using a model. The reverberation gain determination module, for example, may be configured to determine one or more scaling factors depending on one or more features of the input audio signal. Furthermore, the reverberation gain determination module, for example, may be configured to determine reverberation gain information depending on the estimate of the perceived intensity of reverberation and depending on one or more scaling factors.
В варианте осуществления, один или более коэффициентов масштабирования, например, могут зависеть от межканальной корреляции по меньшей мере одной из одной или более подполос частот двух аудиоканалов для одного или более аудиоканалов входного аудиосигнала.In an embodiment, one or more scaling factors, for example, may depend on an inter-channel correlation of at least one of the one or more frequency subbands of two audio channels for one or more audio channels of the input audio signal.
Согласно варианту осуществления, один или более коэффициентов масштабирования, например, могут зависеть от присутствия переходных сигнальных компонентов по меньшей мере в одном из одного или более аудиоканалов входного аудиосигнала.According to an embodiment, one or more scaling factors may, for example, depend on the presence of transient signal components in at least one of the one or more audio channels of the input audio signal.
В варианте осуществления, один или более коэффициентов масштабирования, например, могут зависеть от показателя спектральных переходных частей по меньшей мере одного из одного или более аудиоканалов входного аудиосигнала. Показатель спектральных переходных частей, например, может задаваться в зависимости от следующего:In an embodiment, one or more scaling factors, for example, may depend on an index of spectral transient parts of at least one of the one or more audio channels of the input audio signal. The index of spectral transient parts, for example, may be set depending on the following:
где:Where:
, ,
при этом m указывает временной индекс, при этом k указывает частотный индекс, и при этом bk,i указывает один из одного или более частотных элементов разрешения в полосе/подполосе k частот, при этом Yd(m, bk,i) указывает коэффициент с абсолютной величиной с временным индексом m для одного или более частотных элементов bk,i разрешения в полосе k частот упомянутого по меньшей мере одного из одного или более аудиоканалов либо комбинации упомянутого по меньшей мере одного из одного или более аудиоканалов, и при этом fs() обозначает рекурсивное усреднение во времени и реализует сглаживание подполосного сигнала.wherein m indicates a time index, wherein k indicates a frequency index, and wherein b k,i indicates one of one or more frequency bins in a frequency band/subband of k frequencies, wherein Y d (m, b k,i ) indicates a coefficient with an absolute value with a time index m for one or more frequency bins b k,i in a frequency band of k of said at least one of the one or more audio channels or a combination of said at least one of the one or more audio channels, and wherein fs() denotes a recursive averaging in time and implements a smoothing of the subband signal.
Согласно варианту осуществления, процессор 120 сигналов, например, может быть выполнен с возможностью формирования предварительно обработанного аудиосигнала посредством дереверберации входного аудиосигнала для ослабления исходных реверберационных сигнальных компонентов входного аудиосигнала. Процессор 120 сигналов, например, может быть выполнен с возможностью получения выходного аудиосигнала в зависимости от информации усиления реверберации посредством суммирования искусственной реверберации с предварительно обработанным аудиосигналом.According to an embodiment, the signal processor 120, for example, can be configured to generate a pre-processed audio signal by de-reverberating the input audio signal to weaken the original reverberant signal components of the input audio signal. The signal processor 120, for example, can be configured to obtain an output audio signal depending on the reverberation gain information by summing the artificial reverberation with the pre-processed audio signal.
В варианте осуществления, процессор 120 сигналов, например, может быть выполнен с возможностью формирования предварительно обработанного аудиосигнала посредством проведения временного сглаживания входного аудиосигнала. Процессор 120 сигналов, например, может быть выполнен с возможностью получения выходного аудиосигнала в зависимости от информации усиления реверберации посредством суммирования искусственной реверберации с предварительно обработанным аудиосигналом.In an embodiment, the signal processor 120, for example, can be configured to generate a pre-processed audio signal by performing time smoothing of the input audio signal. The signal processor 120, for example, can be configured to obtain an output audio signal depending on the reverberation gain information by summing artificial reverberation with the pre-processed audio signal.
Согласно варианту осуществления, процессор 120 сигналов, например, может быть выполнен с возможностью регулировки величины временного сглаживания в зависимости от изменений входного аудиосигнала.According to an embodiment, the signal processor 120, for example, may be configured to adjust the amount of temporal smoothing depending on changes in the input audio signal.
В варианте осуществления, процессор 120 сигналов, например, может быть выполнен с возможностью регулировки величины временного сглаживания в зависимости от изменений входного аудиосигнала.In an embodiment, the signal processor 120, for example, may be configured to adjust the amount of temporal smoothing depending on changes in the input audio signal.
Согласно варианту осуществления, процессор 120 сигналов, например, может быть выполнен с возможностью регулировки величины временного сглаживания в зависимости от изменения уровня громкости входного аудиосигнала.According to an embodiment, the signal processor 120, for example, may be configured to adjust the amount of temporal smoothing depending on a change in the volume level of the input audio signal.
В варианте осуществления, процессор 120 сигналов, например, может быть выполнен с возможностью регулировки величины временного сглаживания в зависимости от изменений дисперсии одного или более признаков входного аудиосигнала.In an embodiment, the signal processor 120, for example, may be configured to adjust the amount of temporal smoothing depending on changes in the variance of one or more features of the input audio signal.
Согласно варианту осуществления, устройство, например, может содержать кольцевой буфер, например, с большой длиной и/или сильным перекрытием, для обработки в реальном времени, который, например, может быть выполнен с возможностью приема входного аудиосигнала или предварительно обработанного аудиосигнала. Процессор 120 сигналов, например, может быть выполнен с возможностью обработки входного аудиосигнала или предварительно обработанного аудиосигнала в кольцевом буфере для получения выходного аудиосигнала.According to an embodiment, the device, for example, may comprise a circular buffer, for example, with a large length and/or strong overlap, for real-time processing, which, for example, may be configured to receive an input audio signal or a pre-processed audio signal. The signal processor 120, for example, may be configured to process the input audio signal or the pre-processed audio signal in the circular buffer to obtain an output audio signal.
Ниже описаны конкретные варианты осуществления. Сначала, например, можно представить обзор, представляющий алгоритм согласно варианту осуществления, после чего будут приведены тест на основе прослушивания и результаты, включающие в себя статистическую оценку. Кроме того, приведена модель для прогнозирования воспринимаемой интенсивности реверберации согласно варианту осуществления, представляется постобработка с использованием коэффициентов масштабирования согласно варианту осуществления, описано применение в реальном времени обученной модели согласно варианту осуществления, и представляется преобразование в усиление при отправке реверберации.Specific embodiments are described below. First, for example, an overview can be presented that presents an algorithm according to an embodiment, after which a listening test and results including a statistical evaluation will be given. In addition, a model for predicting the perceived intensity of reverberation according to an embodiment is presented, post-processing using scaling factors according to an embodiment is presented, real-time application of a trained model according to an embodiment is described, and conversion to gain when sending reverberation is presented.
В некоторых вариантах осуществления, воспринимаемая интенсивность реверберации в аудиосигналах, например, может оцениваться, и уровень сигнала искусственной реверберации, например, может управляться таким образом, что искусственно реверберированный выходной сигнал, например, может иметь аналогичные свойства реверберации с соответствующим входным сигналом. Оценка, например, может использовать линейную регрессионную модель с межканальной когерентностью в подполосе частот и показателем спектральной сглаженности в качестве входных признаков, которые обучаются с помощью тестовых данных на основе прослушивания. Для адаптации (например, для применения коэффициентов масштабирования), управляющие сигналы искусственной реверберации, например, могут вычисляться в зависимости от свойств временной модуляции и/или, например, в зависимости от корреляции между входными канальными сигналами и, например, могут применяться для вычисления эквивалентного уровня реверберации. Результирующая величина, например, может постобрабатываться с использованием сигнально-адаптивной интеграции. Концепции, например, могут применяться для управления усилением при отправке реверберации для искусственной реверберации, используемой для воспроизведения звука в автомобиле (усилением при отправке реверберации: например, усилением (при отправке) (искусственной) реверберации).In some embodiments, the perceived intensity of reverberation in audio signals, for example, can be estimated, and the level of the artificial reverberation signal, for example, can be controlled in such a way that the artificially reverberated output signal, for example, can have similar reverberation properties with the corresponding input signal. The estimation, for example, can use a linear regression model with inter-channel coherence in a frequency subband and a spectral smoothness index as input features, which are trained using test data based on listening. For adaptation (for example, for applying scaling factors), artificial reverberation control signals, for example, can be calculated depending on the properties of the time modulation and/or, for example, depending on the correlation between the input channel signals and, for example, can be used to calculate an equivalent reverberation level. The resulting value, for example, can be post-processed using signal-adaptive integration. The concepts can, for example, be applied to control the reverb send gain for artificial reverb used to reproduce sound in a car (reverb send gain: e.g., (artificial) reverb send gain).
Реверберация представляет собой очень сложный элемент в акустике и обработке аудиосигналов, и варианты осуществления акцентируют внимание на ее воспринимаемой интенсивности и на ее управлении, например, посредством регулирования усиления при отправке реверберации. Некоторые варианты осуществления, например, могут реализовываться независимо от других аспектов, например, времен частотно-зависимой реверберации импульсного отклика или ее корреляции между каналами. Другие варианты осуществления, например, могут учитывать эти аспекты.Reverberation is a very complex element in acoustics and audio signal processing, and embodiments focus on its perceived intensity and on its control, for example by adjusting the gain when sending the reverberation. Some embodiments, for example, can be implemented independently of other aspects, such as the times of the frequency-dependent impulse response reverberation or its correlation between channels. Other embodiments, for example, can take these aspects into account.
Краткий схематичный вид конкретного варианта осуществления показан на фиг. 2. Первый каскад, например, может содержать дереверберацию и извлечение аудиопризнаков. В частности, фиг. 2 иллюстрирует блок-схему алгоритма управления реверберацией согласно варианту осуществления. Значения признаков вводятся в модель для прогнозирования воспринимаемой интенсивности реверберации во входном сигнале. Модель использует линейную регрессию и обучается с помощью тестовых данных на основе прослушивания. Вывод модели постобрабатывается с сигнально-адаптивными коэффициентами масштабирования, которые вручную подстраиваются относительно свойств новой суммированной искусственной реверберации, чтобы учитывать измененное взаимодействие сигнала возбуждения и реверберации вследствие различных характеристик искусственной и «исходной» реверберации. Следует отметить, что управляемое данными моделирование воспринимаемой интенсивности реверберации для искусственной реверберации (которое выполняется для исходной реверберации) требует тестовых данных на основе прослушивания для множества настроек параметров и не может адаптироваться, когда эти настройки изменяются. Следовательно, такой подход не является предпочтительным.A brief schematic view of a specific embodiment is shown in Fig. 2. The first stage, for example, may comprise dereverberation and audio feature extraction. In particular, Fig. 2 illustrates a block diagram of a reverberation control algorithm according to an embodiment. Feature values are input to a model for predicting the perceived reverberation intensity in the input signal. The model uses linear regression and is trained using listening-based test data. The model output is post-processed with signal-adaptive scaling factors that are manually adjusted with respect to the properties of the new summed artificial reverberation in order to account for the changed interaction of the excitation signal and the reverberation due to the different characteristics of the artificial and "original" reverberation. It should be noted that data-driven modeling of the perceived reverberation intensity for the artificial reverberation (which is performed for the original reverberation) requires listening-based test data for a variety of parameter settings and cannot adapt when these settings are changed. Therefore, such an approach is not preferred.
Эквивалентный уровень реверберации постобрабатывается с сигнально-адаптивной временной интеграцией в реальном времени. Результат применяется для вычисления усилений при отправке реверберации с использованием функции, подогнанной к предпочтительным усилениям при отправке, отрегулированным слушателями-экспертами. Вычисленное усиление при отправке реверберации управляет уровнем искусственной реверберации, применяемой к дереверберированному входному сигналу. Дереверберация применяется для ослабления реверберирующих сигнальных компонентов ввода, поскольку суммирование искусственной реверберации с входным сигналом с большими величинами «исходной» реверберации приводит к потерям прозрачности или к восприятию слишком большой реверберации, или к эстетически нежелательному наложению двух сигналов реверберации.The equivalent reverb level is post-processed with real-time signal-adaptive time integration. The result is used to calculate reverb send gains using a function fitted to the preferred send gains adjusted by expert listeners. The calculated reverb send gain controls the level of artificial reverb applied to the dereverberated input signal. Dereverberation is used to attenuate the reverberant signal components of the input, since summing artificial reverb with an input signal with large amounts of "original" reverb results in a loss of transparency, or in the perception of too much reverb, or in an aesthetically undesirable superposition of the two reverb signals.
Ниже представлены результаты теста на основе прослушивания.Below are the results of the listening test.
В тесте на основе прослушивания, представляются 27 аудиосигналов с нормализованным уровнем громкости с длительностью от 4,8 с до 14,7 с. Элементы выбираются таким образом, что только небольшие изменения пространственных сигнальных меток (величины реверберации и распределения энергии в стереопанораме) являются очевидными. Набор элементов варьируется от очень сухих до очень реверберирующих и включает в себя записи различных музыкальных жанров, а также записи сольных инструментов и сухие речевые записи.In the listening test, 27 loudness-normalized audio signals with durations ranging from 4.8 s to 14.7 s are presented. The elements are selected in such a way that only small changes in spatial signal cues (the amount of reverberation and the distribution of energy in the stereo panorama) are evident. The set of elements varies from very dry to very reverberant and includes recordings of various musical genres, as well as recordings of solo instruments and dry speech recordings.
Участники опрашиваются на предмет присвоения рейтинга воспринимаемой интенсивности реверберации и ширине ансамбля посредством регулирования ползунка на дискретной униполярной шкале в пределах от 1-9. Метки «Очень низкий», «Низкий», «Средний», «Высокий» и «Очень высокий» равномерно распределяются по шкале. Предусмотрен дополнительный атрибут - ширина ансамбля, - чтобы помочь слушателю определяить интенсивность реверберации независимо от стереопанорамы. Тест начинается с сеанса обучения, в котором представляются три стимулирующих воздействия, которые приводят примеры низкой величины реверберации и большой ширины ансамбля, и наоборот. 15 слушателей участвуют в тесте.Participants are asked to rate the perceived reverberation intensity and ensemble width by adjusting a slider on a discrete unipolar scale ranging from 1-9. The labels "Very Low", "Low", "Medium", "High", and "Very High" are distributed evenly across the scale. An additional attribute, ensemble width, is provided to help the listener determine the reverberation intensity independently of the stereo panorama. The test begins with a training session in which three stimuli are presented that provide examples of low reverberation magnitude and high ensemble width, and vice versa. Fifteen listeners participate in the test.
Фиг. 3 иллюстрирует средние рейтинги в расчете на тестовый элемент на основе прослушивания и полное среднее значение с 95% доверительными интервалами согласно варианту осуществления. В частности, фиг. 3 показывает средние значения и 95% доверительные интервалы рейтинга реверберации. Доверительные интервалы получаются согласно следующему:Fig. 3 illustrates the average ratings per test item based on listening and the overall average with 95% confidence intervals according to an embodiment. In particular, Fig. 3 shows the average values and 95% confidence intervals of the reverberation rating. The confidence intervals are obtained as follows:
, (1) , (1)
где является оцененным средним значением, tα/2,n-1 является квантилью α/2 (здесь α=0,05) из t-распределения с n-1 степеней свободы, является оцененным среднеквадратическим отклонением, и n является размером выборки [8].Where is the estimated mean, tα /2,n-1 is the quantile α/2 (here α=0.05) from the t-distribution with n-1 degrees of freedom, is the estimated standard deviation, and n is the sample size [8].
Ниже по тексту представляется линейная регрессионная модель согласно варианту осуществления.Below in the text, a linear regression model according to an embodiment is presented.
Ниже описана вычислительная модель для прогнозирования воспринимаемой интенсивности реверберации аудиосигнала и ее обучение согласно конкретным вариантам осуществления.A computational model for predicting the perceived reverberation intensity of an audio signal and training thereof according to specific embodiments is described below.
Сначала будет приведено описание модели согласно варианту осуществления.First, a description of the model according to the embodiment will be given.
Для оценки воспринимаемой интенсивности реверберации в виде линейной комбинации xk входных признаков применяется линейная регрессионная модель, которая состоит в следующем:To assess perceived intensity reverberations in the form of a linear combination of x k input features, a linear regression model is applied, which consists of the following:
, (2) , (2)
с коэффициентами βk модели, значением β0 смещения и числом K входных признаков.with the coefficients β k of the model, the bias value β 0 and the number K of input features.
Ниже описано извлечение аудиопризнаков согласно варианту осуществления.The extraction of audio features according to an embodiment is described below.
Ввод в линейную регрессионную модель представляет собой межканальную когерентность (ICC) в подполосе частот и показатель спектральной сглаженности (SFM), вычисленные из коэффициентов кратковременного преобразования Фурье (STFT). ICC вычисляется в 5, а SFM в 4 полосах частот, как показано в таблице 1.The input to the linear regression model is the inter-channel coherence (ICC) in the sub-band and the spectral smoothness measure (SFM) calculated from the short-time Fourier transform (STFT) coefficients. ICC is calculated in 5 and SFM in 4 frequency bands, as shown in Table 1.
Таблица 1 иллюстрирует разделение на полосы частот ICC и SFM согласно варианту осуществления.Table 1 illustrates the division into ICC and SFM frequency bands according to an embodiment.
Табл. 1Table 1
Коэффициенты STFT вычисляются из аудиосигналов, дискретизированных при 48 кГц с размером кадра в 1024 выборки, длиной перескока в 512 выборок и без дополнения нулями. Кадры STFT с уровнем громкости ниже -65 LUFS (единицы уровня громкости относительно полной шкалы) удаляются, чтобы обеспечивать агностичность обучения модели к периодам молчания, например, к речевым паузам. ICC [9] вычисляется из обоих канальных сигналов двухканального входного стереосигнала согласно следующему:The STFT coefficients are computed from audio signals sampled at 48 kHz with a frame size of 1024 samples, a hop length of 512 samples, and no zero padding. STFT frames with loudness levels below -65 LUFS are removed to ensure that the model training is agnostic to silent periods such as speech pauses. The ICC [9] is computed from both channel signals of a two-channel stereo input signal according to the following:
где Y1,1(m,k) и Y2,2(m,k) являются автоматическими спектральными плотностями мощности (PSD) левого и правого канала, соответственно, и Y1,2(m,k) является перекрестной PSD, при этом все PSD накапливаются по частотным элементам разрешения, соответствующим k-ой полосе частот во временном индексе m. Например, если bk(i,1) указывает i-ый комплексный спектральный элемент разрешения k-ой полосы частот первого аудиоканала входного аудиосигнала, а bk(i,2) указывает i-ый комплексный спектральный элемент разрешения k-ой полосы частот второго аудиоканала входного аудиосигнала, то Y1,1(m,k), Y1,2(m,k) и Y2,2(m,k), например, могут задаваться следующим образом:where Y 1,1 (m,k) and Y 2,2 (m,k) are the automatic power spectral densities (PSDs) of the left and right channels, respectively, and Y 1,2 (m,k) is the cross PSD, where all the PSDs are accumulated over the frequency bins corresponding to the k-th frequency band in the time index m. For example, if b k (i,1) indicates the i-th complex spectral bin of the k-th frequency band of the first audio channel of the input audio signal, and b k (i,2) indicates the i-th complex spectral bin of the k-th frequency band of the second audio channel of the input audio signal, then Y 1,1 (m,k), Y 1,2 (m,k), and Y 2,2 (m,k), for example, can be defined as follows:
, ,
где bk(m,i,1)* указывает комплексно-сопряженное число bk(m,i,1), и bk(m,i,2)* указывает комплексно-сопряженное число bk(m,i,2), с временным индексом m. N, например, может указывать число коэффициентов с микшированной с понижением возведенной в квадрат абсолютной величиной STFT для частотных элементов bk разрешения в полосе k частот.where b k (m,i,1)* indicates the complex conjugate of b k (m,i,1), and b k (m,i,2)* indicates the complex conjugate of b k (m,i,2), with time index m. N, for example, may indicate the number of downmixed squared absolute value STFT coefficients for the b k bins in the k frequency band.
Например, в конкретном варианте осуществления, полоса частот, например, может содержать один или более частотных элементов разрешения в расчете на аудиоканал (Например, в конкретном варианте осуществления, полоса частот, например, может представлять собой только один элемент разрешения). Например, в конкретном варианте осуществления, для получения межканальной корреляции для упомянутой полосы частот может использоваться, например, формула (3) .For example, in a particular embodiment, the frequency band, for example, may comprise one or more frequency bins per audio channel (For example, in a particular embodiment, the frequency band, for example, may be only one bin). For example, in a particular embodiment, for obtaining the inter-channel correlation for said frequency band, for example, formula (3) may be used.
SFM (см. [10]) вычисляется в качестве отношения среднего геометрического к среднему арифметическому согласно следующему:SFM (see [10]) is calculated as the ratio of the geometric mean to the arithmetic mean according to the following:
где:Where:
где g() является сжимающей функцией, например, логарифмом или квадратным корнем или y=x0,25, и Yd(m, bk,i)2 являются коэффициентами с микшированной с понижением возведенной в квадрат абсолютной величиной STFT левого и правого входного канала для i-ых частотных элементов bk,i разрешения в полосе k частот, состоящей из N элементов разрешения с временным индексом m. (Таким образом, N, например, может указывать число частотных элементов bk,i разрешения в полосе k частот). Например, в варианте осуществления с двумя аудиоканалами, коэффициенты Yd(m, bk,i)2 с микшированной с понижением возведенной в квадрат абсолютной величиной STFT, например, могут получаться в результате возведения в квадрат коэффициентов Yd(m,bk,i) с микшированной с понижением абсолютной величиной STFT, и коэффициенты Yd(m, bk,i) с микшированной с понижением абсолютной величиной STFT, например, могут получаться в результате комбинирования (например, усреднения) коэффициентов с абсолютной величиной двух аудиоканалов частотного элемента разрешения k-ой полосы частот.where g() is a compression function, e.g., the logarithm or square root or y=x 0.25 , and Y d (m, b k,i ) 2 are the downmixed squared absolute value STFT coefficients of the left and right input channels for the i-th bins b k,i in a bandwidth of k consisting of N bins with time index m. (Thus, N, for example, may indicate the number of bins b k,i in a bandwidth of k.) For example, in an embodiment with two audio channels, the coefficients Y d (m, b k,i ) 2 with the downmixed squared absolute value of the STFT, for example, may be obtained by squaring the coefficients Y d (m,b k,i ) with the downmixed absolute value of the STFT, and the coefficients Y d (m, b k,i ) with the downmixed absolute value of the STFT, for example, may be obtained by combining (e.g., averaging) the coefficients with the absolute value of the two audio channels of the frequency bin of the k-th frequency band.
В вариантах осуществления, признаки извлекаются для каждого кадра (например, для каждого блока), и затем среднее арифметическое и среднеквадратическое отклонение вычисляются, чтобы получать поблочные одиночные значения, которые затем используются в обучении регрессионной модели.In embodiments, features are extracted for each frame (e.g., for each block), and then the mean and standard deviation are calculated to obtain block-wise single values, which are then used in training a regression model.
Например, каждый блок, например, может содержать аудиоданные для воспроизведения одной секунды аудиозаписи. Блок, например, может содержать спектральные данные для 94 точек во времени (например, для 94 кадров при условии, что кадр, например, может иметь, в конкретном варианте осуществления, длительность в 21,3 миллисекунды, например, приблизительно 94 кадра/секунда, когда кадры имеют 50%-е перекрытие). В других вариантах осуществления, блок, например, может содержать спектральные данные для любого другого числа точек во времени. В примере, спектр, например, может разделяться на пять полос частот и/или, например, на четыре полосы частот, например, как указано в таблице 1.For example, each block, for example, may contain audio data for playing one second of an audio recording. A block, for example, may contain spectral data for 94 points in time (for example, for 94 frames, provided that a frame, for example, may have, in a particular embodiment, a duration of 21.3 milliseconds, for example, approximately 94 frames / second, when the frames have a 50% overlap). In other embodiments, a block, for example, may contain spectral data for any other number of points in time. In an example, the spectrum, for example, may be divided into five frequency bands and / or, for example, into four frequency bands, for example, as indicated in Table 1.
Значение ICC определяется, например, с учетом ICC, например, для каждой из пяти полос частот, например, таблицы 1, и, например, для каждой из 94 точек во времени. Например, для каждой из пяти полос частот, определяется среднее арифметическое, например, 94 ICC блока, и в силу этого могут быть получены, например, пять средних арифметических значений ICC для пяти полос частот. В качестве альтернативы, например, для каждой из пяти полос частот, определяется среднеквадратическое отклонение, например, 94 ICC блока, и в силу этого могут быть получены, например, пять значений ICC среднеквадратического отклонения для пяти полос частот. В силу этого, например, получаются 10 связанных с ICC значений признаков, например, для пяти полос частот для блока.The ICC value is determined, for example, taking into account the ICC, for example, for each of the five frequency bands, for example, of Table 1, and, for example, for each of the 94 time points. For example, for each of the five frequency bands, the arithmetic mean of, for example, the 94 ICCs of the block is determined, and by virtue of this, for example, five arithmetic mean ICC values for the five frequency bands can be obtained. Alternatively, for example, for each of the five frequency bands, the standard deviation of, for example, the 94 ICCs of the block is determined, and by virtue of this, for example, five ICC values of the standard deviation for the five frequency bands can be obtained. By virtue of this, for example, 10 ICC-related feature values are obtained, for example, for the five frequency bands for the block.
Значение SFM определяется, например, с учетом SFM, например, для каждой из четырех полос частот, например, таблицы 1, и, например, для каждой из 94 точек во времени. Например, для каждой из четырех полос частот, определяется среднее арифметическое, например, 94 SFM блока, и в силу этого могут быть получены четыре средних арифметических значения SFM, например, для четырех полос частот. В качестве альтернативы, например, для каждой из четырех полос частот, среднеквадратическое отклонение, например, 94 ICC блока определяется, и в силу этого могут получаться, например, четыре значения SFM среднеквадратического отклонения для четырех полос частот. В силу этого, получаются, например, 8 связанных с SFM значений признаков, например, для четырех полос частот для блока.The SFM value is determined, for example, taking into account the SFM, for example, for each of the four frequency bands, for example, of Table 1, and, for example, for each of the 94 points in time. For example, for each of the four frequency bands, the arithmetic mean of, for example, the 94 SFM of the block is determined, and by virtue of this, four arithmetic mean SFM values can be obtained, for example, for the four frequency bands. Alternatively, for example, for each of the four frequency bands, the standard deviation of, for example, the 94 ICC of the block is determined, and by virtue of this, for example, four SFM values of the standard deviation for the four frequency bands can be obtained. By virtue of this, for example, 8 SFM-related feature values are obtained, for example, for the four frequency bands for the block.
Например, что касается комбинации как примера ICC, так и примера SFM могут быть получены, например, 18 значений признаков для блока.For example, regarding the combination of both the ICC example and the SFM example, 18 feature values for a block can be obtained.
Ниже описано обучение модели согласно варианту осуществления.The training of the model according to the embodiment is described below.
Обработка коротких блоков данных является жизненно важной для обработки в реальном времени, в частности, для нестационарных сигналов, а также для увеличения доступного объема обучающих данных. Каждый элемент подвергается оконному взвешиванию с длиной обучающего блока в 6 с с нулевым перекрытием. Элементы, которые имеют длину, меньшую 12 с, обрабатываются по всей длине в качестве одного блока. Производительность при обучении с перекрывающимися блоками также оценивается без наблюдения повышения точности модели.Processing short blocks of data is vital for real-time processing, particularly for non-stationary signals, and to increase the available training data. Each feature is windowed with a training block length of 6 s with zero overlap. Features that are shorter than 12 s are processed as a single block over the entire length. The performance of training with overlapping blocks is also evaluated without observing any improvement in model accuracy.
Набор обучающих данных расширяется посредством добавления второго отрывка с аналогичными пространственными характеристиками для некоторых песен, используемых в тесте на основе прослушивания. Кроме того, добавлено множество критических элементов, прогнозирования которых являются ненадлежащими, с опорными рейтингами, обеспеченными одним слушателем-экспертом. Чтобы обеспечить то, что модель прогнозирует небольшие значения для сухих и чистых речевых сигналов, записи говорящих мужского пола и женского пола добавляются в набор данных с опорными примечаниями, заданными равными в -1MOS (средняя экспертная оценка). Расширение набора данных и использование множества блоков для каждого элемента дает в сумме 100 наблюдений.The training dataset is expanded by adding a second excerpt with similar spatial characteristics for some of the songs used in the listening test. Additionally, a set of critical items whose predictions are inappropriate are added, with anchor ratings provided by a single expert listener. To ensure that the model predicts small values for dry and clean speech signals, recordings of male and female speakers are added to the dataset with anchor ratings set to -1MOS (mean expert score). Expanding the dataset and using multiple bins for each item yields a total of 100 observations.
Чтобы иметь возможность учитывать нелинейные взаимосвязи между тестовыми данными на основе прослушивания и значениями признаков, к средним и среднеквадратическим отклонениям значений признаков применяется возведение в степень. Экспонента определяется посредством подстройки вручную на основе оценки остаточного графика, который раскрывает нелинейности, которые по определению не могут моделироваться посредством линейной регрессии.To be able to account for nonlinear relationships between the listening test data and the feature values, exponentiation is applied to the means and standard deviations of the feature values. The exponent is determined by manual adjustment based on an evaluation of the residual plot, which reveals nonlinearities that by definition cannot be modeled by linear regression.
Обучение модели выполняется с помощью алгоритма на основе обычного метода наименьших квадратов (OLS), который минимизирует среднеквадратическую ошибку между прогнозированиями и средние рейтинги, полученные в тесте на основе прослушивания. Оценка выполняется с перекрестной проверкой достоверности с исключением по одному [11], при которой модель обучается со всеми наблюдениями, кроме одного, и оценивается с помощью исключенного элемента. Эта процедура повторяется для каждого элемента.The model is trained using an ordinary least squares (OLS) based algorithm that minimizes the mean square error between predictions and the average ratings obtained in the listening test. The evaluation is performed with leave-one-out cross-validation [11], in which the model is trained with all observations except one and evaluated using the left-out item. This procedure is repeated for each item.
Ниже описан выбор признаков согласно варианту осуществления.The selection of features according to the embodiment is described below.
Обучение начинается со всех доступных значений, например, среднего арифметического и среднеквадратического отклонения в расчете на признак подполосы частот. Признак подполосы частот, например, может представлять собой ICC или SFM для упомянутой подполосы частот (полосы частот).The training starts with all available values, for example, the arithmetic mean and standard deviation, per subband feature. The subband feature, for example, can be the ICC or SFM for the said subband (band).
Чтобы не допускать сверхподгонки и уменьшать вычислительную нагрузку, непреимущественные независимые переменные удаляются одна за другой посредством оценки p-значений. Низкие p-значения указывают то, что вероятнее всего, отсутствует взаимосвязь между соответствующим значением признака и результатом тестирования на основе прослушивания (см. [11]).To avoid overfitting and reduce computational burden, non-preferential independent variables are removed one by one by evaluating p-values. Low p-values indicate that there is likely no relationship between the corresponding feature value and the listening test result (see [11]).
Например, в вышеприведенном примере с 18 значениями признаков (10 связанных с ICC значений признаков и 8 связанных с SFM значений признаков), постепенное удаление всех нерелевантных значений признаков, например, может приводить к модели с 4 входными переменными (например, 14 других нерелевантных или менее релевантных входных переменных/значений признаков, например, могут постепенно удаляться, например, посредством проведения многовариантного регрессионного анализа (см., например, [11])). Производительность этой модели отображается на фиг. 4.For example, in the above example with 18 feature values (10 ICC-related feature values and 8 SFM-related feature values), gradually removing all irrelevant feature values, for example, can lead to a model with 4 input variables (e.g., 14 other irrelevant or less relevant input variables/feature values, for example, can be gradually removed, for example, by performing a multivariate regression analysis (see, for example, [11])). The performance of this model is shown in Fig. 4.
В частности, фиг. 4 иллюстрирует прогнозированную интенсивность реверберации по сравнению с наблюдаемой интенсивностью реверберации согласно варианту осуществления. Прогнозирования обучающих блоков тестовых элементов на основе прослушивания отображаются с помощью точек, и прогнозирования, полученные для обучающих блоков расширенного набора данных (элементов из расширенного набора данных), представляются с помощью треугольников. Прогнозирования по среднему в расчете на элемент показываются с помощью крестов. Маркеры, представляющие блоки идентичного элемента, имеют идентичный рейтинг теста на основе прослушивания. График раскрывает хорошую корреляцию прогнозирований и наблюдений с коэффициентом корреляции в 0,75 и обобщенной средней ошибкой в 1,27 MOS. Для рейтингов теста на основе прослушивания в районе 3 MOS, имеется тенденция к слишком высоким значениям, тогда как высокие рейтинги немного недооцениваются.In particular, Fig. 4 illustrates the predicted reverberation intensity compared to the observed reverberation intensity according to an embodiment. The predictions of the training blocks of the listening-based test items are shown using dots, and the predictions obtained for the training blocks of the extended data set (items from the extended data set) are shown using triangles. The predictions for the average per item are shown using crosses. The markers representing blocks of the same item have the same listening-based test rating. The graph reveals a good correlation of the predictions and observations with a correlation coefficient of 0.75 and a generalized average error of 1.27 MOS. For listening-based test ratings in the region of 3 MOS, there is a tendency for values to be too high, while high ratings are slightly underestimated.
Ниже приведено вычисление усилений при отправке реверберации согласно варианту осуществления. В частности, описано вычисление предпочтительного усиления при отправке реверберации для искусственной реверберации, с учетом воспринимаемой интенсивности первичной реверберации во входном сигнале. Поскольку исходная реверберация (входного сигнала) и вторичная (искусственная) реверберация не совпадают, равный уровень реверберации может приводить к различной воспринимаемой интенсивности реверберации. Следовательно, усиление при отправке реверберации не может непосредственно вычисляться, с учетом воспринимаемой интенсивности реверберации.The following describes the calculation of the reverb sending gains according to the embodiment. In particular, the calculation of the preferred reverb sending gain for the artificial reverb is described, taking into account the perceived intensity of the primary reverb in the input signal. Since the original reverb (of the input signal) and the secondary (artificial) reverb are not the same, an equal reverb level may result in different perceived reverb intensities. Therefore, the reverb sending gain cannot be directly calculated, taking into account the perceived intensity of the reverb.
Управляемое данными моделирование воспринимаемой интенсивности для искусственной реверберации не является целесообразным, поскольку оно требует субъективных данных для различных настроек реверберации.Data-driven modeling of perceived intensity for artificial reverb is not practical because it requires subjective data for different reverb settings.
В вариантах осуществления, вручную подстроенные коэффициенты st и sc масштабирования вводятся, чтобы компенсировать зависимые от сигнала эффекты, например, как описано ниже. Для описания обработки, промежуточная величина, эквивалентный уровень реверберации, задается следующим образом:In embodiments, manually adjusted scaling coefficients s t and s c are introduced to compensate for signal-dependent effects, such as described below. To describe the processing, the intermediate value, the equivalent level reverberation is set as follows:
Эквивалентный уровень реверберации представляет требуемый уровень искусственной реверберации для данного входного сигнала, который приводит к аналогичной интенсивности реверберации для искусственной и исходной реверберации. Эквивалентный уровень реверберации затем преобразуется в усиление при отправке реверберации с использованием функции преобразования, определенной в отдельном эксперименте по регулированию.The equivalent reverb level represents the desired level of artificial reverb for a given input signal that results in similar reverb intensity for the artificial and original reverb. The equivalent reverb level is then converted to a reverb send gain using the conversion function defined in a separate adjustment experiment.
Ниже описаны аспекты эквивалентного уровня реверберации согласно вариантам осуществления.Aspects of the equivalent reverberation level according to embodiments are described below.
Сигналы с сильными переходными частями, например, звуки барабана, приводят к более высокой воспринимаемой интенсивности реверберации, чем стационарные сигналы, и являются менее эффективными в маскировании реверберации.Signals with strong transients, such as drum sounds, result in higher perceived reverberation intensity than stationary signals and are less effective at masking reverberation.
Искусственная реверберация с большими постоянными времени может требовать более низкого уровня реверберации, чтобы вызвать аналогичное восприятие интенсивности с исходной реверберацией. Некоторые варианты осуществления обеспечивают новый показатель спектральных переходных частей (STM) для количественного определения интенсивности переходных частей в сигнале следующим образом:Artificial reverberation with large time constants may require a lower reverberation level to produce a similar intensity perception to the original reverberation. Some embodiments provide a new spectral transient measure (STM) to quantify the intensity of transient parts in a signal as follows:
где:Where:
fs() обозначает рекурсивное усреднение во времени и реализует сглаживание подполосного сигнала.fs() stands for recursive time averaging and implements subband signal smoothing.
Например, в конкретном варианте осуществления, полосы частот, например, могут представлять собой полосы частот таблицы 1, левого столбца, или таблицы 1, правого столбца. Например, альтернативно могут использоваться другие полосы частот/конфигурации полос частот. Каждая из полос частот, например, в таком случае может содержать, например, все частотно-временные элементы разрешения в упомянутой полосе частот для временного индекса m.For example, in a particular embodiment, the frequency bands, for example, may be the frequency bands of table 1, left column, or table 1, right column. For example, other frequency bands/frequency band configurations may alternatively be used. Each of the frequency bands, for example, in such a case may contain, for example, all time-frequency bins in said frequency band for time index m.
Одиночное STM-значение получается посредством усреднения STM-значений полосы частот от 23 до 70 Гц и от 5,2 до 21 кГц. Этот выбор полос частот акцентирует внимание на переходных частях, вызываемых посредством перкуссионных инструментов, в то время как переходные части других инструментов, например, фортепьяно, учитываются в меньшей степени.A single STM value is obtained by averaging the STM values of the frequency bands from 23 to 70 Hz and from 5.2 to 21 kHz. This choice of frequency bands emphasizes the transient parts caused by percussion instruments, while the transient parts of other instruments, such as the piano, are taken into account to a lesser extent.
Коэффициент st масштабирования вычисляется из STM следующим образом:The scaling factor s t is calculated from STM as follows:
где обозначает среднее STM-значения блоков длиной в 1 с, затем отсекаемое согласно:Where denotes the average STM value of 1 s blocks, then cut off according to:
где mt, nt, st, min и st, max являются подстраиваемыми параметрами, которые регулируются в зависимости от свойств искусственной реверберации.where m t , n t , s t, min and s t, max are adjustable parameters that are adjusted depending on the properties of the artificial reverberation.
Если время реверберации для «исходной» реверберации превышает время для искусственной реверберации, требуется больший эквивалентный уровень реверберации. Второй коэффициент sc масштабирования проектируется с возможностью регулировки оцененной интенсивности реверберации для входных сигналов, содержащих значительную величину реверберации с длительным временем реверберации, например, для классической музыки. Предполагается, что такие элементы вместо этого декоррелируются вследствие большого количества рассеянных звуковых компонентов. Коэффициент масштабирования sc вычисляется следующим образом:If the reverberation time for the "original" reverberation exceeds that of the artificial reverberation, a higher equivalent reverberation level is required. The second scaling factor s c is designed to adjust the estimated reverberation intensity for input signals containing a significant amount of reverberation with a long reverberation time, such as classical music. It is assumed that such elements are instead decorrelated due to the large number of diffuse sound components. The scaling factor s c is calculated as follows:
где является средним значением ICC всех полос частот и кадров в блоках длиной в 1 с и затем отсекается согласно следующему:Where is the average ICC value of all frequency bands and frames in 1 s blocks and is then clipped according to the following:
где mc, nc, sc, min и sc, max являются подстраиваемыми параметрами.where m c , n c , s c, min and s c, max are adjustable parameters.
Ниже описана сигнально-адаптивная временная интеграция согласно вариантам осуществления.Signal-adaptive time integration according to embodiments is described below.
Для управления усилением при отправке реверберации в реальном времени, требуется реагировать на изменения входного сигнала без введения заметных модуляций уровня реверберации. Чтобы разрешать это с низкой задержкой и с низкой вычислительной нагрузкой, прогнозирования вычисляются из блоков длиной в 8 с, каждый из которых имеет перекрытие в 7 с таким образом, что новые прогнозирования вычисляются с частотой в 1 Гц. Сигналы с низкими входными уровнями, например, ниже -65 LUFS, не подаются в модель, что происходит во время обучения. Эквивалентный уровень реверберации (6) временно сглаживается с использованием рекурсивного усреднения с помощью однополюсного IIR-фильтра:To control the gain when sending reverb in real time, it is necessary to respond to changes in the input signal without introducing noticeable modulations in the reverb level. To allow this with low latency and low computational load, predictions are calculated in 8 s blocks, each with an overlap of 7 s, such that new predictions are calculated at a rate of 1 Hz. Signals with low input levels, such as below -65 LUFS, are not fed to the model, which happens during training. Equivalent level reverberation (6) is temporally smoothed using recursive averaging with a single-pole IIR filter:
с коэффициентом α сглаживания.with smoothing coefficient α.
Чтобы не допустить слишком больших уровней реверберации при переходах между входными сигналами с существенно отличающимися характеристиками, смены дорожек обнаруживаются, и быстрая адаптация эквивалентного уровня реверберации реализуется. Быстрая адаптация осуществляется посредством уменьшения длины блоков моделей до 1 с и увеличения коэффициента α сглаживания. Для обнаружения, изменения дисперсии STM идентифицируются, поскольку изменение количества переходных частей представляет собой хороший индикатор для перехода, например, от музыки к речи, требуя гораздо более низкого уровня реверберации.In order to avoid too high reverberation levels when transitioning between input signals with significantly different characteristics, track changes are detected and a fast adaptation of the equivalent reverberation level is implemented. The fast adaptation is performed by reducing the model block length to 1 s and increasing the smoothing coefficient α. For detection, changes in the STM variance are identified, since a change in the number of transient parts is a good indicator for a transition, for example, from music to speech, requiring a much lower reverberation level.
Фиг. 5 иллюстрирует обработку в реальном времени пояснительного входного файла, который состоит из 25 с классической музыки и резкого перехода к поп-музыке, которая может наблюдаться на верхнем графике, показывающем спектрограмму согласно варианту осуществления. В частности, фиг. 5 - вверху - иллюстрирует спектрограмму аудиосигнала с переходом от классической музыки к поп-музыке после 25 с. Фиг. 5 - середина - иллюстрирует эквивалентный уровень реверберации до (сплошная линия) и после (пунктирная линия) временного сглаживания. Фиг. 5 - внизу - показывает коэффициент сглаживания (сплошная линия) и общее значение масштабирования (пунктирная линия).Fig. 5 illustrates the real-time processing of an explanatory input file that consists of 25 s of classical music and an abrupt transition to pop music, which can be observed in the upper graph showing the spectrogram according to an embodiment. In particular, Fig. 5 - top - illustrates the spectrogram of the audio signal with a transition from classical music to pop music after 25 s. Fig. 5 - middle - illustrates the equivalent reverberation level before (solid line) and after (dotted line) temporal smoothing. Fig. 5 - bottom - shows the smoothing factor (solid line) and the overall scaling value (dotted line).
Средний подграфик иллюстрирует эквивалентный уровень реверберации до (сплошная линия) и после (пунктирная линия) временного сглаживания со значением в районе 7 MOS для классической музыки и 2,2 MOS для поп-элемента. Нижний подграфик показывает произведение значений (st*sc) масштабирования, называемое «общим значением масштабирования», в качестве пунктирной линии. Вследствие низкой корреляции элемента классической музыки, общее значение масштабирования превышает 1 до смены дорожек. Увеличение количества переходных частей в t=25 с инициирует обнаружение смены дорожек и уменьшает общее значение масштабирования приблизительно до 0,7.The middle subgraph illustrates the equivalent reverberation level before (solid line) and after (dashed line) temporal smoothing with a value of around 7 MOS for classical music and 2.2 MOS for the pop element. The lower subgraph shows the product of the scaling values (s t *s c ), called the "total scaling value", as a dotted line. Due to the low correlation of the classical element, the total scaling value exceeds 1 before the track change. Increasing the number of transients at t = 25 s triggers the detection of the track change and reduces the total scaling value to approximately 0.7.
Коэффициент α сглаживания, проиллюстрированный с помощью сплошной линии на нижнем подграфике, снижается после фазы регулирования в 11 с, поскольку уровень громкости и эквивалентный уровень реверберации после этого являются довольно стационарными. Обнаружение смены дорожек в t=25 с временно увеличивает α и приводит к быстрому приспособлению эквивалентного уровня реверберации.The smoothing factor α, illustrated by the solid line in the lower subgraph, decreases after the adjustment phase of 11 s, since the loudness level and the equivalent reverberation level are then fairly stationary. The detection of a track change at t = 25 s temporarily increases α and leads to a rapid adaptation of the equivalent reverberation level.
Ниже описано преобразование из прогнозирования реверберации в усиление при отправке реверберации согласно вариантам осуществления.The conversion from reverb prediction to reverb sending gain according to embodiments is described below.
Например, в качестве конечного этапа, усиление при отправке процессора реверберации, например, может вычисляться, с учетом эквивалентного уровня реверберации. С этой целью, выполняется второй тест на основе прослушивания, при котором 5 слушателей-экспертов регулируют усиления при отправке двух искусственных ревербераций, имитирующих акустическое окружение концертного зала (T60=2,2 с) и джаз-клуба (T60=1,3 с) в автомобиле в соответствии со своими предпочтениями.For example, as a final step, the gain when sending a reverb processor, for example, can be calculated taking into account the equivalent reverb level. For this purpose, a second listening test is performed, in which 5 expert listeners adjust the gains when sending two artificial reverberations simulating the acoustic environment of a concert hall (T60=2.2 s) and a jazz club (T60=1.3 s) in a car according to their preferences.
Фиг. 6 иллюстрирует опорное усиление при отправке реверберации по сравнению с эквивалентным уровнем реверберации с подогнанным полиномом согласно варианту осуществления. В частности, фиг. 6 иллюстрирует полученное среднее усиление при отправке по сравнению с эквивалентным уровнем реверберации с 95% доверительными интервалами согласно уравнению (1) для всех 30 тестовых элементов для двух искусственных ревербераций. Поскольку более длинный хвост реверберации приводит к меньшему маскированию и более высокой воспринимаемой интенсивности реверберации с переходными частями, требующими более низкого усиления при отправке реверберации, подстраиваемые параметры в уравнении (9) и уравнении (11) регулируются таким образом, что сильные переходные части и низкая корреляция приводят к более низкому эквивалентному уровню реверберации для концертного зала по сравнению с джаз-клубом. В результате одна отдельная кривая преобразования может использоваться для обеих ревербераций. При значении в 0,81, коэффициент ранговой корреляции Копьеносца подтверждает монотонную взаимосвязь между двумя переменными, которая может аппроксимироваться с помощью полинома степени 3 с низкой ошибкой.Fig. 6 illustrates the reference reverberation send gain compared to the equivalent reverberation level with a fitted polynomial according to an embodiment. In particular, Fig. 6 illustrates the obtained average send gain compared to the equivalent reverberation level with 95% confidence intervals according to equation (1) for all 30 test items for two artificial reverberations. Since a longer reverberation tail results in less masking and a higher perceived reverberation intensity with transients requiring a lower reverberation send gain, the adjustable parameters in equation (9) and equation (11) are adjusted such that strong transients and low correlation result in a lower equivalent reverberation level for a concert hall compared to a jazz club. As a result, one separate conversion curve can be used for both reverberations. With a value of 0.81, the Spearman's rank correlation coefficient confirms a monotonic relationship between the two variables, which can be approximated by a degree 3 polynomial with low error.
Регулирования усиления используются для подгонки к полиномиальному преобразованию:Gain adjustments are used to fit the polynomial transform:
, ,
показанному на фиг. 6, которое транслирует сглаженный эквивалентный уровень реверберации в прогнозированное усиление g при отправке реверберации.shown in Fig. 6, which transmits a smoothed equivalent level reverb into the predicted g gain when sending the reverb.
Ниже рассматриваются аспекты оценки.Aspects of evaluation are discussed below.
Для оценки полиномиального преобразования, используется технология перекрестной проверки достоверности с исключением по одному, что означает, что все пары значений, кроме одной, используются для подгонки к полиномиальной функции, и последняя пара данных служит для получения ошибки для этой конкретной точки данных. Этот процесс повторяется для всех тестовых элементов на основе прослушивания со средней абсолютной ошибкой (MAE) в 1,74 дБ. Согласно [7], такое отклонение от предпочтительного усиления при отправке реверберации приводит к пренебрежимо малому уменьшению эстетического качества. Пределы 95%-ого доверительного интервала, полученные согласно уравнению (1), находятся на уровне 1,27 дБ и 2,21 дБ. Ошибка абсолютного максимума соответствует 5,11 дБ, и корреляция между прогнозированными и наблюдаемыми значениями находится в 0,89.To estimate the polynomial transform, a leave-one-out cross-validation technique is used, meaning that all pairs of values except one are used to fit the polynomial function, and the last pair of data serves to obtain the error for that particular data point. This process is repeated for all listening-based test items, with a mean absolute error (MAE) of 1.74 dB. According to [7], such a deviation from the preferred gain when sending reverberation results in a negligible decrease in aesthetic quality. The 95% confidence interval limits obtained according to equation (1) are 1.27 dB and 2.21 dB. The absolute maximum error is 5.11 dB, and the correlation between the predicted and observed values is 0.89.
Фиг. 7 иллюстрирует эквивалентный уровень реверберации по сравнению с ошибкой усиления при отправке реверберации согласно варианту осуществления. График рассеяния, проиллюстрированный на фиг. 7, показывает ошибки усиления при отправке реверберации по сравнению с эквивалентным уровнем реверберации, раскрывая равномерное распределение ошибок по всему диапазону значений только с одним выбросовым значением в 2,6 MOS.Fig. 7 illustrates the equivalent reverberation level versus the gain error when sending reverberation according to an embodiment. The scatter plot illustrated in Fig. 7 shows the gain errors when sending reverberation versus the equivalent reverberation level, revealing a uniform distribution of errors over the entire range of values with only one outlier value of 2.6 MOS.
Приведены концепции для управления уровнем искусственной реверберации. Некоторые приведенные концепции, например, могут использовать модель для прогнозирования воспринимаемой интенсивности реверберации на основе линейной регрессионной модели, обученной с помощью тестовых данных на основе прослушивания. Способ использует подстроенные вручную адаптации к различным настройкам параметров искусственной реверберации. Быстрая адаптация к изменениям характеристик входных сигналов реализуется посредством сигнально-адаптивной временной интеграции. Алгоритм оценивается при применении встроенной в автомобиль системы воспроизведения звука и допускает прогнозирование предпочтительных усилений при отправке реверберации с MAE в 1,74 дБ.Concepts for controlling the level of artificial reverberation are presented. Some of the concepts presented, for example, may use a model for predicting the perceived intensity of reverberation based on a linear regression model trained using listening-based test data. The method uses manually tuned adaptations to different settings of artificial reverberation parameters. Fast adaptation to changes in the characteristics of the input signals is realized through signal-adaptive time integration. The algorithm is evaluated using an in-car audio system and allows for prediction of preferred gains when sending reverberation with an MAE of 1.74 dB.
Ниже описаны расширения вышеописанных предусмотренных вариантов осуществления.Extensions of the above-described envisaged embodiments are described below.
Например, могут быть реализованы, например, другие сценарии применения.For example, other application scenarios can be implemented.
Варианты осуществления могут применяться, например, для управления реверберацией в различных других сценариях применения. В бинауральном воспроизведении звука искусственная реверберация применяется для поддержки ощущения экстернализации, например, того, что слушатель локализует звуковые события, объекты и источники за пределами головы. Это отличается от стандартного воспроизведения звука с наушниками, при котором типично звуки воспринимаются как поступающие изнутри головы.Embodiments can be used, for example, to control reverberation in various other application scenarios. In binaural sound reproduction, artificial reverberation is used to support a sense of externalization, such as the listener localizing sound events, objects, and sources outside the head. This is in contrast to standard headphone sound reproduction, in which sounds are typically perceived as coming from inside the head.
Искусственная реверберация используется в производстве музыки, в котором она применяется к смешению множества источников звука и к отдельным источникам звука. Предложенный способ также может расширяться, чтобы прогнозировать воспринимаемую величину реверберации для отдельных источников звука или отдельных компонентов смешанного сигнала (например, группы источников звука). Информация о величине в расчете на отдельный компонент обеспечивает автоматизированное управление или искусственную реверберацию при формировании звука (производство музыки, звук в фильмах, подкасты и другой сформированный пользователем контент).Artificial reverberation is used in music production, where it is applied to a mix of multiple sound sources and to individual sound sources. The proposed method can also be extended to predict the perceived reverberation magnitude for individual sound sources or individual components of a mixed signal (e.g., a group of sound sources). The information on the magnitude per individual component enables automated control or artificial reverberation in sound generation (music production, film sound, podcasts, and other user-generated content).
Другие варианты осуществления, например, могут реализовывать альтернативные модели.Other embodiments, for example, may implement alternative models.
Линейная модель, например, может заменяться посредством других управляемых данными моделей, например, посредством любой функции:The linear model, for example, can be replaced by other data-driven models, such as any function:
где скалярный вывод вычисляется, с учетом входного вектора x и параметров Θ модели, которые определяются посредством оптимизации критерия (например, минимизации среднеквадратической ошибки) между и целевыми выводами y. Другой известный класс таких обучаемых моделей представляет собой искусственные нейронные сети, в частности, глубокие нейронные сети (DNN). Следует отметить, что чем больше набор параметров Θ, тем больше данных требуется для обучения модели, так что производительность является хорошей не только для обучающих данных, но также и для новой пары данных, которые не используются во время обучения. Это свойство называется «обобщением». Тем не менее, с появлением дополнительных обучающих данных, другие модели, такие как DNN, могут приводить к лучшим прогнозированиям (с большей точностью).where is the scalar output is calculated, given the input vector x and the parameters Θ of the model, which are determined by optimizing a criterion (e.g. minimizing the mean square error) between and target outputs y. Another well-known class of such trainable models are artificial neural networks, in particular deep neural networks (DNN). It should be noted that the larger the set of parameters Θ, the more data is required to train the model, so that the performance is good not only for the training data, but also for a new pair data that is not used during training. This property is called "generalization." However, with additional training data, other models such as DNNs can produce better predictions (with greater accuracy).
Такие DNN реализуются посредством комбинирования слоев модулей обработки, причем непосредственно модуль имеет обучаемые параметры. Повсеместно используемые типы слоев представляют собой сверточные слои, плотные слои (также называемые «полностью соединенными слоями») и рекуррентные слои. Они отличаются тем, какие типы модулей реализуются, и тем, как эти модули соединяются друг с другом. Дополнительные типы слоев используются для поддержки процесса обучения, при этом обучение означает процесс оптимизации параметров Θ посредством числовой оптимизации.Such DNNs are implemented by combining layers of processing modules, where the module itself has trainable parameters. Commonly used layer types are convolutional layers, dense layers (also called “fully connected layers”), and recurrent layers. They differ in what types of modules are implemented and how these modules are connected to each other. Additional layer types are used to support the learning process, where learning means the process of optimizing the parameters Θ through numerical optimization.
Ниже приведены дополнительные варианты осуществления.Additional embodiments are provided below.
Предусмотрены устройство и/или способ управления уровнем искусственно сформированного сигнала реверберации, который должен суммироваться с аудиосигналом, с использованием модели воспринимаемой интенсивности реверберации в исходном входном сигнале.A device and/or method is provided for controlling the level of an artificially generated reverberation signal that is to be summed with an audio signal, using a model of the perceived intensity of reverberation in the original input signal.
Согласно варианту осуществления входной сигнал, например, может дереверберироваться для ослабления исходных реверберационных сигнальных компонентов.According to an embodiment, the input signal may, for example, be dereverberated to attenuate the original reverberant signal components.
В варианте осуществления линейная регрессионная модель, например, может использоваться с различными значениями аудиопризнаков в качестве ввода.In an embodiment, a linear regression model, for example, may be used with different audio feature values as input.
Согласно варианту осуществления, SFM подполосы частот и/или ICC подполосы частот, например, могут использоваться в качестве входных аудиопризнаков.According to an embodiment, SFM subbands and/or ICC subbands, for example, may be used as input audio features.
В варианте осуществления, например, могут использоваться подстраиваемые значения масштабирования для изменения прогнозирования на основе моделей, которые зависят от значений аудиопризнаков, чтобы компенсировать измененное взаимодействие искусственной реверберации и дереверберированного входного сигнала по сравнению с исходной реверберацией и прямым сигналом.In an embodiment, for example, adjustable scaling values may be used to alter prediction based on models that depend on audio feature values to compensate for the altered interaction of artificial reverberation and the dereverberated input signal compared to the original reverberation and the direct signal.
Согласно варианту осуществления, например, могут использоваться подстраиваемые значения масштабирования, которые зависят от ICC подполосы частот и STM подполосы частот.According to an embodiment, for example, adjustable scaling values may be used that depend on the ICC subband and the STM subband.
В варианте осуществления, например, может использоваться кольцевой буфер с сильным перекрытием для обработки в реальном времени.In an embodiment, for example, a highly overlapping circular buffer may be used for real-time processing.
Согласно варианту осуществления, адаптивное временное сглаживание, например, может использоваться для регулировки величины сглаживания согласно изменениям входного сигнала.According to an embodiment, adaptive temporal smoothing, for example, may be used to adjust the amount of smoothing according to changes in the input signal.
В варианте осуществления, могут оцениваться, например, изменения уровня громкости и прогнозирования на основе моделей для управения коэффициентом сглаживания временного рекурсивного усреднения.In an embodiment, for example, changes in loudness level and model-based predictions may be estimated to control the smoothing factor of the temporal recursive averaging.
Согласно варианту осуществления, смены дорожек, например, могут обнаруживаться в зависимости от изменений дисперсии аудиопризнаков, чтобы временно уменьшить коэффициент сглаживания временного рекурсивного усреднения и сбрасывать кольцевой буфер.According to an embodiment, track changes, for example, may be detected depending on changes in the variance of audio features in order to temporarily reduce the smoothing factor of the temporal recursive averaging and reset the ring buffer.
В варианте осуществления, функция преобразования, подогнанная к тестовым данным на основе прослушивания, например, может использоваться для преобразования подстроенных прогнозирований на основе модели в усиления при отправке реверберации.In an embodiment, a transfer function fitted to test data based on listening, for example, may be used to convert adjusted model-based predictions into gains when sending reverberation.
Предложенные концепции, например, могут применяться для воспроизведения звука в автомобиле, чтобы подражать акустическим окружениям с большим размером и приятно звучащими пространственными свойствами. Эмуляция акустического окружения достигается посредством обработки входного аудиосигнала таким образом, что реверберирующие сигнальные компоненты выходного сигнала являются перцепционно аналогичными воспроизведению прямых сигнальных компонентов в новом окружении. Реализация имеет низкое время задержки и низкую рабочую нагрузку.The proposed concepts can be applied, for example, to car audio reproduction to emulate large-scale acoustic environments with pleasant-sounding spatial properties. The emulation of an acoustic environment is achieved by processing the input audio signal in such a way that the reverberant signal components of the output signal are perceptually similar to the reproduction of direct signal components in the new environment. The implementation has low latency and low workload.
Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут выполняться посредством (или с использованием) аппаратного устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, один или более из самых важных этапов способа могут выполняться посредством этого устройства.Although some aspects are described in the context of a device, it is obvious that these aspects also represent a description of the corresponding method, wherein a block or device corresponds to a step of the method or a feature of a step of the method. Similarly, aspects described in the context of a step of the method also represent a description of the corresponding block or element, or a feature of the corresponding device. Some or all of the steps of the method can be performed by (or using) a hardware device, such as, for example, a microprocessor, a programmable computer or an electronic circuit. In some embodiments, one or more of the most important steps of the method can be performed by this device.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут реализовываться в аппаратных средствах либо в программном обеспечении, либо по меньшей мере частично в аппаратных средствах, либо по меньшей мере частично в программном обеспечении. Реализация может выполняться с использованием цифрового носителя данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные считываемые электронными средствами управляющие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель данных может быть машиночитаемым.Depending on the specific implementation requirements, embodiments of the invention may be implemented in hardware or in software, or at least partially in hardware or at least partially in software. The implementation may be performed using a digital storage medium, such as a floppy disk, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM or flash memory, having stored electronically readable control signals that interact (or are capable of interacting) with a programmable computer system in such a way that the corresponding method is performed. Accordingly, the digital storage medium may be machine-readable.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий считываемые электронными средствами управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.Some embodiments of the invention include a data carrier having electronically readable control signals that are capable of interacting with a programmable computer system such that one of the methods described herein is performed.
В общем, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может сохраняться, например, на машиночитаемом носителе.In general, embodiments of the present invention can be implemented as a computer program product with a program code, wherein the program code is designed to implement one of the methods when the computer program product is executed on a computer. The program code can be stored, for example, on a machine-readable medium.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.Other embodiments comprise a computer program for implementing one of the methods described herein stored on a machine-readable medium.
Другими словами, вариант осуществления способа согласно изобретению в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа выполняется на компьютере.In other words, an embodiment of the method according to the invention is therefore a computer program having a program code for implementing one of the methods described in this document when the computer program is executed on a computer.
Следовательно, дополнительный вариант осуществления способов согласно изобретению представляет собой носитель данных (цифровой носитель данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель данных или носитель с записанными данными обычно является материальным и/или постоянным.Therefore, a further embodiment of the methods according to the invention is a data carrier (digital data carrier or machine-readable carrier) containing a recorded computer program for implementing one of the methods described herein. The data carrier, digital data carrier or carrier with recorded data is usually tangible and/or permanent.
Следовательно, дополнительный вариант осуществления способа согласно изобретению представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.Therefore, a further embodiment of the method according to the invention is a data stream or a sequence of signals representing a computer program for implementing one of the methods described in this document. The data stream or sequence of signals can, for example, be configured to be transmitted via a data connection, such as via the Internet.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществления одного из способов, описанных в данном документе.An additional embodiment comprises a processing means, such as a computer or a programmable logic device, configured to perform one of the methods described herein.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.An additional embodiment comprises a computer having a computer program installed for implementing one of the methods described herein.
Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передачи (например, электронными или оптическими средствами) компьютерной программы для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.An additional embodiment according to the invention comprises a device or system configured to transmit (e.g. by electronic or optical means) a computer program for implementing one of the methods described in this document to a receiving device. The receiving device, for example, may be a computer, a mobile device, a storage device, etc. The device or system, for example, may comprise a file server for transmitting the computer program to the receiving device.
В некоторых вариантах осуществления, для реализации части или всех из функциональностей способов, описанных в данном документе, может использоваться программируемое логическое устройство (например, программируемая пользователем вентильная матрица). В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного устройства.In some embodiments, a programmable logic device (e.g., a field programmable gate array) may be used to implement some or all of the functionalities of the methods described herein. In some embodiments, the field programmable gate array may cooperate with a microprocessor to implement one of the methods described herein. In general, the methods are preferably implemented by any hardware device.
Устройство, описанное в данном документе, может реализовываться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием комбинации аппаратного устройства и компьютера.The apparatus described in this document may be implemented using a hardware device, using a computer, or using a combination of a hardware device and a computer.
Способы, описанные в данном документе, могут осуществляться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием комбинации аппаратного устройства и компьютера.The methods described in this document may be implemented using a hardware device, using a computer, or using a combination of a hardware device and a computer.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.The above-described embodiments are merely illustrative of the principles of the present invention. It should be understood that modifications and changes to the arrangements and details described herein will be obvious to those skilled in the art. Therefore, they are intended to be limited only by the scope of the claims below and not by the specific details presented by way of description and explanation of the embodiments herein.
Библиографический списокBibliographic list
[1] Paulus, J., Uhle, C. и Herre, J. "Perceived Level of Late Reverberation in Speech and Music", in Proc. AES 130th Conv., 2011 год.[1] Paulus, J., Uhle, C. and Herre, J. "Perceived Level of Late Reverberation in Speech and Music", in Proc. AES 130th Conv., 2011.
[2] Gardner, W. G. и Griesinger, D. "Reverberation level matching experiments", in Proc. Sabine Centennial Symposium, Acoust. Soc. of Am., 1994 год.[2] Gardner, W. G. and Griesinger, D. "Reverberation level matching experiments", in Proc. Sabine Centennial Symposium, Acoust. Soc. of Am., 1994.
[3] Leonard, B., King, R. и Sikora, G. "The Effect of Playback System on Reverberation Level Preference", in Audio Engineering Society Convention 134, 2013 год.[3] Leonard, B., King, R. and Sikora, G. "The Effect of Playback System on Reverberation Level Preference", in Audio Engineering Society Convention 134, 2013.
[4] Leonard, B., King, R. и Sikora, G. "The Effect of Acoustic Environment on Reverberation Level Preference", in Audio Engineering Society Convention 133, 2012 год.[4] Leonard, B., King, R. and Sikora, G. "The Effect of Acoustic Environment on Reverberation Level Preference", in Audio Engineering Society Convention 133, 2012.
[5] Sarroff, A. M. и Bello, J. P. "Toward the Computational Model of Perceived Spaciousness in Recorded Music", J. Audio Eng. Soc, 59(7/8), стр. 498-513, 2011.[5] Sarroff, A. M. and Bello, J. P. "Toward the Computational Model of Perceived Spaciousness in Recorded Music", J. Audio Eng. Soc, 59(7/8), pp. 498-513, 2011.
[6] Uhle, C., Paulus, J. и Herre, J. "Predicting the Perceived Level of Late Reverberation Using Computational Models of Loudness", in Proc. 17th Int. Conf. on Digital Signal Process. (DSP), 2011 год.[6] Uhle, C., Paulus, J. and Herre, J. "Predicting the Perceived Level of Late Reverberation Using Computational Models of Loudness", in Proc. 17th Int. Conf. on Digital Signal Process. (DSP), 2011.
[7] Paulus, J., Uhle, C., Herre, J. и Höpfel, M. "A Study on the Preferred Level of Late Reverberation in Speech and Music", in Proc. of the 60th Int. Conf. of Audio Eng. Soc., 2016 год.[7] Paulus, J., Uhle, C., Herre, J. and Höpfel, M. "A Study on the Preferred Level of Late Reverberation in Speech and Music", in Proc. of the 60th Int. Conf. of Audio Eng. Soc., 2016.
[8] Gilleland, E. "Confidence Intervals for Forecast Verification, National Center For Atmospheric Research", Boulder, Colorado, 2010 год.[8] Gilleland, E. “Confidence Intervals for Forecast Verification,” National Center for Atmospheric Research, Boulder, Colorado, 2010.
[9] Allen, J., Berkeley, D. и Blauert, J. "Multimicrophone Signal-Processing Technique to Remove Room Reverberation from Speech Signals", J. Acoust. Soc. Am., 62, 1977 год.[9] Allen, J., Berkeley, D. and Blauert, J. "Multimicrophone Signal-Processing Technique to Remove Room Reverberation from Speech Signals", J. Acoust. Soc. Am., 62, 1977.
[10] Gray, A. H. и Markel, J. D. "A Spectral-Flatness Measure for Studying the Autocorrelation Method of Linear Prediction of Speech Analysis", IEEE Trans. Acoust., Speech and Sig. Process., 22, стр. 207-217, 1974.[10] Gray, A. H. and Markel, J. D. “A Spectral-Flatness Measure for Studying the Autocorrelation Method of Linear Prediction of Speech Analysis,” IEEE Trans. Acoust., Speech and Sig. Process., 22, pp. 207-217, 1974.
[11] James, G., Witten, D., Hastie, T. и Tibshirani R., редакторы, "An Introduction to Statistical Learning: with Applications in R", number 103 in Springer Texts in Statistics, Springer, New York, 2013 год.[11] James, G., Witten, D., Hastie, T. and Tibshirani R., editors, “An Introduction to Statistical Learning: with Applications in R,” number 103 in Springer Texts in Statistics, Springer, New York, 2013.
Claims (51)
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP22162454.7 | 2022-03-16 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| RU2024130878A RU2024130878A (en) | 2024-11-19 |
| RU2841604C2 true RU2841604C2 (en) | 2025-06-11 |
Family
ID=
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014091375A1 (en) * | 2012-12-14 | 2014-06-19 | Koninklijke Philips N.V. | Reverberation processing in an audio signal |
| US9264834B2 (en) * | 2006-09-20 | 2016-02-16 | Harman International Industries, Incorporated | System for modifying an acoustic space with audio source content |
| US9672806B2 (en) * | 2011-03-02 | 2017-06-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal |
| RU2642376C2 (en) * | 2013-07-22 | 2018-01-24 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Audio signal processing method, signal processing unit, stereophonic render, audio coder and audio decoder |
| US10079028B2 (en) * | 2015-12-08 | 2018-09-18 | Adobe Systems Incorporated | Sound enhancement through reverberation matching |
| US10645496B2 (en) * | 2017-09-06 | 2020-05-05 | Sennheiser Communications A/S | Communication system for communicating audio signals between a plurality of communication devices in a virtual sound environment |
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9264834B2 (en) * | 2006-09-20 | 2016-02-16 | Harman International Industries, Incorporated | System for modifying an acoustic space with audio source content |
| US9672806B2 (en) * | 2011-03-02 | 2017-06-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal |
| WO2014091375A1 (en) * | 2012-12-14 | 2014-06-19 | Koninklijke Philips N.V. | Reverberation processing in an audio signal |
| RU2642376C2 (en) * | 2013-07-22 | 2018-01-24 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Audio signal processing method, signal processing unit, stereophonic render, audio coder and audio decoder |
| US10079028B2 (en) * | 2015-12-08 | 2018-09-18 | Adobe Systems Incorporated | Sound enhancement through reverberation matching |
| US10645496B2 (en) * | 2017-09-06 | 2020-05-05 | Sennheiser Communications A/S | Communication system for communicating audio signals between a plurality of communication devices in a virtual sound environment |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10242692B2 (en) | Audio coherence enhancement by controlling time variant weighting factors for decorrelated signals | |
| CA2827326C (en) | Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal | |
| RU2650026C2 (en) | Device and method for multichannel direct-ambient decomposition for audio signal processing | |
| JP5284360B2 (en) | Apparatus and method for extracting ambient signal in apparatus and method for obtaining weighting coefficient for extracting ambient signal, and computer program | |
| CN103262409A (en) | Dynamic compensation of audio signals for improved perceived spectral imbalances | |
| US20250008292A1 (en) | Apparatus and method for an automated control of a reverberation level using a perceptional model | |
| US11380345B2 (en) | Real-time voice timbre style transform | |
| RU2841604C2 (en) | Reverberation level automated control device and method using perceptual model | |
| Weber et al. | Automated Control of Reverberation Level Using a Perceptional Model | |
| Evangelista et al. | Sound source separation | |
| Perez Gonzalez | Advanced automatic mixing tools for music | |
| Coggin | Automatic design of feedback delay network reverb parameters for perceptual room impulse response matching | |
| HK1237528B (en) | Apparatus and method for enhancing an audio signal, sound enhancing system | |
| HK1237528A1 (en) | Apparatus and method for enhancing an audio signal, sound enhancing system | |
| HK1193525B (en) | Audio processor for generating a reverberated signal from a direct signal and method therefor |