RU2605522C2

RU2605522C2 - Устройство, содержащее множество аудиодатчиков, и способ его эксплуатации

Info

Publication number: RU2605522C2
Application number: RU2013128560/28A
Authority: RU
Inventors: Патрик КЕХИХЯН; Вилхелмус Андреас Маринус Арнолдус Мария ВАН ДЕН ДЮНГЕН
Original assignee: Конинклейке Филипс Электроникс Н.В.
Priority date: 2010-11-24
Filing date: 2011-11-21
Publication date: 2016-12-20
Also published as: EP2643981B1; JP6031041B2; CN103229517B; BR112013012539A2; BR112013012539B1; EP2643981A1; JP2014501089A; US9538301B2; WO2012069973A1; CN103229517A; RU2013128560A; WO2012069973A9; US20140119548A1

Abstract

Изобретение относится к акустике, в частности к средствам обработки звуковой информации, полученной от микрофонов костной и воздушной проводимости. Устройство содержит множество аудиодатчиков, первый из которых контактирует с пользователем устройства, а второй контактирует с воздухом. Осуществляют прием аудиосигналов, анализируя которые, различают тип аудиопреобразователя, находящегося в контакте с пользователем. При этом анализ включает в себя преобразование Фурье, нормализацию преобразованных сигналов с последующей оценкой мощности аудиосигнала и её сравнением с пороговой величиной. Затем воспроизводят выходной аудиосигнал, представляющий речь пользователя. Устройство также содержит дискриминатор, соединенный входами с выходами микрофонов, детектор речи, схему улучшения речи, схему выделения признаков, схему коррекции аудиосигналов, передающую схему. 3 н. и 10 з.п. ф-лы, 14 ил.

Description

Область техники, к которой относится изобретение

Изобретение относится к устройству, содержащему множество аудиодатчиков, например микрофонов, и к способу его эксплуатации, и в частности к устройству, конфигурированному таким образом, что, когда первый аудиодатчик из множества аудиодатчиков контактирует с пользователем устройства, второй датчик из множества датчиков контактирует с воздухом.

Уровень техники

Мобильные устройства часто используются в акустически неблагоприятных средах (т.е. средах с высоким уровнем фонового шума). Помимо того, что у пользователя мобильного устройства возникают проблемы с возможностью слышать удаленную сторону в ходе двусторонней связи, трудно получить «чистый» (т.е. незашумленный или, по существу, очищенный от шума) аудиосигнал, представляющий речь пользователя. В средах с низким отношением сигнал/шум (SNR) воспринимаемого сигнала обычные алгоритмы обработки речи могут осуществлять шумоподавление лишь в ограниченных пределах, прежде чем речевой сигнал ближней стороны (т.е. полученный микрофоном в мобильном устройстве) сможет исказиться артефактами в виде «музыкальных тонов».

Известно, что аудиосигналы, полученные с использованием контактного датчика, например костнопроводного (BC) или контактного микрофона (т.е. микрофона в физическом контакте с объектом, издающим звук), относительно слабо подвержены фоновому шуму по сравнению с аудиосигналами, полученными с использованием воздухопроводного (AC) датчика, например микрофона (т.е. микрофона, который отделен от объекта, издающего звук, воздухом), поскольку звуковые колебания, измеренные BC-микрофоном, прошли через тело пользователя, а не через воздух, как в случае нормального AC-микрофона, который, помимо улавливания полезного аудиосигнала, также воспринимает фоновый шум. Кроме того, интенсивность аудиосигналов, полученных с использованием BC-микрофона, в общем случае, гораздо выше, чем интенсивность аудиосигналов, полученных с использованием AC-микрофона. Поэтому считается, что BC-микрофоны пригодны для использования в устройствах, которые подлежат использованию в зашумленных средах. Фиг. 1 демонстрирует, что BC-сигнал относительно слабо подвержен шуму окружающей среды в отличие от AC-сигнала, и иллюстрирует свойства высокого SNR аудиосигнала, полученного с использованием BC-микрофона, относительно аудиосигнала, полученного с использованием AC-микрофона, в той же зашумленной среде. На фиг. 1 по вертикальной оси показана амплитуда аудиосигнала.

Однако проблема с речью, полученной с использованием BC-микрофона, состоит в том, что ее качество и разборчивость обычно гораздо ниже, чем у речи, полученной с использованием AC-микрофона. Это снижение разборчивости, в общем случае, обусловлено фильтрационными свойствами кости и ткани, которые могут сильно ослаблять высокочастотные компоненты аудиосигнала.

Качество и разборчивость речи, полученной с использованием BC-микрофона, зависит от его конкретного положения на пользователе. Чем ближе микрофон располагается к гортани и голосовым связкам в районе горла или шеи, тем выше результирующее качество и интенсивность BC-аудиосигнала. Кроме того, поскольку BC-микрофон находится в физическом контакте с объектом, издающим звук, результирующий сигнал имеет более высокое SNR по сравнению с AC-аудиосигналом, который также воспринимает фоновый шум.

Однако, хотя речь, полученная с использованием BC-микрофона, размещенного в области шеи или вокруг нее, будет иметь значительно более высокую интенсивность, разборчивость сигнала останется весьма низкой, что объясняется фильтрацией глоттального сигнала через кости и мягкую ткань в и вокруг области шеи и недостатком передаточной функции речевого тракта.

Характеристики аудиосигнала, полученного с использованием BC-микрофона, также зависят от корпуса BC-микрофона, т.е. его экранирования от фонового шума в среде, а также давления, прилагаемого к BC-микрофону для установления контакта с телом пользователя.

Существуют способы фильтрации или улучшения речи, нацеленные на повышение разборчивости речи, полученной от BC-микрофона, но эти способы требуют либо присутствия чистого опорного речевого сигнала для построения корректирующего фильтра для применения к аудиосигналу от BC-микрофона, либо обучения зависящих от пользователя моделей с использованием чистого аудиосигнала от AC-микрофона. Существуют альтернативные способы, призванные повышать разборчивость речи, полученной от AC-микрофона, с использованием свойств речевого сигнала от BC-микрофона.

Раскрытие изобретения

Мобильные персональные системы спасения в чрезвычайных ситуациях (MPERS) включают в себя брелок, носимый пользователем, или аналогичное устройство, которое включает в себя микрофон, позволяющее пользователю осуществлять связь с поставщиком медицинских услуг или службой экстренной помощи в экстренной ситуации. Поскольку эти устройства могут потребоваться в зашумленных средах, желательно обеспечить устройство, которое дает как можно лучший речевой аудиосигнал от пользователя, поэтому рассматривается возможность использования BC-микрофонов и AC-микрофонов в этих устройствах.

Однако брелок может свободно двигаться относительно пользователя (например, вращаться), поэтому конкретный микрофон в контакте с пользователем может меняться со временем (т.е. микрофон может быть BC-микрофоном в один момент и AC-микрофоном в следующий). Возможно также, что в данный момент ни один из микрофонов не будет в контакте с пользователем (т.е. все микрофоны будут AC-микрофонами). Это создает проблемы для последующей схемы в устройстве 2, которая обрабатывает аудиосигналы для формирования улучшенного аудиосигнала, поскольку конкретные операции обработки обычно осуществляются на конкретных (т.е. BC или AC) аудиосигналах.

Таким образом, существует потребность в устройстве и способе его эксплуатации, которые позволяют преодолеть эту проблему.

Согласно первому аспекту изобретения предусмотрен способ эксплуатации устройства, причем устройство содержит множество аудиодатчиков и конфигурировано таким образом, что, когда первый аудиодатчик из множества аудиодатчиков контактирует с пользователем устройства, второй аудиодатчик из множества аудиодатчиков контактирует с воздухом, причем способ содержит этапы, на которых получают соответствующие аудиосигналы, представляющие речь пользователя, от множества аудиодатчиков и анализируют соответствующие аудиосигналы для определения, какой, при наличии, из множества аудиодатчиков контактирует с пользователем устройства.

Предпочтительно, этап анализа содержит анализ спектральных свойств каждого из аудиосигналов. Еще более предпочтительно, этап анализа содержит анализ мощности соответствующих аудиосигналов выше пороговой частоты. Можно определить, что аудиодатчик контактирует с пользователем устройства, если мощность его соответствующего аудиосигнала выше пороговой частоты меньше мощности аудиосигнала выше пороговой частоты от другого аудиодатчика более чем на заданную величину.

В одном конкретном варианте осуществления этап анализа содержит применение N-точечного преобразования Фурье к каждому аудиосигналу; определение информации по спектру мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов; нормализацию фурье-преобразованных аудиосигналов от двух датчиков по отношению друг к другу согласно определенной информации и сравнение спектра мощности выше пороговой частоты нормализованных фурье-преобразованных аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков контактирует с пользователем устройства.

В одной реализации этап определения информации содержит определение значения максимального пика в спектре мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов, но в альтернативном варианте реализации этап определения информации содержит суммирование спектра мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов.

Можно определить, что аудиодатчик контактирует с пользователем устройства, если спектр мощности выше пороговой частоты для этого соответствующего фурье-преобразованного аудиосигнала меньше спектра мощности выше пороговой частоты для фурье-преобразованного аудиосигнала от другого аудиодатчика более чем на заданную величину.

Можно определить, что ни один аудиодатчик не контактирует с пользователем устройства, если спектры мощности выше пороговой частоты для фурье-преобразованных аудиосигналов отличаются менее чем на заданную величину.

Предпочтительно, способ дополнительно содержит этап, на котором подают аудиосигналы на схему, которая обрабатывает аудиосигналы, для формирования выходного аудиосигнала, представляющего речь пользователя, согласно результату этапа анализа.

Согласно второму аспекту изобретения предусмотрено устройство, содержащее множество аудиодатчиков, размещенных в устройстве таким образом, что, когда первый аудиодатчик из множества аудиодатчиков контактирует с пользователем устройства, второй аудиодатчик из множества аудиодатчиков контактирует с воздухом; и схему, которая выполнена с возможностью получения соответствующих аудиосигналов, представляющих речь пользователя, от множества аудиодатчиков и анализа соответствующих аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков контактирует с пользователем устройства.

Предпочтительно схема выполнена с возможностью анализа мощности соответствующих аудиосигналов выше пороговой частоты.

В конкретном варианте осуществления схема выполнена с возможностью анализа соответствующих аудиосигналов путем применения N-точечного преобразования Фурье к каждому аудиосигналу; определения информации по спектру мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов; нормализации фурье-преобразованных аудиосигналов от двух датчиков по отношению друг к другу согласно определенной информации и сравнения спектра мощности выше пороговой частоты нормализованных фурье-преобразованных аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков контактирует с пользователем устройства.

Предпочтительно, устройство дополнительно содержит схему обработки для приема аудиосигналов и для обработки аудиосигналов для формирования выходного аудиосигнала, представляющего речь пользователя.

Согласно третьему аспекту изобретения предусмотрен компьютерный программный продукт, содержащий машиночитаемый код, который конфигурирован таким образом, что, при выполнении машиночитаемого кода подходящим компьютером или процессором, компьютер или процессор осуществляет вышеописанный способ.

Краткое описание чертежей

Ниже будут описаны примерные варианты осуществления изобретения, исключительно в порядке примера, со ссылкой на нижеследующие чертежи, на которых:

фиг. 1 иллюстрирует свойства высокого SNR аудиосигнала, полученного с использованием BC-микрофона, относительно аудиосигнала, полученного с использованием AC-микрофона, в той же зашумленной среде;

фиг. 2 - блок-схема брелока, включающего в себя два микрофона;

фиг. 3 - блок-схема устройства согласно первому варианту осуществления изобретения;

фиг. 4A и 4B - графики, демонстрирующие сравнение между спектральными плотностями мощности между сигналами, полученными от BC-микрофона и AC-микрофона, с фоновым шумом и без него соответственно;

фиг. 5 - блок-схема операций, демонстрирующая способ согласно варианту осуществления изобретения;

фиг. 6 - блок-схема операций, демонстрирующая способ согласно более конкретному варианту осуществления изобретения;

фиг. 7 - график, демонстрирующий результат действия модуля различения BC/AC в устройстве согласно изобретению; и

фиг. 8 - блок-схема устройства согласно второму варианту осуществления изобретения;

фиг. 9 - график, демонстрирующий результат выявления речи, осуществляемого на сигнале, полученном с использованием BC-микрофона;

фиг. 10 - график, демонстрирующий результат применения алгоритма улучшения речи к сигналу, полученному с использованием AC-микрофона;

фиг. 11 - график, демонстрирующий сравнение между сигналами, полученными с использованием AC-микрофона, в зашумленной и чистой среде и выход способа согласно изобретению;

фиг. 12 - график, демонстрирующий сравнение между спектральными плотностями мощности трех сигналов, показанных на фиг. 11; и

фиг. 13 демонстрирует проводной комплект гарнитуры для мобильного телефона, включающий в себя два микрофона.

Осуществление изобретения

Согласно фиг. 2 устройство 2 в форме брелока содержит два датчика 4, 6, размещенные на противоположных сторонах или гранях брелока 2 таким образом, что, когда один из двух датчиков 4, 6 контактирует с пользователем, другой датчик контактирует с воздухом. Датчик 4, 6 в контакте с пользователем будет действовать как костнопроводный или контактный датчик (и обеспечивать BC-аудиосигнал) и датчик 4, 6 в контакте с воздухом будет действовать как воздухопроводный датчик (и обеспечивать AC-аудиосигнал). Датчики 4, 6, в общем случае, относятся к одному типу и имеют одинаковую конфигурацию. В проиллюстрированных вариантах осуществления датчики 4, 6 являются микрофонами, которые могут базироваться на технологии MEMS. Специалистам в данной области техники очевидно, что датчики 4, 6 можно реализовать с использованием других типов датчика или преобразователя.

Устройство 2 можно присоединить к шнуру, чтобы пользователь мог носить его на шее. Шнур и устройство могут располагаться таким образом, что устройство, носимое в виде брелока, имеет заданную ориентацию по отношению к телу пользователя, чтобы гарантировать, что один из датчиков 4, 6 контактирует с пользователем. Дополнительно, устройству можно придать такую форму, чтобы оно было двусторонним, таким образом предотвращая, при эксплуатации, изменение ориентации устройства вследствие движения пользователя и потерю контакта упомянутого одного датчика с пользователем. Форма устройства может быть, например, прямоугольной.

Блок-схема устройства 2 согласно изобретению показана на фиг. 3. Как описано выше, устройство 2 содержит два микрофона: первый микрофон 4 и второй микрофон 6, которые располагаются в устройстве 2 таким образом, что, когда один из микрофонов 4, 6 контактирует с частью пользователя, другой микрофон 4, 6 контактирует с воздухом.

Первый микрофон 4 и второй микрофон 6 действуют одновременно (т.е. регистрируют одну и ту же речь в одно и то же время) для формирования соответствующих аудиосигналов (обозначенных m₁ и m₂ на фиг. 3).

Аудиосигналы поступают на блок 7 различения, который анализирует аудиосигналы для определения, какой, при наличии, соответствует BC-аудиосигналу и AC-аудиосигналу.

Затем блок 7 различения выводит аудиосигналы на схему 8, которая осуществляет обработку для повышения качества речи в аудиосигналах.

Схема 8 обработки может осуществлять любой известный алгоритм улучшения речи на BC-аудиосигнале и AC-аудиосигнале для формирования чистого (или по меньшей мере улучшенного) выходного аудиосигнала, представляющего речь пользователя. Выходной аудиосигнал поступает на схему 10 передатчика для передачи через антенну 12 на другое электронное устройство (например, мобильный телефон или базовую станцию устройства).

Если блок 7 различения определяет, что ни один микрофон 4, 6 не контактирует с телом пользователя, то блок 7 различения может выводить оба AC-аудиосигнала на схему 8 обработки, которая затем осуществляет альтернативный способ улучшения речи на основании присутствия множественных AC-аудиосигналов (например, формирование диаграммы направленности).

Известно, что высокие частоты речи в BC-аудиосигнале ослабляются средой распространения (например, частоты свыше 1 кГц), что показывают графики на фиг. 4, которые демонстрируют сравнение спектральных плотностей мощности BC- и AC-аудиосигналов в присутствии фонового рассеянного белого шума (фиг. 4A) и в отсутствие фонового шума (фиг. 4B). Это свойство может, таким образом, использовать блок 7 различения для различения между BC- и AC-аудиосигналами.

Примерный вариант осуществления способа согласно изобретению показан на фиг. 5. На этапе 101 соответствующие аудиосигналы получаются одновременно с использованием BC-микрофона 4 и AC-микрофона 6, и сигналы поступают на блок 7 различения. Затем, на этапах 103 и 105, блок 7 различения анализирует спектральные свойства каждого из аудиосигналов и устанавливает, какой, при наличии, из первого и второго микрофонов 4, 6 контактирует с телом пользователя, на основании спектральных свойств. В одном варианте осуществления блок 7 различения анализирует спектральные свойства каждого из аудиосигналов выше пороговой частоты (например, 1 кГц).

Однако проблема связана с тем, что два микрофона 4, 6 могут быть не откалиброваны, т.е. частотные характеристики двух микрофонов 4, 6 могут отличаться друг от друга. В этом случае к одному из микрофонов можно применять калибровочный фильтр до перехода к блоку 7 различения (не показан на чертежах). Таким образом, в дальнейшем можно предполагать, что характеристики совпадают в широкой полосе коэффициента усиления, т.е. частотные характеристики двух микрофонов имеют одинаковую форму.

В ходе дальнейшей работы блок 7 различения сравнивает спектры аудиосигналов от двух микрофонов 4, 6 для определения, какой аудиосигнал, при наличии, является BC-аудиосигналом. Если микрофоны 4, 6 имеют разные частотные характеристики, это можно исправить с помощью калибровочного фильтра при изготовлении устройства 2, чтобы различия в характеристиках микрофона не влияли на сравнения, осуществляемые блоком 7 различения.

Даже при использовании этого калибровочного фильтра необходимо учитывать некоторые различия в коэффициенте усиления между AC- и BC-аудиосигналами ввиду различия в интенсивности AC- и BC-аудиосигналов, помимо их спектральных характеристик (в частности, на частотах свыше 1 кГц).

Таким образом, блок 7 различения нормализует спектры двух аудиосигналов выше пороговой частоты (исключительно в целях различения) на основании глобальных пиков, найденных ниже пороговой частоты, и сравнивает спектры выше пороговой частоты для определения, который из них, при наличии, является BC-аудиосигналом. Если эта нормализация не осуществляется, то, вследствие высокой интенсивности BC-аудиосигнала, можно определить, что мощность на более высоких частотах все же выше в BC-аудиосигнале, чем в AC-аудиосигнале, что не соответствует действительности.

Конкретный вариант осуществления изобретения представлен в виде блок-схемы операций на фиг. 6. В дальнейшем предполагается, что любая калибровка, необходимая для учета различий в частотной характеристике микрофонов 4, 6, была осуществлена, и предполагается, что соответствующие аудиосигналы от BC-микрофона 4 и AC-микрофона 6 синхронизируются с использованием надлежащих задержек по времени до дополнительной обработки аудиосигналов, описанной ниже. На этапе 111 соответствующие аудиосигналы получаются одновременно с использованием BC-микрофона 4 и AC-микрофона 6 и поступают на блок 7 различения.

На этапе 113 блок 7 различения применяет N-точечное быстрое преобразование Фурье (FFT) к аудиосигналам от каждого микрофона 4, 6 следующим образом:

M_{1} (ω) = F F T {m_{1} (t)}

(1)

M_{2} (ω) = F F T {m_{2} (t)}

(2)

создавая N частотных элементов разрешения (бинов) между

ω = 0

радиан (рад) и

ω = 2 π f_{s}

рад, где

f_{s}

- частота дискретизации в герцах (Гц) аналого-цифровых преобразователей, которые преобразуют аналоговые сигналы микрофонов к цифровому виду. Помимо первых N/2+1 бинов, включающих в себя частоту Найквиста

π f_{s}

, оставшиеся бины можно отбросить. Затем блок 7 различения использует результат FFT на аудиосигналах для вычисления спектра мощности каждого аудиосигнала.

Затем, на этапе 115, блок 7 различения находит значение максимального пика спектра мощности среди частотных бинов ниже пороговой частоты ω_c:

p_{1} = \max_{0 < ω < ω_{c}} {| M_{1} (ω) |}^{2}

(3)

p_{2} = \max_{0 < ω < ω_{c}} {| M_{2} (ω) |}^{2}

(4)

и использует максимальные пики для нормализации спектров мощности аудиосигналов выше пороговой частоты ω_c. Пороговая частота ω_c выбирается как частота, выше которой спектр BC-аудиосигнала, в общем случае, ослабляется относительно AC-аудиосигнала. Пороговая частота ω_c может быть равна, например, 1 кГц. Каждый частотный бин содержит единственное значение, которое, для спектра мощности, равно квадрату величины частотной характеристики в этом бине.

В качестве альтернативы, на этапе 115 блок 7 различения может находить суммарный спектр мощности ниже ω_c для каждого аудиосигнала, т.е.

p_{1} = \sum_{ω = 0}^{ω_{c}} {| M_{1} (ω) |}^{2}

(5)

p_{2} = \sum_{ω = 0}^{ω_{c}} {| M_{2} (ω) |}^{2}

(6)

и может нормализовать спектры мощности аудиосигналов выше пороговой частоты ω_c с использованием суммарных спектров мощности.

Поскольку низкочастотные бины AC-аудиосигнала и BC-аудиосигнала должны содержать примерно одинаковую низкочастотную информацию, значения p₁ и p₂ используются для нормализации спектров сигналов от двух микрофонов 4, 6, что позволяет сравнивать высокочастотные бины для обоих аудиосигналов (где ожидается наличие расхождений между BC-аудиосигналом и AC-аудиосигналом) и потенциальный идентифицированный BC-аудиосигнал.

Затем, на этапе 117, блок 7 различения сравнивает мощность между спектром сигнала от первого микрофона 4 и спектром сигнала от нормализованного второго микрофона 6 в верхних частотных бинах:

\sum_{ω > ω_{c}} {| M_{1} (ω) |}^{2} < = > p_{1} / (p_{2} + \in) \sum_{ω > ω_{c}} {| M_{2} (ω) |}^{2}

(7)

где є - малая константа для предотвращения деления на нуль и p₁/(p₂+є) представляет нормализацию спектров второго аудиосигнала (хотя очевидно, что нормализацию можно в качестве альтернативы применять к первому аудиосигналу).

При условии, что разность между мощностями двух аудиосигналов превышает заданную величину, которая зависит от положения костнопроводного датчика и может быть определена экспериментальным путем, аудиосигнал с наибольшей мощностью в нормализованном спектре выше ω_c является аудиосигналом от AC-микрофона и аудиосигнал с наименьшей мощностью является аудиосигналом от BC-микрофона.

Однако, если разность между мощностями двух аудиосигналов меньше заданной величины, то невозможно утверждать, что какой-либо из аудиосигналов является BC-аудиосигналом (и может оказаться, что ни один из микрофонов 4, 6 не контактирует с телом пользователя).

Очевидно, что, вместо вычисления квадратов модулей в вышеприведенных уравнениях на этапе 117, можно вычислять значения модулей.

Также очевидно, что альтернативные сравнения между мощностью двух сигналов можно производить на этапе 117 с использованием ограниченного отношения, что позволяет учитывать неопределенности при принятии решения. Например, ограниченное отношение мощностей на частотах выше пороговой частоты можно определить как:

\frac{p_{1} - p_{2}}{p_{1} + p_{2}}

(8)

где отношение заключено между -1 и 1, причем значения, близкие к 0, указывают неопределенность, с которой микрофон, при наличии, является BC-микрофоном.

Блок 7 различения включает в себя схему переключения, которая выводит аудиосигнал, определенный как BC-аудиосигнал, на вход BC-аудиосигнала схемы 8 обработки и аудиосигнал, определенный как AC-аудиосигнал, на вход AC-аудиосигнала схемы 8 обработки. Затем схема 8 обработки осуществляет алгоритм улучшения речи на BC-аудиосигнале и AC-аудиосигнале для формирования чистого (или по меньшей мере улучшенного) выходного аудиосигнала, представляющего речь пользователя.

Если вследствие неопределенности оба аудиосигнала определяются как AC-аудиосигналы, схема переключения в блоке 7 различения может выводить сигналы на альтернативные входы аудиосигнала схемы 8 обработки (не показаны на фиг. 3). Затем схема 8 обработки может рассматривать оба аудиосигнала как AC-аудиосигналы и обрабатывать их с использованием обычных двухмикрофонных методов, например, комбинируя AC-аудиосигналы с использованием методов формирования диаграммы направленности.

В альтернативном варианте осуществления схема переключения может составлять часть схемы 8 обработки, и это означает, что блок 7 различения может выводить аудиосигнал от первого микрофона 4 на первый вход аудиосигнала схемы 8 обработки и аудиосигнал от второго микрофона 6 на второй вход аудиосигнала схемы 8 обработки, совместно с сигналом 13, указывающим, какой, при наличии, из аудиосигналов является BC- или AC-аудиосигналом.

График на фиг. 7 иллюстрирует работу вышеописанного блока 7 различения в ходе процедуры тестирования. В частности, в течение первых 10 секунд теста второй микрофон находится в контакте с пользователем (т.е. выдает BC-аудиосигнал), что точно идентифицируется блоком 7 различения (что показано на нижнем графике). В течение следующих 10 секунд теста в контакте с пользователем находится первый микрофон (т.е. теперь он выдает BC-аудиосигнал) и это, опять же, точно идентифицируется блоком 7 различения.

Фиг. 8 более подробно демонстрирует вариант осуществления схемы 8 обработки устройства 2 согласно изобретению. Устройство 2, в общем случае, соответствует показанному на фиг. 3, причем признаки, общие для обоих устройств 2, обозначены одинаковыми ссылочными позициями.

Таким образом, в этом варианте осуществления схема 8 обработки содержит блок 14 выявления речи, который принимает BC-аудиосигнал от блока 7 различения, блок 16 улучшения речи, который принимает AC-аудиосигнал от блока 7 различения и выходной сигнал блока 14 выявления речи, первый блок 18 выделения признаков, который принимает BC-аудиосигнал и вырабатывает сигнал, второй блок 20 выделения признаков, который принимает выходной сигнал блока 16 улучшения речи, и корректор 22, который принимает сигнал от первого блока 18 выделения признаков и выходной сигнал второго блока 20 выделения признаков и вырабатывает выходной аудиосигнал схемы 8 обработки.

Схема 8 обработки также включает в себя дополнительную схему 24 для обработки аудиосигналов от первого и второго микрофонов 4, 6, когда принимается решение, что оба аудиосигнала являются AC-аудиосигналами. Если используется, выходной сигнал этой схемы 24 поступает на схему 10 передатчика вместо выходного аудиосигнала из блока 22 коррекции.

Кратко, схема 8 обработки использует свойства или признаки BC-аудиосигнала и алгоритм улучшения речи для снижения величины шума в AC-аудиосигнале, и затем использует очищенный от шума AC-аудиосигнал для коррекции BC-аудиосигнала. Преимущество этого конкретного способа обработки аудиосигнала в том, что, хотя очищенный от шума AC-аудиосигнал все еще может содержать шум и/или артефакты, его можно использовать для улучшения частотных характеристик BC-аудиосигнала (который, в общем случае, не содержит речевые артефакты), благодаря чему он звучит более разборчиво.

Блок 14 выявления речи обрабатывает принятый BC-аудиосигнал для идентификации частей BC-аудиосигнала, которые представляют речь, пользователем устройства 2. Использование BC-аудиосигнала для выявления речи является преимущественным вследствие относительной невосприимчивости BC-микрофона 4 к фоновому шуму и высокому SNR.

Блок 14 выявления речи может осуществлять выявление речи путем применения простого метода сравнения с порогом к BC-аудиосигналу, посредством которого выявляются периоды речи, в течение которых амплитуда BC-аудиосигнала превышает пороговое значение.

В других вариантах осуществления схемы 8 обработки можно подавлять шум в BC-аудиосигнале на основании минимальной статистики и/или методов формирования диаграммы направленности (в случае наличия более одного BC-аудиосигнала) до осуществления выявления речи.

Графики на фиг. 9 демонстрируют результат работы блока 14 выявления речи на BC-аудиосигнале.

Выходной сигнал блока 14 выявления речи (показанный в нижней части фиг. 9) поступает на блок 16 улучшения речи совместно с AC-аудиосигналом. По сравнению с BC-аудиосигналом AC-аудиосигнал содержит стационарные и нестационарные источники фонового шума, поэтому улучшение речи осуществляется на AC-аудиосигнале, что позволяет использовать его как опорный сигнал для дальнейшего улучшения (коррекции) BC-аудиосигнала. Одним эффектом блока 16 улучшения речи является снижение величины шума в AC-аудиосигнале.

Известны многие разные типы алгоритмов улучшения речи, которые могут применяться к AC-аудиосигналу блоком 16, и конкретный используемый алгоритм может зависеть от конфигурации микрофонов 4, 6 в устройстве 2, а также от предназначения устройства 2.

В конкретных вариантах осуществления блок 16 улучшения речи применяет ту или иную форму спектральной обработки к AC-аудиосигналу. Например, блок 16 улучшения речи может использовать выходной сигнал блока 14 выявления речи для оценивания характеристик минимального уровня шума в спектральной области AC-аудиосигнала в течение периодов отсутствия речи, определенных блоком 14 выявления речи. Оценки минимального уровня шума обновляются всякий раз, когда речь не выявляется.

В вариантах осуществления, где конструкция устройства 2 предусматривает наличие более одного AC-датчика или микрофона (т.е. множественные AC-датчики помимо датчика, который контактирует с пользователем), блок 16 улучшения речи также может применять формирование диаграммы направленности микрофона в том или ином виде.

Верхний график на фиг. 10 демонстрирует AC-аудиосигнал, полученный от AC-микрофона 6, и нижний график на фиг. 10 демонстрирует результат применения алгоритма улучшения речи к AC-аудиосигналу с использованием выходного сигнала блока 14 выявления речи. Можно видеть, что уровень фонового шума в AC-аудиосигнале достаточен для формирования SNR приблизительно 0 дБ, и блок 16 улучшения речи применяет коэффициент усиления к AC-аудиосигналу для подавления фонового шума почти на 30 дБ. Однако также можно видеть, что, хотя величина шума в AC-аудиосигнале значительно снижена, некоторые артефакты остаются.

Затем очищенный от шума AC-аудиосигнал используется как опорный сигнал для повышения разборчивости (т.е. улучшения) BC-аудиосигнала.

В некоторых вариантах осуществления схемы 8 обработки можно использовать долговременные спектральные методы для построения корректирующего фильтра, или, в качестве альтернативы, BC-аудиосигнал можно использовать в качестве входного сигнала адаптивного фильтра, который минимизирует среднеквадратическую ошибку между выходным сигналом фильтра и улучшенным AC-аудиосигналом, при этом на выходе фильтра образуется скорректированный BC-аудиосигнал. Еще одна альтернатива основана на предположении о том, что конечная импульсная характеристика может моделировать передаточную функцию между BC-аудиосигналом и улучшенным AC-аудиосигналом. Использование адаптивного фильтра с BC-аудиосигналом в качестве входного сигнала и улучшенного AC-аудиосигнала в качестве опорного сигнала дает на выходе адаптивного фильтра скорректированный BC-аудиосигнал. В этих вариантах осуществления очевидно, что блок 22 коррекции требует исходного BC-аудиосигнала помимо признаков, выделенных из BC-аудиосигнала блоком 18 выделения признаков. В этом случае будет дополнительное соединение между линией ввода BC-аудиосигнала и блоком 22 коррекции в схеме 8 обработки, показанной на фиг. 8.

Однако способы на основе линейного прогнозирования могут быть более пригодны для повышения разборчивости речи в BC-аудиосигнале, поэтому, в предпочтительных вариантах осуществления изобретения, блоки 18, 20 выделения признаков являются блоками линейного прогнозирования, которые выделяют коэффициенты линейного прогнозирования из обоих BC-аудиосигнала и очищенного от шума AC-аудиосигнала, которые используются для построения корректирующего фильтра, что дополнительно описано ниже.

Линейное прогнозирование (LP) является инструментом речевого анализа, который основан на модели источника-фильтра формирования речи, в которой источник и фильтр соответствуют глоттальному возбуждению, порождаемому голосовыми связками, и формой речевого тракта соответственно. Предполагается, что фильтр является полностью полюсным. Таким образом, LP-анализ обеспечивает сигнал возбуждения и огибающую в частотной области, представленную полностью полюсной моделью, которая связана со свойствами речевого тракта в ходе формирования речи.

Модель определена в виде

y (n) = - \sum_{k = 1}^{p} a_{k} y (n - k) + G u (n)

(9)

где y(n) и y(n-k) соответствуют настоящей и предыдущей выборкам сигнала для анализируемого сигнала, u(n) - сигнал возбуждения с коэффициентом усиления G, a_k представляет коэффициенты предсказателя и p - порядок полностью полюсной модели.

Целью LP-анализа является оценивание значений коэффициентов предсказателя для данных речевых выборок для минимизации ошибки прогнозирования

e (n) = y (n) + \sum_{k = 1}^{p} a_{k} y (n - k)

(10)

где ошибка фактически соответствует источнику возбуждения в модели источника-фильтра. e(n) - это часть сигнала, которую не может прогнозировать модель, поскольку эта модель может прогнозировать лишь спектральную огибающую, и фактически соответствует импульсам, формируемым голосовой щелью в гортани (возбуждением голосовых связок).

Известно, что аддитивный белый шум сильно влияет на оценивание коэффициентов LP и что присутствие одного или более дополнительных источников в y(n) приводит к оцениванию сигнала возбуждения, который включает в себя вклады от этих источников. Поэтому важно получать аудиосигнал, не содержащий шума, который содержит только полезный исходный сигнал для оценивания правильного сигнала возбуждения.

Таким сигналом является BC-аудиосигнал. Вследствие своего высокого SNR источник возбуждения e можно точно оценивать с использованием LP-анализа, осуществляемого блоком 18 линейного прогнозирования. Затем этот сигнал возбуждения e можно фильтровать с использованием результирующей полностью полюсной модели, оцененной путем анализа очищенного от шума AC-аудиосигнала. Поскольку полностью полюсный фильтр представляет гладкую спектральную огибающую очищенного от шума AC-аудиосигнала, он более устойчив к артефактам, возникающим в результате процесса улучшения.

Как показано на фиг. 8, анализ с линейным прогнозированием осуществляется как на BC-аудиосигнале (с использованием блока 18 линейного прогнозирования), так и на очищенном от шума AC-аудиосигнале (с использованием блока 20 линейного прогнозирования). Линейное прогнозирование осуществляется для каждого блока выборок аудиосигнала длиной 32 мс с перекрытием в 16 мс. Фильтр предыскажений также можно применять к одному или обоим из сигналов до анализа с линейным прогнозированием. Для повышения производительности анализа с линейным прогнозированием и последующей коррекции BC-аудиосигнала очищенный от шума AC-аудиосигнал и BC-сигнал можно сначала синхронизировать (не показано) путем внесения надлежащей задержки по времени в тот или иной аудиосигнал. Эту задержку по времени можно определять адаптивно с использованием методов кросс-корреляции.

В течение текущего блока выборки предыдущий, настоящий и будущий коэффициенты предсказателя оцениваются, преобразуются в линейные спектральные частоты (LSF), сглаживаются и преобразуются обратно в коэффициенты линейного предсказателя. LSF используются, поскольку представление спектральной огибающей коэффициентами линейного прогнозирования не подвергается сглаживанию. Сглаживание применяется для ослабления переходных эффектов в ходе операции синтеза.

Коэффициенты LP, полученные для BC-аудиосигнала, используются для формирования BC-сигнала возбуждения e. Затем этот сигнал фильтруется (корректируется) блоком 22 коррекции, который просто использует полностью полюсный фильтр, оцененный и сглаженный из очищенного от шума AC-аудиосигнала

H (z) = \frac{1}{1 + \sum_{k = 1}^{p} a_{k} z^{- k}}

(11)

Дополнительное формирование с использованием LSF полностью полюсного фильтра можно применять к полностью полюсному фильтру AC для предотвращения ненужных всплесков в эффективном спектре.

Если фильтр предыскажений применяется к сигналам до LP-анализа, фильтр высоких частот можно применять к выходному сигналу H(z). Широкополосный коэффициент усиления также можно применять к выходному сигналу для компенсации широкополосного усиления или ослабления, порожденного фильтрами высоких частот.

Таким образом, выходной аудиосигнал выводится путем фильтрации 'чистого' сигнала возбуждения e, полученного из LP-анализа BC-аудиосигнала с использованием полностью полюсной модели, оцененный посредством LP-анализа очищенного от шума AC-аудиосигнала.

Фиг. 11 демонстрирует сравнение между сигналом AC-микрофона в зашумленной и чистой среде и выходным сигналом схемы 8 обработки при использовании линейного прогнозирования. Таким образом, можно видеть, что выходной аудиосигнал содержит значительно меньше артефактов, чем зашумленный AC-аудиосигнал, и больше напоминает чистый AC-аудиосигнал.

Фиг. 12 демонстрирует сравнение между спектральными плотностями мощности трех сигналов, показанных на фиг. 11. Также здесь можно видеть, что спектр выходного аудиосигнала в большей степени совпадает с AC-аудиосигналом в чистой среде.

Таким образом, этот вариант осуществления схемы 8 обработки позволяет формировать чистый (или по меньшей мере разборчивый) речевой аудиосигнал в неблагоприятной акустической среде, где речь ухудшается сильным шумом или реверберацией.

В дополнительном варианте осуществления схемы 8 обработки (не представленный на фиг. 8) предусмотрен второй блок улучшения речи для улучшения (снижения шума) BC-аудиосигнала, выдаваемого блоком 7 различения, до осуществления линейного прогнозирования. Как и первый блок 16 улучшения речи, второй блок улучшения речи принимает выходной сигнал блока 14 выявления речи. Второй блок улучшения речи используется для применения умеренного улучшения речи к BC-аудиосигналу для удаления любого шума, который может примешиваться к сигналу микрофона. Хотя алгоритмы, выполняемые первым и вторым блоками улучшения речи, могут быть одинаковыми, фактическая степень применяемого шумоподавления/улучшения речи будет разной для AC- и BC-аудиосигналов.

Очевидно, что брелок 2, показанный на фиг. 2, или другие неподвесные устройства, отвечающие вышеописанному изобретению, могут включать в себя более двух микрофонов. Например, брелок 2 может иметь треугольное (требующее трех микрофонов, по одному на каждой грани) или квадратное (требующее четырех микрофонов, по одному на каждой грани) сечение. Устройство 2 также может быть конфигурировано таким образом, чтобы более чем один микрофон мог получать BC-аудиосигнал. В этом случае можно объединять аудиосигналы от нескольких AC (или BC) микрофонов до ввода в схему 8 обработки с использованием, например, методов формирования диаграммы направленности для формирования AC (или BC) аудиосигнала с повышенным SNR. Это может способствовать дополнительному повышению качества и разборчивости аудиосигнала, выводимого схемой 8 обработки.

При использовании более одного микрофона конкретного типа (например, AC и/или BC) в таких устройствах общий способ классификации микрофонов как AC или BC для каждого устройства можно описать следующим образом. Прежде всего, осуществляется попарная классификация, описанная на фиг. 5 или 6, среди микрофонов с отнесением их к AC, BC или неопределенному типу. Затем повторно осуществляется парная классификация, на этот раз между микрофонами, категоризованными как неопределенный и BC-сигналы. Если два микрофона все еще категоризуются как неопределенные, значит, они принадлежат группе BC, в противном случае они принадлежат группе AC-микрофонов. Второй этап также может осуществляться с использованием группы AC вместо группы BC.

Хотя изобретение было описано выше в отношении брелока, который составляет часть MPERS, очевидно, что изобретение можно реализовать в других типах электронного устройства, которые используют датчики или микрофоны для выявления речи. Один тип устройства 2, показанный на фиг. 13, представляет собой проводной комплект гарнитуры, который может быть подключен к мобильному телефону для обеспечения функциональных возможностей гарнитуры. Устройство 2 содержит наушник (не показан) и микрофонную часть 30, содержащую два микрофона 4, 6, которые при эксплуатации располагаются вблизи рта или шеи пользователя. Микрофонная часть конфигурирована таким образом, что любой из двух микрофонов 4, 6 может находиться в контакте с шеей пользователя, в зависимости от ориентации микрофонной части в любой данный момент времени.

Очевидно, что блок 7 различения и/или схему 8 обработки, показанную на фиг. 2 и 7, можно реализовать как единичный процессор или как множественные соединенные друг с другом блоки обработки. В качестве альтернативы, очевидно, что функциональные возможности схемы 8 обработки можно реализовать в форме компьютерной программы, которая выполняется процессором или процессорами общего назначения в устройстве. Кроме того, очевидно, что схему 8 обработки можно реализовать в устройстве, отдельном от устройства корпусных BC- и/или AC-микрофонов 4, 6, с возможностью обмена аудиосигналами между этими устройствами.

Также очевидно, что блок 7 различения и схема 8 обработки могут обрабатывать аудиосигналы на поблочной основе (т.е. обрабатывать единомоментно один блок выборок аудиосигнала). Например, в блоке 7 различения аудиосигналы могут делиться на блоки из N выборок аудиосигнала до применения FFT. Последующая обработка, осуществляемая блоком 7 различения, затем осуществляется на каждом блоке из N преобразованных выборок аудиосигнала. Блоки 18, 20 выделения признаков могут действовать аналогичным образом.

Таким образом, обеспечены устройство и способ его эксплуатации, позволяющие получать аудиосигнал, представляющий речь пользователя, из BC- и AC-аудиосигналов, несмотря на то, что устройство может свободно перемещаться относительно пользователя, из-за чего микрофоны, обеспечивающие BC- и AC-сигналы, меняются местами.

Хотя изобретение подробно проиллюстрировано и описано на чертежах и вышеприведенном описании, такие иллюстрации и описание следует рассматривать как иллюстративные или примерные, но не как ограничивающие; изобретение не ограничивается раскрытыми вариантами осуществления.

Специалисты в данной области техники могут внести и реализовать изменения в раскрытые варианты осуществления при практическом осуществлении заявленного изобретения, изучая чертежи, описание и нижеследующую формулу изобретения. В формуле изобретения слово «содержащий» не исключает наличия других элементов или этапов, и их упоминание в единственном числе не исключает наличия их во множественном числе. Единичный процессор или другой блок может выполнять функции нескольких элементов, указанных в формуле изобретения. Сам по себе тот факт, что определенные средства упомянуты во взаимно различных зависимых пунктах, не говорит о том, что нельзя с достижением преимущества использовать сочетание таких средств. Компьютерная программа может храниться/распространяться на подходящем носителе, например на оптическом носителе или твердотельном носителе, поставляемом совместно с другим оборудованием или в его составе, но также может распространяться в других формах, например через интернет или другие проводные или беспроводные системы электросвязи. Никакие ссылочные позиции в формуле изобретения не следует рассматривать как ограничивающие объем.

Claims

1. Способ эксплуатации устройства обработки аудиосигналов с использованием аудиодатчиков, причем устройство содержит множество аудиодатчиков и конфигурировано таким образом, что, когда первый аудиодатчик из множества аудиодатчиков контактирует с пользователем устройства, второй аудиодатчик из множества аудиодатчиков контактирует с воздухом, причем способ содержит этапы, на которых:
получают (101) соответствующие аудиосигналы, представляющие речь пользователя, от множества аудиодатчиков,
анализируют (103, 105) соответствующие аудиосигналы для определения, какой, при наличии, из множества аудиодатчиков контактирует с пользователем устройства, и
подают аудиосигналы на схему, которая обрабатывает аудиосигналы, для формирования выходного аудиосигнала, представляющего речь пользователя, согласно результату этапа анализа.

2. Способ по п. 1, в котором этап анализа (103, 105) содержит этап, на котором анализируют спектральные свойства каждого из аудиосигналов.

3. Способ по п. 1 или 2, в котором этап анализа (103, 105) содержит этап, на котором анализируют мощность соответствующих аудиосигналов выше пороговой частоты.

4. Способ по п. 3, в котором определяют, что аудиодатчик контактирует с пользователем устройства, если мощность его соответствующего аудиосигнала выше пороговой частоты меньше мощности аудиосигнала выше пороговой частоты от другого аудиодатчика более чем на заданную величину.

5. Способ по п. 1 или 2, в котором этап анализа (103, 105) содержит этапы, на которых:
применяют (113) N-точечное преобразование Фурье к каждому аудиосигналу,
определяют (113) информацию по спектру мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов,
нормализуют (115) фурье-преобразованные аудиосигналы от двух датчиков по отношению друг к другу согласно определенной информации и
сравнивают (117) спектр мощности выше пороговой частоты нормализованных фурье-преобразованных аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков контактирует с пользователем устройства.

6. Способ по п. 5, в котором этап определения информации содержит этап, на котором определяют (115) значение максимального пика в спектре мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов.

7. Способ по п. 5, в котором этап определения информации содержит этап, на котором суммируют (115) спектр мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов.

8. Способ по п. 5, в котором определяют, что аудиодатчик контактирует с пользователем устройства, если спектр мощности выше пороговой частоты для этого соответствующего фурье-преобразованного аудиосигнала меньше спектра мощности выше пороговой частоты для фурье-преобразованного аудиосигнала от другого аудиодатчика более чем на заданную величину.

9. Способ по п. 5, в котором определяют, что ни один аудиодатчик не контактирует с пользователем устройства, если спектры мощности выше пороговой частоты для фурье-преобразованных аудиосигналов отличаются менее чем на заданную величину.

10. Устройство (2) обработки аудиосигналов с использованием аудиодатчиков, содержащее:
множество аудиодатчиков (4, 6), размещенных в устройстве (2) таким образом, что, когда первый аудиодатчик (4, 6) из множества аудиодатчиков (4, 6) контактирует с пользователем устройства (2), второй аудиодатчик (4, 6) из множества аудиодатчиков (4, 6) контактирует с воздухом,
схему (7), которая выполнена с возможностью:
получения соответствующих аудиосигналов, представляющих речь пользователя, от множества аудиодатчиков (4, 6),
анализа соответствующих аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков (4, 6) контактирует с пользователем устройства (2); и
схему (8) обработки для обработки аудиосигналов для формирования выходного аудиосигнала, представляющего речь пользователя.

11. Устройство (2) по п. 10, в котором схема (7) выполнена с возможностью анализа мощности соответствующих аудиосигналов выше пороговой частоты.

12. Устройство (2) по п. 10, в котором схема (7) выполнена с возможностью анализа соответствующих аудиосигналов путем:
применения N-точечного преобразования Фурье к каждому аудиосигналу;
определения информации по спектру мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов;
нормализации фурье-преобразованных аудиосигналов от двух датчиков по отношению друг к другу согласно определенной информации и
сравнения спектра мощности выше пороговой частоты нормализованных фурье-преобразованных аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков (4, 6) контактирует с пользователем устройства (2).

13. Постоянный машиночитаемый носитель, на котором сохранен код компьютерной программы, который при выполнении подходящим компьютером или процессором выполнен с возможностью побуждать компьютер или процессор осуществлять способ по п. 1.