RU2605522C2 - Устройство, содержащее множество аудиодатчиков, и способ его эксплуатации - Google Patents
Устройство, содержащее множество аудиодатчиков, и способ его эксплуатации Download PDFInfo
- Publication number
- RU2605522C2 RU2605522C2 RU2013128560/28A RU2013128560A RU2605522C2 RU 2605522 C2 RU2605522 C2 RU 2605522C2 RU 2013128560/28 A RU2013128560/28 A RU 2013128560/28A RU 2013128560 A RU2013128560 A RU 2013128560A RU 2605522 C2 RU2605522 C2 RU 2605522C2
- Authority
- RU
- Russia
- Prior art keywords
- audio
- audio signal
- audio signals
- user
- sensors
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 43
- 230000005236 sound signal Effects 0.000 claims abstract description 219
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 238000010606 normalization Methods 0.000 claims abstract description 7
- 238000001228 spectrum Methods 0.000 claims description 36
- 230000003595 spectral effect Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 4
- 210000000988 bone and bone Anatomy 0.000 abstract description 3
- 239000000126 substance Substances 0.000 abstract 1
- 230000009466 transformation Effects 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 11
- 230000005284 excitation Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 210000000867 larynx Anatomy 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 210000004872 soft tissue Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012956 testing procedure Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
- H04R29/005—Microphone arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
Landscapes
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
Abstract
Изобретение относится к акустике, в частности к средствам обработки звуковой информации, полученной от микрофонов костной и воздушной проводимости. Устройство содержит множество аудиодатчиков, первый из которых контактирует с пользователем устройства, а второй контактирует с воздухом. Осуществляют прием аудиосигналов, анализируя которые, различают тип аудиопреобразователя, находящегося в контакте с пользователем. При этом анализ включает в себя преобразование Фурье, нормализацию преобразованных сигналов с последующей оценкой мощности аудиосигнала и её сравнением с пороговой величиной. Затем воспроизводят выходной аудиосигнал, представляющий речь пользователя. Устройство также содержит дискриминатор, соединенный входами с выходами микрофонов, детектор речи, схему улучшения речи, схему выделения признаков, схему коррекции аудиосигналов, передающую схему. 3 н. и 10 з.п. ф-лы, 14 ил.
Description
Область техники, к которой относится изобретение
Изобретение относится к устройству, содержащему множество аудиодатчиков, например микрофонов, и к способу его эксплуатации, и в частности к устройству, конфигурированному таким образом, что, когда первый аудиодатчик из множества аудиодатчиков контактирует с пользователем устройства, второй датчик из множества датчиков контактирует с воздухом.
Уровень техники
Мобильные устройства часто используются в акустически неблагоприятных средах (т.е. средах с высоким уровнем фонового шума). Помимо того, что у пользователя мобильного устройства возникают проблемы с возможностью слышать удаленную сторону в ходе двусторонней связи, трудно получить «чистый» (т.е. незашумленный или, по существу, очищенный от шума) аудиосигнал, представляющий речь пользователя. В средах с низким отношением сигнал/шум (SNR) воспринимаемого сигнала обычные алгоритмы обработки речи могут осуществлять шумоподавление лишь в ограниченных пределах, прежде чем речевой сигнал ближней стороны (т.е. полученный микрофоном в мобильном устройстве) сможет исказиться артефактами в виде «музыкальных тонов».
Известно, что аудиосигналы, полученные с использованием контактного датчика, например костнопроводного (BC) или контактного микрофона (т.е. микрофона в физическом контакте с объектом, издающим звук), относительно слабо подвержены фоновому шуму по сравнению с аудиосигналами, полученными с использованием воздухопроводного (AC) датчика, например микрофона (т.е. микрофона, который отделен от объекта, издающего звук, воздухом), поскольку звуковые колебания, измеренные BC-микрофоном, прошли через тело пользователя, а не через воздух, как в случае нормального AC-микрофона, который, помимо улавливания полезного аудиосигнала, также воспринимает фоновый шум. Кроме того, интенсивность аудиосигналов, полученных с использованием BC-микрофона, в общем случае, гораздо выше, чем интенсивность аудиосигналов, полученных с использованием AC-микрофона. Поэтому считается, что BC-микрофоны пригодны для использования в устройствах, которые подлежат использованию в зашумленных средах. Фиг. 1 демонстрирует, что BC-сигнал относительно слабо подвержен шуму окружающей среды в отличие от AC-сигнала, и иллюстрирует свойства высокого SNR аудиосигнала, полученного с использованием BC-микрофона, относительно аудиосигнала, полученного с использованием AC-микрофона, в той же зашумленной среде. На фиг. 1 по вертикальной оси показана амплитуда аудиосигнала.
Однако проблема с речью, полученной с использованием BC-микрофона, состоит в том, что ее качество и разборчивость обычно гораздо ниже, чем у речи, полученной с использованием AC-микрофона. Это снижение разборчивости, в общем случае, обусловлено фильтрационными свойствами кости и ткани, которые могут сильно ослаблять высокочастотные компоненты аудиосигнала.
Качество и разборчивость речи, полученной с использованием BC-микрофона, зависит от его конкретного положения на пользователе. Чем ближе микрофон располагается к гортани и голосовым связкам в районе горла или шеи, тем выше результирующее качество и интенсивность BC-аудиосигнала. Кроме того, поскольку BC-микрофон находится в физическом контакте с объектом, издающим звук, результирующий сигнал имеет более высокое SNR по сравнению с AC-аудиосигналом, который также воспринимает фоновый шум.
Однако, хотя речь, полученная с использованием BC-микрофона, размещенного в области шеи или вокруг нее, будет иметь значительно более высокую интенсивность, разборчивость сигнала останется весьма низкой, что объясняется фильтрацией глоттального сигнала через кости и мягкую ткань в и вокруг области шеи и недостатком передаточной функции речевого тракта.
Характеристики аудиосигнала, полученного с использованием BC-микрофона, также зависят от корпуса BC-микрофона, т.е. его экранирования от фонового шума в среде, а также давления, прилагаемого к BC-микрофону для установления контакта с телом пользователя.
Существуют способы фильтрации или улучшения речи, нацеленные на повышение разборчивости речи, полученной от BC-микрофона, но эти способы требуют либо присутствия чистого опорного речевого сигнала для построения корректирующего фильтра для применения к аудиосигналу от BC-микрофона, либо обучения зависящих от пользователя моделей с использованием чистого аудиосигнала от AC-микрофона. Существуют альтернативные способы, призванные повышать разборчивость речи, полученной от AC-микрофона, с использованием свойств речевого сигнала от BC-микрофона.
Раскрытие изобретения
Мобильные персональные системы спасения в чрезвычайных ситуациях (MPERS) включают в себя брелок, носимый пользователем, или аналогичное устройство, которое включает в себя микрофон, позволяющее пользователю осуществлять связь с поставщиком медицинских услуг или службой экстренной помощи в экстренной ситуации. Поскольку эти устройства могут потребоваться в зашумленных средах, желательно обеспечить устройство, которое дает как можно лучший речевой аудиосигнал от пользователя, поэтому рассматривается возможность использования BC-микрофонов и AC-микрофонов в этих устройствах.
Однако брелок может свободно двигаться относительно пользователя (например, вращаться), поэтому конкретный микрофон в контакте с пользователем может меняться со временем (т.е. микрофон может быть BC-микрофоном в один момент и AC-микрофоном в следующий). Возможно также, что в данный момент ни один из микрофонов не будет в контакте с пользователем (т.е. все микрофоны будут AC-микрофонами). Это создает проблемы для последующей схемы в устройстве 2, которая обрабатывает аудиосигналы для формирования улучшенного аудиосигнала, поскольку конкретные операции обработки обычно осуществляются на конкретных (т.е. BC или AC) аудиосигналах.
Таким образом, существует потребность в устройстве и способе его эксплуатации, которые позволяют преодолеть эту проблему.
Согласно первому аспекту изобретения предусмотрен способ эксплуатации устройства, причем устройство содержит множество аудиодатчиков и конфигурировано таким образом, что, когда первый аудиодатчик из множества аудиодатчиков контактирует с пользователем устройства, второй аудиодатчик из множества аудиодатчиков контактирует с воздухом, причем способ содержит этапы, на которых получают соответствующие аудиосигналы, представляющие речь пользователя, от множества аудиодатчиков и анализируют соответствующие аудиосигналы для определения, какой, при наличии, из множества аудиодатчиков контактирует с пользователем устройства.
Предпочтительно, этап анализа содержит анализ спектральных свойств каждого из аудиосигналов. Еще более предпочтительно, этап анализа содержит анализ мощности соответствующих аудиосигналов выше пороговой частоты. Можно определить, что аудиодатчик контактирует с пользователем устройства, если мощность его соответствующего аудиосигнала выше пороговой частоты меньше мощности аудиосигнала выше пороговой частоты от другого аудиодатчика более чем на заданную величину.
В одном конкретном варианте осуществления этап анализа содержит применение N-точечного преобразования Фурье к каждому аудиосигналу; определение информации по спектру мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов; нормализацию фурье-преобразованных аудиосигналов от двух датчиков по отношению друг к другу согласно определенной информации и сравнение спектра мощности выше пороговой частоты нормализованных фурье-преобразованных аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков контактирует с пользователем устройства.
В одной реализации этап определения информации содержит определение значения максимального пика в спектре мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов, но в альтернативном варианте реализации этап определения информации содержит суммирование спектра мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов.
Можно определить, что аудиодатчик контактирует с пользователем устройства, если спектр мощности выше пороговой частоты для этого соответствующего фурье-преобразованного аудиосигнала меньше спектра мощности выше пороговой частоты для фурье-преобразованного аудиосигнала от другого аудиодатчика более чем на заданную величину.
Можно определить, что ни один аудиодатчик не контактирует с пользователем устройства, если спектры мощности выше пороговой частоты для фурье-преобразованных аудиосигналов отличаются менее чем на заданную величину.
Предпочтительно, способ дополнительно содержит этап, на котором подают аудиосигналы на схему, которая обрабатывает аудиосигналы, для формирования выходного аудиосигнала, представляющего речь пользователя, согласно результату этапа анализа.
Согласно второму аспекту изобретения предусмотрено устройство, содержащее множество аудиодатчиков, размещенных в устройстве таким образом, что, когда первый аудиодатчик из множества аудиодатчиков контактирует с пользователем устройства, второй аудиодатчик из множества аудиодатчиков контактирует с воздухом; и схему, которая выполнена с возможностью получения соответствующих аудиосигналов, представляющих речь пользователя, от множества аудиодатчиков и анализа соответствующих аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков контактирует с пользователем устройства.
Предпочтительно схема выполнена с возможностью анализа мощности соответствующих аудиосигналов выше пороговой частоты.
В конкретном варианте осуществления схема выполнена с возможностью анализа соответствующих аудиосигналов путем применения N-точечного преобразования Фурье к каждому аудиосигналу; определения информации по спектру мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов; нормализации фурье-преобразованных аудиосигналов от двух датчиков по отношению друг к другу согласно определенной информации и сравнения спектра мощности выше пороговой частоты нормализованных фурье-преобразованных аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков контактирует с пользователем устройства.
Предпочтительно, устройство дополнительно содержит схему обработки для приема аудиосигналов и для обработки аудиосигналов для формирования выходного аудиосигнала, представляющего речь пользователя.
Согласно третьему аспекту изобретения предусмотрен компьютерный программный продукт, содержащий машиночитаемый код, который конфигурирован таким образом, что, при выполнении машиночитаемого кода подходящим компьютером или процессором, компьютер или процессор осуществляет вышеописанный способ.
Краткое описание чертежей
Ниже будут описаны примерные варианты осуществления изобретения, исключительно в порядке примера, со ссылкой на нижеследующие чертежи, на которых:
фиг. 1 иллюстрирует свойства высокого SNR аудиосигнала, полученного с использованием BC-микрофона, относительно аудиосигнала, полученного с использованием AC-микрофона, в той же зашумленной среде;
фиг. 2 - блок-схема брелока, включающего в себя два микрофона;
фиг. 3 - блок-схема устройства согласно первому варианту осуществления изобретения;
фиг. 4A и 4B - графики, демонстрирующие сравнение между спектральными плотностями мощности между сигналами, полученными от BC-микрофона и AC-микрофона, с фоновым шумом и без него соответственно;
фиг. 5 - блок-схема операций, демонстрирующая способ согласно варианту осуществления изобретения;
фиг. 6 - блок-схема операций, демонстрирующая способ согласно более конкретному варианту осуществления изобретения;
фиг. 7 - график, демонстрирующий результат действия модуля различения BC/AC в устройстве согласно изобретению; и
фиг. 8 - блок-схема устройства согласно второму варианту осуществления изобретения;
фиг. 9 - график, демонстрирующий результат выявления речи, осуществляемого на сигнале, полученном с использованием BC-микрофона;
фиг. 10 - график, демонстрирующий результат применения алгоритма улучшения речи к сигналу, полученному с использованием AC-микрофона;
фиг. 11 - график, демонстрирующий сравнение между сигналами, полученными с использованием AC-микрофона, в зашумленной и чистой среде и выход способа согласно изобретению;
фиг. 12 - график, демонстрирующий сравнение между спектральными плотностями мощности трех сигналов, показанных на фиг. 11; и
фиг. 13 демонстрирует проводной комплект гарнитуры для мобильного телефона, включающий в себя два микрофона.
Осуществление изобретения
Согласно фиг. 2 устройство 2 в форме брелока содержит два датчика 4, 6, размещенные на противоположных сторонах или гранях брелока 2 таким образом, что, когда один из двух датчиков 4, 6 контактирует с пользователем, другой датчик контактирует с воздухом. Датчик 4, 6 в контакте с пользователем будет действовать как костнопроводный или контактный датчик (и обеспечивать BC-аудиосигнал) и датчик 4, 6 в контакте с воздухом будет действовать как воздухопроводный датчик (и обеспечивать AC-аудиосигнал). Датчики 4, 6, в общем случае, относятся к одному типу и имеют одинаковую конфигурацию. В проиллюстрированных вариантах осуществления датчики 4, 6 являются микрофонами, которые могут базироваться на технологии MEMS. Специалистам в данной области техники очевидно, что датчики 4, 6 можно реализовать с использованием других типов датчика или преобразователя.
Устройство 2 можно присоединить к шнуру, чтобы пользователь мог носить его на шее. Шнур и устройство могут располагаться таким образом, что устройство, носимое в виде брелока, имеет заданную ориентацию по отношению к телу пользователя, чтобы гарантировать, что один из датчиков 4, 6 контактирует с пользователем. Дополнительно, устройству можно придать такую форму, чтобы оно было двусторонним, таким образом предотвращая, при эксплуатации, изменение ориентации устройства вследствие движения пользователя и потерю контакта упомянутого одного датчика с пользователем. Форма устройства может быть, например, прямоугольной.
Блок-схема устройства 2 согласно изобретению показана на фиг. 3. Как описано выше, устройство 2 содержит два микрофона: первый микрофон 4 и второй микрофон 6, которые располагаются в устройстве 2 таким образом, что, когда один из микрофонов 4, 6 контактирует с частью пользователя, другой микрофон 4, 6 контактирует с воздухом.
Первый микрофон 4 и второй микрофон 6 действуют одновременно (т.е. регистрируют одну и ту же речь в одно и то же время) для формирования соответствующих аудиосигналов (обозначенных m1 и m2 на фиг. 3).
Аудиосигналы поступают на блок 7 различения, который анализирует аудиосигналы для определения, какой, при наличии, соответствует BC-аудиосигналу и AC-аудиосигналу.
Затем блок 7 различения выводит аудиосигналы на схему 8, которая осуществляет обработку для повышения качества речи в аудиосигналах.
Схема 8 обработки может осуществлять любой известный алгоритм улучшения речи на BC-аудиосигнале и AC-аудиосигнале для формирования чистого (или по меньшей мере улучшенного) выходного аудиосигнала, представляющего речь пользователя. Выходной аудиосигнал поступает на схему 10 передатчика для передачи через антенну 12 на другое электронное устройство (например, мобильный телефон или базовую станцию устройства).
Если блок 7 различения определяет, что ни один микрофон 4, 6 не контактирует с телом пользователя, то блок 7 различения может выводить оба AC-аудиосигнала на схему 8 обработки, которая затем осуществляет альтернативный способ улучшения речи на основании присутствия множественных AC-аудиосигналов (например, формирование диаграммы направленности).
Известно, что высокие частоты речи в BC-аудиосигнале ослабляются средой распространения (например, частоты свыше 1 кГц), что показывают графики на фиг. 4, которые демонстрируют сравнение спектральных плотностей мощности BC- и AC-аудиосигналов в присутствии фонового рассеянного белого шума (фиг. 4A) и в отсутствие фонового шума (фиг. 4B). Это свойство может, таким образом, использовать блок 7 различения для различения между BC- и AC-аудиосигналами.
Примерный вариант осуществления способа согласно изобретению показан на фиг. 5. На этапе 101 соответствующие аудиосигналы получаются одновременно с использованием BC-микрофона 4 и AC-микрофона 6, и сигналы поступают на блок 7 различения. Затем, на этапах 103 и 105, блок 7 различения анализирует спектральные свойства каждого из аудиосигналов и устанавливает, какой, при наличии, из первого и второго микрофонов 4, 6 контактирует с телом пользователя, на основании спектральных свойств. В одном варианте осуществления блок 7 различения анализирует спектральные свойства каждого из аудиосигналов выше пороговой частоты (например, 1 кГц).
Однако проблема связана с тем, что два микрофона 4, 6 могут быть не откалиброваны, т.е. частотные характеристики двух микрофонов 4, 6 могут отличаться друг от друга. В этом случае к одному из микрофонов можно применять калибровочный фильтр до перехода к блоку 7 различения (не показан на чертежах). Таким образом, в дальнейшем можно предполагать, что характеристики совпадают в широкой полосе коэффициента усиления, т.е. частотные характеристики двух микрофонов имеют одинаковую форму.
В ходе дальнейшей работы блок 7 различения сравнивает спектры аудиосигналов от двух микрофонов 4, 6 для определения, какой аудиосигнал, при наличии, является BC-аудиосигналом. Если микрофоны 4, 6 имеют разные частотные характеристики, это можно исправить с помощью калибровочного фильтра при изготовлении устройства 2, чтобы различия в характеристиках микрофона не влияли на сравнения, осуществляемые блоком 7 различения.
Даже при использовании этого калибровочного фильтра необходимо учитывать некоторые различия в коэффициенте усиления между AC- и BC-аудиосигналами ввиду различия в интенсивности AC- и BC-аудиосигналов, помимо их спектральных характеристик (в частности, на частотах свыше 1 кГц).
Таким образом, блок 7 различения нормализует спектры двух аудиосигналов выше пороговой частоты (исключительно в целях различения) на основании глобальных пиков, найденных ниже пороговой частоты, и сравнивает спектры выше пороговой частоты для определения, который из них, при наличии, является BC-аудиосигналом. Если эта нормализация не осуществляется, то, вследствие высокой интенсивности BC-аудиосигнала, можно определить, что мощность на более высоких частотах все же выше в BC-аудиосигнале, чем в AC-аудиосигнале, что не соответствует действительности.
Конкретный вариант осуществления изобретения представлен в виде блок-схемы операций на фиг. 6. В дальнейшем предполагается, что любая калибровка, необходимая для учета различий в частотной характеристике микрофонов 4, 6, была осуществлена, и предполагается, что соответствующие аудиосигналы от BC-микрофона 4 и AC-микрофона 6 синхронизируются с использованием надлежащих задержек по времени до дополнительной обработки аудиосигналов, описанной ниже. На этапе 111 соответствующие аудиосигналы получаются одновременно с использованием BC-микрофона 4 и AC-микрофона 6 и поступают на блок 7 различения.
На этапе 113 блок 7 различения применяет N-точечное быстрое преобразование Фурье (FFT) к аудиосигналам от каждого микрофона 4, 6 следующим образом:
создавая N частотных элементов разрешения (бинов) между
радиан (рад) и
рад, где
- частота дискретизации в герцах (Гц) аналого-цифровых преобразователей, которые преобразуют аналоговые сигналы микрофонов к цифровому виду. Помимо первых N/2+1 бинов, включающих в себя частоту Найквиста
, оставшиеся бины можно отбросить. Затем блок 7 различения использует результат FFT на аудиосигналах для вычисления спектра мощности каждого аудиосигнала.
Затем, на этапе 115, блок 7 различения находит значение максимального пика спектра мощности среди частотных бинов ниже пороговой частоты ωc:
и использует максимальные пики для нормализации спектров мощности аудиосигналов выше пороговой частоты ωc. Пороговая частота ωc выбирается как частота, выше которой спектр BC-аудиосигнала, в общем случае, ослабляется относительно AC-аудиосигнала. Пороговая частота ωc может быть равна, например, 1 кГц. Каждый частотный бин содержит единственное значение, которое, для спектра мощности, равно квадрату величины частотной характеристики в этом бине.
В качестве альтернативы, на этапе 115 блок 7 различения может находить суммарный спектр мощности ниже ωc для каждого аудиосигнала, т.е.
и может нормализовать спектры мощности аудиосигналов выше пороговой частоты ωc с использованием суммарных спектров мощности.
Поскольку низкочастотные бины AC-аудиосигнала и BC-аудиосигнала должны содержать примерно одинаковую низкочастотную информацию, значения p1 и p2 используются для нормализации спектров сигналов от двух микрофонов 4, 6, что позволяет сравнивать высокочастотные бины для обоих аудиосигналов (где ожидается наличие расхождений между BC-аудиосигналом и AC-аудиосигналом) и потенциальный идентифицированный BC-аудиосигнал.
Затем, на этапе 117, блок 7 различения сравнивает мощность между спектром сигнала от первого микрофона 4 и спектром сигнала от нормализованного второго микрофона 6 в верхних частотных бинах:
где є - малая константа для предотвращения деления на нуль и p1/(p2+є) представляет нормализацию спектров второго аудиосигнала (хотя очевидно, что нормализацию можно в качестве альтернативы применять к первому аудиосигналу).
При условии, что разность между мощностями двух аудиосигналов превышает заданную величину, которая зависит от положения костнопроводного датчика и может быть определена экспериментальным путем, аудиосигнал с наибольшей мощностью в нормализованном спектре выше ωc является аудиосигналом от AC-микрофона и аудиосигнал с наименьшей мощностью является аудиосигналом от BC-микрофона.
Однако, если разность между мощностями двух аудиосигналов меньше заданной величины, то невозможно утверждать, что какой-либо из аудиосигналов является BC-аудиосигналом (и может оказаться, что ни один из микрофонов 4, 6 не контактирует с телом пользователя).
Очевидно, что, вместо вычисления квадратов модулей в вышеприведенных уравнениях на этапе 117, можно вычислять значения модулей.
Также очевидно, что альтернативные сравнения между мощностью двух сигналов можно производить на этапе 117 с использованием ограниченного отношения, что позволяет учитывать неопределенности при принятии решения. Например, ограниченное отношение мощностей на частотах выше пороговой частоты можно определить как:
где отношение заключено между -1 и 1, причем значения, близкие к 0, указывают неопределенность, с которой микрофон, при наличии, является BC-микрофоном.
Блок 7 различения включает в себя схему переключения, которая выводит аудиосигнал, определенный как BC-аудиосигнал, на вход BC-аудиосигнала схемы 8 обработки и аудиосигнал, определенный как AC-аудиосигнал, на вход AC-аудиосигнала схемы 8 обработки. Затем схема 8 обработки осуществляет алгоритм улучшения речи на BC-аудиосигнале и AC-аудиосигнале для формирования чистого (или по меньшей мере улучшенного) выходного аудиосигнала, представляющего речь пользователя.
Если вследствие неопределенности оба аудиосигнала определяются как AC-аудиосигналы, схема переключения в блоке 7 различения может выводить сигналы на альтернативные входы аудиосигнала схемы 8 обработки (не показаны на фиг. 3). Затем схема 8 обработки может рассматривать оба аудиосигнала как AC-аудиосигналы и обрабатывать их с использованием обычных двухмикрофонных методов, например, комбинируя AC-аудиосигналы с использованием методов формирования диаграммы направленности.
В альтернативном варианте осуществления схема переключения может составлять часть схемы 8 обработки, и это означает, что блок 7 различения может выводить аудиосигнал от первого микрофона 4 на первый вход аудиосигнала схемы 8 обработки и аудиосигнал от второго микрофона 6 на второй вход аудиосигнала схемы 8 обработки, совместно с сигналом 13, указывающим, какой, при наличии, из аудиосигналов является BC- или AC-аудиосигналом.
График на фиг. 7 иллюстрирует работу вышеописанного блока 7 различения в ходе процедуры тестирования. В частности, в течение первых 10 секунд теста второй микрофон находится в контакте с пользователем (т.е. выдает BC-аудиосигнал), что точно идентифицируется блоком 7 различения (что показано на нижнем графике). В течение следующих 10 секунд теста в контакте с пользователем находится первый микрофон (т.е. теперь он выдает BC-аудиосигнал) и это, опять же, точно идентифицируется блоком 7 различения.
Фиг. 8 более подробно демонстрирует вариант осуществления схемы 8 обработки устройства 2 согласно изобретению. Устройство 2, в общем случае, соответствует показанному на фиг. 3, причем признаки, общие для обоих устройств 2, обозначены одинаковыми ссылочными позициями.
Таким образом, в этом варианте осуществления схема 8 обработки содержит блок 14 выявления речи, который принимает BC-аудиосигнал от блока 7 различения, блок 16 улучшения речи, который принимает AC-аудиосигнал от блока 7 различения и выходной сигнал блока 14 выявления речи, первый блок 18 выделения признаков, который принимает BC-аудиосигнал и вырабатывает сигнал, второй блок 20 выделения признаков, который принимает выходной сигнал блока 16 улучшения речи, и корректор 22, который принимает сигнал от первого блока 18 выделения признаков и выходной сигнал второго блока 20 выделения признаков и вырабатывает выходной аудиосигнал схемы 8 обработки.
Схема 8 обработки также включает в себя дополнительную схему 24 для обработки аудиосигналов от первого и второго микрофонов 4, 6, когда принимается решение, что оба аудиосигнала являются AC-аудиосигналами. Если используется, выходной сигнал этой схемы 24 поступает на схему 10 передатчика вместо выходного аудиосигнала из блока 22 коррекции.
Кратко, схема 8 обработки использует свойства или признаки BC-аудиосигнала и алгоритм улучшения речи для снижения величины шума в AC-аудиосигнале, и затем использует очищенный от шума AC-аудиосигнал для коррекции BC-аудиосигнала. Преимущество этого конкретного способа обработки аудиосигнала в том, что, хотя очищенный от шума AC-аудиосигнал все еще может содержать шум и/или артефакты, его можно использовать для улучшения частотных характеристик BC-аудиосигнала (который, в общем случае, не содержит речевые артефакты), благодаря чему он звучит более разборчиво.
Блок 14 выявления речи обрабатывает принятый BC-аудиосигнал для идентификации частей BC-аудиосигнала, которые представляют речь, пользователем устройства 2. Использование BC-аудиосигнала для выявления речи является преимущественным вследствие относительной невосприимчивости BC-микрофона 4 к фоновому шуму и высокому SNR.
Блок 14 выявления речи может осуществлять выявление речи путем применения простого метода сравнения с порогом к BC-аудиосигналу, посредством которого выявляются периоды речи, в течение которых амплитуда BC-аудиосигнала превышает пороговое значение.
В других вариантах осуществления схемы 8 обработки можно подавлять шум в BC-аудиосигнале на основании минимальной статистики и/или методов формирования диаграммы направленности (в случае наличия более одного BC-аудиосигнала) до осуществления выявления речи.
Графики на фиг. 9 демонстрируют результат работы блока 14 выявления речи на BC-аудиосигнале.
Выходной сигнал блока 14 выявления речи (показанный в нижней части фиг. 9) поступает на блок 16 улучшения речи совместно с AC-аудиосигналом. По сравнению с BC-аудиосигналом AC-аудиосигнал содержит стационарные и нестационарные источники фонового шума, поэтому улучшение речи осуществляется на AC-аудиосигнале, что позволяет использовать его как опорный сигнал для дальнейшего улучшения (коррекции) BC-аудиосигнала. Одним эффектом блока 16 улучшения речи является снижение величины шума в AC-аудиосигнале.
Известны многие разные типы алгоритмов улучшения речи, которые могут применяться к AC-аудиосигналу блоком 16, и конкретный используемый алгоритм может зависеть от конфигурации микрофонов 4, 6 в устройстве 2, а также от предназначения устройства 2.
В конкретных вариантах осуществления блок 16 улучшения речи применяет ту или иную форму спектральной обработки к AC-аудиосигналу. Например, блок 16 улучшения речи может использовать выходной сигнал блока 14 выявления речи для оценивания характеристик минимального уровня шума в спектральной области AC-аудиосигнала в течение периодов отсутствия речи, определенных блоком 14 выявления речи. Оценки минимального уровня шума обновляются всякий раз, когда речь не выявляется.
В вариантах осуществления, где конструкция устройства 2 предусматривает наличие более одного AC-датчика или микрофона (т.е. множественные AC-датчики помимо датчика, который контактирует с пользователем), блок 16 улучшения речи также может применять формирование диаграммы направленности микрофона в том или ином виде.
Верхний график на фиг. 10 демонстрирует AC-аудиосигнал, полученный от AC-микрофона 6, и нижний график на фиг. 10 демонстрирует результат применения алгоритма улучшения речи к AC-аудиосигналу с использованием выходного сигнала блока 14 выявления речи. Можно видеть, что уровень фонового шума в AC-аудиосигнале достаточен для формирования SNR приблизительно 0 дБ, и блок 16 улучшения речи применяет коэффициент усиления к AC-аудиосигналу для подавления фонового шума почти на 30 дБ. Однако также можно видеть, что, хотя величина шума в AC-аудиосигнале значительно снижена, некоторые артефакты остаются.
Затем очищенный от шума AC-аудиосигнал используется как опорный сигнал для повышения разборчивости (т.е. улучшения) BC-аудиосигнала.
В некоторых вариантах осуществления схемы 8 обработки можно использовать долговременные спектральные методы для построения корректирующего фильтра, или, в качестве альтернативы, BC-аудиосигнал можно использовать в качестве входного сигнала адаптивного фильтра, который минимизирует среднеквадратическую ошибку между выходным сигналом фильтра и улучшенным AC-аудиосигналом, при этом на выходе фильтра образуется скорректированный BC-аудиосигнал. Еще одна альтернатива основана на предположении о том, что конечная импульсная характеристика может моделировать передаточную функцию между BC-аудиосигналом и улучшенным AC-аудиосигналом. Использование адаптивного фильтра с BC-аудиосигналом в качестве входного сигнала и улучшенного AC-аудиосигнала в качестве опорного сигнала дает на выходе адаптивного фильтра скорректированный BC-аудиосигнал. В этих вариантах осуществления очевидно, что блок 22 коррекции требует исходного BC-аудиосигнала помимо признаков, выделенных из BC-аудиосигнала блоком 18 выделения признаков. В этом случае будет дополнительное соединение между линией ввода BC-аудиосигнала и блоком 22 коррекции в схеме 8 обработки, показанной на фиг. 8.
Однако способы на основе линейного прогнозирования могут быть более пригодны для повышения разборчивости речи в BC-аудиосигнале, поэтому, в предпочтительных вариантах осуществления изобретения, блоки 18, 20 выделения признаков являются блоками линейного прогнозирования, которые выделяют коэффициенты линейного прогнозирования из обоих BC-аудиосигнала и очищенного от шума AC-аудиосигнала, которые используются для построения корректирующего фильтра, что дополнительно описано ниже.
Линейное прогнозирование (LP) является инструментом речевого анализа, который основан на модели источника-фильтра формирования речи, в которой источник и фильтр соответствуют глоттальному возбуждению, порождаемому голосовыми связками, и формой речевого тракта соответственно. Предполагается, что фильтр является полностью полюсным. Таким образом, LP-анализ обеспечивает сигнал возбуждения и огибающую в частотной области, представленную полностью полюсной моделью, которая связана со свойствами речевого тракта в ходе формирования речи.
Модель определена в виде
где y(n) и y(n-k) соответствуют настоящей и предыдущей выборкам сигнала для анализируемого сигнала, u(n) - сигнал возбуждения с коэффициентом усиления G, ak представляет коэффициенты предсказателя и p - порядок полностью полюсной модели.
Целью LP-анализа является оценивание значений коэффициентов предсказателя для данных речевых выборок для минимизации ошибки прогнозирования
где ошибка фактически соответствует источнику возбуждения в модели источника-фильтра. e(n) - это часть сигнала, которую не может прогнозировать модель, поскольку эта модель может прогнозировать лишь спектральную огибающую, и фактически соответствует импульсам, формируемым голосовой щелью в гортани (возбуждением голосовых связок).
Известно, что аддитивный белый шум сильно влияет на оценивание коэффициентов LP и что присутствие одного или более дополнительных источников в y(n) приводит к оцениванию сигнала возбуждения, который включает в себя вклады от этих источников. Поэтому важно получать аудиосигнал, не содержащий шума, который содержит только полезный исходный сигнал для оценивания правильного сигнала возбуждения.
Таким сигналом является BC-аудиосигнал. Вследствие своего высокого SNR источник возбуждения e можно точно оценивать с использованием LP-анализа, осуществляемого блоком 18 линейного прогнозирования. Затем этот сигнал возбуждения e можно фильтровать с использованием результирующей полностью полюсной модели, оцененной путем анализа очищенного от шума AC-аудиосигнала. Поскольку полностью полюсный фильтр представляет гладкую спектральную огибающую очищенного от шума AC-аудиосигнала, он более устойчив к артефактам, возникающим в результате процесса улучшения.
Как показано на фиг. 8, анализ с линейным прогнозированием осуществляется как на BC-аудиосигнале (с использованием блока 18 линейного прогнозирования), так и на очищенном от шума AC-аудиосигнале (с использованием блока 20 линейного прогнозирования). Линейное прогнозирование осуществляется для каждого блока выборок аудиосигнала длиной 32 мс с перекрытием в 16 мс. Фильтр предыскажений также можно применять к одному или обоим из сигналов до анализа с линейным прогнозированием. Для повышения производительности анализа с линейным прогнозированием и последующей коррекции BC-аудиосигнала очищенный от шума AC-аудиосигнал и BC-сигнал можно сначала синхронизировать (не показано) путем внесения надлежащей задержки по времени в тот или иной аудиосигнал. Эту задержку по времени можно определять адаптивно с использованием методов кросс-корреляции.
В течение текущего блока выборки предыдущий, настоящий и будущий коэффициенты предсказателя оцениваются, преобразуются в линейные спектральные частоты (LSF), сглаживаются и преобразуются обратно в коэффициенты линейного предсказателя. LSF используются, поскольку представление спектральной огибающей коэффициентами линейного прогнозирования не подвергается сглаживанию. Сглаживание применяется для ослабления переходных эффектов в ходе операции синтеза.
Коэффициенты LP, полученные для BC-аудиосигнала, используются для формирования BC-сигнала возбуждения e. Затем этот сигнал фильтруется (корректируется) блоком 22 коррекции, который просто использует полностью полюсный фильтр, оцененный и сглаженный из очищенного от шума AC-аудиосигнала
Дополнительное формирование с использованием LSF полностью полюсного фильтра можно применять к полностью полюсному фильтру AC для предотвращения ненужных всплесков в эффективном спектре.
Если фильтр предыскажений применяется к сигналам до LP-анализа, фильтр высоких частот можно применять к выходному сигналу H(z). Широкополосный коэффициент усиления также можно применять к выходному сигналу для компенсации широкополосного усиления или ослабления, порожденного фильтрами высоких частот.
Таким образом, выходной аудиосигнал выводится путем фильтрации 'чистого' сигнала возбуждения e, полученного из LP-анализа BC-аудиосигнала с использованием полностью полюсной модели, оцененный посредством LP-анализа очищенного от шума AC-аудиосигнала.
Фиг. 11 демонстрирует сравнение между сигналом AC-микрофона в зашумленной и чистой среде и выходным сигналом схемы 8 обработки при использовании линейного прогнозирования. Таким образом, можно видеть, что выходной аудиосигнал содержит значительно меньше артефактов, чем зашумленный AC-аудиосигнал, и больше напоминает чистый AC-аудиосигнал.
Фиг. 12 демонстрирует сравнение между спектральными плотностями мощности трех сигналов, показанных на фиг. 11. Также здесь можно видеть, что спектр выходного аудиосигнала в большей степени совпадает с AC-аудиосигналом в чистой среде.
Таким образом, этот вариант осуществления схемы 8 обработки позволяет формировать чистый (или по меньшей мере разборчивый) речевой аудиосигнал в неблагоприятной акустической среде, где речь ухудшается сильным шумом или реверберацией.
В дополнительном варианте осуществления схемы 8 обработки (не представленный на фиг. 8) предусмотрен второй блок улучшения речи для улучшения (снижения шума) BC-аудиосигнала, выдаваемого блоком 7 различения, до осуществления линейного прогнозирования. Как и первый блок 16 улучшения речи, второй блок улучшения речи принимает выходной сигнал блока 14 выявления речи. Второй блок улучшения речи используется для применения умеренного улучшения речи к BC-аудиосигналу для удаления любого шума, который может примешиваться к сигналу микрофона. Хотя алгоритмы, выполняемые первым и вторым блоками улучшения речи, могут быть одинаковыми, фактическая степень применяемого шумоподавления/улучшения речи будет разной для AC- и BC-аудиосигналов.
Очевидно, что брелок 2, показанный на фиг. 2, или другие неподвесные устройства, отвечающие вышеописанному изобретению, могут включать в себя более двух микрофонов. Например, брелок 2 может иметь треугольное (требующее трех микрофонов, по одному на каждой грани) или квадратное (требующее четырех микрофонов, по одному на каждой грани) сечение. Устройство 2 также может быть конфигурировано таким образом, чтобы более чем один микрофон мог получать BC-аудиосигнал. В этом случае можно объединять аудиосигналы от нескольких AC (или BC) микрофонов до ввода в схему 8 обработки с использованием, например, методов формирования диаграммы направленности для формирования AC (или BC) аудиосигнала с повышенным SNR. Это может способствовать дополнительному повышению качества и разборчивости аудиосигнала, выводимого схемой 8 обработки.
При использовании более одного микрофона конкретного типа (например, AC и/или BC) в таких устройствах общий способ классификации микрофонов как AC или BC для каждого устройства можно описать следующим образом. Прежде всего, осуществляется попарная классификация, описанная на фиг. 5 или 6, среди микрофонов с отнесением их к AC, BC или неопределенному типу. Затем повторно осуществляется парная классификация, на этот раз между микрофонами, категоризованными как неопределенный и BC-сигналы. Если два микрофона все еще категоризуются как неопределенные, значит, они принадлежат группе BC, в противном случае они принадлежат группе AC-микрофонов. Второй этап также может осуществляться с использованием группы AC вместо группы BC.
Хотя изобретение было описано выше в отношении брелока, который составляет часть MPERS, очевидно, что изобретение можно реализовать в других типах электронного устройства, которые используют датчики или микрофоны для выявления речи. Один тип устройства 2, показанный на фиг. 13, представляет собой проводной комплект гарнитуры, который может быть подключен к мобильному телефону для обеспечения функциональных возможностей гарнитуры. Устройство 2 содержит наушник (не показан) и микрофонную часть 30, содержащую два микрофона 4, 6, которые при эксплуатации располагаются вблизи рта или шеи пользователя. Микрофонная часть конфигурирована таким образом, что любой из двух микрофонов 4, 6 может находиться в контакте с шеей пользователя, в зависимости от ориентации микрофонной части в любой данный момент времени.
Очевидно, что блок 7 различения и/или схему 8 обработки, показанную на фиг. 2 и 7, можно реализовать как единичный процессор или как множественные соединенные друг с другом блоки обработки. В качестве альтернативы, очевидно, что функциональные возможности схемы 8 обработки можно реализовать в форме компьютерной программы, которая выполняется процессором или процессорами общего назначения в устройстве. Кроме того, очевидно, что схему 8 обработки можно реализовать в устройстве, отдельном от устройства корпусных BC- и/или AC-микрофонов 4, 6, с возможностью обмена аудиосигналами между этими устройствами.
Также очевидно, что блок 7 различения и схема 8 обработки могут обрабатывать аудиосигналы на поблочной основе (т.е. обрабатывать единомоментно один блок выборок аудиосигнала). Например, в блоке 7 различения аудиосигналы могут делиться на блоки из N выборок аудиосигнала до применения FFT. Последующая обработка, осуществляемая блоком 7 различения, затем осуществляется на каждом блоке из N преобразованных выборок аудиосигнала. Блоки 18, 20 выделения признаков могут действовать аналогичным образом.
Таким образом, обеспечены устройство и способ его эксплуатации, позволяющие получать аудиосигнал, представляющий речь пользователя, из BC- и AC-аудиосигналов, несмотря на то, что устройство может свободно перемещаться относительно пользователя, из-за чего микрофоны, обеспечивающие BC- и AC-сигналы, меняются местами.
Хотя изобретение подробно проиллюстрировано и описано на чертежах и вышеприведенном описании, такие иллюстрации и описание следует рассматривать как иллюстративные или примерные, но не как ограничивающие; изобретение не ограничивается раскрытыми вариантами осуществления.
Специалисты в данной области техники могут внести и реализовать изменения в раскрытые варианты осуществления при практическом осуществлении заявленного изобретения, изучая чертежи, описание и нижеследующую формулу изобретения. В формуле изобретения слово «содержащий» не исключает наличия других элементов или этапов, и их упоминание в единственном числе не исключает наличия их во множественном числе. Единичный процессор или другой блок может выполнять функции нескольких элементов, указанных в формуле изобретения. Сам по себе тот факт, что определенные средства упомянуты во взаимно различных зависимых пунктах, не говорит о том, что нельзя с достижением преимущества использовать сочетание таких средств. Компьютерная программа может храниться/распространяться на подходящем носителе, например на оптическом носителе или твердотельном носителе, поставляемом совместно с другим оборудованием или в его составе, но также может распространяться в других формах, например через интернет или другие проводные или беспроводные системы электросвязи. Никакие ссылочные позиции в формуле изобретения не следует рассматривать как ограничивающие объем.
Claims (13)
1. Способ эксплуатации устройства обработки аудиосигналов с использованием аудиодатчиков, причем устройство содержит множество аудиодатчиков и конфигурировано таким образом, что, когда первый аудиодатчик из множества аудиодатчиков контактирует с пользователем устройства, второй аудиодатчик из множества аудиодатчиков контактирует с воздухом, причем способ содержит этапы, на которых:
получают (101) соответствующие аудиосигналы, представляющие речь пользователя, от множества аудиодатчиков,
анализируют (103, 105) соответствующие аудиосигналы для определения, какой, при наличии, из множества аудиодатчиков контактирует с пользователем устройства, и
подают аудиосигналы на схему, которая обрабатывает аудиосигналы, для формирования выходного аудиосигнала, представляющего речь пользователя, согласно результату этапа анализа.
получают (101) соответствующие аудиосигналы, представляющие речь пользователя, от множества аудиодатчиков,
анализируют (103, 105) соответствующие аудиосигналы для определения, какой, при наличии, из множества аудиодатчиков контактирует с пользователем устройства, и
подают аудиосигналы на схему, которая обрабатывает аудиосигналы, для формирования выходного аудиосигнала, представляющего речь пользователя, согласно результату этапа анализа.
2. Способ по п. 1, в котором этап анализа (103, 105) содержит этап, на котором анализируют спектральные свойства каждого из аудиосигналов.
3. Способ по п. 1 или 2, в котором этап анализа (103, 105) содержит этап, на котором анализируют мощность соответствующих аудиосигналов выше пороговой частоты.
4. Способ по п. 3, в котором определяют, что аудиодатчик контактирует с пользователем устройства, если мощность его соответствующего аудиосигнала выше пороговой частоты меньше мощности аудиосигнала выше пороговой частоты от другого аудиодатчика более чем на заданную величину.
5. Способ по п. 1 или 2, в котором этап анализа (103, 105) содержит этапы, на которых:
применяют (113) N-точечное преобразование Фурье к каждому аудиосигналу,
определяют (113) информацию по спектру мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов,
нормализуют (115) фурье-преобразованные аудиосигналы от двух датчиков по отношению друг к другу согласно определенной информации и
сравнивают (117) спектр мощности выше пороговой частоты нормализованных фурье-преобразованных аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков контактирует с пользователем устройства.
применяют (113) N-точечное преобразование Фурье к каждому аудиосигналу,
определяют (113) информацию по спектру мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов,
нормализуют (115) фурье-преобразованные аудиосигналы от двух датчиков по отношению друг к другу согласно определенной информации и
сравнивают (117) спектр мощности выше пороговой частоты нормализованных фурье-преобразованных аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков контактирует с пользователем устройства.
6. Способ по п. 5, в котором этап определения информации содержит этап, на котором определяют (115) значение максимального пика в спектре мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов.
7. Способ по п. 5, в котором этап определения информации содержит этап, на котором суммируют (115) спектр мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов.
8. Способ по п. 5, в котором определяют, что аудиодатчик контактирует с пользователем устройства, если спектр мощности выше пороговой частоты для этого соответствующего фурье-преобразованного аудиосигнала меньше спектра мощности выше пороговой частоты для фурье-преобразованного аудиосигнала от другого аудиодатчика более чем на заданную величину.
9. Способ по п. 5, в котором определяют, что ни один аудиодатчик не контактирует с пользователем устройства, если спектры мощности выше пороговой частоты для фурье-преобразованных аудиосигналов отличаются менее чем на заданную величину.
10. Устройство (2) обработки аудиосигналов с использованием аудиодатчиков, содержащее:
множество аудиодатчиков (4, 6), размещенных в устройстве (2) таким образом, что, когда первый аудиодатчик (4, 6) из множества аудиодатчиков (4, 6) контактирует с пользователем устройства (2), второй аудиодатчик (4, 6) из множества аудиодатчиков (4, 6) контактирует с воздухом,
схему (7), которая выполнена с возможностью:
получения соответствующих аудиосигналов, представляющих речь пользователя, от множества аудиодатчиков (4, 6),
анализа соответствующих аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков (4, 6) контактирует с пользователем устройства (2); и
схему (8) обработки для обработки аудиосигналов для формирования выходного аудиосигнала, представляющего речь пользователя.
множество аудиодатчиков (4, 6), размещенных в устройстве (2) таким образом, что, когда первый аудиодатчик (4, 6) из множества аудиодатчиков (4, 6) контактирует с пользователем устройства (2), второй аудиодатчик (4, 6) из множества аудиодатчиков (4, 6) контактирует с воздухом,
схему (7), которая выполнена с возможностью:
получения соответствующих аудиосигналов, представляющих речь пользователя, от множества аудиодатчиков (4, 6),
анализа соответствующих аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков (4, 6) контактирует с пользователем устройства (2); и
схему (8) обработки для обработки аудиосигналов для формирования выходного аудиосигнала, представляющего речь пользователя.
11. Устройство (2) по п. 10, в котором схема (7) выполнена с возможностью анализа мощности соответствующих аудиосигналов выше пороговой частоты.
12. Устройство (2) по п. 10, в котором схема (7) выполнена с возможностью анализа соответствующих аудиосигналов путем:
применения N-точечного преобразования Фурье к каждому аудиосигналу;
определения информации по спектру мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов;
нормализации фурье-преобразованных аудиосигналов от двух датчиков по отношению друг к другу согласно определенной информации и
сравнения спектра мощности выше пороговой частоты нормализованных фурье-преобразованных аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков (4, 6) контактирует с пользователем устройства (2).
применения N-точечного преобразования Фурье к каждому аудиосигналу;
определения информации по спектру мощности ниже пороговой частоты для каждого из фурье-преобразованных аудиосигналов;
нормализации фурье-преобразованных аудиосигналов от двух датчиков по отношению друг к другу согласно определенной информации и
сравнения спектра мощности выше пороговой частоты нормализованных фурье-преобразованных аудиосигналов для определения, какой, при наличии, из множества аудиодатчиков (4, 6) контактирует с пользователем устройства (2).
13. Постоянный машиночитаемый носитель, на котором сохранен код компьютерной программы, который при выполнении подходящим компьютером или процессором выполнен с возможностью побуждать компьютер или процессор осуществлять способ по п. 1.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP10192400 | 2010-11-24 | ||
| EP10192400.9 | 2010-11-24 | ||
| PCT/IB2011/055198 WO2012069973A1 (en) | 2010-11-24 | 2011-11-21 | A device comprising a plurality of audio sensors and a method of operating the same |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| RU2013128560A RU2013128560A (ru) | 2014-12-27 |
| RU2605522C2 true RU2605522C2 (ru) | 2016-12-20 |
Family
ID=45350430
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| RU2013128560/28A RU2605522C2 (ru) | 2010-11-24 | 2011-11-21 | Устройство, содержащее множество аудиодатчиков, и способ его эксплуатации |
Country Status (7)
| Country | Link |
|---|---|
| US (1) | US9538301B2 (ru) |
| EP (1) | EP2643981B1 (ru) |
| JP (1) | JP6031041B2 (ru) |
| CN (1) | CN103229517B (ru) |
| BR (1) | BR112013012539B1 (ru) |
| RU (1) | RU2605522C2 (ru) |
| WO (1) | WO2012069973A1 (ru) |
Families Citing this family (24)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7148879B2 (en) | 2000-07-06 | 2006-12-12 | At&T Corp. | Bioacoustic control system, method and apparatus |
| EP2458586A1 (en) * | 2010-11-24 | 2012-05-30 | Koninklijke Philips Electronics N.V. | System and method for producing an audio signal |
| WO2013057659A2 (en) | 2011-10-19 | 2013-04-25 | Koninklijke Philips Electronics N.V. | Signal noise attenuation |
| US8908894B2 (en) | 2011-12-01 | 2014-12-09 | At&T Intellectual Property I, L.P. | Devices and methods for transferring data through a human body |
| WO2014057406A1 (en) * | 2012-10-09 | 2014-04-17 | Koninklijke Philips N.V. | Method and apparatus for audio interference estimation |
| US9595271B2 (en) * | 2013-06-27 | 2017-03-14 | Getgo, Inc. | Computer system employing speech recognition for detection of non-speech audio |
| US10108984B2 (en) | 2013-10-29 | 2018-10-23 | At&T Intellectual Property I, L.P. | Detecting body language via bone conduction |
| US9594433B2 (en) | 2013-11-05 | 2017-03-14 | At&T Intellectual Property I, L.P. | Gesture-based controls via bone conduction |
| US9349280B2 (en) | 2013-11-18 | 2016-05-24 | At&T Intellectual Property I, L.P. | Disrupting bone conduction signals |
| US9715774B2 (en) | 2013-11-19 | 2017-07-25 | At&T Intellectual Property I, L.P. | Authenticating a user on behalf of another user based upon a unique body signature determined through bone conduction signals |
| US9405892B2 (en) | 2013-11-26 | 2016-08-02 | At&T Intellectual Property I, L.P. | Preventing spoofing attacks for bone conduction applications |
| US9882992B2 (en) | 2014-09-10 | 2018-01-30 | At&T Intellectual Property I, L.P. | Data session handoff using bone conduction |
| US9582071B2 (en) | 2014-09-10 | 2017-02-28 | At&T Intellectual Property I, L.P. | Device hold determination using bone conduction |
| US9589482B2 (en) | 2014-09-10 | 2017-03-07 | At&T Intellectual Property I, L.P. | Bone conduction tags |
| US10045732B2 (en) | 2014-09-10 | 2018-08-14 | At&T Intellectual Property I, L.P. | Measuring muscle exertion using bone conduction |
| US9600079B2 (en) | 2014-10-15 | 2017-03-21 | At&T Intellectual Property I, L.P. | Surface determination via bone conduction |
| EP3211918B1 (en) * | 2014-10-20 | 2021-08-25 | Sony Group Corporation | Voice processing system |
| KR102493123B1 (ko) * | 2015-01-23 | 2023-01-30 | 삼성전자주식회사 | 음성 향상 방법 및 시스템 |
| GB201615538D0 (en) * | 2016-09-13 | 2016-10-26 | Nokia Technologies Oy | A method , apparatus and computer program for processing audio signals |
| GB201713946D0 (en) * | 2017-06-16 | 2017-10-18 | Cirrus Logic Int Semiconductor Ltd | Earbud speech estimation |
| KR102193629B1 (ko) | 2018-01-23 | 2020-12-21 | 구글 엘엘씨 | 호출 구문 검출에서 노이즈 감소 기술의 선택적 적응 및 활용 |
| US10831316B2 (en) | 2018-07-26 | 2020-11-10 | At&T Intellectual Property I, L.P. | Surface interface |
| CN113421580B (zh) * | 2021-08-23 | 2021-11-05 | 深圳市中科蓝讯科技股份有限公司 | 降噪方法、存储介质、芯片及电子设备 |
| US12469488B2 (en) | 2023-10-30 | 2025-11-11 | Reflex Technologies, Inc. | Methods for non-audible speech detection |
Citations (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000261530A (ja) * | 1999-03-10 | 2000-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 通話装置 |
| JP2000354284A (ja) * | 1999-06-10 | 2000-12-19 | Iwatsu Electric Co Ltd | 送受一体形電気音響変換器を用いる送受話装置 |
| US20010016046A1 (en) * | 2000-02-14 | 2001-08-23 | Yoshiki Ohta | Automatic sound field correcting system and a sound field correcting method |
| JP2002125298A (ja) * | 2000-10-13 | 2002-04-26 | Yamaha Corp | マイク装置およびイヤホンマイク装置 |
| EP0984661B1 (en) * | 1994-05-18 | 2002-08-07 | Nippon Telegraph and Telephone Corporation | Transmitter-receiver having ear-piece type acoustic transducer part |
| US20050185813A1 (en) * | 2004-02-24 | 2005-08-25 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
| JP2006126558A (ja) * | 2004-10-29 | 2006-05-18 | Asahi Kasei Corp | 音声話者認証システム |
| US20090296965A1 (en) * | 2008-05-27 | 2009-12-03 | Mariko Kojima | Hearing aid, and hearing-aid processing method and integrated circuit for hearing aid |
| RU2391716C2 (ru) * | 2004-10-12 | 2010-06-10 | Майкрософт Корпорейшн | Способ и аппарат мультисенсорного улучшения речи в мобильном устройстве |
Family Cites Families (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS42962Y1 (ru) * | 1965-06-03 | 1967-01-20 | ||
| JPS5836526A (ja) | 1981-08-25 | 1983-03-03 | リオン株式会社 | コンタクトマイクロホン |
| JPH02962A (ja) | 1988-05-25 | 1990-01-05 | Mitsubishi Electric Corp | フォトマスクの作成方法 |
| JPH07312634A (ja) | 1994-05-18 | 1995-11-28 | Nippon Telegr & Teleph Corp <Ntt> | 耳栓形変換器を用いる送受話装置 |
| JP3876061B2 (ja) * | 1997-10-06 | 2007-01-31 | Necトーキン株式会社 | 音声ピックアップ装置 |
| US6952672B2 (en) | 2001-04-25 | 2005-10-04 | International Business Machines Corporation | Audio source position detection and audio adjustment |
| KR20030040610A (ko) | 2001-11-15 | 2003-05-23 | 한국전자통신연구원 | 골 전도 마이크로 입력된 음성신호의 음질 향상방법 |
| JP2004279768A (ja) | 2003-03-17 | 2004-10-07 | Mitsubishi Heavy Ind Ltd | 気導音推定装置及び気導音推定方法 |
| US7447630B2 (en) | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
| EP1640972A1 (en) | 2005-12-23 | 2006-03-29 | Phonak AG | System and method for separation of a users voice from ambient sound |
| US8214219B2 (en) | 2006-09-15 | 2012-07-03 | Volkswagen Of America, Inc. | Speech communications system for a vehicle and method of operating a speech communications system for a vehicle |
| CN101150883A (zh) * | 2006-09-20 | 2008-03-26 | 南京Lg同创彩色显示系统有限责任公司 | 显示器的音频输出装置 |
| JP5075676B2 (ja) | 2008-02-28 | 2012-11-21 | 株式会社オーディオテクニカ | マイクロホン |
| US8675884B2 (en) | 2008-05-22 | 2014-03-18 | DSP Group | Method and a system for processing signals |
| CN101645697B (zh) * | 2008-08-07 | 2011-08-10 | 英业达股份有限公司 | 音量控制系统及方法 |
| US20100224191A1 (en) | 2009-03-06 | 2010-09-09 | Cardinal Health 207, Inc. | Automated Oxygen Delivery System |
| EP2458586A1 (en) | 2010-11-24 | 2012-05-30 | Koninklijke Philips Electronics N.V. | System and method for producing an audio signal |
-
2011
- 2011-11-21 BR BR112013012539-0A patent/BR112013012539B1/pt not_active IP Right Cessation
- 2011-11-21 CN CN201180056637.7A patent/CN103229517B/zh not_active Expired - Fee Related
- 2011-11-21 JP JP2013540466A patent/JP6031041B2/ja not_active Expired - Fee Related
- 2011-11-21 EP EP11797136.6A patent/EP2643981B1/en not_active Not-in-force
- 2011-11-21 WO PCT/IB2011/055198 patent/WO2012069973A1/en not_active Ceased
- 2011-11-21 RU RU2013128560/28A patent/RU2605522C2/ru active
- 2011-11-21 US US13/988,050 patent/US9538301B2/en active Active
Patent Citations (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0984661B1 (en) * | 1994-05-18 | 2002-08-07 | Nippon Telegraph and Telephone Corporation | Transmitter-receiver having ear-piece type acoustic transducer part |
| JP2000261530A (ja) * | 1999-03-10 | 2000-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 通話装置 |
| JP2000354284A (ja) * | 1999-06-10 | 2000-12-19 | Iwatsu Electric Co Ltd | 送受一体形電気音響変換器を用いる送受話装置 |
| US20010016046A1 (en) * | 2000-02-14 | 2001-08-23 | Yoshiki Ohta | Automatic sound field correcting system and a sound field correcting method |
| JP2002125298A (ja) * | 2000-10-13 | 2002-04-26 | Yamaha Corp | マイク装置およびイヤホンマイク装置 |
| US20050185813A1 (en) * | 2004-02-24 | 2005-08-25 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
| RU2376722C2 (ru) * | 2004-02-24 | 2009-12-20 | Майкрософт Корпорейшн | Способ многосенсорного улучшения речи на мобильном ручном устройстве и мобильное ручное устройство |
| RU2391716C2 (ru) * | 2004-10-12 | 2010-06-10 | Майкрософт Корпорейшн | Способ и аппарат мультисенсорного улучшения речи в мобильном устройстве |
| JP2006126558A (ja) * | 2004-10-29 | 2006-05-18 | Asahi Kasei Corp | 音声話者認証システム |
| US20090296965A1 (en) * | 2008-05-27 | 2009-12-03 | Mariko Kojima | Hearing aid, and hearing-aid processing method and integrated circuit for hearing aid |
Also Published As
| Publication number | Publication date |
|---|---|
| EP2643981B1 (en) | 2014-09-17 |
| JP6031041B2 (ja) | 2016-11-24 |
| CN103229517B (zh) | 2017-04-19 |
| BR112013012539A2 (pt) | 2020-08-04 |
| BR112013012539B1 (pt) | 2021-05-18 |
| EP2643981A1 (en) | 2013-10-02 |
| JP2014501089A (ja) | 2014-01-16 |
| US9538301B2 (en) | 2017-01-03 |
| WO2012069973A1 (en) | 2012-05-31 |
| CN103229517A (zh) | 2013-07-31 |
| RU2013128560A (ru) | 2014-12-27 |
| WO2012069973A9 (en) | 2013-05-10 |
| US20140119548A1 (en) | 2014-05-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| RU2605522C2 (ru) | Устройство, содержащее множество аудиодатчиков, и способ его эксплуатации | |
| RU2595636C2 (ru) | Система и способ для генерации аудиосигнала | |
| CN104246877B (zh) | 用于音频信号处理的系统和方法 | |
| RU2376722C2 (ru) | Способ многосенсорного улучшения речи на мобильном ручном устройстве и мобильное ручное устройство | |
| US8620672B2 (en) | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal | |
| JP3963850B2 (ja) | 音声区間検出装置 | |
| US9959886B2 (en) | Spectral comb voice activity detection | |
| KR20130055650A (ko) | 다중-마이크로폰 위치 선택적 프로세싱을 위한 시스템들, 방법들, 장치, 및 컴퓨터 판독가능 매체 | |
| KR20160023767A (ko) | 스피치 신호 품질을 측정하기 위한 시스템들 및 방법들 | |
| JP2019022213A (ja) | 聴覚機器および非侵入型の音声明瞭度による方法 | |
| CN116982106A (zh) | 主动降噪音频设备和用于主动降噪的方法 | |
| EP2745293B1 (en) | Signal noise attenuation | |
| Jan et al. | Blind reverberation time estimation based on Laplace distribution | |
| Cosentino et al. | Towards objective measures of speech intelligibility for cochlear implant users in reverberant environments | |
| CN120496562B (zh) | 回声消除方法、装置、设备及存储介质 | |
| CN120544591A (zh) | 一种防爆工业电话机的通讯降噪方法及系统 | |
| Edraki | Prediction and Enhancement of Speech Intelligibility in Challenging Acoustic Environments | |
| US20130226568A1 (en) | Audio signals by estimations and use of human voice attributes | |
| Abutalebi et al. | Speech dereverberation in noisy environments using an adaptive minimum mean square error estimator | |
| da Silveira Ramos | Electrical Engineering Program, COPPE |