RU2018135681A - Способ и устройство для обнаружения голосовой активности - Google Patents
Способ и устройство для обнаружения голосовой активности Download PDFInfo
- Publication number
- RU2018135681A RU2018135681A RU2018135681A RU2018135681A RU2018135681A RU 2018135681 A RU2018135681 A RU 2018135681A RU 2018135681 A RU2018135681 A RU 2018135681A RU 2018135681 A RU2018135681 A RU 2018135681A RU 2018135681 A RU2018135681 A RU 2018135681A
- Authority
- RU
- Russia
- Prior art keywords
- measure
- term activity
- signal
- primary
- decisions
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
- Geophysics And Detection Of Objects (AREA)
- Emergency Alarm Devices (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephone Function (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Claims (31)
1. Способ добавления хвостов сигнала для прерывистой передачи (DTX) при кодировании речи или аудио, причем способ содержит:
для фрейма речи или аудио:
- определение первичного решения на основании голосовой активности;
- определение окончательного решения на основании того, выполняется ли добавление хвостов сигнала первичного решения;
- определение меры краткосрочной активности на основании прошлых первичных решений;
- определение меры долгосрочной активности на основании прошлых окончательных решений или прошлых первичных решений;
- определение альтернативного окончательного решения для регулирования добавления хвостов сигнала на основании меры краткосрочной активности и меры долгосрочной активности.
2. Способ по п. 1, в котором мера краткосрочной активности сравнивается с первым пороговым значением, а мера долгосрочной активности сравнивается со вторым пороговым значением.
3. Способ по п. 2, в котором добавление хвостов сигнала регулируется, если превышено по меньшей мере одно из первого и второго пороговых значений.
4. Способ по любому из пп. 1-3, в котором добавление хвостов сигнала регулируется посредством предварительно определенного количества фреймов хвоста сигнала.
5. Способ по любому из пп. 3 или 4, в котором первое число фреймов хвоста сигнала добавляется, если превышено первое пороговое значение, и второе число фреймов хвоста сигнала добавляется, если превышено второе пороговое значение.
6. Способ по п. 5, в котором первое число меньше, чем второе число.
7. Способ по любому из пп. 4-6, в котором величина дополнительных фреймов хвоста сигнала ограничена, если мера краткосрочной активности снижается ниже третьего порогового значения.
8. Способ по п. 7, в котором третье пороговое значение равно 7.
9. Способ по любому из предшествующих пунктов, в котором мера краткосрочной активности определяется на основании количества активных фреймов в памяти последних N_st первичных решений, а мера долгосрочной активности основана на количестве активных фреймов в памяти последних N_lt первых окончательных решений.
10. Способ по п. 9, в котором N_st равно 16, а N_lt равно 50, и при этом первое пороговое значение равно 12, а второе пороговое значение равно 40.
11. Устройство для определения добавления хвостов сигнала, содержащее:
- средство для определения первичного решения голосовой активности для фрейма речи или аудио;
- средство для определения окончательного решения на основании того, должно ли выполняться добавление хвостов сигнала первичного решения;
- средство для определения меры краткосрочной активности на основании прошлых первичных решений;
- средство для определения меры долгосрочной активности на основании прошлых первых окончательных решений или прошлых первичных решений;
- средство для определения альтернативного окончательного решения для регулирования добавления хвостов сигнала на основании меры краткосрочной активности и меры долгосрочной активности.
12. Устройство по п. 11, дополнительно содержащее средство для выполнения способа по любому из пп. 2-10.
13. Устройство по п. 11 или 12, причем устройство содержится в кодеке речи или аудио.
14. Компьютерная программа, содержащая компьютерно-читаемые блоки кода, которые при исполнении на устройстве предписывают устройству:
для фрейма речи или аудио:
- определять первичное решение на основании голосовой активности;
- определять окончательное решение на основании того, выполняется ли добавление хвостов сигнала первичного решения;
- определять меру краткосрочной активности на основании прошлых первичных решений;
- определять меру долгосрочной активности на основании прошлых первых окончательных решений или прошлых первичных решений;
- определять альтернативное окончательное решение для регулирования добавления хвостов сигнала на основании меры краткосрочной активности и меры долгосрочной активности.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201261695623P | 2012-08-31 | 2012-08-31 | |
| US61/695,623 | 2012-08-31 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| RU2017101656A Division RU2670785C9 (ru) | 2012-08-31 | 2013-08-30 | Способ и устройство для обнаружения голосовой активности |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| RU2018135681A true RU2018135681A (ru) | 2020-04-10 |
| RU2018135681A3 RU2018135681A3 (ru) | 2021-11-25 |
| RU2768508C2 RU2768508C2 (ru) | 2022-03-24 |
Family
ID=49226493
Family Applications (3)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| RU2015111150A RU2609133C2 (ru) | 2012-08-31 | 2013-08-30 | Способ и устройство для обнаружения голосовой активности |
| RU2017101656A RU2670785C9 (ru) | 2012-08-31 | 2013-08-30 | Способ и устройство для обнаружения голосовой активности |
| RU2018135681A RU2768508C2 (ru) | 2012-08-31 | 2018-10-10 | Способ и устройство для обнаружения голосовой активности |
Family Applications Before (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| RU2015111150A RU2609133C2 (ru) | 2012-08-31 | 2013-08-30 | Способ и устройство для обнаружения голосовой активности |
| RU2017101656A RU2670785C9 (ru) | 2012-08-31 | 2013-08-30 | Способ и устройство для обнаружения голосовой активности |
Country Status (12)
| Country | Link |
|---|---|
| US (6) | US9472208B2 (ru) |
| EP (3) | EP3113184B1 (ru) |
| JP (3) | JP6127143B2 (ru) |
| CN (2) | CN107195313B (ru) |
| BR (1) | BR112015003356B1 (ru) |
| DK (1) | DK2891151T3 (ru) |
| ES (2) | ES2661924T3 (ru) |
| HU (1) | HUE038398T2 (ru) |
| IN (1) | IN2015DN00783A (ru) |
| RU (3) | RU2609133C2 (ru) |
| WO (1) | WO2014035328A1 (ru) |
| ZA (2) | ZA201500780B (ru) |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2526258B2 (ja) | 1987-11-30 | 1996-08-21 | 田中貴金属工業株式会社 | Pt、Pd系貴金属粒状塊製造用るつぼ |
| JP2526257B2 (ja) | 1987-11-30 | 1996-08-21 | 田中貴金属工業株式会社 | Pt、Pd系貴金属粒状塊製造用るつぼ |
| JP2526259B2 (ja) | 1987-12-08 | 1996-08-21 | 田中貴金属工業株式会社 | Pt、Pd系貴金属粒状塊製造用るつぼ |
| EP2118885B1 (en) * | 2007-02-26 | 2012-07-11 | Dolby Laboratories Licensing Corporation | Speech enhancement in entertainment audio |
| US9472208B2 (en) * | 2012-08-31 | 2016-10-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and device for voice activity detection |
| CA2948015C (en) | 2012-12-21 | 2018-03-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Comfort noise addition for modeling background noise at low bit-rates |
| AU2013366642B2 (en) | 2012-12-21 | 2016-09-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals |
| TWI566242B (zh) * | 2015-01-26 | 2017-01-11 | 宏碁股份有限公司 | 語音辨識裝置及語音辨識方法 |
| TWI557728B (zh) * | 2015-01-26 | 2016-11-11 | 宏碁股份有限公司 | 語音辨識裝置及語音辨識方法 |
| JP6444490B2 (ja) * | 2015-03-12 | 2018-12-26 | 三菱電機株式会社 | 音声区間検出装置および音声区間検出方法 |
| CN106887241A (zh) * | 2016-10-12 | 2017-06-23 | 阿里巴巴集团控股有限公司 | 一种语音信号检测方法与装置 |
| CN107170451A (zh) * | 2017-06-27 | 2017-09-15 | 乐视致新电子科技(天津)有限公司 | 语音信号处理方法及装置 |
| KR102406718B1 (ko) | 2017-07-19 | 2022-06-10 | 삼성전자주식회사 | 컨텍스트 정보에 기반하여 음성 입력을 수신하는 지속 기간을 결정하는 전자 장치 및 시스템 |
| CN109068012B (zh) * | 2018-07-06 | 2021-04-27 | 南京时保联信息科技有限公司 | 一种用于音频会议系统的双端通话检测方法 |
| US10861484B2 (en) * | 2018-12-10 | 2020-12-08 | Cirrus Logic, Inc. | Methods and systems for speech detection |
Family Cites Families (31)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63281200A (ja) * | 1987-05-14 | 1988-11-17 | 沖電気工業株式会社 | 音声区間検出方式 |
| JPH0394300A (ja) * | 1989-09-06 | 1991-04-19 | Nec Corp | 音声検出器 |
| JPH03141740A (ja) * | 1989-10-27 | 1991-06-17 | Mitsubishi Electric Corp | 音声検出器 |
| US5410632A (en) * | 1991-12-23 | 1995-04-25 | Motorola, Inc. | Variable hangover time in a voice activity detector |
| JP3234044B2 (ja) | 1993-05-12 | 2001-12-04 | 株式会社東芝 | 音声通信装置及びその受信制御回路 |
| EP0909442B1 (en) * | 1996-07-03 | 2002-10-09 | BRITISH TELECOMMUNICATIONS public limited company | Voice activity detector |
| JP3297346B2 (ja) | 1997-04-30 | 2002-07-02 | 沖電気工業株式会社 | 音声検出装置 |
| US6453289B1 (en) * | 1998-07-24 | 2002-09-17 | Hughes Electronics Corporation | Method of noise reduction for speech codecs |
| US20010014857A1 (en) * | 1998-08-14 | 2001-08-16 | Zifei Peter Wang | A voice activity detector for packet voice network |
| US6424938B1 (en) * | 1998-11-23 | 2002-07-23 | Telefonaktiebolaget L M Ericsson | Complex signal activity detection for improved speech/noise classification of an audio signal |
| US6671667B1 (en) * | 2000-03-28 | 2003-12-30 | Tellabs Operations, Inc. | Speech presence measurement detection techniques |
| US6889187B2 (en) * | 2000-12-28 | 2005-05-03 | Nortel Networks Limited | Method and apparatus for improved voice activity detection in a packet voice network |
| CA2392640A1 (en) * | 2002-07-05 | 2004-01-05 | Voiceage Corporation | A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems |
| CN1703736A (zh) * | 2002-10-11 | 2005-11-30 | 诺基亚有限公司 | 用于源控制可变比特率宽带语音编码的方法和装置 |
| JP3922997B2 (ja) * | 2002-10-30 | 2007-05-30 | 沖電気工業株式会社 | エコーキャンセラ |
| RU2387025C2 (ru) * | 2005-04-01 | 2010-04-20 | Квэлкомм Инкорпорейтед | Способ и устройство для векторного квантования спектрального представления огибающей |
| RU2419226C2 (ru) * | 2006-03-31 | 2011-05-20 | Квэлкомм Инкорпорейтед | Управление памятью для высокоскоростного управления доступом к среде |
| CN100483509C (zh) * | 2006-12-05 | 2009-04-29 | 华为技术有限公司 | 声音信号分类方法和装置 |
| RU2336449C1 (ru) | 2007-04-13 | 2008-10-20 | Валерий Александрович Мухин | Редуктор орбитальный (варианты) |
| KR101452014B1 (ko) | 2007-05-22 | 2014-10-21 | 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) | 향상된 음성 액티비티 검출기 |
| ES2533358T3 (es) | 2007-06-22 | 2015-04-09 | Voiceage Corporation | Procedimiento y dispositivo para estimar la tonalidad de una señal de sonido |
| CN101335000B (zh) * | 2008-03-26 | 2010-04-21 | 华为技术有限公司 | 编码的方法及装置 |
| ES2684297T3 (es) * | 2008-07-11 | 2018-10-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Método y discriminador para clasificar diferentes segmentos de una señal de audio que comprende segmentos de voz y música |
| KR101072886B1 (ko) | 2008-12-16 | 2011-10-17 | 한국전자통신연구원 | 캡스트럼 평균 차감 방법 및 그 장치 |
| CA2778343A1 (en) * | 2009-10-19 | 2011-04-28 | Martin Sehlstedt | Method and voice activity detector for a speech encoder |
| CA2778342C (en) * | 2009-10-19 | 2017-08-22 | Martin Sehlstedt | Method and background estimator for voice activity detection |
| WO2011049516A1 (en) | 2009-10-19 | 2011-04-28 | Telefonaktiebolaget Lm Ericsson (Publ) | Detector and method for voice activity detection |
| JP4981163B2 (ja) | 2010-08-19 | 2012-07-18 | 株式会社Lixil | サッシ |
| CN102741918B (zh) | 2010-12-24 | 2014-11-19 | 华为技术有限公司 | 用于话音活动检测的方法和设备 |
| US9472208B2 (en) * | 2012-08-31 | 2016-10-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and device for voice activity detection |
| US9502028B2 (en) * | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
-
2013
- 2013-08-30 US US14/424,223 patent/US9472208B2/en active Active
- 2013-08-30 EP EP16184741.3A patent/EP3113184B1/en active Active
- 2013-08-30 CN CN201710599104.2A patent/CN107195313B/zh active Active
- 2013-08-30 EP EP17201781.6A patent/EP3301676A1/en not_active Ceased
- 2013-08-30 BR BR112015003356-3A patent/BR112015003356B1/pt active IP Right Grant
- 2013-08-30 ES ES16184741.3T patent/ES2661924T3/es active Active
- 2013-08-30 CN CN201380044957.XA patent/CN104603874B/zh active Active
- 2013-08-30 DK DK13765821.7T patent/DK2891151T3/en active
- 2013-08-30 HU HUE16184741A patent/HUE038398T2/hu unknown
- 2013-08-30 RU RU2015111150A patent/RU2609133C2/ru active
- 2013-08-30 ES ES13765821.7T patent/ES2604652T3/es active Active
- 2013-08-30 EP EP13765821.7A patent/EP2891151B1/en active Active
- 2013-08-30 WO PCT/SE2013/051020 patent/WO2014035328A1/en not_active Ceased
- 2013-08-30 RU RU2017101656A patent/RU2670785C9/ru active
- 2013-08-30 JP JP2015529753A patent/JP6127143B2/ja active Active
-
2015
- 2015-01-30 IN IN783DEN2015 patent/IN2015DN00783A/en unknown
- 2015-02-03 ZA ZA2015/00780A patent/ZA201500780B/en unknown
-
2016
- 2016-08-05 US US15/229,372 patent/US9997174B2/en active Active
-
2017
- 2017-04-10 JP JP2017077712A patent/JP6404396B2/ja not_active Expired - Fee Related
-
2018
- 2018-01-25 ZA ZA2018/00523A patent/ZA201800523B/en unknown
- 2018-06-07 US US16/002,074 patent/US10607633B2/en active Active
- 2018-09-12 JP JP2018170864A patent/JP6671439B2/ja active Active
- 2018-10-10 RU RU2018135681A patent/RU2768508C2/ru active
-
2020
- 2020-02-18 US US16/793,061 patent/US11417354B2/en active Active
-
2022
- 2022-07-28 US US17/876,017 patent/US11900962B2/en active Active
-
2023
- 2023-12-14 US US18/540,361 patent/US12456483B2/en active Active
Also Published As
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| RU2018135681A (ru) | Способ и устройство для обнаружения голосовой активности | |
| RU2017122050A (ru) | Аудиокодер и аудиодекодер с метаданными сведений о программе или структуры вложенных потоков | |
| RU2009136562A (ru) | Способ и устройство для управления сглаживанием стационарного фонового шума | |
| WO2013154823A3 (en) | System for adjusting loudness of audio signals in real time | |
| RU2019132422A (ru) | Выбор процедуры маскирования потери пакета | |
| BR112014017708A8 (pt) | Método e aparelho para detectar atividade de voz na presença de ruído de fundo, e, memória legível por computador | |
| ES2787894T3 (es) | Método y dispositivo para detectar la señal de audio | |
| RU2016106637A (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
| RU2016119385A (ru) | Аудиокодер и аудиодекодер с метаданными громкости и границы программы | |
| WO2013070425A3 (en) | Conserving power through work load estimation for a portable computing device using scheduled resource set transitions | |
| EP4560630A3 (en) | Voice trigger for a digital assistant | |
| TW201614420A (en) | Content dependent display variable refresh rate | |
| WO2014066678A3 (en) | Using user and device behavioral context models | |
| RU2017106034A (ru) | Контроллер выравнивателя громкости и способ управления | |
| JP2017539174A5 (ru) | ||
| BR112017021351A2 (pt) | seleção de largura de banda de áudio | |
| ES2697423T3 (es) | Estimación de ruido de fondo en señales de audio | |
| RU2016101218A (ru) | Способ и аппарат обеспечения речевых подсказок | |
| JP2016208215A5 (ru) | ||
| WO2012009074A3 (en) | Stack overflow prevention in parallel execution runtime | |
| RU2012146549A (ru) | Способ и устройство управления кодированием видео | |
| EP2809060A3 (en) | Adaptive motion instability detection in video | |
| CA2695654A1 (en) | System and method for providing amr-wb dtx synchronization | |
| JP2014076382A5 (ja) | ゲーム制御装置、プログラム、ゲームシステム | |
| WO2013188620A3 (en) | Bubble size determination based on bubble stiffness |