ES2959448T3 - Método y aparato de detección de actividad de voz - Google Patents
Método y aparato de detección de actividad de voz Download PDFInfo
- Publication number
- ES2959448T3 ES2959448T3 ES14882109T ES14882109T ES2959448T3 ES 2959448 T3 ES2959448 T3 ES 2959448T3 ES 14882109 T ES14882109 T ES 14882109T ES 14882109 T ES14882109 T ES 14882109T ES 2959448 T3 ES2959448 T3 ES 2959448T3
- Authority
- ES
- Spain
- Prior art keywords
- vad
- snr
- vad judgment
- judgment result
- average
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 36
- 230000000694 effects Effects 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000003595 spectral effect Effects 0.000 description 26
- 238000001228 spectrum Methods 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 17
- 238000005070 sampling Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 101000712600 Homo sapiens Thyroid hormone receptor beta Proteins 0.000 description 1
- 102100033451 Thyroid hormone receptor beta Human genes 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
- Noise Elimination (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephonic Communication Services (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Se proporcionan un método y un dispositivo de detección de actividad de voz. El método comprende: adquirir al menos un parámetro de característica de una primera clase en un primer grupo de características, al menos un parámetro de característica de una segunda clase en un segundo grupo de características y al menos dos resultados de juicio de VAD existentes, en donde el parámetro de característica del primer la clase y el parámetro de característica de la segunda clase son ambos parámetros de característica usados para la detección de VAD (S102); y de acuerdo con el parámetro de característica de la primera clase, el parámetro de característica de la segunda clase y los al menos dos resultados de juicio de detección de actividad de voz existentes, realizar la detección de actividad de voz, para obtener un resultado de juicio de VAD combinado (S104). Por medio de la solución técnica, se resuelven los problemas técnicos de que la detección de una solución VAD es inexacta, etc., mejorando así la precisión del VAD y, por tanto, se mejora la experiencia del usuario. (Traducción automática con Google Translate, sin valor legal)
Description
DESCRIPCIÓN
Método y aparato de detección de actividad de voz
Campo técnico
La presente divulgación se relaciona con el campo de las comunicaciones, y en particular con un método y aparato de detección de actividad de voz (VAD).
Antecedentes
En una llamada de voz normal, un usuario a veces está hablando, y otras escuchando. En tal escenario, se produce una etapa de conversación inactiva en el proceso de llamada. La etapa de conversación inactiva total de una parte que llama y una parte llamada bajo circunstancias normales ocupa más del 50% de la duración de codificación de voz total. En una etapa de conversación inactiva, solo hay algo de ruido de fondo que usualmente no tiene ninguna información útil. En consideración de este hecho, una conversación activa y una conversación no activa se detectan por medio de un algoritmo de VAD en un procedimiento de procesamiento de señales de voz, y se procesan usando métodos diferentes respectivamente. Muchos estándares de codificación de voz adoptados actualmente, tales como tasa múltiple adaptativa (AMR) y una banda ancha de tasa múltiple adaptativa (AMR-WB), soportan la función de VAD. En términos de eficiencia, VAD de estos codificadores no puede lograr un buen rendimiento bajo todos los ruidos de fondo típicos. Específicamente, la eficiencia de VAD de estos codificadores es relativamente baja en una circunstancia de ruido inestable. A veces la VAD puede ser incorrecta para una señal musical, lo cual reduce en gran medida el rendimiento de un algoritmo de procesamiento correspondiente. Además, las tecnologías de VAD actuales tienen el problema de un juicio inexacto. Por ejemplo, algunas tecnologías de VAD tienen una precisión de detección relativamente baja cuando detectan varios marcos antes de un segmento de voz, y algunas tecnologías de VAD tienen una precisión de detección relativamente baja cuando detectan varios marcos después de un segmento de voz.
Aún no se ha propuesto una solución efectiva para los problemas anteriores en la técnica relacionada.
El documento US 2012/232896 A1 se relaciona con un método y aparato para la detección de actividad de voz.
El documento US 2014/006019 A1 A se relaciona con un método para estimar ruido de fondo de una señal de audio que comprende detectar actividad de voz en uno o más marcos de la señal de audio con base en una o más primeras condiciones.
Resumen
La invención se especifica mediante las reivindicaciones independientes. Realizaciones preferidas se definen en las reivindicaciones dependientes. Las realizaciones de la presente divulgación proporcionan un método y aparato de VAD, que al menos resuelven los problemas técnicos de baja precisión de detección de una solución de VAD convencional en la técnica relacionada.
De acuerdo con una realización de la presente divulgación, se proporciona un método de VAD, que puede incluir que: al menos una característica de primera clase en una primera categoría de características, al menos una característica de segunda clase en una segunda categoría de características y al menos dos resultados de juicio de VAD existentes se adquieren, en la realización, la característica de primera clase y la característica de segunda clase son características usadas para detección VAD; y VAD se lleva a cabo de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes, para obtener un resultado de juicio de VAD combinado.
En una realización de ejemplo, la característica de primera clase en la primera categoría de características puede incluir al menos uno de: el número de marcos activos continuos, una relación de señal a ruido (SNR) total promedio de todas las subbandas y un indicador de señal de tonalidad, en la realización, la SNR total promedio de todas las subbandas es un promedio de SNR sobre todas las subbandas para un número predeterminado de marcos. La característica de segunda clase en la segunda categoría de características puede incluir al menos uno de: un indicador de tipo de ruido, una SNR en dominio de frecuencia de largo tiempo promedio suavizada, el número de marcos de ruido continuos y una SNR en dominio de frecuencia.
En una realización de ejemplo, la etapa en que se lleva a cabo VAD de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes puede incluir que: a) se selecciona un resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes como un valor inicial de VAD combinada; b) si el indicador de tipo de ruido indica que el tipo de ruido es silencio, la SNR en dominio de frecuencia es mayor que un umbral preestablecido y el valor inicial indica un marco inactivo, se selecciona un indicador de VAD, que no se selecciona como el valor inicial, en los al menos dos resultados de juicio de VAD existentes como el resultado de juicio de VAD combinado, y de lo contrario, se ejecuta la etapa c), en la realización, el indicador de VAD se usa para indicar que el resultado de juicio de VAD es un marco activo o un marco inactivo; c) si la SNR en dominio de frecuencia de largo tiempo promedio suavizada es menor que un umbral preestablecido o el tipo de ruido no es silencio, se ejecuta la etapa d), y de lo contrario, el resultado de juicio de VAD seleccionado en la etapa a) se selecciona como el resultado de juicio de VAD combinado; d) cuando se cumple una condición preestablecida, se lleva a cabo una operación lógica O en los al menos dos resultados de juicio de VAD existentes y el resultado de la operación lógica O se usa como el resultado de juicio de VAD combinado, y de lo contrario, se ejecuta la etapa e); y e) si el indicador de tipo de ruido indica que el tipo de ruido es silencio, se selecciona un indicador de VAD, que no se selecciona como el valor inicial, en los al menos dos resultados de juicio de VAD existentes como el resultado de juicio de VAD combinado, y de lo contrario, el resultado de juicio de<v>A<d>seleccionado en la etapa a) se selecciona como el resultado de juicio de VAD combinado.
En una realización de ejemplo, la etapa en que se lleva a cabo VAD de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes puede incluir que: a) se selecciona un resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes como un valor inicial de VAD combinada; b) si el indicador de tipo de ruido indica que el tipo de ruido es silencio, la SNR en dominio de frecuencia es mayor que un umbral preestablecido y el valor inicial indica un marco inactivo, se selecciona un indicador de VAD, que no se selecciona como el valor inicial, en los al menos dos resultados de juicio de VAD existentes como el resultado de juicio de VAD combinado, y de lo contrario, se ejecuta la etapa c), en la realización, el indicador de VAD se usa para indicar que el resultado de juicio de VAD es un marco activo o un marco inactivo; c) si la SNR en dominio de frecuencia de largo tiempo promedio suavizada es menor que un umbral preestablecido o el tipo de ruido no es silencio, se ejecuta la etapa d), y de lo contrario, el resultado de juicio de VAD seleccionado en la etapa a) se selecciona como el resultado de juicio de VAD combinado; d) cuando se cumple una condición preestablecida, se lleva a cabo una operación lógica O en los al menos dos resultados de juicio de VAD existentes y el resultado de la operación lógica O se usa como el resultado de juicio de VAD combinado, y de lo contrario, se ejecuta la etapa e); y e) se selecciona un indicador de VAD, que no se selecciona como el valor inicial, en los al menos dos resultados de juicio de VAD existentes como el resultado de juicio de VAD combinado.
En una realización de ejemplo, la etapa en que se lleva a cabo VAD de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes puede incluir que: a) se selecciona un resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes como un valor inicial de VAD combinada; y b) si el indicador de tipo de ruido indica que el tipo de ruido es silencio, la SNR en dominio de frecuencia de largo tiempo promedio suavizada es mayor que un umbral y el indicador de señal de tonalidad indica una señal no tonal, se selecciona un indicador de VAD, que no es seleccionado como el valor inicial, en los al menos dos resultados de juicio de VAD existentes como el resultado de juicio de VAD combinado, en la realización, el indicador de VAD se usa para indicar que el resultado de juicio de VAD es un marco activo o un marco inactivo.
En una realización de ejemplo, la etapa en que se lleva a cabo VAD de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes puede incluir que: a) se selecciona un resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes como un valor inicial de VAD combinada; y b) si el tipo de ruido no es silencio y se cumple una condición preestablecida, se lleva a cabo una operación lógica O sobre los al menos dos resultados de juicio de VAD existentes, y el resultado de la operación lógica O se usa como el resultado de juicio de VAD combinado.
En una realización de ejemplo, la condición preestablecida puede incluir al menos una de: condición 1: la SNR total promedio de todas las subbandas es mayor que un primer umbral; condición 2: la SNR total promedio de todas las subbandas es mayor que un segundo umbral, y el número de marcos activos continuos es mayor que un umbral preestablecido; y condición 3: el indicador de señal de tonalidad indica una señal tonal.
En una realización de ejemplo, la etapa en que VAD se lleva a cabo de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes puede incluir que: si el número de marcos de ruido continuos es mayor que un primer umbral designado y la SNR total promedio de todas las subbandas es menor que un segundo umbral designado, se lleva a cabo una operación lógica Y en los al menos dos resultados de juicio de VAD existentes, y el resultado de la operación lógica Y se usa como el resultado de juicio de VAD combinado; y de lo contrario, se selecciona aleatoriamente un resultado de juicio de VAD existente desde los al menos dos resultados de juicio de VAD existentes como el resultado de VAD combinado.
En una realización de ejemplo, la SNR en dominio de frecuencia de largo tiempo promedio suavizada y el indicador de tipo de ruido se pueden determinar por medio de los siguientes modos:
calcular energía promedio de marcos activos de largo tiempo de un marco actual y energía promedio de ruido de fondo de largo tiempo del marco actual de acuerdo con un cualquier resultado de juicio de VAD en un resultado de juicio de VAD combinado de un marco previo del marco actual o al menos dos resultados de juicio de VAD existentes que corresponden al marco previo, energía promedio de marcos activos de largo tiempo del marco previo dentro de un primer período de tiempo preestablecido y energía promedio de ruido de fondo de largo tiempo del marco previo;
calcular una SNR de largo tiempo del marco actual dentro de un segundo período de tiempo de acuerdo con la energía promedio de ruido de fondo de largo tiempo y energía promedio de marcos activos de largo tiempo del marco actual dentro del segundo período de tiempo preestablecido;
calcular una SNR en dominio de frecuencia de largo tiempo promedio suavizada del marco actual dentro de un tercer período de tiempo preestablecido de acuerdo con un cualquier resultado de juicio de VAD en el resultado de juicio de VAD combinado del marco actual o al menos dos resultados de juicio de VAD existentes que corresponden al marco previo y SNR en dominio de frecuencia promedio del marco previo; y
determinar el indicador de tipo de ruido de acuerdo con la SNR de largo tiempo y la SNR en dominio de frecuencia de largo tiempo promedio suavizada.
En una realización de ejemplo, la determinación del indicador de tipo de ruido de acuerdo con la SNR de largo tiempo y la SNR en dominio de frecuencia de largo tiempo promedio suavizada puede incluir:
establecer el indicador de tipo de ruido en no silencio, y establecer, cuando la SNR de largo tiempo es mayor que un primer umbral preestablecido y la SNR en dominio de frecuencia de largo tiempo promedio suavizada es mayor que un segundo umbral preestablecido, el indicador de tipo de ruido en silencio.
De acuerdo con otra realización de la presente divulgación, se proporciona un aparato de VAD, que puede incluir: un componente de adquisición, dispuesto para adquirir al menos una característica de primera clase en una primera categoría de características, al menos una característica de segunda clase en una segunda categoría de características y al menos dos resultados de juicio de VAD existentes; en la realización, la característica de primera clase y la característica de segunda clase son características usadas para la detección VAD; y un componente de detección, dispuesto para llevar a cabo, de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes, VAD para obtener un resultado de juicio de VAD combinado.
En una realización de ejemplo, el componente de adquisición puede incluir: una primera unidad de adquisición, dispuesta para adquirir la característica de primera clase en la primera categoría de características que incluye al menos uno de: el número de marcos activos continuos, una relación de señal a ruido (SNR) total promedio de todas las subbandas y un indicador de señal de tonalidad, en la realización, la SNR total promedio de todas las subbandas es un promedio de SNR sobre todas las subbandas para un número predeterminado de marcos; y una segunda unidad de adquisición, dispuesta para adquirir la característica de segunda clase en la segunda categoría de características que incluye al menos uno de: un indicador de tipo de ruido, una SNR en dominio de frecuencia de largo tiempo promedio suavizada, el número de marcos de ruido continuos y una SNR en dominio de frecuencia.
En las realizaciones de la presente divulgación, la detección combinada se lleva a cabo de acuerdo con al menos una característica de primera clase en una primera categoría de características, al menos una característica de segunda clase en una segunda categoría de características y al menos dos resultados de juicio de VAD existentes. En virtud de los medios técnicos anteriores, se resuelven los problemas técnicos de baja precisión de detección de una solución de VAD en la técnica relacionada, y se mejora la precisión de VAD, mejorando de esa manera la experiencia de usuario.
Breve descripción de los dibujos
Los dibujos ilustrados en este documento se usan para proporcionar un entendimiento adicional de las realizaciones de la presente divulgación, y forman una parte de la presente divulgación. Las realizaciones esquemáticas e ilustraciones de la presente divulgación se usan para explicar la presente divulgación, y no forman límites inadecuados a la presente divulgación. En los dibujos:
La figura 1 es un diagrama de flujo de un método de VAD de acuerdo con una realización de la presente divulgación;
La figura 2 es un diagrama estructural de un aparato de VAD de acuerdo con una realización de la presente divulgación;
La figura 3 es otro diagrama estructural de un aparato de VAD de acuerdo con una realización de la presente divulgación; y
La figura 4 es un diagrama de flujo de un método de VAD de acuerdo con una realización 1 de la presente divulgación.
Descripción detallada de las realizaciones
La presente divulgación se ilustrará a continuación con referencia a los dibujos y en conjunto con las realizaciones en detalle. Es importante anotar que las realizaciones de la presente divulgación y las características en las realizaciones se pueden combinar bajo la condición de no conflictos.
Con el fin de resolver el problema de la baja precisión de detección de la VAD, las siguientes realizaciones proporcionan soluciones correspondientes, que se ilustrarán en detalle.
La figura 1 es un diagrama de flujo de un método de VAD de acuerdo con una realización de la presente divulgación. Como se muestra en la figura 1, el método incluye las etapas S102 a S104 como sigue.
Etapa S102: Se seleccionan al menos una característica de primera clase en una primera categoría de características (también denominada como una categoría de características 1), al menos una característica de segunda clase en una segunda categoría de características (también denominada categoría de características 2) y al menos dos resultados de juicio de VAD existentes, la característica de primera clase y la característica de segunda clase son características usadas para la detección VAD.
Etapa S104: Se lleva a cabo VAD de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes, para obtener un resultado de juicio de VAD combinado.
Por medio de todas las etapas de procesamiento anteriores, se puede llevar a cabo VAD combinada de acuerdo con al menos una característica en una primera categoría de características, al menos una característica en una segunda categoría de características y al menos dos resultados de juicio de VAD existentes, mejorando de esa manera la precisión de VAD.
En la presente realización, la característica de primera clase en la primera categoría de características puede incluir al menos uno de: el número de marcos activos continuos, una SNR total promedio de todas las subbandas y un indicador de señal de tonalidad, donde la SNR total promedio de todas subbandas es un promedio de SNR sobre todas las subbandas para un número predeterminado de marcos.
En la presente realización, la característica de segunda clase en la segunda categoría de características puede incluir al menos uno de: un indicador de tipo de ruido, una SNR en dominio de frecuencia de largo tiempo promedio suavizada, el número de marcos de ruido continuos y una SNR en dominio de frecuencia, la SNR en dominio de frecuencia de largo tiempo promedio suavizada se puede interpretar como: una SNR en dominio de frecuencia obtenida suavizando el promedio de una pluralidad de SNRs en dominio de frecuencia dentro de un período de tiempo predeterminado (largo tiempo).
Hay múltiples implementaciones para la etapa S104. Por ejemplo, la etapa S104 se puede implementar por medio de los modos como sigue.
La finalización de juicio en las siguientes varias implementaciones solo es representativo de la finalización de proceso de una cierta implementación, y no significa que un resultado de juicio de VAD combinado ya no se modifique después de que se finaliza este proceso.
Se ejecuta una primera implementación de acuerdo con las siguientes etapas:
a) se selecciona un resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes como un valor inicial de VAD combinada;
b) si el indicador de tipo de ruido indica que el tipo de ruido es silencio, la SNR en dominio de frecuencia es mayor que un umbral preestablecido y el valor inicial indica un marco inactivo, se selecciona un indicador de VAD, que no se selecciona como el valor inicial, en los al menos dos resultados de juicio de VAD existentes como el resultado de juicio de VAD combinado, y de lo contrario, se ejecuta la etapa c), se usa el indicador de VAD para indicar que el resultado de juicio de VAD es un marco activo o un marco inactivo;
c) si la SNR en dominio de frecuencia de largo tiempo promedio suavizada es menor que un umbral preestablecido o el tipo de ruido no es silencio, se ejecuta la etapa d), y de lo contrario, el resultado de juicio de VAD seleccionado en la etapa a) se selecciona como el resultado de juicio de VAD combinado;
d) cuando se cumple una condición preestablecida, se lleva a cabo una operación lógica O en los al menos dos resultados de juicio de VAD existentes y el resultado de la operación lógica O se usa como el resultado de juicio de VAD combinado, y de lo contrario, se ejecuta la etapa e); y
e) si el indicador de tipo de ruido indica que el tipo de ruido es silencio, se selecciona un indicador de VAD, que no se selecciona como el valor inicial, en los al menos dos resultados de juicio de VAD existentes como el resultado de juicio de VAD combinado.
Se ejecuta una segunda implementación de acuerdo con las siguientes etapas:
a) se selecciona un resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes como un valor inicial de VAD combinada;
b) si el indicador de tipo de ruido indica que el tipo de ruido es silencio, la SNR en dominio de frecuencia es mayor que un umbral preestablecido y el valor inicial indica un marco inactivo, se selecciona un indicador de VAD, que no se selecciona como el valor inicial, en los al menos dos resultados de juicio de VAD existentes como el resultado de juicio de VAD combinado, y de lo contrario, se ejecuta la etapa c), se usa el indicador de VAD para indicar que el resultado de juicio de VAD es un marco activo o un marco inactivo;
c) si la SNR en dominio de frecuencia de largo tiempo promedio suavizada es menor que un umbral preestablecido o el tipo de ruido no es silencio, se ejecuta la etapa d), y de lo contrario, el resultado de juicio de VAD seleccionado en la etapa a) se selecciona como el resultado de juicio de VAD combinado;
d) cuando se cumple una condición preestablecida, se lleva a cabo una operación lógica O en los al menos dos resultados de juicio de VAD existentes y el resultado de la operación lógica O se usa como resultado de juicio de VAD combinado, y de lo contrario, se ejecuta la etapa e); y
e) se selecciona un indicador de VAD, que no se selecciona como el valor inicial, en los al menos dos resultados de juicio de VAD existentes como el resultado de juicio de VAD combinado.
Una primera implementación de ejemplo (no abarcada por las reivindicaciones) se ejecuta de acuerdo con las siguientes etapas:
se selecciona un resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes como un valor inicial de VAD combinada; y
si el indicador de tipo de ruido indica que el tipo de ruido es silencio, la SNR en dominio de frecuencia de largo tiempo promedio suavizada es mayor que un umbral y el indicador de señal de tonalidad indica una señal no tonal, se selecciona un indicador de VAD, que no se selecciona como el valor inicial, en los al menos dos resultados de juicio de VAD existentes como el resultado de juicio de VAD combinado, el indicador de VAD se usa para indicar que el resultado de juicio de VAD es un marco activo o un marco inactivo.
Una segunda implementación de ejemplo (no abarcada por las reivindicaciones) se ejecuta de acuerdo con las siguientes etapas:
a) se selecciona un resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes como un valor inicial de VAD combinada; y
b) si el tipo de ruido no es silencio y se cumple una condición preestablecida, se lleva a cabo una operación lógica O en los al menos dos resultados de juicio de VAD existentes, y el resultado de la operación lógica O se usa como el resultado combinado de juicio de VAD.
Es importante anotar que la condición preestablecida involucrada en la primera implementación, la segunda implementación y la cuarta implementación puede incluir al menos una de:
condición 1: la SNR total promedio de todas las subbandas es mayor que un primer umbral;
condición 2: la SNR total promedio de todas las subbandas es mayor que un segundo umbral, y el número de marcos activos continuos es mayor que un umbral preestablecido; y
condición 3: el indicador de señal de tonalidad indica una señal tonal.
Es importante anotar que la tercera implementación y la cuarta implementación se pueden usar en conjunto.
Una tercera implementación de ejemplo (no abarcada por las reivindicaciones) se ejecuta de acuerdo con las siguientes etapas:
si el número de marcos de ruido continuos es mayor que un primer umbral designado y la SNR total promedio de todas las subbandas es menor que un segundo umbral designado, se lleva a cabo una operación lógica Y en los al menos dos resultados de juicio de VAD existentes y el resultado de la operación lógica Y se usa como el resultado de juicio de VAD combinado; y de lo contrario, se selecciona aleatoriamente un resultado de juicio de VAD existente desde los al menos dos resultados de juicio de VAD existentes como el resultado de VAD combinado.
Es importante anotar que la quinta implementación y las cuatro implementaciones anteriores se pueden usar en conjunto.
En una realización de ejemplo de la presente realización, la SNR en dominio de frecuencia de largo tiempo promedio suavizada y el indicador de tipo de ruido se pueden determinar por medio de los siguientes modos:
calcular energía promedio de marcos activos de largo tiempo de un marco actual y energía promedio de ruido de fondo de largo tiempo del marco actual de acuerdo con un cualquier resultado de juicio de VAD en un resultado de juicio de VAD combinado de un marco previo del marco actual o al menos dos resultados de juicio de VAD existentes que corresponden al marco previo, energía promedio de marcos activos de largo tiempo de los marcos previos dentro de un primer período de tiempo preestablecido y energía promedio de ruido de fondo de largo tiempo de los marcos previos;
calcular una SNR de largo tiempo del marco actual dentro de un segundo período de tiempo de acuerdo con la energía promedio de ruido de fondo de largo tiempo y energía promedio de marcos activos de largo tiempo del marco actual dentro del segundo período de tiempo preestablecido;
calcular una SNR en dominio de frecuencia de largo tiempo promedio suavizada del marco actual dentro de un tercer período de tiempo preestablecido de acuerdo con un cualquier resultado de juicio de VAD en el resultado de juicio de VAD combinado del marco actual o al menos dos resultados de juicio de VAD existentes que corresponden al marco previo y SNR en dominio de frecuencia promedio del marco previo; y
determinar el indicador de tipo de ruido de acuerdo con la SNR de largo tiempo y la SNR en dominio de frecuencia de largo tiempo promedio suavizada.
Es importante anotar que la SNR en dominio de frecuencia de largo tiempo promedio suavizada se obtiene suavizando una SNR en dominio de frecuencia promedio dentro de un período de tiempo predeterminado.
En una implementación de ejemplo, el indicador de tipo de ruido se puede determinar con base en la siguiente manera, pero no se limita a:
establecer el indicador de tipo de ruido en no silencio, y establecer, cuando la SNR de largo tiempo es mayor que un primer umbral preestablecido y la SNR en dominio de frecuencia de largo tiempo promedio suavizada es mayor que un segundo umbral preestablecido, el indicador de tipo de ruido en silencio.
En una implementación de ejemplo, el número de marcos activos continuos y el número de marcos de ruido continuos se determinan por medio de los siguientes modos:
cuando un marco actual es un marco no inicializado, calcular el número de marcos activos continuos y número de marcos de ruido continuos del marco actual de acuerdo con un resultado de juicio de VAD combinado de un marco previo del marco actual, o
cuando el marco actual es un marco no inicializado, seleccionar un resultado de juicio de VAD desde al menos dos resultados de juicio de VAD existentes del marco previo y el resultado de juicio de VAD combinado del marco previo, y calcular el número de marcos activos continuos y número de marcos de ruido continuos del marco actual de acuerdo con el resultado de juicio de VAD seleccionado actualmente.
En un proceso de implementación de ejemplo de la presente realización, el número de marcos activos continuos y el número de marcos de ruido continuos se determinan por medio de los siguientes modos:
cuando un indicador de VAD para el resultado de juicio de VAD combinado del marco previo o para el resultado de juicio de VAD actualmente seleccionado indica un marco activo, sumar 1 al número de marcos activos continuos, y de lo contrario, establecer el número de marcos activos continuos en 0; y cuando un indicador de VAD para el resultado de juicio de VAD combinado del marco previo o para el resultado de juicio de VAD seleccionado actualmente indica un marco inactivo, sumar 1 al número de marcos de ruido continuos, y de lo contrario, establecer el número de marcos de ruido continuos en 0.
En la presente realización, también se proporciona un aparato de VAD. Como se muestra en la figura 2, el aparato de VAD incluye:
un componente 20 de adquisición, dispuesto para adquirir al menos una característica de primera clase en una primera categoría de características, al menos una característica de segunda clase en una segunda categoría de características y al menos dos resultados de juicio de VAD existentes, la característica de primera clase y la característica de segunda clase son funciones usadas para la detección VAD; y
un componente 22 de detección, acoplado con el componente 20 de adquisición, y dispuesto para llevar a cabo, de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes, VAD para obtener un resultado de juicio de VAD combinado.
En una realización de ejemplo, como se muestra en la figura 3, el componente 20 de adquisición también puede incluir las siguientes unidades de procesamiento:
una primera unidad 200 de adquisición, dispuesta para adquirir la característica de primera clase en la primera categoría de características que incluye al menos uno de: el número de marcos activos continuos, una SNR total promedio de todas las subbandas y un indicador de señal de tonalidad, la SNR total promedio de todas las subbandas es un promedio de SNR de todas las subbandas para un número predeterminado de marcos; y
una segunda unidad 202 de adquisición, dispuesta para adquirir la característica de segunda clase en la segunda categoría de características que incluye al menos uno de: un indicador de tipo de ruido, una SNR en dominio de frecuencia de largo tiempo promedio suavizada, el número de marcos de ruido continuos y una SNR en dominio de frecuencia.
Es importante anotar que todos los componentes involucrados en la presente realización se pueden implementar por medio de software o hardware. En una implementación de ejemplo, los componentes pueden implementarse por medio de hardware en los siguientes modos: el componente 20 de adquisición está ubicado en un primer procesador, y el componente 22 de detección está ubicado en un segundo procesador; o los dos componentes están ubicados en, pero no limitados a, el mismo procesador.
Con el fin de entender mejor la realización anterior, a continuación se harán ilustraciones detalladas en conjunto con realizaciones de ejemplo.
Una operación OR y una operación AND INVOLUCRADAS en las siguientes realizaciones se definen como sigue. Si un cualquier indicador de salida de VAD en dos VADs es un marco activo, el resultado de la operación lógica O de las dos VADs es un marco activo, y cuando las dos VADs son ambas marcos inactivas, el resultado de la operación lógica O es un marco inactivo.
Si un cualquier indicador de salida de VAD en dos VADs es un marco inactivo, el resultado de la operación lógica Y de las dos VADs es un marco inactivo, y cuando las dos VADs son ambas marcos activos, el resultado de la operación lógica Y es un marco activo.
Nota: si no se especifica a cuál VAD se refiere la siguiente realización, representa que las VADs pueden ser dos VADs existentes o una VAD combinada u otras VADs capaces de lograr funciones correspondientes.
La finalización de juicio en las siguientes realizaciones es solo representativa de finalización de proceso de una cierta implementación, y no significa que un resultado de juicio de VAD combinado ya no se modifique después de que se finaliza este proceso.
Realización 1
La presente realización proporciona un método de VAD. Como se muestra en la figura 4, el método incluye las etapas como sigue.
Etapa S402: Se obtienen dos resultados de salida de VAD existentes.
Etapa S404: Se obtienen una señal de subbanda y amplitud de espectro de un marco actual.
Las realizaciones de la presente divulgación se ilustran específicamente con un flujo de audio cuya longitud de marco es 20 ms y una tasa de muestreo es 32 kHz. Bajo las condiciones de otras longitudes de marco y tasas de muestreo, también es aplicable un método de VAD combinado proporcionado por las realizaciones de la presente divulgación. Una señal en dominio de tiempo de un marco actual se introduce en un banco de filtros, y se lleva a cabo un cálculo de filtrado de subbanda para obtener una señal de subbanda de banco de filtros.
En la presente realización, se adopta un banco de filtros de 40 canales. Las soluciones técnicas proporcionadas por las realizaciones de la presente divulgación también son aplicables a bancos de filtros con otras cantidades de canales. Se introduce una señal en dominio de tiempo de un marco actual en el banco de filtros de 40 canales, y se lleva a cabo el cálculo de filtrado de subbandas para obtener señales de subbandas de banco de filtros X[k, l] de 40 subbandas en 16 puntos de muestreos de tiempo, 0 < k < 40, y 0 < l < 16, donde k es un índice de una subbanda del banco de filtros, y su valor representa una subbanda que corresponde a un coeficiente; y l es un índice de punto de muestreo de tiempo de cada subbanda. Las etapas de implementación son como sigue.
1: 640 últimas muestras de señales de audio se almacenan en una caché de datos.
2: Los datos en la caché de datos se compensan por 40 posiciones para compensar 40 primeras muestras de la caché de datos, y se almacenan 40 muestras nuevas en las posiciones 0 a 39.
Los datos x en la caché se multiplican por un coeficiente de ventana para obtener un arreglo z, siendo la fórmula de cálculo como sigue:
donde Wqmf es un coeficiente de ventana del banco de filtros.
Los datos de 80 puntos u se calculan usando el siguiente pseudocódigo:
para(«=0; «<80; n +)
^u[n] -0;
para (J=0; 2 <8; 2 +)
{
u[n]+ - z\n+j• 80];
}
}
Los arreglos r e i se calculan mediante la siguiente fórmula:
Se calculan 40 muestras complejas de subbanda en el primer punto de muestreo de tiempo usando la siguiente fórmula: X[k,l] = R(k)+iI(k),0<k<40, donde R(k) e I(k) son parte real y parte imaginaria de un coeficiente de la señal de subbanda de banco de filtros X en el lésimo punto de muestreo de tiempo, respectivamente. La fórmula de cálculo es como sigue.
3: El proceso de cálculo en la etapa 2 se repite hasta que todos los datos del marco actual sean filtrados por el banco de filtros, y el resultado de salida final sea la señal de subbanda de banco de filtros X[k,l].
4: Después de que se completa el proceso de cálculo anterior, se obtiene la señal de subbanda de banco de filtros X[k,l] de 40 subbandas en 16 puntos de muestreo de tiempo, donde 0 < k < 40 y 0 < l < 16.
Luego, se lleva a cabo una transformada de tiempo-frecuencia en la señal de subbanda de banco de filtros, y se calculan las amplitudes de espectro.
Las realizaciones de la presente divulgación se pueden implementar llevando a cabo una transformada de tiempofrecuencia en todas o parte de las subbandas de banco de filtros y calculando amplitudes de espectro. Un método de transformada de tiempo-frecuencia en las realizaciones de la presente divulgación puede ser un método de transformada discreta de Fourier (DFT), un método de transformación rápida de Fourier (FFT), un método de transformada discreta de coseno (DCT) o un método de transformada discreta de seno (DST). En las realizaciones de la presente divulgación, se ilustra un método de implementación específico tomando el uso de DFT como ejemplo. Un proceso de cálculo es como sigue.
La DFT de 16 puntos se lleva a cabo sobre datos de 16 puntos de muestreo de tiempo de cada subbanda de banco de filtros indexados desde 0 a 9 para mejorar además la resolución de espectro. La amplitud de cada punto de frecuencia se calcula para obtener la amplitud de espectro X<dft>_<amp>.
La fórmula de cálculo para la transformada de tiempo-frecuencia es como sigue.
2—i -2 */
X DFT[k,J] = ^X[k , l]e16 ;0 < A: < 10,0 < y <16 .
1=0
El proceso de calcular la amplitud de cada punto de frecuencia es como sigue.
En primer lugar, se calcula la energía de un arreglo Xdft[K j] en cada punto de frecuencia, siendo la fórmula de cálculo como sigue:
XDFT_pow[k, j] = ((Re(XDFT[k, j]))2 (Im(XDFT[k, j]))2);0 < k < 10,0 < j < 16, donde Re(XDFT[k, j]) e Im(XDFT[k, j]) representan la parte real y la parte imaginaria del coeficiente de espectro X<dft>[K j], respectivamente.
Si k es un número par, la amplitud de espectro en cada punto de frecuencia se calcula usando la siguiente fórmula:^ dft_amp\$*^ ~K/]_-\^X)IT<pov>#J]+X|),<t>pow[^4 5-j],0 <k< 10,0 <j< 8, _
J
y
Si k es un número impar, la amplitud de espectro en cada punto de frecuencia se calcula usando la siguiente fórmula:
X~dft_amp\^ *k7—y']—^ X DFT P0W[&,j]+XDFT pow[/c, 15-j],0 <k< 10,0 <j< 8, j donde X<dft>_<amp>es una amplitud de espectro sometida a transformada de tiempo-frecuencia.
Etapa S406: Una característica de energía de marco es un valor acumulado ponderado o valor directamente acumulado de todas las energías de señal de subbanda.
La característica de energía de marco del marco actual se calcula de acuerdo con las señales de subbanda. Específicamente,
15
sb_power[k]= ^((Re(X[£,/]))2 (Im(X[£,/]))2) 0<=k< band_num.
1=0
La energía de marco 2 se puede obtener acumulando energía sb_power en ciertas subbandas.
e _sb _end
f,rame_energy2<„>= Z<V>—<sb —1 powerLln<1>J<;>’ .
n=e_sb_start
La energía de marco es frame_energy= frame_energy2 fac*sb_power[0].
Se puede obtener una pluralidad de subbandas de SNR mediante división de subbandas, y se puede obtener una energía de subbanda de SNR frame_sb_energy del marco actual acumulando energía en la subbanda respectiva.
La energía de ruido de fondo, incluyendo la energía de ruido de fondo de subbanda y energía de ruido de fondo de todas las subbandas, del marco actual se estima de acuerdo con un valor de modificación de un indicador de ruido de fondo, la característica de energía de marco del marco actual y la energía de ruido de fondo de todas las subbandas del marco previo. El cálculo de un indicador de ruido de fondo se muestra en la etapa S430.
Etapa S408: Las características de centroide espectral son la relación de la suma ponderada con la suma no ponderada de energías de todas las subbandas o subbandas parciales, o el valor se obtiene aplicando un filtro suave a esta relación. Las características de centroide espectral se pueden obtener en las siguientes etapas.
Una división de subbandas para calcular las características de centroide espectral es como sigue.
Tabla 1 División de subbandas de QMF para características de centroide espectral
Dos características de centroide espectral, respectivamente la característica de centroide espectral en el primer intervalo y la característica de centroide espectral en el segundo intervalo, se calculan usando la división de subbandas para calcular las características de centroide espectral como se muestra en la tabla 1 y la siguiente fórmula:
Suavizar la característica de centroide espectral en el segundo intervalo sp_center[2], y obtener la característica de centroide espectral suavizada en el segundo intervalo de acuerdo con la siguiente fórmula: sp_center[0]= fac*sp_center[0]+(1 -fac)*sp_center [2].
Etapa S410: Las características de estabilidad en dominio de tiempo son la relación de la varianza de la suma de amplitudes con la expectativa del cuadrado de amplitudes, o esta relación multiplicada por un factor. Las características de estabilidad en dominio de tiempo se calculan con las características de energía del marco N más reciente. Dejar que la energía del enésimo marco sea frame_energy[n]. La amplitud de frame_energy[n] se calculaAmp, [n\= Jframe energy[«]e offset, 0 < n < N
mediante v , donde e_offset es un valor de compensación dentro de un rango de [0,0.1].
Al sumar juntas las amplitudes de energía de dos marcos adyacentes desde el marco actual hasta el Nésimo marco<previo, se obtienen N/2 sumas de amplitudes de energía como Ampt>2<(n) = Ampt1(-2n) Ampt1(-2n -1);0 < n < 20, donde cuando n=0, Ampt>1<[n] representa la amplitud de energía de un marco actual, y cuando n<0, Ampt>1<[n] representa>la amplitud de energía del nésimo marco previo con respecto al marco actual.
Luego se calcula la relación de la varianza con la energía promedio de las N/2 sumas recientes para obtener la característica de estabilidad en dominio de tiempo Itd_stable_rate. La fórmula de cálculo es como sigue:
Nótese que el valor de N es diferente cuando se calculan diferentes características de estabilidad en dominio de tiempo.
Etapa S412: Las características de tonalidad se calculan con las amplitudes de espectro. Más específicamente, se obtienen calculando el coeficiente de correlación de la diferencia de amplitud de dos marcos adyacentes, o suavizando además el coeficiente de correlación. Las características de tonalidad se pueden calcular en las siguientes etapas.
a) Calcular la diferencia de amplitudes de dos marcos adyacentes. Si la diferencia es menor que 0, establecerlo en 0. De esta forma, se obtiene un grupo de coeficientes diferenciales de espectro no negativos spec_low_dif[].
b) Calcular el coeficiente de correlación entre la diferencia de amplitud no negativa del marco actual obtenido en la etapa a) y la diferencia de amplitud no negativa del marco previo para obtener las primeras características de tonalidad. La fórmula de cálculo es como sigue:
N
^ spec_low_dif[i] *pre_spec_low_dif[i]
f - tonality rate=—IJ=v°= í^spec_low _dif[i]2 * pre_spec_low_dif[i]2
V¿=o
donde pre_spec_low_dif es la diferencia de amplitud del marco previo. Se pueden calcular diversas características de tonalidad de acuerdo con la siguiente fórmula:
f_tonality_rate[0]=f_tonality_rate;
f_tonality_rate[1]=pre_f_tonality_rate[1]*0.96f+f_tonality_rate*0.04f; f_tonality_rate[2]=pre_f_tonality_rate[2]*0.90f+f_tonality_rate*0.1f;
donde pre_f_tonality_rate son las características de tonalidad del marco previo.
Etapa S414: Las características de planitud espectral son la relación de la media geométrica con la media aritmética de cierta amplitud de espectro, o esta relación multiplicada por un factor. La amplitud de espectro spec_amp[] se suaviza para obtener una amplitud de espectro suavizada: smooth_spec_amp[i] = smooth_spec_amp[i]*fac spec_amp[i]*(1-fac), 0<=i< SPEC_AMP_NUM. La amplitud de espectro suavizada se divide para tres regiones de frecuencia, y las características de planitud espectral se calculan para estas tres regiones de frecuencia. La tabla 2 muestra la división de región de frecuencia para la planitud de espectro.
Tabla 2 división de región de frecuencia de amplitud de espectro para planitud espectral
Las características de planitud espectral son la relación de la media geométrica geo_mean[k] con la media aritmética ari_mean[k] de la amplitud de espectro o la amplitud de espectro suavizada. El número de las amplitudes de espectro usadas para calcular la característica de planitud espectral SFF[k] es N[k]=spec_amp_end[k]- spec_amp_start[k]+1.
Las características de planitud espectral del marco actual se suavizan además para obtener características de planitud espectral suavizadas sSFM[k]= fac*sSFM[k]+(1-fac) SFF [k].
Etapa S416: Se calcula una característica de SNR del marco actual de acuerdo con la energía de ruido de fondo estimada del marco previo, la característica de energía de marco y la energía de subbanda de SNR del marco actual. Las etapas de cálculo para la SNR en dominio de frecuencia son como sigue.
Cuando un indicador de ruido de fondo del marco previo es 1, la energía de ruido de fondo de subbanda se actualiza, siendo los pseudocódigos de actualización como sigue:
Se calcula una SNR de cada subbanda de acuerdo con la energía de subbanda del marco actual y la energía de ruido de fondo de subbanda estimada del marco previo, y la SNR de cada subbanda menor que un cierto umbral se establece en 0. Específicamente,
snr_sub[i]=log2((frame_sb_energy[i]+0.0001f)/(sb_bg_energy[i]+0.0001f)),
donde snr_sub[i] menor que -0.1 se establece como cero.
Un valor promedio de SNRs de todas las subbandas es una SNR en dominio de frecuencia (snr). Específicamente,
Etapa S418: Se obtiene un indicador de tipo de ruido de acuerdo con una SNR en dominio de frecuencia de largo tiempo suave y una SNR de largo tiempo lt_snr_org.
La SNR de largo tiempo es la relación de energía promedio de marcos activos de largo tiempo y energía promedio de ruido de fondo de largo tiempo. La energía promedio de marcos activos de largo tiempo y la energía promedio del ruido de fondo de largo tiempo se actualizan de acuerdo con un indicador de VAD de un marco previo. Cuando el indicador de VAD es un marco inactivo, se actualiza la energía promedio de ruido de fondo de largo tiempo, y cuando el indicador de VAD es un marco activo, se actualiza la energía promedio de marcos activos de largo tiempo.
Específicamente,
la energía promedio de marcos activos de largo tiempo es It_active_eng= fg_energy/fg_energy_count; la energía promedio de ruido de fondo de largo tiempo es lt_inactive_eng= bg_energy/ bg_energy_count, fg_energy_coimt~ 1 bg_energycounVl
fg_energy= V frame_energy[i] bg_cncrgy = Víramc_cncrgy[;] donde =o , i es un valor de índice de marco activo,& ,y j es un valor de índice de marco inactivo; y
la SNR de largo tiempo es lt_snr_org=log10(lt_active_eng /lt_inactive_eng).
Un indicador inicial de tipo de ruido se establece en no silencio, y cuando lf_snr_smooth es mayor que un umbral establecido THR1 y lt_snr_org es mayor que un umbral establecido THR2, el indicador de tipo de ruido se establece en silencio.
En la etapa S420 se muestra un proceso de cálculo de lf_snr_smooth.
La VAD usada en la etapa S418 puede ser, pero no se limita a, una VAD en dos VADs, y también puede ser una VAD combinada.
Etapa S420: Un método de cálculo para la SNR en dominio de frecuencia de tiempo largo promedio suavizada lf_snr_smooth es como sigue:
lf_snr_smooth= lf_snr_smooth*fac (1-fac)*l_snr, donde l_snr = l_speech_snr/l_speech_snr_count -l_s¡lence_snr/l_s¡lence_snr_count,
donde I_speech_snr y l_speech_snr_count son respectivamente un acumulador de SNR en dominio de frecuencia y un contador para los marcos activos, e I_silence_snr e I_silence_snr_count son respectivamente un acumulador de SNR en dominio de frecuencia y un contador para los marcos inactivas. Cuando el marco actual es un marco inicial, la inicialización se lleva a cabo como sigue.
l_silence_snr=0.5f;
l_speech_snr=5.0f;
l_silence_snr_count=1; y
l_speech_snr_count=1.
Cuando el marco actual no es un marco inicial, los cuatro parámetros anteriores se actualizan de acuerdo con un indicador de VAD. Cuando el indicador de VAD indica que el marco actual es un marco inactivo, los parámetros se actualizan de acuerdo con la siguiente fórmula:
l_silence_snr = l_silence_snr snr; l_silence_snr_count = l_silence_snr_count 1.
Cuando el indicador de VAD indica que el marco actual es un marco activo,
l_speech_snr = l_speech_snr snr; l_speech_snr_count = l_speech_snr_count 1.
La VAD en la etapa S420 puede ser, pero no se limita a, una VAD en dos VADs, y también puede ser una VAD combinada.
Etapa S422: Se establece un valor inicial para el número de marcos de ruido continuos durante un primer marco, siendo el valor inicial establecido en 0 en esta realización. Durante un segundo marco y marcos subsecuentes, cuando el juicio de VAD indica un marco inactivo, el número de marcos de ruido continuos se suma con 1, y de lo contrario, el número de marcos de ruido continuos se establece en 0.
La VAD en la etapa S422 puede ser, pero no se limita a, una VAD en dos VADs, y también puede ser una VAD combinada.
Etapa S424: Se calcula un indicador de señal de tonalidad del marco actual de acuerdo con la característica de energía de marco, característica de tonalidad f_tonality_rate, característica de estabilidad en dominio de tiempo Itd_ stable_rate, característica de planicidad espectral sSFM y característica de centroide espectral sp_center del marco actual, y se juzga si el marco actual es una señal tonal. Cuando se juzga que el marco actual es una señal tonal, el marco actual se considera como un marco de música. Se ejecutan las siguientes operaciones.
a) Suponer que la señal de marco actual es una señal no tonal, y se usa un indicador de marco de tonalidad music_background_frame para indicar si el marco actual es un marco tonal. Cuando el valor de music_background_frame es 1, representa que el marco actual es un marco tonal, y cuando el valor de music_background_frame es 0, representa que el marco actual no es tonal.
b) Si la característica de tonalidad f_tonality_rate[0] o su valor suavizado f_tonality_rate[1] es mayor que sus umbrales preestablecidos respectivamente, se ejecuta la etapa c), y de lo contrario, se ejecuta la etapa d).
c) Si la característica de estabilidad en dominio de tiempo ltd_stable_rate[5] es menor que un umbral establecido, una característica de centroide espectral sp_center[0] es mayor que un umbral establecido y una de las tres características de planitud espectral es menor que su umbral, se determina que el marco actual es un marco tonal, el valor del indicador de marco de tonalidad music_background_frame se establece en 1, y se ejecuta además la etapa d).
d) Una característica de nivel tonal music_background_rate se actualiza de acuerdo con el indicador de marco de tonalidad music_background_frame, se establece un valor inicial de la característica de nivel tonal music_background_rate cuando un aparato de VAD inicia a funcionar, en la región [0, 1].
Si el indicador de marco de tonalidad actual indica que el marco actual es un marco tonal, la característica de nivel tonal music_background_rate se actualiza usando la siguiente fórmula:
music_background_rate = music_background_rate*fac (1-fac) .
Si el marco actual no es un marco tonal, la característica de nivel tonal music_background_rate se actualiza usando la siguiente fórmula:
music_background_rate = music_background_rate*fac.
e) Se juzga si el marco actual es una señal tonal de acuerdo con la característica de nivel tonal actualizada music_background_rate, y el valor del indicador de señal de tonalidad music_background_f se establece de manera correspondiente.
Si la característica de nivel tonal music_background_rate es mayor que un umbral establecido, se determina que el marco actual es una señal tonal, y de lo contrario, se determina que el marco actual es una señal no tonal.
Etapa S426: La SNR total promedio de todas las subbandas es un promedio de SNR sobre todas las subbandas para una pluralidad de marcos. Un método de cálculo es como sigue.
Cuando el indicador de ruido de fondo del marco previo es 1, la energía de marco del marco actual se acumula en un acumulador de energía de ruido de fondo de todas las subbandas t_bg_energy_sum, y el valor de un contador de energía de ruido de fondo de todas las subbandas tbg_energy_count es sumado con 1.
La energía de ruido de fondo de todas las subbandas se calcula de acuerdo con la siguiente fórmula: t_bg_energy= t_bg_energy_sum/tbg_energy_count.
Se calcula una SNR de todas las subbandas para el marco actual de acuerdo con la energía de marco del marco actual.
tsnr= Iog2(frame_energy+0.0001f)/(t_bg_energy+0.0001f).
Las SNRs de todas las subbandas para una pluralidad de marcos se promedian para obtener una SNR total promedio de todas las subbandas.
donde N representa N marcos últimos, y tsnr[i] representa tsnr del iésimo marco.
Etapa S428: Se establece un valor inicial para el número de marcos activos continuos durante un primer marco. El valor inicial se establece en 0 en esta realización. Cuando el marco actual es el segundo marco y un marco de conversación detrás del segundo marco, se calcula un número actual de marcos activos continuos de acuerdo con un resultado de juicio de VAD. Específicamente,
Cuando el indicador de VAD es 1, el número de marcos activos continuos se suma con 1; y de lo contrario, el número de marcos activos continuos se establece en 0.
La VAD en la etapa S428 puede ser, pero no se limita a, una VAD en dos VADs, y también puede ser una VAD combinada.
Etapa S430: Se calcula un indicador inicial de ruido de fondo del marco actual de acuerdo con la característica de energía de marco, característica de centroide espectral, característica de estabilidad en dominio de tiempo, característica de planicidad espectral y característica de tonalidad del marco actual, el indicador inicial de ruido de fondo es modificado de acuerdo con un resultado de juicio de VAD, característica de tonalidad, característica de SNR, indicador de señal de tonalidad y característica de estabilidad en dominio de tiempo del marco actual para obtener un indicador final de ruido de fondo, y la detección de ruido de fondo se lleva a cabo de acuerdo con el indicador de ruido de fondo.
El indicador de ruido de fondo se usa para indicar si actualizar la energía de ruido de fondo, y el valor del indicador de ruido de fondo se establece en 1 o 0. Cuando el valor del indicador de ruido de fondo es 1, la energía de ruido de fondo se actualiza, y cuando el valor del indicador de ruido de fondo es 0, la energía de ruido de fondo no se actualiza.
En primer lugar, suponer que el marco actual es un marco de ruido de fondo, y cuando se satisface cualquiera de las siguientes condiciones, se puede determinar que el marco actual no es una señal de ruido.
a) La característica de estabilidad en dominio de tiempo ltd_stable_rate[5] es mayor que un umbral establecido que oscila desde 0.05 a 0.30.
b) La característica de centroide espectral sp_center[0] y la característica de estabilidad en dominio de tiempo ltd_stable_rate[5] son mayores que los umbrales correspondientes, respectivamente, el umbral que corresponde a sp_center[0] oscila desde 2 a 6, y el umbral que corresponde a ltd_stable_rate[ 5] oscila desde 0.001 a 0.1.
c) La característica de tonalidad f_tonality_rate[1] y la característica de estabilidad en dominio de tiempo ltd_stable_rate[5] son mayores que los umbrales correspondientes, respectivamente, el umbral que corresponde a f_tonality_rate[1] oscila desde 0.4 a 0.6, y el umbral que corresponde a ltd_stable_rate[ 5] oscila desde 0.05 a 0.15.
d) Las características de planitud espectral de cada subbanda o las características de planitud espectral suavizadas de cada subbanda son más pequeñas que los umbrales establecidos de manera correspondiente que oscilan desde 0.70 a 0.92.
e) La energía de marco frame_energy del marco actual es mayor que un umbral establecido, el umbral oscila desde 50 a 500, o el umbral se establece dinámicamente de acuerdo con la energía promedio de largo tiempo.
f) La característica de tonalidad f_tonality_rate es mayor que un umbral correspondiente.
g) El indicador inicial de ruido de fondo se puede obtener mediante la etapa a) a etapa f), y luego se modifica el indicador inicial de ruido de fondo. Cuando la característica de SNR, la característica de tonalidad y la característica de estabilidad en dominio de tiempo son menores que los umbrales correspondientes, y cuando vad_flag y music_background_f se establecen en 0, el indicador de ruido de fondo se actualiza a 1.
La VAD en la etapa S430 puede ser, pero no se limita a, una VAD en dos VADs, y también puede ser una VAD combinada.
Etapa S432: Se obtiene un resultado de juicio de VAD combinado final de acuerdo con al menos una característica en la categoría de características 1, al menos una característica en la categoría de características 2 y dos resultados de juicio de VAD existentes.
En la siguiente realización de ejemplo, las dos VADs existentes son VAD_A y VAD_B, los indicadores de salida son respectivamente vada_flag y vadb_flag, y un indicador de salida de una<v>A<d>combinada es vad_flag. Cuando el indicador de VAD es 0, es indicativo de un marco inactivo, y cuando el indicador de VAD es 1, es indicativo de un marco activo. Un proceso de juicio específico es como sigue.
a) Se selecciona vadb_flag como un valor inicial de vad_flag.
b) Si el indicador de tipo de ruido indica que el tipo de ruido es silencio, una SNR en dominio de frecuencia es mayor que un umbral establecido tal como 0.2 y el valor inicial de vad_flag de la VAD combinada es 0, se selecciona vada_flag como la VAD combinada, y finaliza el juicio; y de lo contrario, se ejecuta la etapa c).
c) Si la SNR en dominio de frecuencia de largo tiempo promedio suavizada es menor que un umbral establecido tal como 10.5, o el tipo de ruido no es silencio, se ejecuta la etapa d), y de lo contrario, el valor inicial de vad_flag seleccionado en la etapa a) es seleccionado como el resultado de juicio de VAD combinado.
d) Si se satisface una cualquiera de las siguientes condiciones, un resultado de operación lógica O de las dos VADs se usa como la VAD combinada, y finaliza el juicio; y de lo contrario, se ejecuta la etapa e). Condición 1: Una SNR total promedio de todas las subbandas es mayor que un primer umbral tal como 2.2. Condición 2: Una SNR total promedio de todas las subbandas es mayor que un segundo umbral tal como 1.5, y el número de marcos activos continuos es mayor que un umbral tal como 40.
Condición 3: Un indicador de señal de tonalidad es 1.
e) Si el indicador de tipo de ruido indica que el tipo de ruido es silencio, se selecciona vada_flag como la VAD combinada, y finaliza el juicio.
Realización 2:
La etapa S432 en la realización 1 también se puede implementar de acuerdo con los siguientes modos.
Se obtiene un resultado de juicio de VAD combinado final de acuerdo con al menos una característica en una categoría de características 1, al menos una característica en una categoría de características 2 y dos resultados de juicio de VAD existentes.
En la presente realización de ejemplo, las dos VADs existentes son VAD_A y VAD_B, los indicadores de salida son respectivamente vada_flag y vadb_flag, y un indicador de salida de una VAD combinada es vad_flag. Cuando el indicador de VAD es 0, es indicativo de un marco inactivo, y cuando el indicador de VAD es 1, es indicativo de un marco activo. Un proceso de juicio específico es como sigue.
a) se selecciona vadb_flag como un valor inicial de vad_flag.
b) Si un tipo de ruido es silencio, una SNR en dominio de frecuencia es mayor que un umbral establecido tal como 0.2 y el valor inicial de vad_flag de la VAD combinada es 0, se selecciona vada_flag como la VAD combinada, y finaliza el juicio; y de lo contrario, se ejecuta la etapa c).
c) Si una SNR en dominio de frecuencia de largo tiempo promedio suavizada es menor que un umbral establecido tal como 10.5 o el tipo de ruido no es silencio, se ejecuta la etapa d), y de lo contrario, se selecciona el valor inicial de vad_flag seleccionado en la etapa a) como un resultado de juicio de VAD combinado.
d) Si se satisface una cualquiera de las siguientes condiciones, un resultado de la operación lógica O de las dos VADs se usa como la VAD combinada, y finaliza el juicio; y de lo contrario, se ejecuta la etapa e). Condición 1: Una SNR total promedio de todas las subbandas es mayor que un primer umbral tal como 2.0.
Condición 2: Una SNR total promedio de todas las subbandas es mayor que un segundo umbral tal como 1.5, y el número de marcos activos continuos es mayor que un umbral tal como 30.
e) Se selecciona vada_flag como la VAD combinada, y finaliza el juicio.
Ejemplo 1 (no abarcado por las reivindicaciones):
La etapa S432 en la realización 1 también se puede implementar de acuerdo con los siguientes modos.
Se obtiene un resultado de juicio de VAD combinado final de acuerdo con al menos una característica en una categoría de características 1, al menos una característica en una categoría de características 2 y dos resultados de juicio de VAD existentes.
En la presente realización de ejemplo, las dos VADs existentes son VAD_A y VAD_B, los indicadores de salida son respectivamente vada_flag y vadb_flag, y un indicador de salida de una VAD combinada es vad_flag. Cuando el indicador de VAD es 0, es indicativo de un marco inactivo, y cuando el indicador de VAD es 1, es indicativo de un marco activo. Un proceso de juicio específico es como sigue.
a) se selecciona vadb_flag como una valor inicial de vad_flag.
b) Si un tipo de ruido es silencio, se ejecuta la etapa c), y de lo contrario, se ejecuta la etapa d).
c) Si una SNR en dominio de frecuencia de largo tiempo promedio suavizada es mayor que 12.5 y music_background_f es 0, vad_flag se establece como vada_flag, y de lo contrario, el valor inicial de vad_flag seleccionado en la etapa a) se selecciona como un resultado de juicio de VAD combinado.
d) Si una SNR total promedio de todas las subbandas es mayor que 2.0, o una SNR total promedio de todas las subbandas es mayor que 1.5 y el número de marcos activos continuos es mayor que 30, o un indicador de señal de tonalidad es 1, se usa un resultado de operación lógica O de las dos VADs, es decir, OR (vada_flag, vadb_flag) como la VAD combinada, y de lo contrario, el valor inicial de vad_flag seleccionado en la etapa a) se selecciona como un resultado de juicio de VAD combinado.
Ejemplo 2 (no abarcado por las reivindicaciones):
La etapa S432 en la realización 1 también se puede implementar de acuerdo con los siguientes modos.
Se obtiene un resultado de juicio de VAD combinado final de acuerdo con al menos una característica en una categoría de características 1, al menos una característica en una categoría de características 2 y dos resultados de juicio de VAD existentes.
En la siguiente realización de ejemplo, las dos VADs existentes son VAD_A y VAD_B, los indicadores de salida son respectivamente vada_flag y vadb_flag, y un indicador de salida de una v A d combinada es vad_flag. Cuando el indicador de VAD es 0, es indicativo de un marco inactivo, y cuando el indicador de VAD es 1, es indicativo de un marco activo. Un proceso de juicio específico es como sigue.
a) Se selecciona vadb_flag como un valor inicial de vad_flag.
b) Si un tipo de ruido es silencio, se ejecuta la etapa c), y de lo contrario, se ejecuta la etapa d).
c) Si una SNR en dominio de frecuencia de largo tiempo promedio suavizada es mayor que 12.5 y music_background_f es 0, vada_flag se establece como vad_flag, y de lo contrario, se ejecuta la etapa e).
d) Si una SNR total promedio de todas las subbandas es mayor que 1.5, o una SNR total promedio de todas las subbandas es mayor que 1.0 y el número de marcos activos continuos es mayor que 30, o un indicador de señal de tonalidad es 1, se usa un resultado de operación lógica O de dos VADs, es decir, OR (vada_flag, vadb_flag), como la VAD combinada, y de lo contrario, se ejecuta la etapa e).
e) Si el número de marcos de ruido continuos es mayor que 10 y la SNR total promedio de todas las subbandas es menor que 0.1, un resultado de operación AND en los dos indicadores de salida VAD existentes, es decir,<a>N<d>(vada_flag, vadb_flag), se usa como la VAD combinada, y de lo contrario, se selecciona vadb_flag como la VAD combinada.
Ejemplo 3 (no abarcado por las reivindicaciones):
La etapa S432 en la realización 1 también se puede implementar de acuerdo con los siguientes modos.
Se obtiene un resultado de juicio de VAD combinado final de acuerdo con al menos una característica en una categoría de características 1, al menos una característica en una categoría de características 2 y dos resultados de juicio de VAD existentes.
En la siguiente realización de ejemplo, las dos VADs existentes son VAD_A y VAD_B, los indicadores de salida son respectivamente vada_flag y vadb_flag, y un indicador de salida de una v A d combinada es vad_flag. Cuando el indicador de VAD es 0, es indicativo de un marco inactivo, y cuando el indicador de VAD es 1, es indicativo de un marco activo. Un proceso de juicio específico es como sigue.
a) se selecciona vadb_flag como un valor inicial de vad_flag.
b) Si el tipo de ruido es silencio, se ejecuta la etapa c), y de lo contrario, se ejecuta la etapa d).
c) Si music_background_f es 0, el resultado de la operación lógica O de las dos VADs, es decir, OR (vada_flag, vadb_flag), se usa como la VAD combinada, y de lo contrario, se selecciona vada_flag como la VAD combinada.
d) Si una SNR total promedio de todas las subbandas es mayor que 2.0, o una SNR total promedio de todas las subbandas es mayor que 1.5 y el número de marcos activos continuos es mayor que 30, o un indicador de señal de tonalidad es 1, el resultado de la operación lógica O de las dos VADs, es decir, OR (vada_flag, vadb_flag), se usa como la VAD combinada, y de lo contrario, el valor inicial de vad_flag seleccionado en la etapa a) se selecciona como un resultado de juicio de VAD combinado.
En otra realización, también se proporciona software, que está dispuesto para ejecutar la solución técnica descrita en las realizaciones e implementaciones de ejemplo anteriores.
En otra realización, también se proporciona un medio de almacenamiento. El software se almacena en el medio de almacenamiento. El medio de almacenamiento incluye, pero no se limita, un disco óptico, un disco flexible, un disco duro, una memoria borrable y similares.
Obviamente, los expertos en la técnica entenderán que todos los componentes o todas las etapas de la presente divulgación pueden implementarse usando un aparato de cálculo general, pueden centralizarse en un único aparato de cálculo o pueden distribuirse en una red compuesta por una pluralidad de aparatos de cálculo. Opcionalmente, pueden implementarse usando códigos de programa ejecutables de los aparatos de cálculo. De este modo, pueden almacenarse en un aparato de almacenamiento y ejecutarse mediante los aparatos de cálculo, las etapas mostradas o descritas pueden ejecutarse en una secuencia diferente de esta secuencia bajo ciertas condiciones, o se fabrican en cada componente de circuito integrado respectivamente, o una pluralidad de componentes o etapas en el mismo se fabrica en un único componente de circuito integrado. De este modo, la presente divulgación no se limita a una combinación de ningún hardware y software específico.
Lo anterior son solo las realizaciones de ejemplo de la presente divulgación, y no se usan para limitar la presente divulgación. Puede haber diversas modificaciones y variaciones en la presente divulgación para los expertos en la técnica. Cualquier modificación, reemplazo equivalente, mejora y similares dentro del principio de la presente divulgación caerán dentro del alcance de protección definido por las reivindicaciones anexas de la presente divulgación.
Aplicabilidad industrial
Con base en la solución técnica anterior proporcionada por las realizaciones de la presente divulgación, la detección combinada se puede llevar a cabo de acuerdo con al menos una característica de primera clase en una primera categoría de características, al menos una característica de segunda clase en una segunda categoría de características y al menos dos resultados de juicio de VAD existentes. Los problemas técnicos de baja precisión de detección de una solución de VAD en la técnica relacionada se pueden resolver, y se puede mejorar la precisión de VAD, mejorando de esa manera la experiencia de usuario.
Claims (15)
1. Un método de detección de actividad de voz, VAD, que comprende:
adquirir (S102) al menos una característica de primera clase en una primera categoría de características, al menos una característica de segunda clase en una segunda categoría de características y al menos dos resultados de juicio de VAD existentes, en donde la característica de primera clase y la característica de segunda clase son características usadas para detección VAD; y
llevar a cabo (S104), de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes, VAD para obtener un resultado de juicio de VAD combinado, siendo el métodocaracterizado porquela característica de segunda clase en la segunda categoría de características comprende: un indicador de tipo de ruido, una SNR en dominio de frecuencia de largo tiempo promedio suavizada, una SNR en dominio de frecuencia; y comprendiendo el método además las etapas de: llevar a cabo (S104) VAD de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes comprende:
a) seleccionar un resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes como un valor inicial de VAD combinada;
b) seleccionar otro resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes, que no se selecciona como el valor inicial, como el resultado de juicio de VAD combinado si el indicador de tipo de ruido indica que el tipo de ruido es silencio, la SNR en dominio de frecuencia es mayor que un umbral preestablecido y el valor inicial indica un marco inactivo, y de lo contrario, ejecutar etapa c), en donde se usa el otro resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes, que no se selecciona como el valor inicial, para indicar que un resultado de juicio de VAD es un marco activo o un marco inactivo;
c) ejecutar etapa d) si la SNR en dominio de frecuencia de largo tiempo promedio suavizada es menor que un umbral preestablecido o el tipo de ruido no es silencio, y de lo contrario, seleccionar el resultado de juicio de VAD seleccionado en la etapa a) como el resultado de juicio de VAD combinado;
d) llevar a cabo una operación lógica O sobre los al menos dos resultados de juicio de VAD existentes y usar el resultado de la operación lógica O como el resultado de juicio de VAD combinado cuando se cumple una condición preestablecida, y de lo contrario, ejecutar etapa e); y
e) seleccionar otro resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes, que no se selecciona como el valor inicial, como el resultado de juicio de VAD combinado si el indicador de tipo de ruido indica que el tipo de ruido es silencio, y de lo contrario, seleccionar el resultado de juicio de VAD seleccionado en la etapa a) como el resultado de juicio de VAD combinado.
2. El método como se reivindica en la reivindicación 1, en donde
la característica de primera clase en la primera categoría de características comprende al menos uno de: un número de marcos activos continuos, una relación de señal a ruido, SNR, total promedio de todas las subbandas o un indicador de señal de tonalidad, en donde la SNR total promedio de todas las subbandas es un promedio de SNR sobre todas las subbandas para un número predeterminado de marcos.
3. El método como se reivindica en la reivindicación 1, en donde la condición preestablecida comprende al menos uno de:
condición 1: una SNR total promedio de todas las subbandas es mayor que un primer umbral;
condición 2: la SNR total promedio de todas las subbandas es mayor que un segundo umbral, y el número de marcos activos continuos es mayor que un umbral preestablecido; o
condición 3: un indicador de señal de tonalidad indica una señal tonal.
4. El método como se reivindica en la reivindicación 1, en donde la SNR en dominio de frecuencia de largo tiempo promedio suavizada y el indicador de tipo de ruido se determinan por medio de los siguientes modos:
calcular energía promedio de marcos activos de largo tiempo de un marco actual y energía promedio de ruido de fondo de largo tiempo del marco actual de acuerdo con un cualquier resultado de juicio de VAD en un resultado de juicio de VAD combinado del marco previo del marco actual o al menos dos resultados de juicio de VAD existentes que corresponden al marco previo, energía promedio de marcos activos de largo tiempo del marco previo dentro de un primer período de tiempo preestablecido y energía promedio de ruido de fondo de largo tiempo del marco previo;
calcular una SNR de largo tiempo del marco actual dentro de un segundo período de tiempo de acuerdo con la energía promedio de ruido de fondo de largo tiempo y energía promedio de marcos activos de largo tiempo del marco actual dentro del segundo período de tiempo preestablecido;
calcular una SNR en dominio de frecuencia de largo tiempo promedio suavizada del marco actual dentro de un tercer período de tiempo preestablecido de acuerdo con un cualquier resultado de juicio de VAD en el resultado de juicio de VAD combinado del marco actual o al menos dos resultados de juicio de VAD existentes que corresponden al marco previo y SNR en dominio de frecuencia promedio del marco previo; y determinar el indicador de tipo de ruido de acuerdo con la SNR de largo tiempo y la SNR en dominio de frecuencia de largo tiempo promedio suavizada.
5. El método como se reivindica en la reivindicación 4, en donde determinar el indicador de tipo de ruido de acuerdo con la SNR de largo tiempo y la SNR en dominio de frecuencia de largo tiempo promedio suavizada comprende: establecer el indicador de tipo de ruido en no silencio, y establecer, cuando la SNR de largo tiempo es mayor que un primer umbral preestablecido y la SNR en dominio de frecuencia de largo tiempo promedio suavizada es mayor que un segundo umbral preestablecido, el indicador de tipo de ruido en silencio.
6. Un método de detección de actividad de voz, VAD, que comprende:
adquirir (S102) al menos una característica de primera clase en una primera categoría de características, al menos una característica de segunda clase en una segunda categoría de características y al menos dos resultados de juicio de VAD existentes, en donde la característica de primera clase y la característica de segunda clase son características usadas para detección VAD; y
llevar a cabo (S104), de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes, VAD para obtener un resultado de juicio de VAD combinado, siendo el métodocaracterizado porquela característica de segunda clase en la segunda categoría de características comprende: un indicador de tipo de ruido, una SNR en dominio de frecuencia de largo tiempo promedio suavizada, una SNR en dominio de frecuencia, y comprendiendo el método además las etapas de: llevar a cabo (S104) VAD de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes comprende:
a) seleccionar un resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes como un valor inicial de VAD combinada;
b) seleccionar otro resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes, que no se selecciona como el valor inicial, como el resultado de juicio de VAD combinado si el indicador de tipo de ruido indica que el tipo de ruido es silencio, la SNR en dominio de frecuencia es mayor que un umbral preestablecido y el valor inicial indica un marco inactivo, y de lo contrario, ejecutar etapa c), en donde se usa el otro resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes, que no se selecciona como el valor inicial, para indicar que un resultado de juicio de VAD es un marco activo o un marco inactivo;
c) ejecutar etapa d) si la SNR en dominio de frecuencia de largo tiempo promedio suavizada es menor que un umbral preestablecido o el tipo de ruido no es silencio, y de lo contrario, seleccionar el resultado de juicio de VAD seleccionado en la etapa a) como el resultado de juicio de VAD combinado;
d) llevar a cabo una operación lógica O sobre los al menos dos resultados de juicio de VAD existentes y usar el resultado de la operación lógica O como el resultado de juicio de VAD combinado cuando se cumple una condición preestablecida, y de lo contrario, ejecutar etapa e); y
e) seleccionar otro resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes, que no se selecciona como el valor inicial, como el resultado de juicio de VAD combinado.
7. El método como se reivindica en la reivindicación 6, en donde
la característica de primera clase en la primera categoría de características comprende al menos uno de: un número de marcos activos continuos, una relación de señal a ruido, SNR, total promedio de todas las subbandas o un indicador de señal de tonalidad, en donde la SNR total promedio de todas las subbandas es un promedio de SNR sobre todas las subbandas para un número predeterminado de marcos.
8. El método como se reivindica en la reivindicación 6, en donde la condición preestablecida comprende al menos uno de:
condición 1: una SNR total promedio de todas las subbandas es mayor que un primer umbral;
condición 2: la SNR total promedio de todas las subbandas es mayor que un segundo umbral, y el número de marcos activos continuos es mayor que un umbral preestablecido; o
condición 3: un indicador de señal de tonalidad indica una señal tonal.
9. El método como se reivindica en la reivindicación 6, en donde la SNR en dominio de frecuencia de largo tiempo promedio suavizada y el indicador de tipo de ruido se determinan por medio de los siguientes modos:
calcular energía promedio de marcos activos de largo tiempo de un marco actual y energía promedio de ruido de fondo de largo tiempo del marco actual de acuerdo con un cualquier resultado de juicio de VAD en un resultado de juicio de VAD combinado del marco previo del marco actual o al menos dos resultados de juicio de VAD existentes que corresponden al marco previo, energía promedio de marcos activos de largo tiempo del marco previo dentro de un primer período de tiempo preestablecido y energía promedio de ruido de fondo de largo tiempo del marco previo;
calcular una SNR de largo tiempo del marco actual dentro de un segundo período de tiempo de acuerdo con la energía promedio de ruido de fondo de largo tiempo y energía promedio de marcos activos de largo tiempo del marco actual dentro del segundo período de tiempo preestablecido;
calcular una SNR en dominio de frecuencia de largo tiempo promedio suavizada del marco actual dentro de un tercer período de tiempo preestablecido de acuerdo con un cualquier resultado de juicio de VAD en el resultado de juicio de VAD combinado del marco actual o al menos dos resultados de juicio de VAD existentes que corresponden al marco previo y SNR en dominio de frecuencia promedio del marco previo; y
determinar el indicador de tipo de ruido de acuerdo con la SNR de largo tiempo y la SNR en dominio de frecuencia de largo tiempo promedio suavizada.
10. El método como se reivindica en la reivindicación 9, en donde determinar el indicador de tipo de ruido de acuerdo con la SNR de largo tiempo y la SNR en dominio de frecuencia de largo tiempo promedio suavizada comprende:
establecer el indicador de tipo de ruido en no silencio, y establecer, cuando la SNR de largo tiempo es mayor que un primer umbral preestablecido y la SNR en dominio de frecuencia de largo tiempo promedio suavizada es mayor que un segundo umbral preestablecido, el indicador de tipo de ruido en silencio.
11. Un aparato de detección de actividad de voz, VAD, que comprende:
un componente (20) de adquisición, dispuesto para adquirir al menos una característica de primera clase en una primera categoría de características, al menos una característica de segunda clase en una segunda categoría de características y al menos dos resultados de juicio de VAD existentes, en donde la característica de primera clase y la característica de segunda clase son características usadas para detección VAD; y
un componente (22) de detección, dispuesto para llevar a cabo, de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes, VAD para obtener un resultado de juicio de VAD combinado;
el aparato escaracterizado porque
la característica de segunda clase en la segunda categoría de características comprende: un indicador de tipo de ruido, una SNR en dominio de frecuencia de largo tiempo promedio suavizada, una SNR en dominio de frecuencia, y
el componente (22) de detección está dispuesto para llevar a cabo VAD como sigue:
a) seleccionar un resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes como un valor inicial de VAD combinada;
b) seleccionar otro resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes, que no se selecciona como el valor inicial, como el resultado de juicio de VAD combinado si el indicador de tipo de ruido indica que el tipo de ruido es silencio, la SNR en dominio de frecuencia es mayor que un umbral preestablecido y el valor inicial indica un marco inactivo, y de lo contrario, ejecutar etapa c), en donde se usa el otro resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes, que no se selecciona como el valor inicial para indicar que un resultado de juicio de VAD es un marco activo o un marco inactivo;
c) ejecutar etapa d) si la SNR en dominio de frecuencia de largo tiempo promedio suavizada es menor que un umbral preestablecido o el tipo de ruido no es silencio, y de lo contrario, seleccionar el resultado de juicio de VAD seleccionado en la etapa a) como el resultado de juicio de VAD combinado; d) llevar a cabo una operación lógica O sobre los al menos dos resultados de juicio de VAD existentes y usar el resultado de la operación lógica O como el resultado de juicio de VAD combinado cuando se cumple una condición preestablecida, y de lo contrario, ejecutar etapa e); y
e) seleccionar otro resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes, que no se selecciona como el valor inicial, como el resultado de juicio de VAD combinado si el indicador de tipo de ruido indica que el tipo de ruido es silencio, y de lo contrario, seleccionar el resultado de juicio de VAD seleccionado en la etapa a) como el resultado de juicio de VAD combinado.
12. Un aparato de detección de actividad de voz, VAD, que comprende:
un componente (20) de adquisición, dispuesto para adquirir al menos una característica de primera clase en una primera categoría de características, al menos una característica de segunda clase en una segunda categoría de características y al menos dos resultados de juicio de VAD existentes, en donde la característica de primera clase y la característica de segunda clase son características usadas para detección VAD; y
un componente (22) de detección, dispuesto para llevar a cabo, de acuerdo con la característica de primera clase, la característica de segunda clase y los al menos dos resultados de juicio de VAD existentes, VAD para obtener un resultado de juicio de VAD combinado;
el aparato escaracterizado porque
la característica de segunda clase en la segunda categoría de características comprende: un indicador de tipo de ruido, una SNR en dominio de frecuencia de largo tiempo promedio suavizada, una SNR en dominio de frecuencia, y
el componente (22) de detección está dispuesto para llevar a cabo VAD como sigue:
a) seleccionar un resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes como un valor inicial de VAD combinada;
b) seleccionar otro resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes, que no se selecciona como el valor inicial, como el resultado de juicio de VAD combinado si el indicador de tipo de ruido indica que el tipo de ruido es silencio, la SNR en dominio de frecuencia es mayor que un umbral preestablecido y el valor inicial indica un marco inactivo, y de lo contrario, ejecutar etapa c), en donde se usa el otro resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes, que no se selecciona como el valor inicial, para indicar que un resultado de juicio de VAD es un marco activo o un marco inactivo;
c) ejecutar etapa d) si la SNR en dominio de frecuencia de largo tiempo promedio suavizada es menor que un umbral preestablecido o el tipo de ruido no es silencio, y de lo contrario, seleccionar el resultado de juicio de VAD seleccionado en la etapa a) como el resultado de juicio de VAD combinado;
d) llevar a cabo una operación lógica O sobre los al menos dos resultados de juicio de VAD existentes y usar el resultado de la operación lógica O como el resultado de juicio de VAD combinado cuando se cumple una condición preestablecida, y de lo contrario, ejecutar etapa e); y
e) seleccionar otro resultado de juicio de VAD desde los al menos dos resultados de juicio de VAD existentes, que no se selecciona como el valor inicial, como el resultado de juicio de VAD combinado.
13. El aparato como se reivindica en la reivindicación 11 o 12, en donde el componente (20) de adquisición comprende:
una primera unidad (200) de adquisición, dispuesta para adquirir la característica de primera clase en la primera categoría de características que comprende al menos uno de: un número de marcos activos continuos, una relación de señal a ruido, SNR, total promedio de todas las subbandas o un indicador de señal de tonalidad, en donde la SNR total promedio de todas las subbandas es un promedio de SNR sobre todas las subbandas para un número predeterminado de marcos; y
una segunda unidad (202) de adquisición, dispuesta para adquirir la característica de segunda clase en la segunda categoría de característica.
14. El aparato como se reivindica en la reivindicación 11 o 12, en donde la condición preestablecida comprende al menos uno de:
condición 1: una SNR total promedio de todas las subbandas es mayor que un primer umbral;
condición 2: la SNR total promedio de todas las subbandas es mayor que un segundo umbral, y el número de marcos activos continuos es mayor que un umbral preestablecido; y
condición 3: un indicador de señal de tonalidad indica una señal tonal.
15. El aparato como se reivindica en la reivindicación 13, en donde la relación de señal a ruido en dominio de frecuencia promedio de largo tiempo suave y el indicador de tipo de ruido se determinan por medio de los siguientes modos:
calcular energía de marco de audio activo promedio de un marco actual y energía de ruido de fondo promedio del marco actual de acuerdo con un cualquier resultado de juicio de VAD en un resultado de juicio de VAD combinado de un marco previo del marco actual o al menos dos resultados de juicio de VAD existentes que corresponden al marco previo, energía de marco de audio activo promedio del marco previo dentro de un primer período de tiempo preestablecido y energía de ruido de fondo promedio del marco previo;
calcular una relación de señal a ruido de largo tiempo del marco actual dentro de un segundo período de tiempo de acuerdo con la energía de ruido de fondo promedio y energía de marco de audio activo promedio del marco actual dentro del segundo período de tiempo preestablecido;
calcular una relación de señal a ruido en dominio de frecuencia promedio de largo tiempo suave del marco actual dentro de un tercer período de tiempo preestablecido de acuerdo con un cualquier resultado de juicio de VAD en el resultado de juicio de VAD combinado del marco actual o al menos dos resultados de juicio de VAD existentes que corresponden a el marco previo y una relación de señal a ruido en dominio de frecuencia del marco previo; y
determinar el indicador de tipo de ruido de acuerdo con la relación de señal a ruido de largo tiempo y la relación de señal a ruido en dominio de frecuencia promedio de largo tiempo suave;
en donde preferiblemente, determinar el indicador de tipo de ruido de acuerdo con la SNR de largo tiempo y la SNR en dominio de frecuencia de largo tiempo promedio suavizada comprende:
establecer el indicador de tipo de ruido en no silencio, y establecer, cuando la SNR de largo tiempo es mayor que un primer umbral preestablecido y la SNR en dominio de frecuencia de largo tiempo promedio suavizada es mayor que un segundo umbral preestablecido, el indicador de tipo de ruido en silencio.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201410345942.3A CN105261375B (zh) | 2014-07-18 | 2014-07-18 | 激活音检测的方法及装置 |
| PCT/CN2014/089490 WO2015117410A1 (zh) | 2014-07-18 | 2014-10-24 | 激活音检测的方法及装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2959448T3 true ES2959448T3 (es) | 2024-02-26 |
Family
ID=53777227
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES14882109T Active ES2959448T3 (es) | 2014-07-18 | 2014-10-24 | Método y aparato de detección de actividad de voz |
Country Status (9)
| Country | Link |
|---|---|
| US (1) | US10339961B2 (es) |
| EP (2) | EP4273861A3 (es) |
| JP (1) | JP6606167B2 (es) |
| KR (1) | KR102390784B1 (es) |
| CN (1) | CN105261375B (es) |
| CA (1) | CA2955652C (es) |
| ES (1) | ES2959448T3 (es) |
| RU (1) | RU2680351C2 (es) |
| WO (1) | WO2015117410A1 (es) |
Families Citing this family (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105261375B (zh) * | 2014-07-18 | 2018-08-31 | 中兴通讯股份有限公司 | 激活音检测的方法及装置 |
| CN107305774B (zh) | 2016-04-22 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 语音检测方法和装置 |
| CN107767860B (zh) * | 2016-08-15 | 2023-01-13 | 中兴通讯股份有限公司 | 一种语音信息处理方法和装置 |
| CN107331386B (zh) * | 2017-06-26 | 2020-07-21 | 上海智臻智能网络科技股份有限公司 | 音频信号的端点检测方法、装置、处理系统及计算机设备 |
| CN107393559B (zh) * | 2017-07-14 | 2021-05-18 | 深圳永顺智信息科技有限公司 | 检校语音检测结果的方法及装置 |
| CN107393558B (zh) * | 2017-07-14 | 2020-09-11 | 深圳永顺智信息科技有限公司 | 语音活动检测方法及装置 |
| CN108665889B (zh) * | 2018-04-20 | 2021-09-28 | 百度在线网络技术(北京)有限公司 | 语音信号端点检测方法、装置、设备及存储介质 |
| CN108806707B (zh) | 2018-06-11 | 2020-05-12 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置、设备及存储介质 |
| CN108962284B (zh) * | 2018-07-04 | 2021-06-08 | 科大讯飞股份有限公司 | 一种语音录制方法及装置 |
| CN108848435B (zh) * | 2018-09-28 | 2021-03-09 | 广州方硅信息技术有限公司 | 一种音频信号的处理方法和相关装置 |
| WO2020252782A1 (zh) * | 2019-06-21 | 2020-12-24 | 深圳市汇顶科技股份有限公司 | 语音检测方法、语音检测装置、语音处理芯片以及电子设备 |
| EP4004917A1 (en) | 2019-07-30 | 2022-06-01 | Aselsan Elektronik Sanayi ve Ticaret Anonim Sirketi | Multi-channel acoustic event detection and classification method |
| US11335361B2 (en) * | 2020-04-24 | 2022-05-17 | Universal Electronics Inc. | Method and apparatus for providing noise suppression to an intelligent personal assistant |
| CN115116441B (zh) * | 2022-06-27 | 2024-10-22 | 南京大鱼半导体有限公司 | 一种语音识别功能的唤醒方法、装置及设备 |
Family Cites Families (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6910011B1 (en) * | 1999-08-16 | 2005-06-21 | Haman Becker Automotive Systems - Wavemakers, Inc. | Noisy acoustic signal enhancement |
| US20020116186A1 (en) * | 2000-09-09 | 2002-08-22 | Adam Strauss | Voice activity detector for integrated telecommunications processing |
| US7860718B2 (en) * | 2005-12-08 | 2010-12-28 | Electronics And Telecommunications Research Institute | Apparatus and method for speech segment detection and system for speech recognition |
| US8756063B2 (en) * | 2006-11-20 | 2014-06-17 | Samuel A. McDonald | Handheld voice activated spelling device |
| PL2118889T3 (pl) * | 2007-03-05 | 2013-03-29 | Ericsson Telefon Ab L M | Sposób i sterownik do wygładzania stacjonarnego szumu tła |
| US8503686B2 (en) * | 2007-05-25 | 2013-08-06 | Aliphcom | Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems |
| ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
| CN102044242B (zh) * | 2009-10-15 | 2012-01-25 | 华为技术有限公司 | 语音激活检测方法、装置和电子设备 |
| US9773511B2 (en) * | 2009-10-19 | 2017-09-26 | Telefonaktiebolaget Lm Ericsson (Publ) | Detector and method for voice activity detection |
| CN102804261B (zh) * | 2009-10-19 | 2015-02-18 | 瑞典爱立信有限公司 | 用于语音编码器的方法和语音活动检测器 |
| US8626498B2 (en) * | 2010-02-24 | 2014-01-07 | Qualcomm Incorporated | Voice activity detection based on plural voice activity detectors |
| KR20140026229A (ko) * | 2010-04-22 | 2014-03-05 | 퀄컴 인코포레이티드 | 음성 액티비티 검출 |
| CN102741918B (zh) * | 2010-12-24 | 2014-11-19 | 华为技术有限公司 | 用于话音活动检测的方法和设备 |
| ES2740173T3 (es) * | 2010-12-24 | 2020-02-05 | Huawei Tech Co Ltd | Un método y un aparato para realizar una detección de actividad de voz |
| EP2686846A4 (en) * | 2011-03-18 | 2015-04-22 | Nokia Corp | DEVICE FOR AUDIO SIGNAL PROCESSING |
| WO2013060223A1 (zh) * | 2011-10-24 | 2013-05-02 | 中兴通讯股份有限公司 | 语音频信号的丢帧补偿方法和装置 |
| CN104424956B9 (zh) * | 2013-08-30 | 2022-11-25 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
| CN105261375B (zh) * | 2014-07-18 | 2018-08-31 | 中兴通讯股份有限公司 | 激活音检测的方法及装置 |
| NZ728080A (en) * | 2014-07-29 | 2018-08-31 | Ericsson Telefon Ab L M | Estimation of background noise in audio signals |
| CN106328169B (zh) * | 2015-06-26 | 2018-12-11 | 中兴通讯股份有限公司 | 一种激活音修正帧数的获取方法、激活音检测方法和装置 |
| US9672841B2 (en) * | 2015-06-30 | 2017-06-06 | Zte Corporation | Voice activity detection method and method used for voice activity detection and apparatus thereof |
-
2014
- 2014-07-18 CN CN201410345942.3A patent/CN105261375B/zh active Active
- 2014-10-24 EP EP23183896.2A patent/EP4273861A3/en active Pending
- 2014-10-24 EP EP14882109.3A patent/EP3171363B1/en active Active
- 2014-10-24 ES ES14882109T patent/ES2959448T3/es active Active
- 2014-10-24 CA CA2955652A patent/CA2955652C/en active Active
- 2014-10-24 KR KR1020177004532A patent/KR102390784B1/ko active Active
- 2014-10-24 JP JP2017502979A patent/JP6606167B2/ja active Active
- 2014-10-24 WO PCT/CN2014/089490 patent/WO2015117410A1/zh not_active Ceased
- 2014-10-24 US US15/326,842 patent/US10339961B2/en active Active
- 2014-10-24 RU RU2017103938A patent/RU2680351C2/ru active
Also Published As
| Publication number | Publication date |
|---|---|
| US20170206916A1 (en) | 2017-07-20 |
| US10339961B2 (en) | 2019-07-02 |
| CA2955652A1 (en) | 2015-08-13 |
| JP6606167B2 (ja) | 2019-11-13 |
| KR102390784B1 (ko) | 2022-04-25 |
| JP2017521720A (ja) | 2017-08-03 |
| RU2017103938A3 (es) | 2018-08-31 |
| EP3171363A1 (en) | 2017-05-24 |
| EP3171363A4 (en) | 2017-07-26 |
| EP4273861A3 (en) | 2023-12-20 |
| CN105261375B (zh) | 2018-08-31 |
| RU2017103938A (ru) | 2018-08-20 |
| EP4273861A2 (en) | 2023-11-08 |
| KR20170035986A (ko) | 2017-03-31 |
| CA2955652C (en) | 2022-04-05 |
| RU2680351C2 (ru) | 2019-02-19 |
| EP3171363B1 (en) | 2023-08-09 |
| CN105261375A (zh) | 2016-01-20 |
| WO2015117410A1 (zh) | 2015-08-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2959448T3 (es) | Método y aparato de detección de actividad de voz | |
| CN104424956B9 (zh) | 激活音检测方法和装置 | |
| US10522170B2 (en) | Voice activity modification frame acquiring method, and voice activity detection method and apparatus | |
| CN112992188B (zh) | 一种激活音检测vad判决中信噪比门限的调整方法及装置 | |
| ES2489472T3 (es) | Método y aparato para una detección adaptativa de la actividad vocal en una señal de audio de entrada | |
| US20170004840A1 (en) | Voice Activity Detection Method and Method Used for Voice Activity Detection and Apparatus Thereof | |
| ES2787894T3 (es) | Método y dispositivo para detectar la señal de audio | |
| US9349383B2 (en) | Audio bandwidth dependent noise suppression | |
| Maganti et al. | A perceptual masking approach for noise robust speech recognition | |
| Sharma et al. | Implementation of digital hearing aid as a smartphone application | |
| EP2760022B1 (en) | Audio bandwidth dependent noise suppression | |
| CA2840851C (en) | Audio bandwidth dependent noise suppression | |
| KR100931181B1 (ko) | 노이지 음성 신호의 처리 방법 및 이를 위한 컴퓨터 판독가능한 기록매체 |