ES2291877T3 - Codificacion de audio con diferentes modelos de codificacion. - Google Patents
Codificacion de audio con diferentes modelos de codificacion. Download PDFInfo
- Publication number
- ES2291877T3 ES2291877T3 ES04733391T ES04733391T ES2291877T3 ES 2291877 T3 ES2291877 T3 ES 2291877T3 ES 04733391 T ES04733391 T ES 04733391T ES 04733391 T ES04733391 T ES 04733391T ES 2291877 T3 ES2291877 T3 ES 2291877T3
- Authority
- ES
- Spain
- Prior art keywords
- mode
- encoder
- audio signal
- coding
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Steroid Compounds (AREA)
Abstract
Método para respaldar una codificación de una señal de audio, en el que hay disponibles por lo menos un primer modo del codificador y un segundo modo del codificador para codificar una sección específica de dicha señal de audio, en el que dicho por lo menos un primer modo del codificador permite una codificación de una sección específica de dicha señal de audio basándose en por lo menos dos modelos de codificación diferentes, y en el que en dicho primer modo del codificador, se habilita una selección de un modelo de codificación respectivo para codificar dicha sección específica de una señal de audio mediante por lo menos una regla de selección la cual se basa en características de la señal, habiéndose determinado por lo menos parcialmente dichas características de la señal a partir de una ventana de análisis, abarcando dicha ventana de análisis por lo menos una sección de dicha señal de audio que precede a dicha sección específica, comprendiendo dicho método, después de una conmutación desde dicho segundo modo del codificador a dicho primer modo del codificador, la activación de dicha por lo menos una regla de selección en respuesta a la recepción de por lo menos tantas secciones de dicha señal de audio como las correspondientes abarcadas por dicha ventana de análisis.
Description
Codificación de audio con diferentes modelos de
codificación.
La presente invención se refiere a un método
para respaldar una codificación de una señal de audio, en el que
hay disponibles por lo menos un primer modo de un codificador y un
segundo modo de un codificador para codificar una sección
específica de la señal de audio. Por lo menos el primer modo del
codificador permite una codificación de una sección específica de
la señal de audio basándose en por lo menos dos modelos de
codificación diferentes. En el primer modo del codificador, se
habilita una selección de un modelo de codificación respectivo para
codificar una sección específica de una señal de audio mediante por
lo menos una regla de selección la cual se basa en un análisis de
características de la señal en una ventana de análisis la cual
abarca por lo menos una sección de la señal de audio que precede a
la sección específica. La invención se refiere también a un módulo
correspondiente, a un dispositivo electrónico correspondiente, a un
sistema correspondiente y a un producto de programa de software
correspondiente.
Se conoce la codificación de señales de audio
para posibilitar una transmisión y/o un almacenamiento eficaces de
señales de audio.
Una señal de audio puede ser una señal de voz u
otro tipo de señal de audio, tal como música, y para tipos
diferentes de señales de audio podrían resultar adecuados modelos de
codificación diferentes.
Una de las técnicas usadas ampliamente para
codificar señales de voz es la codificación de Predicción Lineal
con Excitación por Código Algebraico (ACELP). La ACELP modela el
sistema de producción de la voz humana, y resulta adecuado de forma
muy satisfactoria para codificar la periodicidad de una señal de
voz. Como consecuencia, se puede lograr una calidad alta de la voz
con velocidades binarias muy bajas. Por ejemplo, la Banda Ancha
Multivelocidad Adaptativa (AMR-WB) es un códec de
voz que se basa en la tecnología ACELP. El AMR-WB se
ha descrito por ejemplo en la especificación técnica 3GPP TS
26.190: "Speech Codec speech processing functions; AMR Wideband
speech codec; Transcoding functions", V5.1.0
(2001-12). No obstante, los códecs de voz que se
basan en el sistema de producción de voz humana se comportan
normalmente de forma bastante deficiente para otros tipos de
señales de audio, tales como música.
Una de las técnicas usadas ampliamente para
codificar señales de audio que no sean voz es la codificación por
transformada (TCX). La superioridad de la codificación por
transformada para las señales de audio se basa en el
enmascaramiento perceptivo y la codificación en el dominio de la
frecuencia. La calidad de la señal de audio resultante se puede
mejorar adicionalmente seleccionando una longitud de trama de
codificación adecuada para la codificación por transformada. No
obstante, aunque las técnicas de codificación por transformada dan
como resultado una calidad elevada para señales de audio que no sean
voz, su rendimiento no es satisfactorio para señales de voz
periódicas. Por esta razón, la calidad de la voz codificada por
transformadas es normalmente bastante baja, especialmente con
longitudes de tramas TCX elevadas.
El códec AMR-WB ampliado
(AMR-WB+) codifica una señal de audio estereofónica
como una señal monofónica con una alta velocidad binaria y
proporciona cierta información colateral para una ampliación
estereofónica. El códec AMR-WB+ utiliza tanto la
codificación ACELP como modelos TCX para codificar la señal
monofónica esencial en una banda de frecuencias de entre 0 Hz y
6.400 Hz. Para el modelo TCX, se utiliza una longitud de la trama
de codificación de 20 ms, 40 ms ó 80 ms.
Como un modelo ACELP puede deteriorar la calidad
de audio y la codificación por transformada normalmente se comporta
de forma deficiente para la voz, especialmente cuando se utilizan
tramas de codificación largas, debe seleccionarse el modelo de
codificación respectivamente mejor dependiendo de las propiedades de
la señal que se va a codificar. De hecho, la selección del modelo
de codificación que se va a utilizar se puede llevar a cabo de
varias maneras.
En sistemas que requieren técnicas de
complejidad reducida, tales como los servicios multimedia móviles
(MMS), normalmente se aprovechan algoritmos de clasificación de
música/voz para seleccionar el modelo de codificación óptimo. Estos
algoritmos clasifican la señal fuente completa bien como música o
bien como voz basándose en un análisis de las propiedades de la
energía y de la frecuencia de la señal de audio.
Si una señal de audio consta solamente de voz o
solamente de música, el uso del mismo modelo de codificación para
toda la señal basándose en dicha clasificación de música/voz
resultará satisfactorio. No obstante, en muchos otros casos, la
señal de audio que se va a codificar es un tipo combinado de señal
de audio. Por ejemplo, la voz puede estar presente al mismo tiempo
que la música y/o se puede alternar temporalmente con la música en
la señal de audio.
En estos casos, una clasificación de las señales
fuente completas en una categoría de música o voz es un
planteamiento demasiado limitado. En este caso, la calidad de audio
global únicamente se puede maximizar conmutando temporalmente entre
los modelos de codificación cuando se codifica la señal de audio. Es
decir, el modelo ACELP se usa parcialmente también para codificar
una señal fuente clasificada como señal de audio que no sea voz,
mientras que el modelo TCX se usa parcialmente también para una
señal fuente clasificada como señal de voz.
El códec AMR-WB ampliado
(AMR-WB+) está diseñado también para codificar
dichos tipos combinados de señales de audio con modelos de
codificación combinados basándose en cada trama individual.
La selección de los modelos de codificación en
el AMR-WB+ se puede llevar a cabo de varias
maneras.
En el planteamiento más complejo, la señal en
primer lugar se codifica con todas las combinaciones posibles de
modelos ACELP y TCX. A continuación, la señal se sintetiza
nuevamente para cada combinación. Seguidamente, se selecciona la
excitación más satisfactoria basándose en la calidad de las señales
de voz sintetizadas. La calidad de la voz sintetizada resultante
con una combinación específica se puede medir, por ejemplo,
determinando su relación/ruido (SNR). Este tipo de planteamiento de
análisis-por-síntesis proporcionará
resultados satisfactorios. No obstante, en algunas aplicaciones, el
mismo no es viable debido a su complejidad extremadamente elevada.
Dichas aplicaciones incluyen, por ejemplo, aplicaciones móviles. La
complejidad es en gran medida resultado de la codificación ACELP,
que es la parte más compleja de un codificador.
En sistemas, por ejemplo, como el MMS, el
planteamiento de
análisis-por-síntesis de bucle
cerrado completo es demasiado complejo para llevarlo a la práctica.
Por esta razón, en un codificador MMS, se utiliza un método de
bucle abierto de complejidad reducida para determinar si se
selecciona un modelo de codificación ACELP ó un modelo TCX para
codificar una trama específica.
El AMR-WB+ ofrece dos
planteamientos diferentes de bucle abierto de complejidad reducida
para seleccionar el modelo de codificación respectivo para cada
trama. Ambos planteamientos de bucle abierto evalúan las
características de la señal fuente y los parámetros de codificación
para seleccionar un modelo de codificación respectivo.
En el primer planteamiento de bucle abierto, en
primer lugar una señal de audio se divide dentro de cada trama en
varias bandas de frecuencia, y se analiza la relación entre la
energía de las bandas de frecuencia inferiores y la energía de las
bandas de frecuencia superiores, así como las variaciones del nivel
de energía en dichas bandas. A continuación, el contenido de audio
de cada trama de la señal de audio se clasifica como contenido de
tipo música o contenido de tipo voz basándose en ambas mediciones
realizadas o en diferentes combinaciones de estas mediciones usando
diferentes ventanas de análisis y valores de umbral de decisión.
En el segundo planteamiento de bucle abierto, al
cual se hace referencia también como perfeccionamiento de
clasificación de los modelos, la selección del modelo de
codificación se basa en una evaluación de la periodicidad y de las
propiedades estacionarias del contenido de audio en una trama
respectiva de la señal de audio. Las periodicidades estacionarias
se evalúan más específicamente determinando la correlación,
parámetros de Predicción a Largo Plazo (LTP) y mediciones de
distancias espectrales.
El códec AMR-WB+ permite
adicionalmente conmutar, durante la codificación de un flujo
continuo de audio, entre modos AMR-WB, los cuales
utilizan exclusivamente un modelo de codificación ACELP, y modos
ampliados, los cuales utilizan bien un modelo de codificación ACELP
ó bien un modelo TCX, siempre que no varíe la frecuencia de
muestreo. La frecuencia de muestreo puede ser, por ejemplo, 16
kHz.
Los modos ampliados dan salida a una velocidad
binaria mayor que los modos AMR-WB. De este modo,
una conmutación de un modo ampliado a un modo
AMR-WB puede resultar ventajosa cuando las
condiciones de transmisión en la red que conecta el extremo de
codificación y el extremo de decodificación requieran cambiar de un
modo de velocidad binaria superior a un modo de velocidad binaria
inferior para reducir la congestión en la red. También podría ser
necesario un cambio de un modo de velocidad binaria superior a un
modo de velocidad binaria inferior para incorporar nuevos
receptores de la gama baja en un Servicio Móvil de Difusión
General/Multidifusión (MBMS).
Por otro lado, una conmutación de un modo
AMR-WB a un modo ampliado puede resultar ventajosa
cuando un cambio en las condiciones de transmisión de la red
permita un cambio de un modo de velocidad binaria inferior a un
modo de velocidad binaria superior. El uso de un modo de velocidad
binaria superior posibilita una mejor calidad de audio.
Como el códec central usa la misma frecuencia de
muestreo de 6,4kHz para los modos AMR-WB y los modos
ampliados AMR-WB+ y utiliza técnicas de
codificación por lo menos parcialmente similares, un cambio de un
modo ampliado a un modo AMR-WB, o viceversa, en
esta banda de frecuencias, se puede gestionar uniformemente. No
obstante, como el proceso de codificación de la banda central es
ligeramente diferente para un modo AMR-WB y un modo
ampliado, hay que ocuparse de que todas las variables de estado y
las memorias intermedias requeridas se almacenan y copian de un
algoritmo a otro cuando se conmuta entre los modos.
Además, debe tenerse en cuenta que una selección
del modelo de codificación es necesaria únicamente en los modos
ampliados. En los planteamientos habilitados de clasificación de
bucle abierto, se aprovechan ventanas de análisis y memorias
intermedias de datos relativamente largas. La selección del modelo
de codificación aprovecha el análisis estadístico con ventanas de
análisis que presentan una longitud de hasta 320 ms, lo cual se
corresponde con 16 tramas de una señal de audio de 20 ms. Como en el
modo AMR-WB no hay por qué almacenar en memoria
intermedia una información correspondiente, la misma no se puede
copiar de forma sencilla a los algoritmos del modo ampliado. De
este modo, después de una conmutación del AMR-WB al
AMR-WB+, las memorias intermedias de datos de
algoritmos de clasificación, por ejemplo las correspondientes usadas
para un análisis estadístico, no tienen ninguna información válida
o las mismas se reinicializan. De este modo, durante los primeros
320 ms después de una conmutación, puede que el algoritmo de
selección del modelo de codificación no esté completamente adaptado
o actualizado para la señal de audio en curso. Una selección que se
base en unos datos no válidos de las memorias intermedias da como
resultado una decisión distorsionada del modelo de codificación.
Por ejemplo, a un modelo de codificación ACELP se le puede asignar
un valor importante en la selección, incluso aunque la señal de
audio requiera una codificación basada en un modelo TCX para
mantener la calidad del audio.
De este modo, la selección del modelo de
codificación no es óptima ya que la selección del modelo de
codificación de complejidad reducida se comporta de forma no
satisfactoria después de una conmutación de un modo
AMR-WB a un modo ampliado.
El documento
US-A-6640209 da a conocer un
codificador multimodo en el que se ejecuta una conmutación del modo
después de que la señal de entrada cumpla unos ciertos criterios
sobre un número predeterminado de tramas.
Uno de los objetivos de la invención es mejorar
la selección de un modelo de codificación después de una conmutación
de un primer modo de codificación a un segundo modo de
codificación.
Se propone un método para respaldar una
codificación de una señal de audio, en el que hay disponibles por
lo menos un primer modo de un codificador y un segundo modo de un
codificador para codificar una sección específica de la señal de
audio. Además, por lo menos el primer modo del codificador permite
una codificación de una sección específica de la señal de audio
basándose en por lo menos dos modelos de codificación diferentes.
En el primer modo del codificador, se habilita una selección de un
modelo de codificación respectivo para codificar una sección
específica de una señal de audio mediante por lo menos una regla de
selección la cual se basa en características de la señal que se han
determinado por lo menos parcialmente a partir de una ventana de
análisis que abarca por lo menos una sección de la señal de audio
que precede a la sección específica. Se propone que el método
comprenda, después de una conmutación del segundo modo del
codificador al primer modo del codificador, la activación de dicha
por lo menos una regla de selección en respuesta a la recepción de
por lo menos tantas secciones de la señal de audio como las
abarcadas por la ventana de análisis.
El primer modo del codificador y el segundo modo
del codificador pueden ser, por ejemplo, aunque no de forma
exclusiva, un modo ampliado y un modo AMR-WB de un
códec AMR-WB+, respectivamente. En ese caso, los
modelos de codificación disponibles para el primer modo del
codificador pueden ser, por ejemplo, un modelo de codificación
ACELP y un modelo TCX.
Por otra parte, se propone un módulo para
respaldar una codificación de una señal de audio. El módulo
comprende una parte del primer modo del codificador adaptada para
codificar una sección específica de una señal de audio en un primer
modo del codificador y una parte del segundo modo del codificador
adaptada para codificar una sección respectiva de una señal de
audio en un segundo modo del codificador. El módulo comprende además
medios de conmutación para conmutar entre la parte del primer modo
del codificador y la parte del segundo modo del codificador. La
parte del modo del codificador incluye una parte de codificación la
cual está adaptada para codificar una sección respectiva de la
señal de audio basándose en por lo menos dos modelos de codificación
diferentes. La parte del primer modo del codificador comprende
además una parte de selección adaptada para aplicar por lo menos
una regla de selección con vistas a seleccionar un modelo de
codificación respectivo, el cual será usado por la parte de
codificación para codificar una sección específica de una señal de
audio. Dicha por lo menos una regla de selección se basa en
características de la señal que se han determinado por lo menos
parcialmente a partir de una ventana de análisis que abarca por lo
menos una sección de una señal de audio que precede a la sección
específica. La parte de selección está adaptada para activar dicha
por lo menos una regla de selección después de una conmutación por
parte de los medios de conmutación desde la parte del segundo modo
del codificador a la parte del primer modo del codificador en
respuesta a la recepción de por lo menos tantas secciones de la
señal de audio como las abarcadas por la ventana de análisis.
Este módulo puede ser por ejemplo un codificador
o una parte de un codificador.
Por otra parte, se propone un dispositivo
electrónico el cual comprende dicho módulo.
Por otra parte, se propone un sistema de
codificación de audio el cual comprende dicho módulo y
adicionalmente un decodificador para decodificar señales de audio
que han sido decodificadas por dicho módulo.
Finalmente, se propone un producto de programa
de software en el cual se almacena un código de software para
respaldar una codificación de una señal de audio. Hay disponibles
por lo menos un primer modo del codificador y un segundo modo del
codificador para codificar una sección respectiva de la señal de
audio. Por lo menos el primer modo del codificador permite una
codificación de una sección respectiva de la señal de audio
basándose en por lo menos dos modelos de codificación diferentes.
En el primer modo del codificador se habilita una sección de un
modelo de codificación respectivo para codificar una sección
específica de una señal de audio mediante por lo menos una regla de
selección que se basa en características de la señal que han sido
determinadas a partir de una ventana de análisis que abarca por lo
menos una sección de la señal de audio que precede a la sección
específica. Cuando se ejecuta en un componente de procesado de un
codificador, el código de software activa dicha por lo menos una
regla de selección después de una conmutación desde el segundo modo
del codificador al primer modo del codificador en respuesta a la
recepción de por lo menos tantas secciones de la señal de audio
como las abarcadas por la ventana de análisis.
La invención tiene su origen en la consideración
de que se pueden evitar los problemas con el contenido no válido de
las memorias intermedias que se usan como base para una selección de
un modelo de codificación si dicha selección se activa únicamente
después de que el contenido de las memorias intermedias se haya
actualizado por lo menos hasta un nivel requerido por el tipo
respectivo de selección. Por esta razón se propone que cuando una
regla de selección haga uso de características de la señal que se
han determinado usando una ventana de análisis sobre una pluralidad
de secciones de la señal de audio, la regla de selección se aplica
únicamente cuando se han recibido todas las secciones requeridas
por la ventana de análisis. Debe entenderse que la activación puede
ser parte de la propia regla de selección.
Una de las ventajas de la invención es que
permite una selección mejorada del modelo de codificación después
de una conmutación del modo del codificador. Más específicamente,
permite evitar una clasificación errónea de las secciones de una
señal de audio, y por lo tanto evita la selección de un modelo de
codificación inadecuado.
Para el periodo de tiempo después de una
conmutación en el cual no se hayan activado ciertas reglas de
selección, se proporciona de forma ventajosa una regla de selección
adicional la cual no hace uso de información sobre secciones de la
señal de audio que preceden a la sección en curso. Esta otra regla
se puede aplicar inmediatamente después de una conmutación y por lo
menos hasta que se hayan activado otras reglas de selección.
Dicha por lo menos una regla de selección que se
basa en características de la señal que han sido determinadas en
una ventana de análisis puede comprender una regla de selección
individual o una pluralidad de reglas de selección. En este último
caso, las ventanas de análisis asociadas pueden tener longitudes
diferentes. Como consecuencia, la pluralidad de reglas de selección
se pueden activar una después de otra.
La sección de una señal de audio puede ser, en
particular, una trama de una señal de audio, por ejemplo, una trama
de 20 ms de una señal de audio.
Las características de la señal que son
evaluadas por dicha por lo menos una regla de selección se pueden
basar totalmente o solo de forma parcial en una ventana de análisis.
Debe entenderse que también las características de la señal
utilizadas por una regla de selección individual pueden basarse en
diferentes ventanas de análisis.
A partir de la siguiente descripción detallada
considerada conjuntamente con los dibujos adjuntos se pondrán de
manifiesto otros objetivos y características de la presente
invención.
La Fig. 1 es un diagrama esquemático de un
sistema de codificación de audio según una de las formas de
realización de la invención; y
la Fig. 2 es un diagrama de flujo que ilustra
una de las formas de realización del método según la invención
implementado en el sistema de la Figura 1.
La Figura 1 es un diagrama esquemático de un
sistema de codificación de audio según una de las formas de
realización de la invención, la cual permite una activación
flexible de algoritmos de selección usados para seleccionar un
modelo de codificación óptimo.
El sistema comprende un primer dispositivo 1 que
incluye un codificador AMR-WB+ 2 y un segundo
dispositivo 21 que incluye un decodificador AMR-WB+
22. El primer dispositivo 1 puede ser, por ejemplo, un servidor MMS,
mientras que el segundo dispositivo 21 puede ser, por ejemplo, un
teléfono móvil o algún otro dispositivo móvil.
El codificador AMR-WB+ 2
comprende una parte de codificación AMR-WB 4 la cual
está adaptada para realizar una codificación ACELP pura, y una
parte de codificación ampliada 5, la cual está adaptada para
realizar una codificación basada bien en un modelo de codificación
ACELP o bien en un modelo TCX. De este modo, la parte de
codificación ampliada 5 constituye la parte del primer modo del
codificador y la parte de codificación AMR-WB 4
constituye la parte del segundo modo del codificador de la
invención.
El codificador AMR-WB+ 2
comprende además un conmutador 6 para reenviar tramas de la señal de
audio bien hacia la parte de codificación AMR-WB 4
ó bien hacia la parte de codificación ampliada 5.
La parte de codificación ampliada 5 comprende
una parte de determinación de características de la señal 11 y un
contador 12. El terminal del conmutador 6 que está asociado a la
parte de codificación ampliada 5 está unido a una entrada de ambas
partes 11, 12. La salida de la parte de determinación de
características de la señal 11 y la salida del contador 12 están
unidas dentro de la parte de codificación ampliada 5 a través de
una primera parte de selección 13, una segunda parte de selección
14, una tercera parte de selección 15, una parte de verificación
16, una parte de perfeccionamiento 17 y una parte de selección final
18 hacia una parte de codificación ACELP/TCX 19.
Debe entenderse que las partes presentadas 11 a
19 están diseñadas para codificar una señal de audio monofónica, la
cual puede haber sido generada a partir de una señal de audio
estereofónica. Se puede generar una información estereofónica
adicional en partes ampliadas estereofónicas adicionales no
mostradas. Por otra parte, debe observarse que el codificador 2
comprende otras partes no mostradas. Debe entenderse también que las
partes presentadas 12 a 19 no
tienen porque ser partes independientes, sino que también pueden estar interconectadas entre ellas o con otras partes.
tienen porque ser partes independientes, sino que también pueden estar interconectadas entre ellas o con otras partes.
La parte de codificación AMR-WB
4, la parte de codificación ampliada 5 y el conmutador 6 se pueden
realizar en particular mediante un software SW ejecutado en un
componente de procesado 3 del codificador 2, el cual se indica
mediante líneas de trazos.
A continuación se describirá más detalladamente
el procesado de la parte de codificación ampliada 5 haciendo
referencia al diagrama de flujo de la Figura 2.
El codificador 2 recibe una señal de audio, la
cual se ha proporcionado al primer dispositivo 1. En primer lugar,
el conmutador 6 suministra la señal de audio a la parte de
codificación AMR-WB 4 para lograr una velocidad
binaria baja de salida, debido por ejemplo a que no se dispone de la
suficiente capacidad en la red que conecta el primer dispositivo 1
y el segundo dispositivo 21. No obstante, posteriormente las
condiciones de la red cambian y permiten una velocidad binaria
mayor. Por esta razón, a continuación la señal de audio es reenviada
por el conmutador 6 hacia la parte de codificación ampliada 5.
En el caso de un conmutador de este tipo, un
valor StatClassCount del contador 12 se reinicializa a 15
cuando se recibe la primera trama de la señal de audio. A
continuación, el contador 12 decrementa en uno su valor
StatClassCount, cada vez que se introduce otra trama de la
señal de audio en la parte de codificación ampliada 5.
Por otro lado, la parte de determinación de
características de la señal 11 determina para cada trama introducida
de la señal de audio varias características de la señal
relacionadas con la energía por medio de bancos de filtros del
Detector de Actividad Vocal (VAD) AMR-WB.
Para cada trama introducida de la señal de audio
de 20 ms, los bancos de filtros producen la energía de la señal
E (n) en cada una de entre doce bandas de frecuencias no
uniformes que abarcan una gama de frecuencias de entre 0 Hz y 6.400
Hz. A continuación, el nivel de energía E(n) de cada banda de
frecuencias n se divide por la anchura de esta banda de frecuencias
en Hz, con vistas a producir un nivel de energía normalizado
E_{N}(n) para cada banda de frecuencias.
Seguidamente, se calcula la desviación estándar
respectiva de los niveles de energía normalizados
E_{N}(n) para cada una de las doce bandas de
frecuencias usando, por un lado, una ventana corta
std_{corta}(n) y, por otro lado, una ventana larga
std_{larga}(n). La ventana corta tiene una longitud
de cuatro tramas de la señal de audio, y la ventana larga tiene una
longitud de dieciséis tramas de la señal de audio. Es decir, para
cada banda de frecuencias, para obtener los dos valores de la
desviación estándar se usan el nivel de energía de la trama en
curso y el nivel de energía de las tramas anteriores 4 y 16,
respectivamente. Los niveles de energía normalizados de las tramas
anteriores se recuperan a partir de memorias intermedias, en las
cuales también se almacenan para un uso posterior los niveles de
energía normalizados de la trama en curso de la señal de audio.
No obstante, las desviaciones estándar se
determinan únicamente en el caso de que un indicador de actividad
vocal VAD indique la existencia de voz activa para la trama en
curso. Esta opción conseguirá que el algoritmo reaccione más rápido
especialmente después de pausas prolongadas de la voz.
A continuación, las desviaciones estándar
determinadas se promedian sobre las doce bandas de frecuencia para
la ventana tanto larga como corta con vistas a crear dos valores de
desviación estándar media stda_{corta} y
stda_{larga} como una primera y una segunda características
de la señal para la trama en curso de la señal de audio.
Por otra parte, para la trama en curso de la
señal de audio se calcula una relación entre la energía de las
bandas de frecuencia inferiores y la energía de las bandas de
frecuencia superiores. Con este fin, la parte de determinación de
características de la señal 11 suma las energías E(n) de las
bandas de frecuencias inferiores n = 1 a 7 para obtener un nivel de
energía LevL. El nivel de energía LevL se normaliza dividiéndolo por
la anchura total de estas bandas de frecuencias inferiores en Hz.
Por otra parte, la parte de determinación de características de la
señal 11 suma las energías E (n) de las bandas de frecuencias
superiores n = 8 a 11 para obtener un nivel de energía LevH. El
nivel de energía LevH se normaliza igualmente dividiéndolo por la
anchura total de las bandas de frecuencias superiores en Hz. En
estos cálculos no se usa la banda de frecuencias más baja 0, ya que
la misma habitualmente contiene tanta energía que distorsionaría los
cálculos y provocaría que las contribuciones de las otras bandas de
frecuencia resultaran demasiado reducidas. Seguidamente, la parte
de determinación de características de la señal 11 define la
relación LPH=LevL/LevH. Adicionalmente, se calcula una media móvil
LPHa usando los valores LPH que se han determinado para la trama en
curso de la señal de audio y para las tres tramas anteriores de la
señal de audio.
A continuación se calcula un valor final
LPHaF de la relación energía para la trama en curso sumando
el valor LPHa en curso y los anteriores siete valores
LPHa. En esta suma, los últimos valores de LPHa se
ponderan con un peso ligeramente superior a los valores antiguos de
LPHa. Los anteriores siete valores de LPHa se
recuperan igualmente de las memorias intermedias, en las cuales
también se almacena para un uso posterior el valor de LPHa
para la trama en curso. El valor LPHaF constituye la tercera
característica de la señal.
La parte de determinación de características de
la señal 11 calcula adicionalmente un nivel medio de energía de los
bancos de filtros AVL para la trama en curso de la señal de
audio. Para calcular el valor AVL, de la energía E(n)
se resta un nivel estimado del ruido de fondo en cada una de las
doce bandas de frecuencias. A continuación, los resultados se
multiplican por la frecuencia más alta en Hz de la banda de
frecuencias correspondiente y los mismos se suman. La
multiplicación permite un equilibrado de la influencia de las bandas
de frecuencia altas, que contienen una energía relativamente menor
que las bandas de frecuencia inferiores. El valor AVL
constituye una cuarta característica de la señal.
Finalmente, la parte de determinación de
características de la señal 11 calcula para la trama en curso la
energía total TotE_{0} a partir de todos los bancos de
filtros, reducida en una estimación del ruido de fondo para cada
banco de filtros. La energía total TotE_{0} se almacena
también en una memoria intermedia. El valor TotE_{0}
constituye una quinta característica de la señal.
A continuación, las características determinadas
de la señal y el valor del contador StatClassCount se
suministran a la primera parte de selección 13, la cual aplica un
algoritmo según el siguiente seudo-código para
seleccionar el mejor modelo de codificación para la trama en
curso:
Puede observarse que este algoritmo aprovecha
una característica de la señal stda_{larga}, la cual se
basa en información sobre dieciséis tramas anteriores de la señal de
audio. Por esta razón, en primer lugar se comprueba si ya se han
recibido por lo menos diecisiete tramas después de la conmutación
desde AMR-WB. Esto se cumple en cuanto el contador
12 presenta un valor StatClassCount de cero. En cualquier
otro caso, a la trama en curso se le asocia inmediatamente un modo
incierto. Esta opción garantiza que el resultado no sea falseado
por un contenido no válido de las memorias intermedias que dé como
resultado valores incorrectos para las características de la señal
stda_{larga} y LPHaF.
La información sobre las características de la
señal y la selección del modelo de codificación materializada hasta
el momento es reenviar a continuación por la primera parte de
selección 13 hacia la segunda parte de selección 14, la cual aplica
un algoritmo según el siguiente seudo-código para
seleccionar el mejor modelo de codificación para la trama en
curso:
Puede observarse que la segunda parte de este
algoritmo aprovecha una característica de la señal
stda_{corta}, la cual se basa en información sobre cuatro
tramas anteriores de la señal de audio, y además una característica
de la señal LPHaF, la cual se basa en información sobre diez tramas
anteriores de la señal de audio. Por esta razón, para esta parte
del algoritmo, en primer lugar se comprueba si ya se han recibido
por lo menos once tramas después de la conmutación desde
AMR-WB. Esta opción se cumple en cuanto el contador
presenta un valor StatClassCount de "4". Esto garantiza
que el resultado no queda falseado por un contenido no válido de la
memoria intermedia que dé como resultado valores incorrectos para
características de la señal LPhaF y stda_{corta}. En
general, este algoritmo permite una selección de un modelo de
codificación ya para la trama undécima a decimosexta, y
adicionalmente incluso para las primeras diez tramas en el caso de
que el nivel de energía medio AVL supere un valor
predeterminado. En la Figura 2 no se indica esta parte del
algoritmo. El algoritmo se aplica igualmente para tramas sucesivas
a la trama decimosexta con vistas a perfeccionar la primera
selección realizada por la primera parte de selección 13.
La información sobre las características de la
señal y la selección del modelo de codificación materializada hasta
el momento es reenviada a continuación por la segunda parte de
selección 14 hacia la tercera parte de selección 15, la cual aplica
un algoritmo según el siguiente seudo-código para
seleccionar el mejor modelo de codificación para la trama en curso,
en caso de que el modo correspondiente a esta trama siga siendo
incierto:
Puede observarse que este
seudo-código aprovecha la relación entre la energía
total TOtE_{o} de la trama en curso de la señal de audio y
la energía total TOtE_{-1} de la trama anterior de la señal
de audio. Por esta razón, en primer lugar se comprueba si ya se han
recibido por lo menos dos tramas después de la conmutación desde
AMR-WB. Esta opción se cumple en cuanto el contador
presente un valor StatClassCount de "14".
Debe indicarse que los valores de umbral
utilizados del contador son únicamente ejemplos y se podrían
seleccionar de muchas maneras diferentes. En el algoritmo
implementado en la segunda parte de selección 14, por ejemplo, en
lugar de la característica de la señal LPHaF se podría evaluar la
característica de la señal LPH. En este caso, bastaría con
comprobar si ya se han recibido por lo menos cinco tramas, en
correspondencia con StatClassCount < 12.
A continuación, la información sobre las
características de la señal y la selección del modelo de
codificación materializada hasta el momento es reenviada por la
tercera parte de selección 15 hacia la parte de verificación 16, la
cual aplica un algoritmo según el siguiente
seudo-código:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Este algoritmo permite seleccionar posiblemente
el mejor modelo de codificación para la trama en curso, en caso de
que el modo correspondiente a esta trama siga siendo incierto, y
verificar si un modo TCX ya seleccionado resulta adecuado.
Además, después del procesado en la parte de
verificación 16, el modo asociado a la trama en curso de la señal
de audio puede que siga siendo incierto.
A continuación, en un planteamiento rápido, para
las restantes tramas de modo INCIERTO se selecciona simplemente un
modelo de codificación predeterminado, es decir bien un modelo de
codificación ACELP ó bien un modelo de codificación TCX.
En un planteamiento más sofisticado, ilustrado
también en la Figura 2, se realiza en primer lugar algún otro
análisis.
Con este fin, la información sobre la selección
del modelo de codificación materializada hasta el momento es
reenviada a continuación por la parte de verificación 16 hacia la
parte de perfeccionamiento 17. La parte de perfeccionamiento 17
aplica un perfeccionamiento de la clasificación del modelo. Tal como
se ha mencionado anteriormente, esta opción es una selección del
modelo de codificación, la cual se basa en la periodicidad y las
propiedades estacionarias de la señal de audio. La periodicidad se
observa usando parámetros LTP. Las propiedades estacionarias se
analizan usando una correlación normalizada y mediciones de las
distancias espectrales.
El análisis realizado por las partes 13, 14, 15,
16 y 17 determina, basándose en las características de la señal de
audio, si el contenido de una trama respectiva se puede considerar
como voz u otro contenido de audio, tal como música, y selecciona
un modelo de codificación correspondiente en el caso de que dicha
clasificación sea posible. Las partes 13, 14, 15, 16 realizan un
primer planteamiento de bucle abierto que evalúa características
relacionadas con la energía, mientras que la parte 17 realiza un
segundo planteamiento de bucle abierto que evalúa la periodicidad y
las propiedades estacionarias de la señal de audio.
En el caso de que se hayan aplicado en vano dos
planteamientos diferentes de bucle abierto para seleccionar un
modelo TCX ó un modelo de codificación ACELP, en algunos casos el
modelo de codificación óptimo resultará difícil de seleccionar por
parte de otros algoritmos de bucle abierto existentes. Por esta
razón, en la presente forma de realización, para las restantes
selecciones de modo no claras se utiliza una clasificación sencilla
basada en un recuento.
La parte de selección final 18 selecciona un
modelo de codificación específico para las tramas de modo INCIERTO
restantes basándose en una evaluación estadística de los modelos de
codificación asociados a las tramas vecinas respectivas, en el caso
de que se haya activado un indicador de actividad vocal banderaVAD
para la trama de modo INCIERTO respectiva.
Para la evaluación estadística, se consideran
una supertrama en curso, a la cual pertenece una trama de modo
INCIERTO, y una supertrama anterior que precede a esta supertrama en
curso. Una supertrama tiene una longitud de 80 ms y comprende
cuatro tramas de audio consecutivas de 20 ms cada una de ellas. La
parte de selección final 18, por medio de contadores, cuenta el
número de tramas de la supertrama en curso y de la supertrama
anterior para las cuales una de las partes de selección anteriores
12 a 17 ha seleccionado el modelo de codificación ACELP. Por otra
parte, la parte de selección final 18 cuenta el número de tramas de
la supertrama anterior para las cuales una de las partes de
selección anteriores 12 a 17 ha seleccionado un modelo TCX con una
longitud de trama de codificación de 40 ms ó 80 ms, para las cuales
por otra parte se ha activado el indicador de actividad vocal, y
para las cuales adicionalmente la energía total supera un valor de
umbral predeterminado. La energía total se puede calcular
dividiendo la señal de audio en diferentes bandas de frecuencia,
determinando el nivel de la señal por separado para todas las
bandas de frecuencia, y sumando los niveles resultantes. El valor
de umbral predeterminado para la energía total en una trama se puede
fijar, por ejemplo, a 60.
La asignación de modelos de codificación se debe
completar para una supertrama en curso completa, antes de que se
pueda codificar la supertrama n en curso. De este modo, el recuento
de tramas para las cuales se ha asignado un modelo de codificación
ACELP no se limita a las tramas que preceden a una trama de modo
INCIERTO. A no ser que la trama de modo INCIERTO sea la última
trama de la supertrama en curso, se tienen en cuenta también los
modelos de codificación seleccionados de las tramas que están por
llegar.
El recuento de tramas se puede resumir, por
ejemplo, mediante el siguiente seudo-código:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
En este seudo-código, i indica
el número de una trama en una supertrama respectiva, y presenta los
valores 1, 2, 3, 4, mientras que j indica el número de la trama en
curso en la supertrama en curso. ModoPrev(i) es el
modo de la trama i-ésima de 20 ms en la supertrama anterior y
Modo(i) es el modo de la trama i-ésima de 20 ms en la
supertrama en curso. TCX80 representa un modelo TCX seleccionado que
usa una trama de codificación de 80 ms y TCX40 representa un modelo
TCX seleccionado que usa una trama de codificación de 40 ms.
BanderaVad_{antigua}(i) representa el indicador de
actividad vocal VAD para la trama i-ésima en la supertrama anterior.
TotE_{i} es la energía total de la trama i-ésima. El valor del
contador RecuentoTCX representa el número de tramas TCX largas
seleccionadas en la supertrama anterior, y el valor del contador
RecuentoACELP representa el número de tramas ACELP en la supertrama
anterior y la supertrama en curso.
A continuación se realiza una evaluación
estadística de la manera siguiente:
Si el número contado de tramas largas de modo
TCX, con una longitud de trama de codificación de 40 ms ó 80 ms, en
la supertrama anterior, es mayor que 3, para la trama de modo
INCIERTO se selecciona igualmente un modelo TCX.
Alternativamente, si el número contado de tramas
de modo ACELP en la supertrama en curso y anterior es mayor que 1,
para la trama de modo INCIERTO se selecciona un modelo ACELP.
En la totalidad del resto de casos, para la
trama de modo INCIERTO se selecciona un modelo TCX.
La selección del Modo(j) del modelo de
codificación de la trama j-ésima se puede resumir, por ejemplo,
mediante el siguiente seudo-código:
El planteamiento basado en un recuento se
realiza únicamente si el valor del contador StatClassCount es
menor que 12. Esto significa, que después de una conmutación desde
AMR-WB a un modo ampliado, el planteamiento de
clasificación basado en un recuento no se realiza en las primeras
cuatro tramas, lo cual se corresponde con los primeros 4*20 ms.
Si el valor del contador StatClassCount
es igual a o mayor que 12 y el modelo de codificación se ha
clasificado todavía como modo INCIERTO, se selecciona el modelo
TCX.
Si no se ha activado el indicador de actividad
local banderaVAD, indicando por lo tanto la bandera un periodo de
silencio, el modo seleccionado es TCX por defecto y no se debe
realizar ninguno de los algoritmos de selección de modo.
De esta manera, las partes 13, 14 y 15
constituyen dicha por lo menos una parte de selección de la
invención, mientras que las partes 16, 17 y 18, y parcialmente la
parte 14, constituyen dicha por lo menos otra parte de selección de
la invención.
En este caso, la parte de codificación ACELP/TCX
19 codifica todas las tramas de la señal de audio basándose en el
modelo de codificación seleccionado respectivamente. El modelo TCX
se basa, a título de ejemplo, en una transformada rápida de Fourier
(FFT) que hace uso de la longitud de la trama de codificación
seleccionada, y el modelo de codificación ACELP usa, a título de
ejemplo, una LTP y parámetros de libro de código fijo para una
excitación por coeficientes de predicción lineal (LPC).
A continuación, la parte de codificación 19
suministra las tramas codificadas, con vistas a una transmisión, al
segundo dispositivo 21. En el segundo dispositivo 21, el
decodificador 22 decodifica todas las tramas recibidas con el
modelo de codificación ACELP o con el modelo de codificación TCX
usando un modo AMR-WB o un modo ampliado, según se
requiera. Las tramas decodificadas se suministran, por ejemplo con
vistas a su presentación, a un usuario del segundo dispositivo
21.
En resumen, la forma de realización presentada
permite una activación flexible de algoritmos de selección, en la
cual los algoritmos de selección proporcionados se activan en el
orden en el que se actualizan completamente las memorias
intermedias de análisis que están relacionadas con las reglas de
selección. Cuando se deshabiliten uno o más algoritmos de
selección, la selección se realiza basándose en otros algoritmos de
selección, los cuales no se basan en el contenido de esta memoria
intermedia.
Debe indicarse que la forma de realización
descrita constituye únicamente una de entra una variedad de posibles
formas de realización de la invención.
Claims (23)
-
\global\parskip0.930000\baselineskip
1. Método para respaldar una codificación de una señal de audio, en el que hay disponibles por lo menos un primer modo del codificador y un segundo modo del codificador para codificar una sección específica de dicha señal de audio, en el que dicho por lo menos un primer modo del codificador permite una codificación de una sección específica de dicha señal de audio basándose en por lo menos dos modelos de codificación diferentes, y en el que en dicho primer modo del codificador, se habilita una selección de un modelo de codificación respectivo para codificar dicha sección específica de una señal de audio mediante por lo menos una regla de selección la cual se basa en características de la señal, habiéndose determinado por lo menos parcialmente dichas características de la señal a partir de una ventana de análisis, abarcando dicha ventana de análisis por lo menos una sección de dicha señal de audio que precede a dicha sección específica, comprendiendo dicho método, después de una conmutación desde dicho segundo modo del codificador a dicho primer modo del codificador, la activación de dicha por lo menos una regla de selección en respuesta a la recepción de por lo menos tantas secciones de dicha señal de audio como las correspondientes abarcadas por dicha ventana de análisis. - 2. Método según la reivindicación 1, en el que en dicho primer modo del codificador se habilita asimismo una selección de un modelo de codificación respectivo para codificar una sección específica de una señal de audio mediante por lo menos una regla de selección adicional que utiliza información sobre secciones de dicha señal de audio que preceden a dicha sección específica, aplicándose dicha por lo menos una regla de selección adicional por lo menos siempre que el número de secciones recibidas sea menor que el número de secciones abarcadas por una ventana de análisis, en el cual para dicha por lo menos una regla de selección se determinan características de la señal.
- 3. Método según la reivindicación 1 ó 2, en el que dicha por lo menos una regla de selección, la cual se basa en características de la señal que se han determinado a partir de una ventana de análisis, comprende una primera regla de selección, la cual se basa en características de la señal que se han determinado en una ventana de análisis más corta, y una segunda regla de selección, la cual se basa en características de la señal que se han determinado en una ventana de análisis más larga, en el que dicha primera regla de selección se activa en cuanto se han recibido suficientes secciones de dicha señal de audio para dicha ventana de análisis más corta, y en el que dicha segunda regla de selección se activa en cuanto se han recibido suficientes secciones de dicha señal de audio para dicha ventana de análisis más larga.
- 4. Método según la reivindicación 3, en el que una sección respectiva de dicha señal de audio se corresponde con una trama respectiva de la señal de audio que tiene una longitud de 20 ms, en el que dicha ventana más corta abarca una trama de la señal de audio para la cual se va a seleccionar un modelo de codificación y adicionalmente cuatro tramas anteriores de la señal de audio, y en el que dicha ventana más larga abarca una trama de la señal de audio para la cual se va a seleccionar un modelo de codificación y adicionalmente dieciséis tramas anteriores de la señal de audio.
- 5. Método según una de las reivindicaciones anteriores, en el que dichas características de la señal comprenden una desviación estándar de valores relacionados con la energía en una ventana de análisis respectiva.
- 6. Método según una de las reivindicaciones anteriores, en el que dicho primer modo del codificador es un modo ampliado de un códec ampliado de banda ancha multivelocidad adaptativa y permite una codificación basada en un modelo de codificación de predicción lineal con excitación por código algebraico y adicionalmente una codificación basada en un modelo de codificación por transformada, y en el que dicho segundo modo del codificador es un modo de banda ancha multivelocidad adaptativa de dicho códec ampliado de banda ancha multivelocidad adaptativa y permite una codificación basada en un modelo de codificación de predicción lineal con excitación por código algebraico.
- 7. Método según cualquiera de las reivindicaciones anteriores, en el que dicha sección es una trama o una subtrama de dicha señal de audio.
- 8. Módulo (2,3) para respaldar una codificación de una señal de audio, comprendiendo dicho módulo (2,3):
- -
- una parte del primer modo del codificador (5) adaptada para codificar una sección respectiva de una señal de audio en un primer modo del codificador;
- -
- una parte del segundo modo del codificador (4) adaptada para codificar una sección respectiva de una señal de audio en un segundo modo del codificador;
- -
- unos medios de conmutación (6) para conmutar entre dicha parte del primer modo del codificador (5) y dicha parte del segundo modo del codificador (4);
- -
- comprendiendo dicha parte del primer modo del codificador (5) una parte de codificación (9) la cual está adaptada para codificar una sección respectiva de dicha señal de audio basándose en por lo menos dos modelos de codificación diferentes; y
- -
- comprendiendo asimismo dicha parte del primer modo del codificador (5) una parte de selección (13, 14, 15) adaptada para aplicar por lo menos una regla de selección con vistas a seleccionar un modelo de codificación específico, destinado dicho modelo de codificación a ser usado por dicha parte de codificación (9) para codificar dicha sección específica de una señal de audio, en el que dicha por lo menos una regla de selección se basa en características de la señal, las cuales se han determinado por lo menos parcialmente a partir de una ventana de análisis que abarca por lo menos una sección de una señal de audio que precede a dicha sección específica, y en el que dicha parte de selección (13, 14, 15) está adaptada para activar dicha por lo menos una regla de selección después de una conmutación realizada por dichos medios de conmutación (6) desde dicha parte del segundo modo del codificador (4) hacia dicha parte del primer modo del codificador (5) en respuesta a la recepción de por lo menos tantas secciones de dicha señal de audio como las correspondientes abarcadas por dicha ventana de análisis.
\global\parskip1.000000\baselineskip
- 9. Módulo (2,3) según la reivindicación 8, que comprende asimismo un contador (12) adaptado para contar el número de secciones de dicha señal de audio, las cuales se suministran a dicha parte del primer modo del codificador (5) después de una conmutación desde dicha parte del segundo modo del codificador (4) hacia dicha parte del primer modo del codificador (5).
- 10. Módulo (2,3) según la reivindicación 8 ó 9, en el que dicha parte del primer modo del codificador (5) comprende asimismo por lo menos una parte adicional de selección (16, 17, 18), la cual está adaptada para aplicar por lo menos una regla de selección adicional para seleccionar un modelo de codificación respectivo, destinado dicho modelo de codificación a ser usado por dicha parte de codificación (9) para codificar una sección específica de una señal de audio, en el que dicha por lo menos una regla de selección adicional no usa información sobre secciones de dicha señal de audio que preceden a dicha sección específica, y en el que dicha por lo menos una regla de selección adicional se aplica después de una conmutación desde dicha parte del segundo modo del codificador (4) a dicha parte del primer modo del codificador (5) por lo menos siempre que el número de secciones recibidas por dicha parte del primer codificador (5) sea menor que el número de secciones abarcadas por una ventana de análisis utilizada para dicha por lo menos una regla de selección la cual se basa en un análisis de características de la señal en una ventana de análisis.
- 11. Módulo (2,3) según una de las reivindicaciones 8 a 10, en el que dicha por lo menos una parte de selección (13, 14, 15) comprende una primera parte de selección (14) adaptada para aplicar una primera regla de selección la cual se basa en características de la señal que se han determinado en una ventana de análisis más corta y una segunda parte de selección (13) adaptada para aplicar una segunda regla de selección, la cual se basa en características de la señal que se han determinado en una ventana de análisis más larga, en el que dicha primera regla de selección se activa en cuanto dicha parte del primer modelo del codificador (5) ha recibido las suficientes secciones de dicha señal de audio para dicha ventana de análisis más corta después de una conmutación desde dicha parte del segundo modo del codificador (4) a dicha parte del primer modo del codificador (5), y en el que dicha segunda regla de selección se activa en cuanto dicha parte del primer modelo del codificador (5) ha recibido suficientes secciones de dicha señal de audio para dicha ventana de análisis más larga después de una conmutación desde dicha parte del segundo modo del codificador (4) a dicha parte del primer modo del codificador (5).
- 12. Dispositivo electrónico (1) que respalda una codificación de una señal de audio, comprendiendo dicho dispositivo electrónico (2,3):
- -
- una parte del primer modo del codificador (5) adaptada para codificar una sección respectiva de una señal de audio en un primer modo del codificador;
- -
- una parte del segundo modo del codificador (4) adaptada para codificar una sección respectiva de una señal de audio en un segundo modo del codificador;
- -
- unos medios de conmutación (6) para conmutar entre dicha parte del primer modo del codificador (5) y dicha parte del segundo modo del codificador (4);
- -
- comprendiendo dicha parte del primer modo del codificador (5) una parte de codificación (9) la cual está adaptada para codificar una sección respectiva de dicha señal de audio basándose en por lo menos dos modelos de codificación diferentes; y
- -
- comprendiendo asimismo dicha parte del primer modo del codificador (5) una parte de selección (13, 14, 15) adaptada para aplicar por lo menos una regla de selección con vistas a seleccionar un modelo de codificación específico, destinado dicho modelo de codificación a ser usado por dicha parte de codificación (9) para codificar dicha sección específica de una señal de audio, en el que dicha por lo menos una regla de selección se basa en características de la señal, las cuales se han determinado por lo menos parcialmente a partir de una ventana de análisis que abarca por lo menos una sección de una señal de audio que precede a dicha sección específica, y en el que dicha parte de selección (13, 14, 15) está adaptada para activar dicha por lo menos una regla de selección después de una conmutación realizada por dichos medios de conmutación (6) desde dicha parte del segundo modo del codificador (4) hacia dicha parte del primer modo del codificador (5) en respuesta a la recepción de por lo menos tantas secciones de dicha señal de audio como las correspondientes abarcadas por dicha ventana de análisis.
- 13. Dispositivo electrónico (1) según la reivindicación 12, que comprende asimismo un contador (12) adaptado para contar el número de secciones de dicha señal de audio, las cuales se suministran a dicha parte del primer modo del codificador (5) después de una conmutación desde dicha parte del segundo modo del codificador (4) hacia dicha parte del primer modo del codificador (5).
- 14. Dispositivo electrónico (1) según la reivindicación 12 ó 13, en el que dicha parte del primer modo del codificador (5) comprende asimismo por lo menos una parte adicional de selección (16, 17, 18), la cual está adaptada para aplicar por lo menos una regla de selección adicional para seleccionar un modelo de codificación respectivo, destinado dicho modelo de codificación a ser usado por dicha parte de codificación (9) para codificar una sección específica de una señal de audio, en el que dicha por lo menos una regla de selección adicional no usa información sobre secciones de dicha señal de audio que preceden a dicha sección específica, y en el que dicha por lo menos una regla de selección adicional se aplica después de una conmutación desde dicha parte del segundo modo del codificador (4) a dicha parte del primer modo del codificador (5) por lo menos siempre que el número de secciones recibidas por dicha parte del primer codificador (5) sea menor que el número de secciones abarcadas por una ventana de análisis utilizada para dicha por lo menos una regla de selección la cual se basa en un análisis de características de la señal en una ventana de análisis.
- 15. Dispositivo electrónico (1) según una de las reivindicaciones 12 a 14, en el que dicha por lo menos una parte de selección (13, 14, 15) comprende una primera parte de selección (14) adaptada para aplicar una primera regla de selección la cual se basa en características de la señal que se han determinado en una ventana de análisis más corta y una segunda parte de selección (13) adaptada para aplicar una segunda regla de selección, la cual se basa en características de la señal que se han determinado en una ventana de análisis más larga, en el que dicha primera regla de selección se activa en cuanto dicha parte del primer modelo del codificador (5) ha recibido las suficientes secciones de dicha señal de audio para dicha ventana de análisis más corta después de una conmutación desde dicha parte del segundo modo del codificador (4) a dicha parte del primer modo del codificador (5), y en el que dicha segunda regla de selección se activa en cuanto dicha parte del primer modelo del codificador (5) ha recibido suficientes secciones de dicha señal de audio para dicha ventana de análisis más larga después de una conmutación desde dicha parte del segundo modo del codificador (4) a dicha parte del primer modo del codificador (5).
- 16. Dispositivo electrónico (1) según la reivindicación 15, en el que una sección respectiva de dicha señal de audio se corresponde con una trama respectiva de la señal de audio que tiene una longitud de 20 ms, en el que dicha ventana más corta abarca una trama de la señal de audio para la cual se va a seleccionar un modelo de codificación y adicionalmente cuatro tramas anteriores de la señal de audio, y en el que dicha ventana más larga abarca una trama de la señal de audio para la cual se va a seleccionar un modelo de codificación y adicionalmente dieciséis tramas anteriores de la señal de audio.
- 17. Dispositivo electrónico (1) según una de las reivindicaciones 12 a 16, en el que dicha parte del primer modo del codificador (5) comprende asimismo una parte de determinación de características de la señal (11), la cual determina características de la señal de dicha señal de audio en una ventana de análisis respectiva y la cual suministra dichas características de la señal a dicha parte de selección (13, 14, 15), incluyendo dichas características de la señal una desviación estándar de valores relacionados con la energía en una ventana de análisis respectiva.
- 18. Dispositivo electrónico (1) según una de las reivindicaciones 12 a 17, en el que dicho primer modo del codificador es un modo ampliado de un códec ampliado de banda ancha multivelocidad adaptativa, estando adaptada dicha parte de codificación (9) de dicha parte del primer modo del codificador (5) para codificar secciones de una señal de audio basándose en un modelo de codificación de predicción lineal con excitación por código algebraico y adicionalmente basándose en un modelo de codificación por transformada, y en el que dicho segundo modo del codificador es un modo de banda ancha multivelocidad adaptativa correspondiente a dicho códec ampliado de banda ancha multivelocidad adaptativa, estando adaptada dicha parte del segundo modo del codificador (4) para codificar secciones de una señal de audio basándose en un modelo de codificación de predicción lineal con excitación por código algebraico.
- 19. Sistema de codificación de audio (1,2) que comprende un módulo (2,3) según una de las reivindicaciones 8 a 11 y un decodificador (20) para decodificar señales de audio, las cuales han sido codificadas por dicho módulo (2,3).
- 20. Sistema de codificación de audio (1,2) según la reivindicación 19, que comprende asimismo una parte del primer modo del codificador (5) adaptada para codificar una sección respectiva de una señal de audio en un primer modo del codificador.
- 21. Sistema de codificación de audio (1,2) según por lo menos una de las reivindicaciones 19 y 20, que comprende asimismo una parte del segundo modo del codificador (4) adaptada para codificar una sección respectiva de una señal de audio en un segundo modo del codificador.
- 22. Sistema de codificación de audio (1,2) según por lo menos una de las reivindicaciones 19 a 21, que comprende asimismo unos medios de conmutación (6) para conmutar entre dicha parte del primer modo del codificador (5) y dicha parte del segundo modo del codificador (4).
- 23. Producto de programa de software, en el que está almacenado un código de software para respaldar una codificación de una señal de audio, en el que hay disponibles por lo menos un primer modo del codificador y un segundo modo del codificador para codificar una sección respectiva de dicha señal de audio, en el que por lo menos dicho primer modo del codificador permite una codificación de una sección respectiva de dicha señal de audio basándose en por lo menos dos modelos de codificación diferentes, y en el que en dicho primer modo del codificador se habilita una sección de un modelo de codificación respectivo para codificar una sección específica de una señal de audio mediante por lo menos una regla de selección, la cual se basa en características de la señal que se han determinado a partir de una ventana de análisis, la cual abarca por lo menos una sección de dicha señal de audio que precede a dicha sección específica, realizando dicho código de software la siguiente etapa cuando se ejecuta en un componente de procesado (3) de un codificador (2):
- -
- activa dicha por lo menos una regla de selección después de una conmutación desde dicho segundo modo del codificador a dicho primer modo del codificador en respuesta a la recepción de por lo menos tantas secciones de dicha señal de audio como las correspondientes abarcadas por dicha ventana de análisis.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/IB2004/001579 WO2005112004A1 (en) | 2004-05-17 | 2004-05-17 | Audio encoding with different coding models |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2291877T3 true ES2291877T3 (es) | 2008-03-01 |
Family
ID=34957454
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES04733391T Expired - Lifetime ES2291877T3 (es) | 2004-05-17 | 2004-05-17 | Codificacion de audio con diferentes modelos de codificacion. |
Country Status (13)
| Country | Link |
|---|---|
| US (1) | US8069034B2 (es) |
| EP (1) | EP1747555B1 (es) |
| JP (1) | JP2007538281A (es) |
| CN (1) | CN1954365B (es) |
| AT (1) | ATE371926T1 (es) |
| AU (1) | AU2004319555A1 (es) |
| BR (1) | BRPI0418839A (es) |
| CA (1) | CA2566372A1 (es) |
| DE (1) | DE602004008676T2 (es) |
| ES (1) | ES2291877T3 (es) |
| MX (1) | MXPA06012578A (es) |
| TW (1) | TWI281981B (es) |
| WO (1) | WO2005112004A1 (es) |
Families Citing this family (33)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| AU2007206167B8 (en) * | 2006-01-18 | 2010-06-24 | Industry-Academic Cooperation Foundation, Yonsei University | Apparatus and method for encoding and decoding signal |
| US9159333B2 (en) | 2006-06-21 | 2015-10-13 | Samsung Electronics Co., Ltd. | Method and apparatus for adaptively encoding and decoding high frequency band |
| US7953595B2 (en) | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
| US7966175B2 (en) | 2006-10-18 | 2011-06-21 | Polycom, Inc. | Fast lattice vector quantization |
| FR2911228A1 (fr) * | 2007-01-05 | 2008-07-11 | France Telecom | Codage par transformee, utilisant des fenetres de ponderation et a faible retard. |
| KR100889750B1 (ko) * | 2007-05-17 | 2009-03-24 | 한국전자통신연구원 | 오디오 신호의 무손실 부호화/복호화 장치 및 그 방법 |
| BRPI0818042A8 (pt) | 2007-10-15 | 2016-04-19 | Lg Electronics Inc | Método e aparelho para processar um sinal |
| AU2008326956B2 (en) * | 2007-11-21 | 2011-02-17 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
| US8306233B2 (en) * | 2008-06-17 | 2012-11-06 | Nokia Corporation | Transmission of audio signals |
| ES3032483T3 (en) | 2008-07-11 | 2025-07-21 | Fraunhofer Ges Forschung | Method for decoding an audio signal and computer program |
| EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
| ES2657393T3 (es) * | 2008-07-11 | 2018-03-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y descodificador de audio para codificar y descodificar muestras de audio |
| EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
| ES2401487T3 (es) * | 2008-07-11 | 2013-04-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena |
| ES2683077T3 (es) * | 2008-07-11 | 2018-09-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada |
| KR20100007738A (ko) * | 2008-07-14 | 2010-01-22 | 한국전자통신연구원 | 음성/오디오 통합 신호의 부호화/복호화 장치 |
| FR2936898A1 (fr) * | 2008-10-08 | 2010-04-09 | France Telecom | Codage a echantillonnage critique avec codeur predictif |
| JP5629429B2 (ja) * | 2008-11-21 | 2014-11-19 | パナソニック株式会社 | オーディオ再生装置及びオーディオ再生方法 |
| KR101797033B1 (ko) | 2008-12-05 | 2017-11-14 | 삼성전자주식회사 | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 |
| JP4977157B2 (ja) | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
| EP3474279A1 (en) * | 2009-07-27 | 2019-04-24 | Unified Sound Systems, Inc. | Methods and apparatus for processing an audio signal |
| PL2473995T3 (pl) * | 2009-10-20 | 2015-06-30 | Fraunhofer Ges Forschung | Koder sygnału audio, dekoder sygnału audio, sposób dostarczania zakodowanej reprezentacji treści audio, sposób dostarczania dekodowanej reprezentacji treści audio oraz program komputerowy do wykorzystania w zastosowaniach z małym opóźnieniem |
| US8442837B2 (en) * | 2009-12-31 | 2013-05-14 | Motorola Mobility Llc | Embedded speech and audio coding using a switchable model core |
| CA2958360C (en) | 2010-07-02 | 2017-11-14 | Dolby International Ab | Audio decoder |
| WO2012048472A1 (en) * | 2010-10-15 | 2012-04-19 | Huawei Technologies Co., Ltd. | Signal analyzer, signal analyzing method, signal synthesizer, signal synthesizing method, windower, transformer and inverse transformer |
| US9514757B2 (en) | 2010-11-17 | 2016-12-06 | Panasonic Intellectual Property Corporation Of America | Stereo signal encoding device, stereo signal decoding device, stereo signal encoding method, and stereo signal decoding method |
| CN102208188B (zh) | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
| CN103295577B (zh) * | 2013-05-27 | 2015-09-02 | 深圳广晟信源技术有限公司 | 用于音频信号编码的分析窗切换方法和装置 |
| EP2881943A1 (en) * | 2013-12-09 | 2015-06-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal with low computational resources |
| US12424227B2 (en) * | 2020-11-05 | 2025-09-23 | Nippon Telegraph And Telephone Corporation | Sound signal refinement method, sound signal decode method, apparatus thereof, program, and storage medium |
| JP7764480B2 (ja) * | 2021-01-08 | 2025-11-05 | ヴォイスエイジ・コーポレーション | 音響信号の統合時間領域/周波数領域符号化のための方法およびデバイス |
| US20250063162A1 (en) * | 2021-12-15 | 2025-02-20 | Telefonaktiebolaget Lm Ericsson (Publ) | Adaptive predictive encoding |
| US20250069592A1 (en) * | 2023-08-24 | 2025-02-27 | Audio Technologies And Codecs, Inc. | Method and System for Low-Complexity Real-Time Multiclass Hierarchical Audio Classification |
Family Cites Families (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6471420B1 (en) * | 1994-05-13 | 2002-10-29 | Matsushita Electric Industrial Co., Ltd. | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections |
| US5751903A (en) * | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
| JPH09185397A (ja) * | 1995-12-28 | 1997-07-15 | Olympus Optical Co Ltd | 音声情報記録装置 |
| US6646995B1 (en) * | 1996-10-11 | 2003-11-11 | Alcatel Cit | Method of adapting the air interface and mobile radio system and corresponding base transceiver station, mobile station and transmission mode |
| US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
| US6167375A (en) * | 1997-03-17 | 2000-12-26 | Kabushiki Kaisha Toshiba | Method for encoding and decoding a speech signal including background noise |
| DE69926821T2 (de) * | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
| US7047185B1 (en) * | 1998-09-15 | 2006-05-16 | Skyworks Solutions, Inc. | Method and apparatus for dynamically switching between speech coders of a mobile unit as a function of received signal quality |
| US6640209B1 (en) * | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
| US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
| US6477502B1 (en) * | 2000-08-22 | 2002-11-05 | Qualcomm Incorporated | Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system |
| FR2825826B1 (fr) * | 2001-06-11 | 2003-09-12 | Cit Alcatel | Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede |
| US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
| CA2430923C (en) * | 2001-11-14 | 2012-01-03 | Matsushita Electric Industrial Co., Ltd. | Encoding device, decoding device, and system thereof |
| US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
| AU2003208517A1 (en) * | 2003-03-11 | 2004-09-30 | Nokia Corporation | Switching between coding schemes |
| KR100889750B1 (ko) * | 2007-05-17 | 2009-03-24 | 한국전자통신연구원 | 오디오 신호의 무손실 부호화/복호화 장치 및 그 방법 |
-
2004
- 2004-05-17 CA CA002566372A patent/CA2566372A1/en not_active Abandoned
- 2004-05-17 JP JP2007517466A patent/JP2007538281A/ja not_active Withdrawn
- 2004-05-17 AU AU2004319555A patent/AU2004319555A1/en not_active Abandoned
- 2004-05-17 EP EP04733391A patent/EP1747555B1/en not_active Expired - Lifetime
- 2004-05-17 AT AT04733391T patent/ATE371926T1/de not_active IP Right Cessation
- 2004-05-17 DE DE602004008676T patent/DE602004008676T2/de not_active Expired - Lifetime
- 2004-05-17 WO PCT/IB2004/001579 patent/WO2005112004A1/en not_active Ceased
- 2004-05-17 MX MXPA06012578A patent/MXPA06012578A/es not_active Application Discontinuation
- 2004-05-17 CN CN2004800430555A patent/CN1954365B/zh not_active Expired - Lifetime
- 2004-05-17 BR BRPI0418839-0A patent/BRPI0418839A/pt not_active IP Right Cessation
- 2004-05-17 ES ES04733391T patent/ES2291877T3/es not_active Expired - Lifetime
-
2005
- 2005-05-06 US US11/126,380 patent/US8069034B2/en active Active
- 2005-05-13 TW TW094115506A patent/TWI281981B/zh not_active IP Right Cessation
Also Published As
| Publication number | Publication date |
|---|---|
| MXPA06012578A (es) | 2006-12-15 |
| DE602004008676T2 (de) | 2008-06-05 |
| JP2007538281A (ja) | 2007-12-27 |
| EP1747555B1 (en) | 2007-08-29 |
| TW200604536A (en) | 2006-02-01 |
| EP1747555A1 (en) | 2007-01-31 |
| US8069034B2 (en) | 2011-11-29 |
| US20050261892A1 (en) | 2005-11-24 |
| AU2004319555A1 (en) | 2005-11-24 |
| ATE371926T1 (de) | 2007-09-15 |
| DE602004008676D1 (de) | 2007-10-11 |
| CA2566372A1 (en) | 2005-11-24 |
| TWI281981B (en) | 2007-06-01 |
| BRPI0418839A (pt) | 2007-11-13 |
| WO2005112004A1 (en) | 2005-11-24 |
| CN1954365A (zh) | 2007-04-25 |
| CN1954365B (zh) | 2011-04-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2291877T3 (es) | Codificacion de audio con diferentes modelos de codificacion. | |
| ES2338117T3 (es) | Codificacion de audio con diferentes longitudes de trama de codificacion. | |
| US7739120B2 (en) | Selection of coding models for encoding an audio signal | |
| ES2664185T3 (es) | Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal | |
| ES2805744T3 (es) | Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo | |
| ES2349554T3 (es) | Codificación de señales. | |
| ES2902587T3 (es) | Decodificador de audio y método para proporcionar una información de audio decodificada usando una ocultación de error que modifica una señal de excitación de dominio de tiempo | |
| ES2266003T3 (es) | Suavizador de la ganancia en un descodificador de señal de habla y audio de banda ancha. | |
| ES2983192T3 (es) | Codificador y decodificador de audio | |
| ES2625895T3 (es) | Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal | |
| ES2484794T3 (es) | Pos-filtro selectivo | |
| ES2269518T3 (es) | Metodo y sistema para generar ruido de confort en comunicaciones de voz. | |
| ES2396481T3 (es) | Método y aparato para codificación selectiva de señales en base al rendimiento del codificador de núcleo | |
| ES2924905T3 (es) | Procedimiento y aparato de extensión del ancho de banda | |
| ES2432625T3 (es) | Cálculo de máscara de escalamiento selectiva basado en detección de picos | |
| KR20080091305A (ko) | 서로 다른 코딩 모델들을 통한 오디오 인코딩 | |
| KR20070017378A (ko) | 서로 다른 코딩 모델들을 통한 오디오 인코딩 | |
| ES2261619T3 (es) | Metodo de generacion de tramas de ruido aceptable. | |
| HK1110111B (en) | Selection of coding models for encoding an audio signal | |
| KR20070017379A (ko) | 오디오 신호를 부호화하기 위한 부호화 모델들의 선택 |