ES2343862T3

ES2343862T3 - Metodos y disposiciones para un emisor y receptor de conversacion/audio.

Info

Publication number: ES2343862T3
Application number: ES06778434T
Authority: ES
Inventors: Stefan Bruhn
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2006-09-13
Filing date: 2006-09-13
Publication date: 2010-08-11
Anticipated expiration: 2026-09-13
Also published as: ATE463028T1; JP2010503881A; US8214202B2; WO2008031458A1; CN101512639B; EP2062255B1; US20090234645A1; EP2062255A1; DE602006013359D1; CN101512639A

Abstract

Un emisor de audio/conversación (105) que comprende un codificador de núcleo adaptado a una banda de frecuencia de una señal de audio/conversación de entrada, operando el codificador de núcleo sobre tramas de la señal de audio/conversación de entrada que comprende un número predeterminado de muestras, teniendo la señal de audio/conversación de entrada una primera frecuencia de muestreo, y comprendiendo la banda de frecuencia de núcleo hasta una frecuencia de corte, caracterizado porque el emisor de audio/conversación (105) comprende también: - un dispositivo de segmentación (110) adaptado para estimar una frecuencia de corte para cada segmento asociado con la longitud de segmento adaptativa y adaptado para transmitir información sobre la frecuencia de corte estimada a un descodificador. - un filtro de paso bajo (120) adaptado para filtrar cada segmento a la citada frecuencia de corte estimada, y un remuestreador (130) adaptado para remuestrear cada segmento filtrado a una segunda frecuencia de muestreo que corresponde a la frecuencia de corte del citado segmento filtrado con el fin de generar una trama de audio/conversación del número de muestras predeterminado para ser codificada por el citado codificador de núcleo (140).

Description

Métodos y disposiciones para un emisor y receptor de conversación/audio.

Campo técnico

La presente invención se refiere a un emisor y un receptor de conversación/audio. En particular, la presente invención se refiere a un códec de conversación/audio mejorado que proporciona una mayor eficiencia de codificación.

Antecedentes

La codificación de conversación/audio convencional se lleva a cabo mediante un códec de núcleo. Un códec implica un codificador y un descodificador. El códec de núcleo está adaptado para codificar/descodificar una banda de núcleo de la banda de frecuencia de señal, por lo que la banda de núcleo incluye las frecuencias esenciales de una señal hasta una frecuencia de corte, que, por ejemplo, es 3400 Hz en el caso de una conversación de banda estrecha. El códec de núcleo puede ser combinado con una bandwidth extension (BWE - Extensión de Banda Ancha), que maneja las altas frecuencias por encima de la banda de núcleo y por encima de la frecuencia de corte. La BWE se refiere a un tipo de método que aumenta el espectro de frecuencias (ancho de banda) en el receptor por encima del espectro del ancho de banda de núcleo. La ganancia con la BWE es que puede realizarse habitualmente sin ninguna o muy pequeña velocidad de bits extra sumada a la velocidad de bits del códec de núcleo. El punto de frecuencia que marca la frontera entre la banda de núcleo y las altas frecuencias manejadas por la extensión de ancho de banda se llama en esta memoria frecuencia de cruce o frecuencia de corte.

El aumento de frecuencia es un método, disponible por ejemplo en el códec de audio Adaptative MultiRate-WideBand+ (AMR-WB+) en el códec de 3GPP TS 26.290 Extended Adaptative MultiRate - Wideband (AMR-WB+); Funciones de Transcodificación), que permite operar el códec a una frecuencia de muestreo interna modificada, incluso aunque fue diseñado originariamente para una frecuencia interna fija de 25,6 kHz. Cambiar la frecuencia de muestreo interna permite escalar la velocidad de bits, el ancho de banda y la complejidad con el factor de aumento de frecuencia, como se explica a continuación. Esto permite operar el códec de una manera muy flexible dependiendo de los requisitos de la velocidad de bits, del ancho de banda y de la complejidad. Por ejemplo si se necesita una velocidad de bits muy baja, puede usarse un factor de aumento de frecuencia (= disminución de frecuencia), lo que al mismo tiempo significa que el ancho de banda de audio codificado y la complejidad se reducen. Por otro lado, si se desea una calidad de codificación muy elevada, se usa un factor de aumento de frecuencia alto que permite codificar un ancho de banda de audio grande a costa de una mayor velocidad de bits y una mayor complejidad.

El aumento de la frecuencia en el lado del codificador se lleva a cabo usando un remuestreador flexible en el extremo frontal del codificador, que convierte la velocidad de muestreo de audio original de la señal de salida (por ejemplo 44,1 kHz) en una frecuencia de muestreo interna arbitraria, que se desvía de la frecuencia de muestreo interna nominal en un factor de aumento de frecuencia. El algoritmo de codificación real opera sobre una trama de señal fija (que contiene un número de muestras pre-definido) muestreada a la frecuencia de muestreo interna; por ello es en principio independiente de cualquier aumento de frecuencia. No obstante, varios atributos de códec son escalados por un factor de aumento de frecuencia, tal como la velocidad de bits, la complejidad, el ancho de banda y la frecuencia de cruce.

Sería deseable usar el método de aumento de frecuencia mencionado anteriormente con el fin de alcanzar una mayor eficiencia de codificación. Esto llevaría a una mejor calidad de señal a la misma velocidad de bits o a una menor velocidad de bits aun manteniendo el mismo nivel de calidad.

La patente de US 7050972 describe un método para un sistema de codificación de audio que adaptativamente en el tiempo ajusta la frecuencia de cruce entre un códec de núcleo para la codificación de una banda de frecuencia más baja y un sistema de regeneración de frecuencia, llamado también extensión de ancho de banda en esta memoria, de una banda de frecuencia mayor. Se describe también que la adaptación puede llevarse a cabo en respuesta a la capacidad del códec de núcleo de codificar adecuadamente la banda de frecuencia baja.

No obstante, la US 7050972 no proporciona medios para aumentar la eficiencia de codificación del códec de núcleo, es decir, que opera a una frecuencia de muestreo menor. El método se dirige meramente a mejorar la eficiencia del sistema de codificación total adaptando el ancho de banda que va a ser codificado por el códec de núcleo de manera que se asegura que el códec de núcleo puede codificar adecuadamente su banda. Por ello, el propósito es alcanzar una tasa de rendimiento óptima entre el núcleo y la extensión de ancho de banda en lugar de hacer cualquier intento que haría al códec de núcleo más eficiente.

La solicitud de patente (WO-2005096508) describe otro método que comprende un módulo de extensión de banda, un módulo de remuestreo y un códec de núcleo que comprende un módulo analizador de acústica psicológico, un módulo de mapeo de tiempo-frecuencia, un módulo de cuantificación, un módulo de codificación de entropía. El módulo de extensión de banda analiza las señales de audio introducidas originales en todo el ancho de banda, extrae la envoltura espectral de la parte de alta frecuencia y los parámetros que caracterizan la dependencia entre las partes más bajas y más altas del espectro. El módulo de remuestreo remuestrea las señales de audio introducidas, cambia la velocidad de muestreo y las extrae hacia el códec de núcleo.

No obstante, la solicitud de patente (WO-2005096508) no contiene provisiones que permitirían adaptar la operación del módulo de remuestreo dependiendo de algún análisis de la señal de entrada. Además, no se prevén medios de segmentación adaptativos de la señal de entrada original, que permitirían mapear un segmento de entrada después de un remuestreo adaptativo sobre una trama de entrada de un códec de núcleo subsiguiente, conteniendo la trama de entrada un número de muestras predefinido. La consecuencia de esto es que no puede asegurarse que el códec de núcleo opere a la velocidad de muestreo de señal más baja posible y por ello, la eficiencia del sistema de codificación global no es tan alta como sería deseable.

Otro ejemplo de tal técnica anterior es la solicitud de patente (US 2006 161 427).

La publicación C. Shahabi et al.: A comparison of different haptic compression techniques; ICME 2002 describe un sistema de muestreo adaptativo para datos hápticos que operan en tramas de datos, que periódicamente identifica la frecuencia de Nyquist para la ventana de datos y subsiguientemente remuestrea los datos a esta frecuencia. La frecuencia de muestreo se elige por razones prácticas de acuerdo con una frecuencia de corte, por encima de la cual la energía de la señal puede ser despreciada.

El problema con la solución descrita en la publicación C. Shahabi et al. mencionada anteriormente es que no proporciona ninguna ganancia en el contexto de la codificación de conversación y de audio. Para el muestreo de datos hápticos puede ser apropiado un criterio correspondiente al contenido de energía relativa por encima de la frecuencia de corte (por ejemplo 1%), que se dirige a mantener una representación exacta de los datos a la menor velocidad de muestreo posible. No obstante, en el contexto de la codificación de conversación y audio, normalmente existen restricciones fijas en la frecuencia de muestreo de entrada o de salida que implican que la señal original es filtrada primeramente con un filtro de paso bajo a una frecuencia de corte fija y subsiguientemente muestreada por disminución hasta la frecuencia de muestreo requerida de por ejemplo 8, 16, 32, 44,1 ó 48 kHz. Por ello, el ancho de banda de la señal de conversación o de audio está ya artificialmente limitado a una frecuencia de corte fija. Una adaptación subsiguiente de la frecuencia de muestreo de acuerdo con el método de esta publicación no funcionaría generalmente puesto que sólo conduciría a una frecuencia de muestreo fija en lugar de adaptativa como consecuencia de la frecuencia de corte fijada artificialmente.

Sin embargo, incluso en el caso en el que el ancho de banda está limitado artificialmente, dependiendo de las propiedades de percepción locales (en tiempo) de la señal de audio, el impacto de la limitación del ancho de banda no siempre es percibido de la misma manera. Para ciertas partes (segmentos) de la señal, en las cuales las altas frecuencias son apenas perceptibles, por ejemplo debido al enmascaramiento por el contenido en baja frecuencia dominante, sería posible un filtrado de paso bajo más agresivo y un muestreo a una frecuencia de muestreo baja de manera correspondiente. Por ello, los sistemas de codificación de conversación y audio operan sobre una frecuencia de muestreo localmente demasiado elevada con respecto a la motivada perceptualmente y así ponen en peligro la eficiencia de la codificación.

Resumen

El objeto de la presente invención es proporcionar métodos y disposiciones para mejorar la eficiencia de codificación en un códec de conversación/audio.

De acuerdo con la presente invención una mayor eficiencia de codificación se logra adaptando localmente (en tiempo) la frecuencia de muestreo y asegurando que no sea mayor de lo necesario.

De acuerdo con un primer aspecto, la presente invención se refiere a un emisor de audio/conversación que comprende un codificador de núcleo adaptado para codificar una banda de frecuencia de núcleo de una señal de audio/conversa-
ción de entrada. Operando el codificador de núcleo sobre tramas de la señal de audio/conversación de entrada que comprenden un número pre-determinado de muestras. Teniendo la señal de audio/conversación de entrada una primera frecuencia de muestreo y comprendiendo la banda de frecuencia de núcleo frecuencias hasta una frecuencia de corte. El emisor de audio/conversación de acuerdo con la presente invención comprende un dispositivo de segmentación adaptado para llevar a cabo una segmentación de la señal de audio/conversación de entrada en una pluralidad de segmentos, en el que cada segmento tiene una longitud de segmento adaptativa, un estimador de frecuencia de corte adaptado para estimar una frecuencia de corte para cada segmento asociado con la longitud de segmento adaptativa y adaptado para transmitir información sobre la frecuencia de corte estimada a un descodificador, un filtro de paso bajo adaptado para filtrar cada segmento a citada la frecuencia de corte estimada, y un remuestreador adaptado para remuestrear los segmentos filtrados a una segunda frecuencia de muestreo correspondiente a la citada frecuencia de corte, con el fin de generar una trama de audio/conversación del número de muestras predeterminado para ser codificadas por el citado codificador de núcleo.

Preferiblemente, el estimador de frecuencia de corte está adaptado para hacer un análisis de las propiedades de un segmento de entrada dado de acuerdo con un criterio perceptual, para determinar la frecuencia de corte que se va a usar para el segmento dado basándose en el análisis. Además, el estimador de frecuencia de corte puede estar también adaptado para proporcionar una estimación cuantificada de la frecuencia de corte, de manera que sea posible reajustar la segmentación basándose en la citada estimación de la frecuencia de corte.

\newpage

De acuerdo con un segundo aspecto de la presente invención, se proporciona un receptor de audio/conversación adaptado para descodificar una señal de audio/conversación codificada recibida. El receptor de audio/conversación comprende un remuestreador adaptado para remuestrear una trama de audio/conversación descodificada usando información de una estimación de frecuencia de corte para generar un segmento de conversación de salida, en el que la citada información es recibida de un emisor de audio/conversación que comprende un estimador de frecuencia de corte adaptado para generar y transmitir la citada información.

De acuerdo con un tercer aspecto, la presente invención se refiere a un método en un emisor de audio/conversación. El método comprende las etapas de segmentación de una señal de audio/conversación de entrada en una pluralidad de segmentos, en la que cada segmento tiene una longitud de segmento adaptativa, estimar una frecuencia de corte para cada segmento asociada con la longitud de segmento adaptativa y adaptado para transmitir información sobre la frecuencia de corte estimada a un descodificador, filtrar con un filtro de paso bajo cada segmento a la citada frecuencia de corte estimada, y remuestrear los segmentos filtrados a una segunda frecuencia de muestreo correspondiente a la citada frecuencia de corte con el fin de generar una trama de audio/conversación del número de muestras predeterminado para ser codificadas por el citado codificador de núcleo.

De acuerdo con un cuarto aspecto, la presente invención se refiere a un método en un receptor de audio/conversación para descodificar una señal de audio/conversación codificada recibida. El método comprende la etapa de remuestrear una trama de audio/conversación descodificada usando información de la estimación de la frecuencia de corte para generar un segmento de audio/conversación de salida, en el que la citada información es recibida desde un emisor de audio/conversación que comprende un estimador de frecuencia de corte adaptado para generar y transmitir la citada información.

De este modo, usando los métodos mencionados anteriormente es posible aumentar la eficiencia de la codificación.

De acuerdo con una realización de la invención, otro aumento de la eficiencia se logra junto con la BWE. Esto permite mantener el ancho de banda y por ello la velocidad de bits del códec de núcleo en un mínimo y al mismo tiempo asegurar que el códec de núcleo opera con datos muestreados críticamente (Nyquist).

Una ventaja con la presente invención es que en las aplicaciones con conmutación de paquetes que usan IP/UDP/
RTP, la transmisión de la frecuencia de corte requerida es gratis puesto que puede ser indicada indirectamente usando los campos de marcación de tiempo. Esto asume que preferiblemente la organización en paquetes se lleva a cabo de manera que un paquete de IP/UDP/RTP corresponde a un segmento codificado.

Otra ventaja con la presente invención es que puede usarse para VoIP junto con los códecs de conversación existentes, por ejemplo AMR como códec de núcleo, puesto que el formato de transporte (por ejemplo RFC 3267) no está afectado.

Breve descripción de los dibujos

La Fig. 1 muestra un códec que ilustra esquemáticamente el concepto básico de la presente invención.

La Fig. 2 muestra el códec de la figura 1 con extensión de ancho de banda.

La Fig. 3 muestra la operación de la presente invención con extensión de ancho de banda en el dominio del residuo de LPC.

La Fig. 4 ilustra la segmentación alineada en altura, que se usa en una realización de la presente invención.

La Fig. 5 es un diagrama de flujo del método de acuerdo con la presente invención.

La Fig. 6 ilustra la realización de bucle cerrado.

Descripción detallada

En la siguiente descripción, con el propósito de explicación y no de limitación, se explican detalles específicos, tales como secuencias particulares de etapas, protocolos de señalización y configuraciones de dispositivos con el fin de proporcionar una completa comprensión de la presente invención. Resultará evidente para un experto que la presente invención puede ser practicada en otras realizaciones que se separan de estos detalles específicos.

Además, los expertos apreciarán que las funciones explicadas en lo que sigue pueden ser implementadas usando funciones de software junto con un microprocesador programado o un ordenador de propósito general, y/o usando un application specific integrated circuit (ASIC - Circuito Integrado Específico para una Aplicación). Resultará también evidente que mientras que la invención actual se ha descrito en primer lugar en forma de métodos y dispositivos, la invención puede ser también realizada en un producto de programa de ordenador así como en un sistema que comprenda un procesador de ordenador y una memoria acoplada al procesador, en el que la memoria sea codificada con uno o más programas que puedan llevar a cabo las funciones explicadas aquí.

El concepto básico de la invención es dividir una señal de conversación/audio que va a ser transmitida en segmentos de una cierta longitud. Para cada segmento un estimador de frecuencia de corte orientado perceptualmente deriva la localmente (por segmento) adecuada frecuencia de corte fc, lo que conduce a una pérdida de calidad perceptual definida. Esto implica que el estimador de frecuencia de corte está adaptado para seleccionar una frecuencia de corte tal que haga la distorsión de señal debida a la limitación en banda de manera que una persona las percibiría como por ejemplo tolerables, apenas audibles, inaudibles.

La figura 1 ilustra un emisor 105 y un receptor 165 de acuerdo con la presente invención. Un dispositivo de segmentación 110 divide la señal de conversación entrante en segmentos y un estimador de frecuencia de corte deriva una frecuencia de corte para cada segmento, preferiblemente basándose en un criterio perceptual. Los criterios perceptuales se dirigen a imitar la percepción humana y se aplican frecuentemente en la codificación de una señal de conversación y audio. La codificación de acuerdo con un criterio perceptual significa realizar la codificación aplicando un modelo psicoacústico de la audición. El modelo psicoacústico determina un perfil de conformación de ruido de objetivo al cual el ruido de codificación se adapta en forma de manera que los errores de cuantificación (o codificación) son menos audibles para un oído humano. Un modelo psicoacústico simple es parte de muchos codificadores de conversación que aplican un filtrado ponderado perceptual durante la determinación de la señal de excitación del filtro mediante síntesis por LPC. Los códecs de audio normalmente aplican modelos psicoacústicos más sofisticados que pueden comprender enmascaramiento de frecuencia, lo que, por ejemplo, hace que los componentes espectrales de baja energía estén cerca de los componentes espectrales de alta energía inaudibles. La modelización psicoacústica es bien conocida para los expertos en la codificación de conversación y de audio. Los segmentos son a continuación filtrados mediante un filtro de paso bajo 120 de acuerdo con la frecuencia de corte. Un remuestreador 130 subsiguientemente remuestrea el segmento con una frecuencia (por ejemplo 2fc) que está elegida de acuerdo con la frecuencia de corte perceptual, conduciendo a una trama 135. Esta frecuencia es transmitida al receptor 165 bien sea directa o indirectamente por medio de la longitud del segmento. La longitud del segmento a su vez corresponde a la diferencia de marcación de tiempo entre dos paquetes sucesivos, asumiendo que se usa un protocolo de transporte de IP/UDP/RTP o similar y que se transmite un segmento codificado por paquete. Puede observarse también que la relación entre la longitud del segmento l_{s} y f_{c} es: l_{s} = n_{f}/2f_{c} donde n_{f} es igual a la longitud de trama en las muestras. La trama es un vector de muestras de entrada al codificador, sobre el que opera el codificador. La trama es así codificada por el codificador 140 de un códec de conversación o audio arbitrario y transmitida sobre el canal 170. En el receptor 165, la trama codificada es descodificada usando el descodificador 150. La trama descodificada es remuestreada en el remuestreador 160 a la frecuencia de muestreo original, lo que lleva a un segmento reconstruido 175. Para ello la frecuencia que se ha usado para el remuestreo (por ejemplo 2fc) tiene que estar disponible en el receptor 165 como se ha indicado anteriormente.

De acuerdo con una realización, la frecuencia de muestreo utilizada es transmitida directamente como un parámetro de información lateral. Típicamente, con el fin de limitar la velocidad de bits requerida para ello, debe llevarse a cabo una cuantificación y una codificación de este parámetro. Por ello, el bloque estimador de segmentación y de frecuencia de corte comprende una entidad de cuantificación y de codificación para él. Una realización típica es usar un cuantificador escalar y para restringir el número de posibles frecuencias de corte a un número pequeño de por ejemplo 2 ó 4, en cuyo caso es posible una codificación de uno o de dos bits.

De acuerdo con realizaciones alternativas, la frecuencia de muestreo utilizada es transmitida mediante señalización indirecta por medio de la segmentación. Una manera es señalar la longitud del segmento elegido (y cuantificado). Típicamente, la frecuencia de corte es derivada de la longitud del segmento por medio de la relación f_{c} = n_{f}/2l_{s}, que relaciona la longitud del segmento l_{s} con la frecuencia de corte f_{c} y la longitud de trama en las muestras n_{f}. Otra posibilidad indirecta es transmitir la frecuencia de muestreo utilizada indirectamente usando las marcas de tiempo de la primera muestra de un paquete de IP/UDP/RTP y de la primera muestra del paquete subsiguiente, donde se asume que la organización en paquetes se lleva a cabo con un segmento codificado por paquete. De este modo, el estimador de frecuencia de corte 110 está adaptado para transmitir información sobre la frecuencia de corte estimada a un descodificador 150 directamente como un parámetro de información lateral o bien esté adaptado también para transmitir información sobre la frecuencia de corte estimada a un descodificador 150 indirectamente usando instantes de tiempo de una primera muestra del segmento actual y una primera muestra de un segmento subsiguiente.

Otra manera de señalización indirecta es utilizar la velocidad de bits asociada con cada segmento para señalización. Asumiendo una configuración en la cual está disponible una velocidad de bits constante para la codificación de cada trama, una baja velocidad de bits (por intervalo de tiempo) corresponde a un segmento largo y por ello a una frecuencia de corte baja y vice-versa. Otra manera más es asociar los instantes de tiempo de transmisión para los segmentos codificados con sus instantes de tiempo de finalización o con los instantes de tiempo de inicio de los respectivos siguientes segmentos. Por ejemplo cada segmento codificado se transmite un tiempo pre-definido después de su tiempo de finalización. A continuación, siempre que la transmisión no introduzca una fluctuación de retardo grande, las respectivas longitudes de segmento pueden ser derivadas basándose en los tiempos de llegada de los segmentos codificados en el receptor.

La derivación de una frecuencia de corte perceptual y de una segmentación adaptativa de la señal de entrada original se muestra como ejemplo mediante el siguiente procedimiento:

1. Empezar con alguna longitud de segmento inicial l_{0} que puede ser un valor pre-definido (por ejemplo 20 ms) o puede estar basado en la longitud del segmento previo.

2. Extraer un segmento con longitud l_{0} empezando con la primera muestra que sigue al final del segmento previo y proporcionarla al estimador de frecuencia de corte perceptual.

3. El estimador de frecuencia de corte realiza un análisis de frecuencia del segmento, que puede estar basado por ejemplo en un análisis mediante LPC, en aluna transformada del dominio de la frecuencia como la FTT o usando baterías de filtros.

4. Calcular y aplicar un criterio perceptual, que proporciona una indicación del impacto perceptual (audible) de una limitación en banda de la señal de entrada. Preferiblemente, esto tiene en cuenta el ruido de codificación que puede ser introducido por una codificación subsiguiente (incluyendo una posible BWE). En particular, en el caso de un elevado ruido de codificación (por ejemplo como consecuencia de una baja velocidad de bits), el impacto perceptual de una limitación en banda de la señal de entrada será menor y por ello una mayor limitación en banda será más tolerable.

5. Determinar la frecuencia f_{c} a la cual el contenido espectral necesita ser mantenido con el fin de satisfacer un nivel de calidad predefinido de acuerdo con el criterio perceptual calculado.

6. Reajustar la longitud del segmento basándose en f_{c} de acuerdo con la relación entre la frecuencia de corte y la longitud del segmento, que es típicamente l_{f} = n_{f}/2f_{c}, donde n_{f} es la longitud de trama del códec subsiguiente.

7. Finalización: el algoritmo de segmentación finaliza y propaga el segmento y la frecuencia de corte identificada a los bloques de tratamiento subsiguientes. Alternativamente, la segmentación puede ser revisada si la longitud del segmento encontrado l_{f} se desvía más de una distancia predefinida de la longitud del segmento inicial l_{0}. En este caso, con el fin de aumentar la exactitud de la estimación de la frecuencia de corte, el algoritmo es introducido de nuevo en la etapa 2, con una nueva longitud de segmento inicial l_{0} = l_{f}.

Nota: Si la frecuencia de corte es cuantificada y codificada, entonces el procedimiento se restringe preferiblemente a considerar sólo longitudes de segmento que son posibles y que se toman del conjunto discreto de frecuencias de corte que son posibles tras la cuantificación. Asumiendo que tras la cuantificación puede señalarse un conjunto discreto de P frecuencias de corte F={f_{c}(i)} i=1...P, y a continuación las etapas 1, 6 y 7 deben modificarse de manera que las longitudes de segmento se tomen de un conjunto discreto L de longitudes de segmento {l(i)} i=1...P. El conjunto L a su vez se corresponde con el conjunto F por medio de la relación entre la longitud del segmento y la frecuencia de corte.

Debe observarse que los estados del códec interno resultan afectados cuando se modifica la frecuencia de muestreo a la cual el códec es operado. Estos estados tienen por ello que convertirse de una frecuencia de muestreo utilizada previamente a la frecuencia de corte de muestreo modificada. Típicamente, en el caso de que el códec tenga estados en el dominio del tiempo, esta conversión de velocidad de muestreo de los estados puede llevarse a cabo muestreándolos de nuevo a la frecuencia de muestreo cambiada.

La figura 2 muestra la presente invención en combinación con un dispositivo de bandwidth extension (BWE - Extensión de Ancho de Banda) 190. El uso del dispositivo de extensión de ancho de banda 190 en asociación con el descodificador de núcleo 150 permite reducir la frecuencia de corte perceptual efectiva para el códec de núcleo en tal grado que un dispositivo de BWE en el receptor puede aun reconstruir adecuadamente el contenido de alta frecuencia eliminado. Mientras que el códec de núcleo codifica/descodifica una banda de baja frecuencia hasta la frecuencia de corte fc, el dispositivo de BWE 190 contribuye con regenerar la banda superior que varía de fc a fs/2. Un dispositivo codificador de BWE 180 puede ser también implementado en asociación con el codificador de núcleo 140 como se ilustra en la figura 2.

En relación y a diferencia del método de la patente US 705 09 72, esta realización lleva a cabo una adaptación de la frecuencia de muestreo del códec de núcleo. Y por ello asegura la operación del códec de núcleo lo más eficientemente posible con datos muestreados críticamente. También, en contraste con US 705 09 72, que se refiere a la velocidad de muestreo a la cual el códec opera, la invención no cambia ni adapta la frecuencia de cruce de la BWE. Aunque la invención asume que el codificador de núcleo opera en toda la banda de frecuencia hasta la frecuencia de corte, la patente US 705 09 72 prevé un codificador de núcleo que tiene una frecuencia de cruce variable.

La presente invención puede ser implementada en una realización de bucle abierto y en una de bucle cerrado.

En la realización de bucle abierto el estimador de frecuencia de corte realiza un análisis de las propiedades del segmento de entrada dado de acuerdo con el mismo criterio perceptual. Determina la frecuencia de corte que se va a usar para un segmento dado basándose en este análisis y posiblemente basándose en alguna suposición del rendimiento del códec de núcleo y en la BWE. Específicamente, este análisis se lleva a cabo en la etapa 4 del procedimiento de segmentación y de frecuencia de corte.

En la realización de bucle cerrado, mostrada en la figura 6, la etapa 4 del procedimiento de segmentación y frecuencia de corte implica una versión local del descodificador de núcleo 601, BWE 602, muestreador por aumento 603 y combinador de banda (punto de adición) 604, que lleva a cabo una reconstrucción 605 completa de la señal recibida que puede ser generada por el receptor. Subsiguientemente un calculador 606 de distorsión de codificación compara la señal reconstruida con la señal de conversación de entrada original de acuerdo con algún criterio de fidelidad, que de nuevo típicamente implica un criterio perceptual. Si la señal reconstruida no es suficientemente buena de acuerdo con el citado criterio de fidelidad, el estimador de frecuencia de corte 607 está adaptado para ajustar la frecuencia de corte y por ello la velocidad de bits consumida por intervalo de tiempo de manera que la distorsión de codificación determinada por la unidad de cálculo de distorsión de codificación 606 permanece dentro de los límites pre-definidos. Si, por otro lado, la calidad de señal es demasiado buena, esto es una indicación de que se invierte demasiada velocidad de bits por segmento. Por ello, la longitud del segmento puede aumentar, correspondiendo a una frecuencia de corte y velocidad de bits menor. Debe observarse que el esquema de bucle cerrado funciona igualmente bien en otra realización como se ha descrito anteriormente pero sin el uso de ninguna BWE.

En una realización similar, un esquema de BWE primaria puede ser asumido como parte del códec de núcleo. En este caso, puede ser apropiado emplear una BWE secundaria, que de nuevo extiende la banda de reconstrucción de fc a fs/2 y que corresponde al bloque de la BWE 190 de la figura 2.

Hay algunos factores generales que pueden preferiblemente influenciar la selección de la frecuencia de segmentación y de corte:

\bullet Señal de entrada de fuente

La clase de la señal (conversación, música, mezcla, inactividad) que puede ser obtenida basándose en alguna decisión del detector (por ejemplo que implica un detector de actividad de música/voz) o basándose en un conocimiento a priori (derivado de meta-datos) de los medios que se van a codificar.

La condición de ruido de la señal de entrada obtenida de algún detector. Por ejemplo, en presencia de ruido de ambiente, la frecuencia de corte puede ser ajustada a la baja con el fin de reducir la cantidad de este componente no deseado de la señal y por ello elevar la calidad general. También, reducir la frecuencia de corte en respuesta a la condición de ruido de ambiente es una medida para reducir la pérdida de recurso de transmisión (velocidad de bits) para componentes de señal no deseados.

\bullet Velocidad de bits de objetivo

La frecuencia de corte puede depender de la velocidad de bits de objetivo (posiblemente) variable con el tiempo para la codificación. Típicamente, una velocidad de bits de objetivo más baja llevará a una frecuencia de corte más baja y vice-versa.

\bullet Información desde el extremo receptor

La frecuencia de corte puede depender del conocimiento de las propiedades del canal de transmisión y de las condiciones en el extremo receptor, el cual se obtiene típicamente por medio de algún canal de señalización de retorno. Por ejemplo, una indicación de un mal canal de transmisión puede llevar a disminuir la frecuencia de corte con el fin de reducir el contenido de la señal espectral que puede estar afectada por errores de transmisión y para mejorar con ello la calidad percibida en el receptor. También, una reducción de la frecuencia de corte puede corresponder a una reducción de la velocidad de bits consumida, lo que tiene un efecto positivo en el caso de una condición de congestión en la red de transporte.

Otra información desde el extremo receptor puede comprender información sobre la capacidad del terminal del extremo receptor y las condiciones de reproducción de la señal. Una indicación por ejemplo de una reconstrucción de señal de baja calidad en el receptor puede llevar a reducir la frecuencia de corte con el fin de evitar la pérdida de velocidad de bits de transmisión.

De acuerdo con otra realización la presente invención se aplica con Linear Predictive Coding (LPC - Codificación de Predicción Lineal) como se ilustra en la figura 3. La figura 3 ilustra un emisor y un receptor como se describen junto con la figura 2. Específicamente, un análisis mediante LPC es llevado a cabo por un dispositivo de LPC 301 que es una redundancia para eliminar el dispositivo de predicción adaptativo. El dispositivo de LPC 301 puede estar situado antes del filtrado de paso bajo 120 y tras el estimador de la segmentación y de la frecuencia de corte 110 o bien antes del estimador de la segmentación y de la frecuencia de corte 110 que lleva al residuo de LPC que es proporcionado al dispositivo de remuestreo (es decir el filtro de paso bajo y el muestreador por reducción). El residuo de LPC es la entrada (de conversación) filtrada por el filtro de análisis mediante LPC. Se llama también señal de error de predicción mediante LPC. El receptor genera la señal de salida final por medio de la síntesis mediante LPC inverso que filtra la señal obtenida por el combinador de banda (es decir un punto de adición). Los parámetros de LPC 303 que describen la envoltura espectral del segmento y posiblemente un factor de ganancia son transmitidos al receptor para la síntesis mediante LPC 302 como información lateral adicional. El beneficio con este planteamiento -puesto que el análisis mediante LPC se lleva a cabo a la velocidad de muestreo f_{s} original y antes del remuestreo- que proporciona al receptor una descripción exacta de la envoltura de muestreo completa (es decir que incluye la banda de BWE de la realización anterior) hasta fs/2 en lugar de sólo f_{c} que sería el caso si la LPC fuese sólo parte del códec de núcleo. El planteamiento descrito con LPC tiene el efecto positivo de que la BWE puede incluso ser tan simple como un esquema por ejemplo que comprende meramente un generador de ruido blanco complejo simple y bajo, una carpeta espectral o un desviador de frecuencia (modulador).

De acuerdo con otra realización, la frecuencia de corte y la correspondiente frecuencia de remuestreo de señal 2f_{c} son seleccionadas basándose en una estimación de frecuencia de altura. Esta realización hace uso del hecho de que la conversación de voz es altamente periódica con la altura de la frecuencia fundamental, lo que tiene su origen en la excitación periódica de la glotis durante la generación de la conversación de voz humana. La segmentación y por ello la frecuencia de corte es ahora elegida de manera que cada segmento 401 contenga un periodo o un múltiplo entero de periodos de la señal de conversación de acuerdo con la figura 4. De manera más específica, típicamente la frecuencia fundamental de conversación está en el intervalo de aproximadamente 100 a 400 Hz, lo que corresponde a periodos de 10 ms hasta 2,5 ms. Si la señal de conversación no tiene voz carece de periodicidad con una frecuencia de altura. En ese caso la segmentación puede ser realizada de acuerdo con una elección fijada de la frecuencia de remuestreo o, preferiblemente, la selección de la segmentación y de la frecuencia de corte se lleva a cabo de acuerdo con cualquiera de las reivindicaciones de este documento.

Una segmentación correspondiente permite una operación síncrona en altura que puede hacer que el algoritmo de codificación sea más eficiente puesto que la periodicidad de la conversación puede ser explotada más fácilmente y la estimación de varios parámetros estadísticos de la señal de conversación (tales como parámetros de ganancia o e LPC) se hace más consistente.

Como se ha explicado anteriormente, la presente invención se refiere a un emisor de audio/conversación y a un receptor de audio/conversación. Además, la presente invención se refiere también a métodos para un emisor de audio/conversación y para un receptor de audio/conversación. Una realización del método en el emisor se ilustra en el diagrama de flujo de la figura 5a y comprende las etapas de:

501. Llevar a cabo una segmentación inicial de la señal de conversación de entrada en una pluralidad de segmentos.

502. Estimar una frecuencia de corte para cada segmento y adaptada para transmitir información sobre la frecuencia de corte estimada a un descodificador.

502a. Reajustar la segmentación basándose en las estimaciones de la frecuencia de corte. Si la nueva segmentación se desvía más de un umbral de la previa volver a la etapa 502.

503. Filtrar mediante un filtro de paso bajo cada segmento y la citada frecuencia de corte estimada.

504. Remuestrear los segmentos filtrados con una segunda frecuencia de muestreo correspondiente a la citada frecuencia de corte con el fin de generar una trama de conversación para ser codificada por el citado codificador de núcleo.

El método en el receptor se ilustra en el diagrama de flujo de la figura 5b y comprende la etapa de:

505. Remuestrear la trama de conversación descodificada usando información de una estimación de frecuencia de corte para generar un segmento de conversación de salida, en el que la citada información es recibida desde un emisor de audio/conversación que comprende un estimador de frecuencia de corte adaptado para estimar y transmitir la citada información.

Aunque la presente invención se ha descrito con respecto a realizaciones particulares (que incluyen ciertas disposiciones de dispositivo y ciertas órdenes de etapas dentro de varios métodos), los expertos reconocerán que la presente invención no está limitada a las realizaciones específicas descritas e ilustradas aquí. Por lo tanto, debe entenderse que esta descripción es sólo ilustrativa. De acuerdo con esto, se pretende que la invención esté limitada sólo por el ámbito de las reivindicaciones dependientes de la misma.

Claims

1. Un emisor de audio/conversación (105) que comprende un codificador de núcleo adaptado a una banda de frecuencia de una señal de audio/conversación de entrada, operando el codificador de núcleo sobre tramas de la señal de audio/conversación de entrada que comprende un número predeterminado de muestras, teniendo la señal de audio/conversación de entrada una primera frecuencia de muestreo, y comprendiendo la banda de frecuencia de núcleo hasta una frecuencia de corte, caracterizado porque el emisor de audio/conversación (105) comprende también:

- un dispositivo de segmentación (110) adaptado para estimar una frecuencia de corte para cada segmento asociado con la longitud de segmento adaptativa y adaptado para transmitir información sobre la frecuencia de corte estimada a un descodificador.

- un filtro de paso bajo (120) adaptado para filtrar cada segmento a la citada frecuencia de corte estimada, y un remuestreador (130) adaptado para remuestrear cada segmento filtrado a una segunda frecuencia de muestreo que corresponde a la frecuencia de corte del citado segmento filtrado con el fin de generar una trama de audio/conversación del número de muestras predeterminado para ser codificada por el citado codificador de núcleo (140).

2. El emisor de audio/conversación (105) de acuerdo con la reivindicación 1, caracterizado porque el estimador de frecuencia de corte (110) está adaptado para hacer un análisis de las propiedades de un segmento de entrada dado de acuerdo con un criterio perceptual, para determinar la frecuencia de corte que se va a usar para un segmento dado basándose en el análisis.

3. El emisor de audio/conversación (105) de acuerdo con cualquiera de las reivindicaciones 1-2, caracterizado porque el estimador de frecuencia de corte (110) está también adaptado para proporcionar una estimación cuantificada de la frecuencia de corte.

4. El emisor de audio/conversación (105) de acuerdo con cualquiera de las reivindicaciones 1-3, caracterizado porque el estimador de frecuencia de corte (110) está también adaptado para transmitir información sobre la frecuencia de corte estimada a un descodificador directamente como un parámetro de información lateral.

5. El emisor de audio/conversación (105) de acuerdo con cualquiera de las reivindicaciones 1-3, caracterizado porque el estimador de frecuencia de corte (110) está también adaptado para transmitir información sobre la frecuencia de corte estimada a un descodificador mediante señalización indirecta por medio de la segmentación.

6. El emisor de audio/conversación (105) de acuerdo con la reivindicación 5, caracterizado porque el estimador de frecuencia de corte (110) está también adaptado para utilizar la longitud de cada segmento para la señalización indirecta.

7. El emisor de audio/conversación (105) de acuerdo con la reivindicación 5, caracterizado porque el estimador de frecuencia de corte (110) está también adaptado para utilizar la velocidad de bits asociada con cada segmento para la señalización indirecta.

8. El emisor de audio/conversación (105) de acuerdo con la reivindicación 5, caracterizado porque el estimador de frecuencia de corte (110) está también adaptado para transmitir información sobre la frecuencia de corte estimada al descodificador indirectamente usando instantes de tiempo de una primera muestra del segmento actual y una primera muestra de un segmento subsiguiente.

9. El emisor de audio/conversación (105) de acuerdo con cualquiera de las reivindicaciones 1-8, caracterizado porque comprende un dispositivo de predicción (301) lineal situado antes del filtro de paso bajo (120) y después del dispositivo de segmentación (110) y del estimador de frecuencia de corte (110) y adaptado para producir un residuo de LPC que es proporcionado al remuestreador.

10. El emisor de audio/conversación (105) de acuerdo con cualquiera de las reivindicaciones 1-8, caracterizado porque comprende un dispositivo de predicción (301) lineal situado antes del dispositivo de segmentación y del estimador de frecuencia de corte y adaptado para producir un residuo de LPC que es proporcionado al dispositivo de segmentación (110).

11. El emisor de audio/conversación (105) de acuerdo con cualquiera de las reivindicaciones 1-10, caracterizado porque al menos una de las frecuencias de corte y la segunda frecuencia de muestreo es seleccionada basándose en una estimación de frecuencia de altura.

12. El emisor de audio/conversación (105) de acuerdo con la reivindicación 1, caracterizado porque comprende medios para la generación de una señal que corresponde a la señal de salida del receptor (165).

13. El emisor de audio/conversación (105) de acuerdo con la reivindicación 12, caracterizado porque comprende una versión local de un descodificador de núcleo (601) y un muestreador por aumento (603) adaptado para llevar a cabo una reconstrucción completa de la señal recibida, comprende también un calculador de distorsión de codificación (606) adaptado para comparar la señal reconstruida con la señal de conversación de entrada original de acuerdo con algún criterio de fidelidad, por lo que si la señal reconstruida no es suficientemente buena de acuerdo con el citado criterio de fidelidad, el estimador de frecuencia de corte (110) está adaptado para reajustar la frecuencia de corte y la velocidad de bits consumida por intervalo de tiempo hacia arriba de manera que la distorsión de codificación permanece dentro de ciertos límites predefinidos, y si la calidad de la señal es demasiado buena el estimador de frecuencia de corte (110) está adaptado para aumentar la longitud del segmento correspondiente hasta una menor frecuencia de corte y velocidad de bits.

14. El emisor de audio/conversación (105) de acuerdo con la reivindicación 12, caracterizado porque comprende también una versión local de un dispositivo de extensión de ancho de banda (602) y un combinador de banda (604) adaptado para llevar a cabo una reconstrucción completa de la señal recibida incluyendo una banda de alta frecuencia reconstruida por la BWE.

15. Un receptor de audio/conversación (165) adaptado para descodificar una señal de audio/conversación codificada recibida, caracterizado porque comprende un remuestreador (160) adaptado para remuestrear una trama de audio/conversación descodificada usando información (162) de una estimación de frecuencia de corte para generar un segmento de conversación de salida, en el que la citada información es recibida desde un emisor de audio/conversación que comprende un estimador de frecuencia de corte adaptado para estimar la frecuencia de corte asociada con la longitud de segmento adaptativa y adaptado para generar y transmitir la citada información.

16. El receptor de audio/conversación (165) de acuerdo con la reivindicación 15, caracterizado porque comprende al menos un dispositivo de extensión de ancho de banda (190) adaptado para reconstruir las frecuencias por encima de la frecuencia de corte estimada.

17. El receptor de audio/conversación (165) de acuerdo con cualquiera de las reivindicaciones 15-16, caracterizado porque está también adaptado para recibir información sobre la frecuencia de corte estimada directamente como un parámetro de información lateral.

18. El receptor de audio/conversación (165) de acuerdo con cualquiera de las reivindicaciones 15-17, caracterizado porque está adaptado para recibir información sobre la frecuencia de corte estimada mediante señalización indirecta por medio de la segmentación.

19. El receptor de audio/conversación (165) de acuerdo con la reivindicación 18, caracterizado porque está adaptado para recibir la longitud de segmento elegida y cuantificada.

20. el receptor de audio/conversación (165) de acuerdo con la reivindicación 18, caracterizado porque está adaptado para recibir la velocidad de bits asociada con cada segmento para la señalización indirecta.

21. El receptor de audio/conversación (165) de acuerdo con la reivindicación 18, caracterizado porque está también adaptado para recibir información sobre la frecuencia de corte estimada por cada instante de tiempo de una primera muestra de segmento actual y una primera muestra de un segmento subsiguiente.

22. Un método en un emisor de audio/conversación que comprende un codificador de núcleo adaptado para codificar una banda de frecuencia de núcleo de una señal de audio/conversación de entrada, operando el codificador de núcleo sobre tramas de la señal de audio/conversación de entrada que comprende un número predeterminado de muestras, la señal de conversación de entrada tiene una primera frecuencia de muestreo y la banda de frecuencia de núcleo comprende frecuencias hasta una frecuencia de corte caracterizado por:

- segmentación (501) de la señal de audio/conversación de entrada en una pluralidad de segmentos, en la que cada segmento tiene una longitud de segmento adaptativa,

- estimar (502) una frecuencia de corte para cada segmento asociada con la longitud de segmento adaptativa y adaptada para transmitir información sobre la frecuencia de corte estimada a un descodificador,

- filtrar mediante un filtro de paso bajo (503) cada segmento a la citada frecuencia de corte estimada, y

- remuestrear (504) los segmentos filtrados con una segunda frecuencia de muestreo que corresponde a la citada frecuencia de corte con el fin de generar una trama de audio/conversación del número de muestras predeterminado para ser codificadas por el citado codificador (140).

23. El método de acuerdo con la reivindicación 22, caracterizado por la siguiente etapa de:

- hacer un análisis de las propiedades de un segmento de entrada dado de acuerdo con un criterio perceptual, para determinar la frecuencia de corte que se va a usar para el segmento dado basándose en el análisis.

24. El método de acuerdo con cualquiera de las reivindicaciones 22-23, caracterizado por la siguiente etapa de:

- reajustar (502a) la segmentación basándose en las estimaciones de la frecuencia de corte.

25. El método de acuerdo con cualquiera de las reivindicaciones 22-24, caracterizado por la siguiente etapa de:

- transmitir información sobre la frecuencia de corte estimada a un descodificador directamente como un parámetro de información lateral.

26. El método de acuerdo con cualquiera de las reivindicaciones 22-25, caracterizado por la siguiente etapa de:

- transmitir información sobre la frecuencia de corte estimada a un descodificador indirectamente por medio de la segmentación.

27. El método de acuerdo con cualquiera de las reivindicaciones 22-26, caracterizado por la siguiente etapa de:

- producir un residuo de LPC, antes del filtrado mediante un filtro de paso bajo y después de la segmentación y de la estimación de la frecuencia de corte, que es proporcionado al remuestreador.

28. El método de acuerdo con cualquiera de las reivindicaciones 22-27, caracterizado por la siguiente etapa de:

- producir un residuo de LPC, antes de la segmentación y de la estimación de la frecuencia de corte, que es proporcionado a la etapa de segmentación.

29. El método de acuerdo con cualquiera de las reivindicaciones 22-28, caracterizado porque al menos una de las frecuencias de corte y la segunda frecuencia de muestreo está seleccionada basándose en una estimación de la frecuencia de altura.

30. El método de acuerdo con la reivindicación 22, caracterizado por la siguiente etapa de generar una señal que se corresponde con la señal de salida del receptor (165).

31. El método de acuerdo con la reivindicación 30, caracterizado por la siguiente etapa de:

- llevar a cabo una completa reconstrucción de la señal recibida, comparar la señal reconstruida con la señal de conversación de entrada original de acuerdo con algún criterio de fidelidad, por lo que si la señal reconstruida no es suficientemente buena de acuerdo con el citado criterio de fidelidad, se ajusta la frecuencia de corte y la velocidad de bits consumida por cada intervalo de tiempo ascendente de manera que la distorsión de la codificación permanece dentro de ciertos límites predefinidos, y si la calidad de la señal es demasiado buena, se aumenta la longitud del segmento correspondiente a una menor frecuencia de corte y velocidad de bits.

32. El método de acuerdo con la reivindicación 30, caracterizado por la siguiente etapa de llevar a cabo una completa reconstrucción de la señal recibida incluyendo una banda de alta frecuencia reconstruida mediante BWE.

33. Un método en un receptor de audio/conversación para descodificar una señal de audio/conversación codificada recibida, caracterizado por la etapa de:

- remuestrear (505) una trama de audio/conversación descodificada usando información de una estimación de frecuencia de corte para generar un segmento de audio/conversación de salida, en el que la citada información es recibida desde un emisor de audio/conversación que comprende un estimador de frecuencia de corte adaptado para generar y transmitir la citada información.

34. El método de acuerdo con la reivindicación 33, caracterizado por la siguiente etapa de:

- reconstruir las frecuencias por encima de la frecuencia de corte estimada por al menos un dispositivo de extensión de ancho de banda.

35. El receptor de audio/conversación (165) de acuerdo con cualquiera de las reivindicaciones 33-34, caracterizado porque está también adaptado para recibir información sobre la frecuencia de corte estimada directamente como un parámetro de información lateral.

36. El receptor de audio/conversación (165) de acuerdo con cualquiera de las reivindicaciones 33-34, caracterizado porque está adaptado para recibir información sobre la frecuencia de corte estimada mediante señalización indirecta por medio de la segmentación.