ES2952379T3

ES2952379T3 - Procedimiento de decodificación de imágenes y aparato de decodificación de imágenes

Info

Publication number: ES2952379T3
Application number: ES20156188T
Authority: ES
Inventors: Takeshi Chujoh; Tomoo Yamakage
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-11-08
Filing date: 2011-11-08
Publication date: 2023-10-31
Anticipated expiration: 2031-11-08
Also published as: US20170359592A1; BR122020011590B1; US20150229929A1; US11831891B2; EP3280139B1; BR112014004645A2; US9135717B2; CN103765890A; CA2847301C; BR122020011587B1; KR101665921B1; AU2015213328B2; US20240048746A1; JP5766815B2; KR20140043828A; SG11201400290XA; AU2011380761A1; EP2779647A1; US20250063187A1; US10687072B2

Abstract

La presente invención tiene como objetivo reducir el ancho de banda de la memoria durante la codificación de imágenes. Un método de codificación de imágenes incluye un paso de adquisición y un paso de generación. El paso de adquisición incluye adquirir una imagen de referencia. La etapa de generación incluye generar una imagen predicha que tiene una resolución mayor que la de la imagen de referencia, realizando una interpolación a la imagen de referencia adquirida según un vector de movimiento para cada uno de los componentes de luminancia y de diferencia de color. La etapa de generación incluye generar la imagen predicha que tiene el componente de diferencia de color sin realizar una interpolación específica, es decir, el procesamiento de interpolación en el que un número de píxeles a los que se accede en la imagen de referencia es grande, cuando un tamaño de un bloque designado como una unidad de la interpolación es menor que un valor umbral predeterminado. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Procedimiento de decodificación de imágenes y aparato de decodificación de imágenes

Campo

Las realizaciones de la presente invención se refieren a un procedimiento de decodificación de imágenes y un aparato de decodificación de imágenes.

Antecedentes

En una técnica de codificación y decodificación de vídeo, generalmente se ejecuta una interpolación con compensación de movimiento para cada bloque. Una señal de imagen a referir se almacena en una memoria externa; por lo tanto, cuando la codificación y decodificación de vídeo es implementada por hardware, puede haber restricciones en la cantidad de datos leídos. Por consiguiente, cuando aumenta la cantidad de acceso a la memoria, un denominado ancho de banda de memoria, que es un cuello de botella en las operaciones de codificación y decodificación, se convierte en un problema.

En la interpolación con compensación de movimiento para cada bloque, se ejecuta un procedimiento de filtrado de interpolación que usa el filtro FIR (respuesta de impulso finito) en la dirección horizontal y en la dirección vertical. En el procedimiento de filtrado de interpolación, se debe acceder a un píxel fuera del bloque. Cuando el número de píxeles fuera del bloque aumenta, el ancho de banda de memoria por píxel también aumenta.

Convencionalmente, el ancho de banda de memoria por píxel se ha reducido por medio de la aplicación de un filtro de interpolación con una longitud de derivación corta a un bloque con un tamaño pequeño por el cual la relación de los píxeles accedidos fuera del bloque aumenta relativamente.

Listado de citas

Hung-Chih Lin et al.: “Fast temporal prediction selection for H.264/AVC scalable video coding" describe un algoritmo rápido que selecciona el tipo de predicción temporal para la estructura de predicción jerárquica diádica en la codificación de vídeo escalable.

Maani (Sony) E et al.: “CE6.c: Differential coding of Intra Modes" describe una descripción y los resultados de la codificación diferencial de intramodos.

Bibliografía de patentes

Bibliografía de patente 1: Patente Japonesa Núm. 4120301

El Documento US 2007/217512 describe un procedimiento de codificación de imágenes para reducir adecuadamente una cantidad de codificación de un vector de movimiento sin disminuir la eficiencia de codificación.

Sumario

Problema técnico

Sin embargo, en la técnica convencional, el ancho de banda de la memoria no se puede reducir adecuadamente. Por ejemplo, en el caso del formato del croma, tal como 4 : 2 : 0 o 4 : 2 : 2, en el que el número de muestras del píxel para una diferencia de color (componente de diferencia de color) es menor que el número de muestras del píxel para luminancia (componente de luminancia), y la resolución es baja, la interpolación se debe ejecutar de forma que la diferencia de color se amplíe más y la luminancia se defina como una referencia. Por lo tanto, cuando el filtro con toques más largos que dos toques se usa para la interpolación para la diferencia de color, el procedimiento para la señal de diferencia de color no se puede restringir, incluso si el procedimiento se cambia por bloque de luminancia.

Solución al problema

Un procedimiento de decodificación de imágenes de acuerdo con una realización se describe en la reivindicación 1. Un procedimiento de codificación de imagen de acuerdo con una realización se recita en la reivindicación 2 Breve descripción de los dibujos

La FIG. 1 es un diagrama de bloques que ilustra un aparato de codificación de imágenes útil para entender una realización de la presente invención.

La FIG. 2 es una vista que ilustra un ejemplo de información de formato de croma.

La FIG. 3 es una vista de un vector de movimiento con una señal de diferencia de color en formato 4 : 2 : 0. La FIG. 4 es una vista de un vector de movimiento con una señal de luminancia en formato 4 : 2 : 0.

La FIG. 5 es una vista de un vector de movimiento con una señal de diferencia de color en formato 4 : 2 : 2. La FIG. 6 es una vista de un vector de movimiento con una señal de luminancia en formato 4 : 2 : 2.

La FIG. 7 es una vista que ilustra un ejemplo de píxeles a los que se accede en formato 4 : 2 : 0.

La FIG. 8 es una vista que ilustra un ejemplo de píxeles a los que se accede en formato 4 : 2 : 0.

La FIG. 9 es una vista que ilustra un ejemplo de píxeles a los que se accede en formato 4 : 2 : 2.

La FIG. 10 es un diagrama de bloques que ilustra un aparato de decodificación de imágenes correspondiente al aparato de codificación de imágenes.

La FIG. 11 es un diagrama de bloques que ilustra una unidad de generación de imagen predichas.

La FIG. 12 es un diagrama de flujo de control de acuerdo con la realización.

La FIG. 13 es un diagrama de flujo de un procedimiento para reducir un ancho de banda de memora La FIG. 14 es un diagrama de flujo de un procedimiento para reducir un ancho de banda de memori La FIG. 15 es un diagrama de flujo de un procedimiento para reducir un ancho de banda de memori La FIG. 16 es un diagrama que ilustra una configuración de hardware del aparato que se puede usar en un procedimiento de acuerdo con la realización.

Descripción de las realizaciones

Las realizaciones preferentes del procedimiento de codificación de imágenes, el procedimiento de decodificación de imágenes, así como también el aparato de codificación de imágenes y el aparato de decodificación de imágenes que

se pueden usar en los procedimientos, de acuerdo con la presente invención se describirán a continuación en detalle

con referencia a los dibujos adjuntos.

El aparato de codificación de imágenes y el aparato de decodificación de imágenes que se puede usar en los procedimientos de acuerdo con la presente realización hacen un control al referirse a la información del formato de

croma de forma que la posición de un píxel indicado por un vector de movimiento en un bloque que tenga un tamaño

menor que un tamaño predeterminado no esté sujeto a una interpolación para una diferencia de color, para de ese

modo reducir un ancho de banda de memoria.

La FIG. 1 es un diagrama de bloques que ilustra un ejemplo de configuración de un aparato de codificación de imágenes 100 que se puede usar en un procedimiento de acuerdo con la presente realización. Como se ilustra en la

FIG. 1, el aparato de codificación de imágenes 100 incluye una unidad de sustracción 102, una unidad de transformación/cuantificación 103, una unidad de transformación inversa/cuantificación inversa 104, una unidad de codificación de entropía 105, una unidad de adición 106, una memoria de trama 108, una unidad de generación de

imagen predicha 110, una unidad de control de predicción 112, una unidad de control de codificación 113 y una

unidad de búsqueda de vectores de movimiento 116.

El aparato de codificación de imágenes 100 genera datos codificados 120 a partir de la señal de vídeo de entrada

101. Por ejemplo, la señal de vídeo de entrada 101 se introduce en el aparato de codificación de imágenes 100 en unidades o tramas. La señal de vídeo de entrada 101 se divide en un bloque que es un macrobloque.

La unidad de sustracción 102 emite una señal de error de predicción que es una diferencia entre una señal de

imagen predicha 111 generada por la unidad de generación de imagen 110 predicha y la señal de vídeo de entrada

101.

La unidad de transformación/cuantificación 103 ejecuta una cuantificación después de ejecutar una transformación ortogonal en la señal de error de predicción con una transformación discreta del coseno (DCT), para de ese modo generar información cuantificada del coeficiente de transformación. La información cuantificada del coeficiente de transformación se divide en dos. Una de la información dividida es la entrada a la unidad de codificación de entropía

105. El otro es la entrada a la unidad de cuantificación inversa/transformación inversa 104.

La unidad de cuantificación inversa/transformación inversa 104 ejecuta la cuantificación inversa y la transformación

inversa en la información del coeficiente de transformación cuantificada como el procedimiento inverso al procesamiento ejecutado por la unidad de transformación/cuantificación 103, para de ese modo reproducir la señal de error de predicción.

La unidad de adición 106 añade la señal de error de predicción y la señal de imagen predicha. De acuerdo con este procedimiento, se genera una señal de imagen decodificada 107. La señal de imagen decodificada 107 se introduce

en la memoria de trama 108.

La memoria de trama 108 es una unidad de memoria que almacena en ella una señal de imagen de referencia. La memoria de trama 108 ejecuta un procedimiento de filtrado u otro procedimiento en la señal de imagen decodificada

107, y posteriormente, determina si la señal de imagen decodificada 107 se almacena o no para permitir que la señal de imagen decodificada 107 se convierta en la señal de imagen de referencia 109 introducida en la unidad de generación de imagen predicha 110. La señal de imagen de referencia 109 se introduce en la unidad de generación

de imagen predicha 110 y en la unidad de búsqueda de vectores de movimiento 116.

La unidad de búsqueda de vectores de movimiento 116 genera información de vectores de movimiento 117 a partir de la señal de vídeo de entrada 101 y la señal de imagen de referencia 109. La información de vectores de movimiento 117 se introduce en la unidad de generación de imagen predicha 110, y también se transmite a la unidad

de codificación de entropía 105.

La unidad de generación de imagen predicha 110 genera la señal de imagen predicha 111 a partir de la señal de imagen de referencia 109, la información de control de predicción 118, y la información de vectores de movimiento 117.

La unidad de control de codificación 113 ingresa información de restricción de tamaño de bloque 115 a la unidad de control de predicción 112, y transmite información de perfil/nivel 119 a la unidad de codificación de entropía 105. La información de perfil/nivel 119 incluye información de perfil que indica una combinación de grupos de herramientas de codificación, e información de nivel que es información de restricción del aparato de codificación de imágenes de acuerdo con la potencia de procesamiento del aparato de decodificación de imágenes. La información de nivel indica una combinación de restricción de un número máximo de macrobloques por hora, el número máximo de macrobloques por trama, el intervalo máximo de búsqueda de vectores y el número de vectores en dos macrobloques consecutivos.

Por ejemplo, H.264 especifica información de perfil tal como un perfil de línea base, un perfil principal y un perfil alto. H.264 también especifica información de 16 niveles.

En la presente realización, los parámetros se especifican mediante el uso de la información de perfil/nivel. Los parámetros incluyen un parámetro que especifica si el procedimiento de reducción del ancho de banda de la memoria se aplica o no, el valor de restricción del tamaño de bloque (información de restricción de tamaño de bloque 115) y un procedimiento de restricción. Estos parámetros se pueden especificar mediante el uso de información diferente a la información de perfil/nivel.

La información de restricción de tamaño de bloque 115 es información que especifica un valor de umbral (el valor de restricción del tamaño de bloque) usado para la determinación del tamaño de bloque. Por ejemplo, la unidad de control de codificación 113 establece información de restricción de tamaño de bloque 115 diferente de acuerdo con la información de perfil/nivel. La información de restricción de tamaño de bloque 115 se puede incluir en la información de perfil/nivel.

La unidad de control de predicción 112 controla la generación de imagen predicha ejecutada por la unidad de generación de imagen predicha 110 de acuerdo con la información de restricción de tamaño de bloque ingresada desde la unidad de control de codificación 113, la información de formato de croma 114 de la señal de vídeo de entrada 101, y la información de vectores de movimiento 117 ingresada desde la unidad de búsqueda de vectores de movimiento 116 (el detalle se describirá más adelante). La unidad de control de predicción 112 genera la información de control de predicción 118 usada para el control de la generación de imagen predicha. La información de control de predicción 118 se introduce en la unidad de generación de imagen predicha 110, y también se transmite a la unidad de codificación de entropía 105.

La unidad de codificación de entropía 105 lleva a cabo una codificación de entropía en la información de codificación para generar los datos codificados 120 de acuerdo con una sintaxis prescrita. La información de codificación incluye, por ejemplo, la entrada de información cuantificada del coeficiente de transformación de la unidad de transformación/cuantificación 103, la información de formato de croma 114 de la señal de vídeo de entrada, la información de vectores de movimiento 117 introducida desde la unidad de búsqueda de vectores de movimiento 116, la información de control de predicción 118 ingresada desde la unidad de control de predicción 112, y la información de perfil/nivel 119 ingresada desde la unidad de control de codificación 113.

En este punto, se describirá la información de formato de croma 114. La información de formato de croma 114 es información que indica un formato de croma de la señal de vídeo de entrada 101. La FIG. 2 es una vista que ilustra un ejemplo de la información de formato de croma 114. La FIG. 2 ilustra un ejemplo en el que chroma_format_idc usado en H.264 se usa como la información de formato de croma 114.

chroma_format_idc = 0 indica un formato monocromo solo con luminancia. chroma_format_idc = 1 indica formato 4: 2 : 0 en el que la diferencia de color se muestrea a la mitad horizontal y verticalmente con respecto a la luminancia. chroma_format_idc = 2 indica formato 4: 2 : 2 en el que la diferencia de color se muestrea a la mitad solo horizontalmente con respecto a la luminancia. chroma_format_idc = 3 indica formato 4: 4 : 4 en el que la luminancia y la diferencia de color tienen el mismo número de píxeles.

El tamaño horizontal del bloque de predicción de la señal de luminancia se define como nPSW, y el tamaño vertical se define como nPSH. En el formato 4 : 2 : 0, el tamaño horizontal de los bloques de las señales de diferencia de color Cb y Cr es nPSW/2, mientras que el tamaño vertical es nPSH/2. En el formato 4 : 2 : 2, el tamaño horizontal de los bloques de las señales de diferencia de color Cb y Cr es nPSW/2, mientras que el tamaño vertical es nPSH. En el formato 4 : 4 : 4, el tamaño horizontal de los bloques de las señales de diferencia de color Cb y Cr es nPSW, mientras que el tamaño vertical es nPSH.

A continuación, se describirá la relación entre el formato de croma y la interpolación.

La FIG. 3 es una vista que ilustra la posición del vector de movimiento en una imagen de interpolación con una exactitud de 1/8 pel de la señal de diferencia de color en el formato 4: 2 : 0. “B” es una posición de un píxel entero de la señal de diferencia de color, que es la posición del vector de movimiento que no necesita la interpolación. Las porciones blancas indican la posición del vector de movimiento que necesita una interpolación unidimensional para la señal de diferencia de color solo horizontal o verticalmente. Las porciones sombreadas claras indican la posición del vector de movimiento que necesita una interpolación bidimensional para llevar a cabo la interpolación a la señal de diferencia de color tanto horizontal como verticalmente.

La FIG. 4 es una vista que ilustra la posición del vector de movimiento en una imagen de interpolación con una exactitud de 1/4 de la señal de luminancia en el formato 4: 2 : 0. “A” es la posición del píxel entero de la señal de luminancia, que es la posición del vector de movimiento que no necesita la interpolación. Las porciones blancas con “A” indican la posición del vector de movimiento que no necesita la interpolación tanto para la señal de luminancia como para la señal de diferencia de color. Las porciones sombreadas claras con “A” indican la posición del vector de movimiento que no necesita la interpolación para la señal de luminancia pero necesita la interpolación para la señal de diferencia de color.

Las porciones blancas sin “A” indican la posición del vector de movimiento que necesita la interpolación unidimensional para la señal de luminancia y la señal de diferencia de color solo horizontal o solo vertical. Las porciones sombreadas claras sin “A” indican la posición del vector de movimiento que necesita la interpolación bidimensional en la que el procesamiento de interpolación se lleva a cabo horizontal y verticalmente para la señal de luminancia y la señal de diferencia de color. Las porciones sombreadas oscuras indican la posición del vector de movimiento que necesita la interpolación unidimensional solo horizontal o verticalmente para la señal de luminancia, y necesita la interpolación bidimensional en la que la interpolación se ejecuta horizontal y verticalmente para la señal de diferencia de color.

La FIG. 5 es una vista que ilustra la posición del vector de movimiento en una imagen de interpolación con una exactitud de 1/4-pel de la señal de diferencia de color en la dirección horizontal, y con una exactitud de 1/8-pel de la señal de diferencia de color en la dirección vertical en formato 4: 2 : 2. “B” es la posición del píxel entero de la señal de diferencia de color, que es la posición del vector de movimiento que no necesita la interpolación. Las porciones blancas indican la posición del vector de movimiento que necesita la interpolación unidimensional para la señal de diferencia de color solo horizontal o verticalmente. Las porciones sombreadas claras indican la posición del vector de movimiento que necesita la interpolación bidimensional para llevar a cabo la interpolación a la señal de diferencia de color horizontal y verticalmente.

La FIG. 6 es una vista que ilustra la posición del vector de movimiento en una imagen de interpolación con una exactitud de 1/4-pel de la señal de luminancia en formato 4: 2 : 2. “A” es la posición del píxel entero de la señal de luminancia, cuál es la posición del vector de movimiento que no necesita la interpolación para la señal de luminancia. Las porciones blancas con “A” indican la posición del vector de movimiento que no necesita la interpolación tanto para la señal de luminancia como para la señal de diferencia de color. Las porciones sombreadas claras con “A” indican la posición del vector de movimiento que no necesita la interpolación para la señal de luminancia pero necesita la interpolación para la señal de diferencia de color.

Las porciones blancas sin “A” indican la posición del vector de movimiento que necesita la interpolación unidimensional para la señal de luminancia y la señal de diferencia de color solo horizontal o solo vertical. Las porciones sombreadas claras sin “A” indican la posición del vector de movimiento que necesita la interpolación bidimensional en la que la interpolación se lleva a cabo horizontal y verticalmente para la señal de luminancia y la señal de diferencia de color. Las porciones sombreadas oscuras indican la posición del vector de movimiento que necesita la interpolación unidimensional solo horizontalmente para la señal de luminancia, y necesita la interpolación bidimensional en la que la interpolación se ejecuta horizontal y verticalmente para la señal de diferencia de color. A continuación, se describirá la relación entre el formato de croma y el píxel al que se accederá en la interpolación. Las FIGS. 7 y 8 son vistas que ilustran un ejemplo de un píxel al que se accede al generar la imagen de interpolación en bloque en formato 4: 2 : 0.

La FIG. 7 ilustra el número máximo de píxeles a los que se debe acceder al generar la imagen de interpolación del bloque de píxeles 4x4 para la señal de luminancia con un filtro de interpolación de 8 toques. En la interpolación bidimensional, se debe acceder a tres píxeles externos a la izquierda y arriba del bloque de píxeles, así como a cuatro píxeles externos a la derecha y debajo del bloque de píxeles para generar la imagen de interpolación con un bloque de píxeles de 4x4. Específicamente, se debe acceder a 11x11 píxeles como un todo. El número de píxeles externos a los que se debe acceder depende de la longitud del toque. Por lo tanto, cuando se usa el filtro de interpolación con el mismo toque, el número de accesos por píxel aumenta más para un bloque más pequeño. La FIG. 8 ilustra el número máximo de píxeles a los que se debe acceder al generar la imagen de interpolación del bloque de píxeles de 4x2, correspondiente al bloque de píxeles 4x4 para la señal de luminancia, para la señal de diferencia de color con un filtro de interpolación de cuatro toques. En la interpolación bidimensional, se debe acceder a un píxel externo a la izquierda y arriba del bloque de píxeles, así como a dos píxeles externos a la derecha y debajo del bloque de píxeles para generar la imagen de interpolación con un bloque de píxeles de 2x2. Específicamente, se debe acceder a 5x5 píxeles como un todo.

La FIG. 9 es una vista que ilustra un ejemplo de un píxel al que se accede al generar la imagen de interpolación en bloque en formato 4: 2 : 2. El número máximo de píxeles a los que se debe acceder al generar la imagen de interpolación del bloque de píxeles 4x4 para la señal de luminancia con un filtro de interpolación de cuatro toques es el mismo que en el caso de la FIG, 7, de forma que no se hará una descripción redundante.

La FIG. 9 ilustra el número máximo de píxeles a los que se debe acceder al generar la imagen de interpolación del bloque de píxeles de 4x2, correspondiente al bloque de píxeles 4x4 para la señal de luminancia, para la señal de diferencia de color con un filtro de interpolación de cuatro toques. En la interpolación bidimensional, se debe acceder a un píxel externo a la izquierda y arriba del bloque de píxeles, así como a dos píxeles externos a la derecha y debajo del bloque de píxeles para generar la imagen de interpolación con un bloque de píxeles de 2x2. Específicamente, se debe acceder a 5x7 píxeles como un todo.

Como se ilustra en las FIGS. 3 a 6, la necesidad de la interpolación es diferente dependiendo del formato de croma y del vector de movimiento. Lo que se necesita de la interpolación unidimensional y la interpolación bidimensional es diferente de acuerdo con el formato de croma y el vector de movimiento. Como se ilustra en las FIGS. 7 a 9, la cantidad de píxeles a los que se accede es diferente de acuerdo con el formato de croma.

En el presente ejemplo, con referencia al formato de croma y al vector de movimiento, la generación de imagen predicha se controla de forma que no se ejecute una interpolación específica en la que el número de píxeles a los que se debe acceder en la imagen de referencia (señal de imagen de referencia 109) sea grande. La interpolación específica es una interpolación que usa predicción bidireccional e interpolación bidimensional. La interpolación en la predicción bidireccional se puede definir como la interpolación específica. Más adelante se describirá el procedimiento específico para controlar la generación de imagen predicha para no ejecutar la interpolación específica.

La FIG. 10 es un diagrama de bloques que ilustra un ejemplo de una configuración de un aparato de decodificación de imágenes 300 de acuerdo con una realización, generado por el aparato de codificación de imágenes 100. El aparato de decodificación de imágenes 300 incluye una unidad de decodificación de entropía 302, una unidad de transformación inversa/cuantificación inversa 303, una unidad de adición 304, una memoria de trama 306, y la unidad de generación de imagen predicha 110.

El aparato de decodificación de imágenes 300 genera una señal de vídeo reproducida 307 a partir de datos codificados 301.

La unidad de decodificación de entropía 302 lleva a cabo una decodificación de entropía en los datos codificados 301 de acuerdo con una sintaxis prescrita. La unidad de decodificación de entropía 302 decodifica los datos codificados 301 para adquirir información cuantificada del coeficiente de transformación, información de control de predicción 311, información de vectores de movimiento 312 e información de perfil/nivel 313. La información del coeficiente de transformación cuantificada decodificada se introduce en la unidad de cuantificación inversa/transformación inversa 303. La información de control de predicción 311 decodificada, la información de vectores de movimiento 312 y la información de perfil/nivel 313 se introducen en la unidad de generación de imagen predicha 110.

La información del coeficiente de transformación cuantificada, la información de control de predicción 311, la información de vectores de movimiento 312 y la información de perfil/nivel 313 corresponden respectivamente a la información cuantificada del coeficiente de transformación, la información de control de predicción 118, la información de vectores de movimiento 117, y la información de perfil/nivel 119, que están codificados por el aparato de codificación de imágenes 100 en la FIG. 1. 1.

La unidad de cuantificación inversa/transformación inversa 303 ejecuta la cuantificación inversa y la transformación ortogonal inversa en la información del coeficiente de transformación cuantificada, para de ese modo reproducir la señal de error de predicción.

La unidad de adición 304 añade la señal de predicción de error y la señal de imagen predicha 310 para generar una señal de imagen decodificada 305. La señal de imagen decodificada 107 se introduce en la memoria de trama 108. La memoria de trama 306 ejecuta el procedimiento de filtrado en la señal de imagen decodificada 305, y emite la resultante como la señal de vídeo reproducida 307. La memoria de trama 306 determina si la señal de imagen decodificada 305, que ha sufrido el procedimiento de filtrado, se almacena o no, en base a la información de control de predicción 311. La señal de imagen decodificada 305 almacenada se introduce en la unidad de generación de imagen predicha 110 como una señal de imagen de referencia 308.

La unidad de generación de imagen predicha 110 genera la señal de imagen predicha 310 mediante el uso de la señal de imagen de referencia 308, la información de control de predicción 311, y la información de vectores de movimiento 312.

La FIG. 11 es un diagrama de bloques que ilustra un ejemplo de una configuración de la unidad de generación de imagen predicha 110 montada en el aparato de codificación de imágenes 100 y el aparato de decodificación de imágenes 300. La unidad de generación de imagen predicha 110 incluye un conmutador 201, una unidad de predicción bidireccional 202, una unidad de predicción unidireccional 203, y una unidad de intrapredicción 204. La unidad de generación de imagen predicha 110 genera la señal de imagen predicha 111 a partir de la señal de imagen de referencia 109, la información de control de predicción 118, y la información de vectores de movimiento 117.

La información de control de predicción 118 incluye información (modo de predicción) para designar cuál de las unidades de predicción bidireccional 202, se usa la unidad de predicción unidireccional 203, y la unidad de intrapredicción 204, por ejemplo. El conmutador 201 lleva a cabo una conmutación para seleccionar cualquiera de la unidad de predicción bidireccional 202, la unidad de predicción unidireccional 203, y la unidad de intrapredicción 204 con referencia a esta información.

La señal de imagen de referencia 109 se introduce en cualquiera de las unidades de predicción bidireccionales 202, la unidad de predicción unidireccional 203, y la unidad de intrapredicción 204, que son seleccionados por el conmutador 201.

Cuando se selecciona la unidad de predicción bidireccional 202, la unidad de predicción bidireccional 202 genera una señal de imagen de compensación de movimiento mediante el uso de la señal de imagen de referencia 109 y la información de vectores de movimiento 117 a partir de tramas de referencia plurales, y genera la señal de imagen predicha 111 basada en la predicción bidireccional. La unidad de predicción bidireccional 202 se selecciona no solo en el caso en que el modo de predicción se designe explícitamente como la predicción bidireccional como los datos codificados, sino también en el caso en que la predicción bidireccional no se designe explícitamente por los datos codificados tales como un modo de salto, un modo directo y un modo de fusión, pero la operación de la predicción bidireccional está implícitamente designada por la semántica.

Cuando se selecciona la unidad de predicción unidireccional 203, la unidad de predicción unidireccional 203 genera la señal de imagen de compensación de movimiento mediante el uso de la señal de imagen de referencia 109 y la información de vectores de movimiento 117 a partir de un única trama de referencia, y genera la señal de imagen predicha 111. La unidad de predicción unidireccional 203 se selecciona no solo en el caso en que el modo de predicción se designe explícitamente como la predicción unidireccional como los datos codificados, sino también en el caso en que la predicción unidireccional no se designe explícitamente por los datos codificados tales como el modo de salto, el modo directo y el modo de fusión, pero la operación de la predicción unidireccional está implícitamente designada por la semántica.

Cuando se selecciona la unidad de intrapredicción 204, la unidad de intrapredicción 204 genera la señal de imagen predicha 111 mediante el uso de la señal de imagen de referencia 109 en una pantalla.

A continuación, el control para reducir el ancho de banda de memoria por medio del aparato de codificación de imágenes 100 configurado de este modo de acuerdo con la presente realización se describirá con referencia a la FIG. 12. La FIG. 12 es un diagrama de flujo que ilustra un flujo general del control en la presente realización.

La unidad de control de codificación 113 establece un valor de restricción (nLPSW, nLPSH) del tamaño de bloque de acuerdo con la información de perfil/nivel 119 (etapa S101). nLPSW es el valor de restricción del tamaño de bloque de luminancia previsto en la dirección horizontal. nLPSH es el valor de restricción del tamaño de bloque de luminancia previsto en la dirección vertical.

Cuando la información del perfil indica un perfil específico (por ejemplo, perfil alto de H.264), o cuando la información de nivel indica un nivel específico (por ejemplo, un cierto nivel o nivel superior), por ejemplo, la unidad de control de codificación 113 establece el valor de restricción predeterminado (nLPSW, nLPSH) del tamaño del bloque. La unidad de control de codificación 113 se puede configurar para establecer paso a paso el valor de restricción del tamaño de bloque de acuerdo con la información de perfil y la información de nivel.

A continuación se supone que una variable RW es una exactitud de vector de movimiento en dirección horizontal, expresado por 1/RW-pel exactitud. También se supone que una variable RH es una exactitud del vector de movimiento en la dirección vertical, expresado por 1/RH-pel exactitud. Los valores iniciales de la variable RW y la variable RH se definen como la exactitud del vector de movimiento de la luminancia. Un valor de una potencia de dos se usa generalmente para RW y RH.

La unidad de control de predicción 112 determina si la información del formato de croma (chroma_format_idc) 114 es 1 o no (etapa S102). En el caso de chroma_format_idc = 1 (etapa S102: Sí), la unidad de control de predicción 112 duplica los valores de RW y RH (etapa S103). Esto se debe a que chroma_format_idc = 1 significa formato 4 : 2 : 0 en el que la diferencia de color se muestrea a la mitad horizontal y verticalmente con respecto a la luminancia.

En el caso en el que chroma_format_idc = 1 no está establecido (etapa S102: No), la unidad de control de predicción 112 determina si la información del formato de croma (chroma_format_idc) 114 es 2 o no (etapa S104). En el caso de chroma_format_idc = 2 (etapa S104: Sí), la unidad de control de predicción 112 duplica el valor de RW (etapa S105). Esto se debe a que chroma_format_idc = 2 significa formato 4 : 2 : 2 en el que la diferencia de color se muestrea a la mitad solo horizontalmente con respecto a la luminancia.

Cuando chroma_format_idc asume otros valores (etapa S104: No), los valores de RW y RH no cambian.

A continuación, la unidad de control de predicción 112 calcula una variable L que indica si el ancho de banda de la memoria está restringido o no (etapa S106). La variable L que supone “verdadero” significa que se aplica el procedimiento de reducción del ancho de banda de la memoria, y la variable L que supone “falso” significa que el procedimiento no se aplica. Por lo tanto, la unidad de control de predicción 112 calcula la variable L de acuerdo con la siguiente ecuación (1). L = (ModoPred == PredBi) &&

Cuando la predicción es la predicción bidireccional, el bloque de predicción es pequeño y dos vectores de movimiento tienen una precisión fraccional en la diferencia de color, como se describe anteriormente, por ejemplo, aumenta el ancho de banda de memoria al que se accede por píxel. Por lo tanto, la unidad de control de predicción 112 calcula la variable L de acuerdo con la siguiente ecuación (1).

El valor del vector de movimiento en la dirección horizontal en el listado 0 del bloque a procesar se define como mvL0 [0], y el valor en la dirección vertical se define como mvL0 [1]. El valor del vector de movimiento en la dirección horizontal en el listado 1 se define como mvL1 [0], y el valor en la dirección vertical se define como mvL1 [1]. ModoPred indica el modo de predicción. PredBi indica la predicción bidireccional. En la descripción a continuación, los modos de predicción de la predicción unidireccional mediante el uso de los vectores de movimiento en el listado 0 y en el listado 1 se representan como Predl0 y Predl1, respectivamente.

Un ejemplo de la ecuación (1) significa un caso en el que el modo de predicción ModoPred es PredBi, es decir, se selecciona la unidad de predicción bidireccional 202. (nPSW ≤ nLPSW) && (nPSH ≤ nLPSH) && significa la condición en la que el tamaño del bloque de predicción es igual o menor que la información de restricción del tamaño del bloque. En (mvL0 [0] y (RW - 1)) &&, (mvL0 [1] y (RH - 1)) &&, (mvL1 [0] & (RW - 1)) &&, y (mvL1 [1] & (RH - 1)), se verifica si los dos vectores de movimiento ^l0 y L1 no están sujetos a la interpolación bidimensional para la diferencia de color, es decir, si el bit inferior del vector de movimiento expresa la exactitud después del punto decimal. “&” significa un operador de bits de acuerdo con la notación en el lenguaje C, y expresa Y bit a bit.

La ecuación condicional para calcular la variable L no se limita a la ecuación (1). Por ejemplo, se puede determinar independientemente incluso para los modos de predicción (Predl0, Predl1) que no sea PredBi como en una ecuación (2).

Como en una ecuación (3), el valor de restricción (nLPSWI, nLPSHI) del tamaño de bloque para la predicción unidireccional (Predl0 o Predl1) se puede establecer por separado. Específicamente, el tamaño de bloque restringido en la predicción unidireccional y el tamaño de bloque restringido en la predicción bidireccional pueden ser diferentes entre sí.

Cuando el tamaño del bloque de predicción es igual o menor que el valor de restricción (nLPSW, nLPSH) del tamaño de bloque como en una ecuación (4), se puede restringir el acceso de dos vectores de movimiento solo al píxel entero en la diferencia de color durante la predicción bidireccional.

La información de perfil/nivel 119 distingue si el valor del vector de movimiento está restringido o en qué condiciones el valor del vector de movimiento está restringido.

A continuación, se describirá el procedimiento específico para reducir el ancho de banda de la memoria. La FIG. 13 es un diagrama de flujo que ilustra un ejemplo del proceso de reducción del ancho de banda de la memoria no comprendido en el texto de las reivindicaciones. La FIG. 13 ilustra un ejemplo de un procedimiento para restringir el valor del vector de movimiento, como el procedimiento para reducir el ancho de banda de la memoria.

La unidad de control de predicción 112 determina si la variable L es “verdadera” o no (etapa S201). Si la variable L es “verdadera” (etapa S201: Sí), la unidad de control de predicción 112 transforma los valores L0 y L1 de dos vectores de movimiento como en una ecuación (5) (etapa S202).

“>>“ indica un desplazamiento aritmético a la derecha de acuerdo con la notación del lenguaje C. “/” indica una división en aritmética de números enteros. “* ” indica una multiplicación en aritmética de números enteros. El bit correspondiente a la exactitud de interpolación de la señal de diferencia de color de dos vectores de movimiento L0 y L1 se redondea con la ecuación (5) para convertirse en 0. Con este procedimiento, la interpolación bidimensional no se ejecuta, por lo que se puede lograr la reducción en el ancho de banda de la memoria.

El procedimiento de redondeo general se describe en la presente memoria. Sin embargo, se puede usar el otro procedimiento. Por ejemplo, se puede emplear un procedimiento de redondeo hacia abajo, un procedimiento de redondeo hacia arriba, y un procedimiento de redondeo al número par más cercano.

La información de vectores de movimiento 117 cuyo valor se cambia se codifica en la unidad de codificación de entropía 105, y se emite como los datos codificados. El procedimiento en la FIG. 13 es para controlar la información de vectores de movimiento 117 por medio de la restricción del valor del vector de movimiento, para no generar los datos codificados por los cuales aumenta el ancho de banda de la memoria.

Como alternativa, en lugar de codificar la información de vectores de movimiento 117 cuyo valor se cambia en la unidad de codificación de entropía 105, la información de vectores de movimiento 117 antes del cambio puede ser codificada por la unidad de codificación de entropía. En este caso, la unidad de generación de imagen predicha 110 en el aparato de decodificación de imágenes 300 determina si el procedimiento para reducir el ancho de banda de la memoria se aplica o no en el procedimiento igual que en la FIG. 12. 12. Cuando se aplica, la unidad de generación de imagen predicha 110 en el aparato de decodificación de imágenes 300 restringe el vector de movimiento de la misma manera que en la FIG. 13.

El procedimiento de transformación del valor del vector de movimiento no se limita al procedimiento de redondeo del valor correspondiente a la exactitud de interpolación de la diferencia de color como en la ecuación (4). El valor se puede redondear por separado para la luminancia y la diferencia de cobr. Específicamente, durante la interpolación para la luminancia, el valor correspondiente a la exactitud de interpolación de la luminancia se puede redondear, mientras que el valor correspondiente a la exactitud de interpolación de la diferencia de color se puede redondear durante el procesamiento de interpolación para la diferencia de color. Este procedimiento es para no generar la imagen predicha que aumenta el ancho de banda de la memoria, cuando el aparato de codificación de imágenes 100 y el aparato de decodificación de imágenes 300 están configurados de antemano de forma que ejecuten la misma operación.

La FIG. 14 es un diagrama de flujo que ilustra otro ejemplo del proceso de reducción del ancho de banda de la memoria no comprendido en el texto de las reivindicaciones. La FIG. 14 ilustra otro ejemplo del procedimiento de restricción del valor del vector de movimiento.

En este ejemplo, la unidad de control de predicción 112 y la unidad de generación de imagen predicha 110 calculan el costo para seleccionar el modo de predicción, el tamaño de bloque predicho y el vector de movimiento. Preferentemente seleccionan el modo de predicción, el tamaño de bloque predicho y el vector de movimiento, que son pequeños en costo, por lo que se puede seleccionar la combinación óptima.

Una variable MV_Cost que indica el costo del vector de movimiento se calcula mediante el uso de una suma de distancia absoluta (SAD) de errores residuales pronosticados, una cantidad de código de la información de vectores de movimiento (MV_Code), y un multiplicador de Lagrange (A) calculado a partir de la información cuantificada como en una ecuación (5).

MV_Cost = SAD λ × MV_Code (5)

Si la variable L es “verdadera” (etapa S301: Sí), la unidad de control de predicción 112 sustituye el valor máximo predeterminado ValorMax en la variable MV_Cost que indica el costo para el vector de movimiento (etapa S302). Con este procedimiento, la unidad de control de predicción 112 controla no seleccionar el vector de movimiento que tiene el ancho de banda de memoria grande (etapa S301).

En el procedimiento de la FIG. 14, el valor del vector de movimiento está restringido para controlar la información de vectores de movimiento 117, para no generar los datos codificados por los cuales aumenta el ancho de banda de la memoria, como en la FIG. 13.

La FIG. 15 es un diagrama de flujo que ilustra un ejemplo del procedimiento de reducción del ancho de banda de la memoria. La FIG. 15 ilustra un procedimiento para controlar el modo de predicción de la diferencia de color, como otro procedimiento para reducir el ancho de banda de la memoria.

Si la variable L es “verdadera” (etapa S401), solo el modo de predicción ModoPred de color se reescribe por la fuerza a la predicción unidireccional Predl0 (etapa S402). Con este procedimiento, se puede restringir el caso de la predicción bidireccional con la señal de diferencia de color mediante el uso de un ancho de banda de memoria grande.

El modo de predicción en el que el modo de predicción se reescribe por la fuerza puede ser la predicción unidireccional Predl1. El modo de predicción restringido se determina de acuerdo con la información de perfil/nivel 119.

Como se ha descrito anteriormente, de acuerdo con la presente realización, el ancho de banda de la memoria al generar la imagen de interpolación con compensación de movimiento durante la codificación y decodificación de la imagen se puede reducir.

A continuación, se describirá una configuración de hardware del aparato (el aparato de codificación de imágenes y el aparato de decodificación de imágenes) de acuerdo con la presente realización con referencia a la FIG. 16. La FIG.

16 es una vista que ilustra una configuración del sistema de acuerdo con una realización de la presente divulgación. El aparato de acuerdo con la presente realización incluye un dispositivo de control tal como una CPU (Unidad Central de Procesamiento) 51, un dispositivo de memoria tal como una ROM (memoria de solo lectura) 52 o una RAM (memoria de acceso aleatorio) 53, una I/F de comunicación 54 que está conectada a la red para permitir la intercomunicación, y un bus 61 que interconecta cada unidad.

Un programa ejecutado por el aparato se proporciona como una incorporación preliminar en la ROM 52.

El programa se puede configurar para que se proporcione, como un producto informático, como se graba como un archivo en un formato instalable o en un formato ejecutable en un medio de grabación legible por ordenador, tal como un CD (Disco Compacto)-ROM, un disco flexible (FD), un CD-R, un DVD (Disco Versátil Digital) y similares. Adicionalmente, el programa se puede proporcionar de forma que el programa se almacene en un ordenador conectado a una red tal como Internet para permitir la descarga a través de la red. El programa se puede configurar para que se proporcione o distribuya a través de una red tal como Internet.

El programa ejecutado por el aparato de acuerdo con la presente realización puede permitir que el ordenador funcione como cada unidad (unidad de generación de imagen predicha, y similares) descrita anteriormente. La CPU 51 en el ordenador puede leer el programa desde el medio de memoria legible por el ordenador en el dispositivo de memoria principal, y ejecuta el mismo programa.

Listado de signos de referencia

100 APARATO DE CODIFICACIÓN DE IMÁGENES

101 SEÑAL DE VÍDEO DE ENTRADA

102 UNIDAD DE SUSTRACCIÓN

103 UNIDAD DE TRANSFORMACIÓN/CUANTIFICACIÓN

104 UNIDAD DE CUANTIFICACIÓN INVERSNTRANSFORMACIÓN INVERSA 105 UNIDAD DE CODIFICACIÓN DE ENTROPÍA

106 UNIDAD DE ADICIÓN

107 SEÑAL DE IMAGEN DECODIFICADA

108 MEMORIA DE TRAMA

109 SEÑAL DE IMAGEN DE REFERENCIA

110 UNIDAD DE GENERACIÓN DE IMAGEN PREDICHA

111 SEÑAL DE IMAGEN PREDICHA

112 UNIDAD DE CONTROL DE PREDICCIÓN

113 UNIDAD DE CONTROL DE CODIFICACIÓN

114 INFORMACIÓN DEL FORMATO DE CROMA

115 INFORMACIÓN DE RESTRICCIÓN DE TAMAÑO DE BLOQUE

116 UNIDAD DE BÚSQUEDA DE VECTORES DE MOVIMIENTO

117 INFORMACIÓN DE VECTORES DE MOVIMIENTO

118 INFORMACIÓN DE CONTROL DE PREDICCIÓN

119 INFORMACIÓN DE PERFIL/NIVEL

120 DATOS CODIFICADOS

300 APARATO DE DECODIFICACIÓN DE IMÁGENES

301 DATOS CODIFICADOS

302 UNIDAD DE DECODIFICACIÓN DE ENTROPÍA

303 UNIDAD DE CUANTIFICACIÓN INVERSNTRANSFORMACIÓN INVERSA 304 UNIDAD DE ADICIÓN

305 SEÑAL DE IMAGEN DECODIFICADA

306 MEMORIA DE TRAMA

307 SEÑAL DE VÍDEO REPRODUCIDA

308 SEÑAL DE IMAGEN DE REFERENCIA

310 SEÑAL DE IMAGEN PREDICHA

311 INFORMACIÓN DE CONTROL DE PREDICCIÓN

312 INFORMACIÓN DE VECTORES

313 INFORMACIÓN DE PERFIL/NIVEL

Claims

REIVINDICACIONES

1. Un procedimiento de decodificación de imagen para decodificar una imagen que incluye un componente de luminancia y un componente de diferencia de color, el procedimiento comprende:

adquirir coeficientes de transformación;

adquirir una imagen de referencia;

seleccionar un primer modo de predicción o un segundo modo de predicción en base a un modo de predicción designado explícita o implícitamente, el primer modo de predicción corresponde a una primera predicción mediante el uso de una pluralidad de imágenes de referencia, el segundo modo de predicción corresponde a una segunda predicción mediante el uso de una única imagen de referencia;

si el tamaño de un bloque, que es una unidad de una interpolación, es igual o menor que un primer valor de umbral predeterminado, y si el primer modo de predicción se selecciona para un componente de diferencia de color, cambiar el primer modo de predicción seleccionado para el componente de diferencia de color al segundo modo de predicción, en el que el tamaño del bloque viene determinado por una anchura y una altura del bloque;

generar una imagen predicha (310) por medio de la realización, para cada uno de los componentes de luminancia y de diferencia de color, de una interpolación en la imagen de referencia adquirida de acuerdo con un vector de movimiento mediante el uso de la primera predicción o la segunda predicción, en la que la etapa de generación incluye generar la imagen predicha para el componente de diferencia de color sin llevar a cabo una interpolación mediante el uso de la primera predicción cuando el tamaño del bloque es igual o menor que el primer valor de umbral predeterminado, y en la que la etapa de generación incluye generar la imagen predicha por medio de la realización de la interpolación mediante el uso de la segunda predicción cuando el tamaño del bloque es igual o menor que el primer valor de umbral predeterminado, y

generar una imagen decodificada (305) por medio de la suma de la imagen predicha (310) y un error de predicción calculado a partir de los coeficientes de transformación.

2. Un procedimiento de codificación de imagen para codificar una imagen que incluye un componente de luminancia y un componente de diferencia de color, el procedimiento comprende:

adquirir una imagen de referencia;

generar una imagen predicha (111) por medio de la realización, para cada uno de los componentes de luminancia y de diferencia de color, de una interpolación en la imagen de referencia adquirida de acuerdo con un vector de movimiento mediante el uso de la primera predicción o la segunda predicción, en la que la etapa de generación incluye generar la imagen predicha para el componente de diferencia de color sin llevar a cabo una interpolación mediante el uso de la primera predicción cuando el tamaño del bloque es igual o menor que el primer valor de umbral predeterminado, y en la que la etapa de generación incluye generar la imagen predicha por medio de la realización de la interpolación mediante el uso de la segunda predicción cuando el tamaño del bloque es igual o menor que el primer valor de umbral predeterminado;

derivar coeficientes de transformación basados en un error de predicción que indica una diferencia entre una imagen de entrada (101) y la imagen predicha (111); y

codificar los coeficientes de transformación.