ES2979319T3 - Manejo de múltiples fuentes de imágenes HDR - Google Patents
Manejo de múltiples fuentes de imágenes HDR Download PDFInfo
- Publication number
- ES2979319T3 ES2979319T3 ES16797820T ES16797820T ES2979319T3 ES 2979319 T3 ES2979319 T3 ES 2979319T3 ES 16797820 T ES16797820 T ES 16797820T ES 16797820 T ES16797820 T ES 16797820T ES 2979319 T3 ES2979319 T3 ES 2979319T3
- Authority
- ES
- Spain
- Prior art keywords
- luminance
- image
- images
- hdr
- dynamic range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009466 transformation Effects 0.000 claims abstract description 124
- 235000019557 luminance Nutrition 0.000 claims description 874
- 230000006870 function Effects 0.000 claims description 177
- 238000013507 mapping Methods 0.000 claims description 79
- 238000000034 method Methods 0.000 claims description 55
- 238000009826 distribution Methods 0.000 claims description 29
- 238000000844 transformation Methods 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 12
- 230000001419 dependent effect Effects 0.000 claims description 9
- 238000013519 translation Methods 0.000 abstract description 3
- 238000002156 mixing Methods 0.000 description 116
- 239000003086 colorant Substances 0.000 description 76
- 238000009877 rendering Methods 0.000 description 63
- 241000023320 Luma <angiosperm> Species 0.000 description 62
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 37
- 239000000203 mixture Substances 0.000 description 37
- 210000000887 face Anatomy 0.000 description 25
- 241000282414 Homo sapiens Species 0.000 description 23
- 238000005286 illumination Methods 0.000 description 23
- 238000004519 manufacturing process Methods 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 18
- 230000000007 visual effect Effects 0.000 description 18
- 238000007906 compression Methods 0.000 description 17
- 230000006835 compression Effects 0.000 description 17
- 230000006399 behavior Effects 0.000 description 16
- 230000036961 partial effect Effects 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000005457 optimization Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 11
- 230000001815 facial effect Effects 0.000 description 10
- 238000004737 colorimetric analysis Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 8
- 210000004556 brain Anatomy 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 241000282412 Homo Species 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000004438 eyesight Effects 0.000 description 6
- 238000012886 linear function Methods 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000005352 clarification Methods 0.000 description 5
- 239000002131 composite material Substances 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000002310 reflectometry Methods 0.000 description 5
- 230000001131 transforming effect Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000010191 image analysis Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000004313 glare Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 239000002184 metal Substances 0.000 description 3
- 229910052751 metal Inorganic materials 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000036555 skin type Effects 0.000 description 3
- 208000035126 Facies Diseases 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004873 anchoring Methods 0.000 description 2
- 238000005282 brightening Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 239000000796 flavoring agent Substances 0.000 description 2
- 235000019634 flavors Nutrition 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 229920002160 Celluloid Polymers 0.000 description 1
- 244000233534 Eugenia apiculata Species 0.000 description 1
- 241000220645 Leonotis nepetifolia Species 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 208000004350 Strabismus Diseases 0.000 description 1
- 206010047571 Visual impairment Diseases 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000010410 layer Substances 0.000 description 1
- 238000002370 liquid polymer infiltration Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 230000005693 optoelectronics Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 235000014214 soft drink Nutrition 0.000 description 1
- 238000012732 spatial analysis Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/46—Colour picture communication systems
- H04N1/56—Processing of colour picture signals
- H04N1/60—Colour correction or control
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
- Transforming Electric Information Into Light Information (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Controls And Circuits For Display Device (AREA)
- Studio Devices (AREA)
- Picture Signal Circuits (AREA)
Abstract
Para permitir la combinación versátil de imágenes o vídeos necesaria ahora que están apareciendo vídeos HDR de características de luminancia considerablemente diferentes, el aparato (301) para combinar dos imágenes o dos vídeos de imágenes (Im_HDR, Im_LDR), siendo uno de ellos una imagen o vídeo de alto rango dinámico, comprendiendo el aparato: - una unidad de establecimiento de rango dinámico (302) dispuesta para establecer un rango dinámico de luminancia de combinación (CombRng), que se caracteriza por al menos una luminancia máxima (LMC) que se determina basándose en al menos uno de: una luminancia máxima de al menos una de las dos imágenes o los dos vídeos de imágenes, y un brillo pico de una pantalla para reproducir las dos imágenes o los dos vídeos de imágenes, comprendiendo además la unidad de establecimiento de rango dinámico una unidad de determinación de anclaje de luminancia (303), dispuesta para determinar una luminancia de anclaje (anc) en el rango dinámico de luminancia de combinación (CombRng), - una unidad de transformación de color (310), dispuesta para realizar al menos una transformación de luminancia en al menos una de las dos imágenes o vídeos, en donde la unidad de transformación de color (310) comprende una unidad de lectura de luminancia de anclaje de fuente (311) dispuesta para leer al menos una luminancia de anclaje de fuente (L_SA1) de una primera fuente (350) que proporciona una primera imagen o vídeo (Im1_LDR) de las dos imágenes o vídeos, y en donde la unidad de transformación de color está dispuesta para establecer una transformación de color (FF_1) que se aplicará a la primera imagen o vídeo, transformación de color que depende del valor de la luminancia de anclaje de fuente (L_SA1) al tener la propiedad de que la luminancia de anclaje de fuente (L_SA1) se asigna a una luminancia de salida en una proximidad de la luminancia de anclaje (anc); y - una unidad de combinación de imágenes (320) dispuesta para combinar las dos imágenes o dos vídeos de imágenes para formar al menos una imagen de salida (Im_o). (Traducción automática con Google Translate, sin valor legal)
Description
DESCRIPCIÓN
Manejo de múltiples fuentes de imágenes HDR
CAMPO DE LA INVENCIÓN
La invención se refiere a procedimientos y aparatos para manejar correctamente combinaciones de múltiples imágenes de diferentes fuentes y con diferentes características de luminancia (o vídeos de imágenes temporalmente sucesivas) de las cuales al menos algunas tienen un alto intervalo dinámico.
ANTECEDENTES DE LA INVENCIÓN
Hasta hace un par de años, todo el vídeo se codificaba de acuerdo con la llamada filosofía de bajo intervalo dinámico (LDR -Low Dynamic Range),también llamada recientemente intervalo dinámico estándar (SDR -Standard Dynamic Range).Eso significaba, cualquiera que fuera la escena capturada, que el máximo del código (por ejemplo, luma de 8 bits Y'=255; o 100 % de voltaje para la activación de pantalla analógica) debería, por definición estandarizada, corresponder a una representación del color blanco en una pantalla LDR con un brillo máximo de pantalla PB_D (es decir, el color blanco más brillante que la pantalla puede representar) por acuerdo estándar de 100 nits. Si la gente compraba una pantalla real que era un poco más oscura o más brillante, se suponía que el sistema visual del espectador se adaptaría para que la imagen siguiera pareciendo apropiada, en lugar de, por ejemplo, demasiado brillante (en caso de que uno tenga, por ejemplo, una escena nocturna en una película de terror). Este es el paradigma de renderizado relativo, que siempre asigna el color de luminancia máxima en la imagen codificada al brillo máximo de la pantalla, sea cual sea. Esto funcionaría si la pantalla disponible real en el lado de renderización o consumo de vídeo/imagen en realidad no es mucho más brillante que 100 nits, pero puede producir resultados indeseables si la pantalla es mucho más brillante, por ejemplo, 10 veces más brillante, es decir, que tiene un PB_D = 1000 nits.
Por supuesto, esta es una colorimetría de sistema de televisión definida muy estricta para que todos trabajen de manera coordinada, ya que la realización de un programa práctico típicamente significaba mantener un control estricto de la configuración de iluminación de la escena, ya que incluso en una iluminación perfectamente uniforme, el reflejo de varios objetos ya puede dar una relación de contraste de 100:1, y luego todavía existe la diferencia en la iluminación de varias regiones. Por lo general, se iluminaría y expondría (eligiendo una configuración de iris), de modo que los colores blancos en la (parte bien iluminada de la) escena se asignaran aproximadamente al código blanco, es decir, el código de luma máximo correspondiente a un brillo máximo de codificación PB_C, y por lo general podría recortarse a ese valor de luminancia PB_C para objetos o regiones aún más brillantes en la escena. Normalmente, también las cámaras, especialmente las primeras generaciones de cámaras digitales de principios de los años 2000, tenían problemas para captar simultáneamente zonas muy claras y bastante oscuras, es decir, por ejemplo, una parte de una escena vista fuera de la ventana de una habitación o de un automóvil normalmente se recortaría en blanco (dando componentes de color aditivos rojo, verde y azul R=G=B=max., correspondientes a sus valores de código de luma de raíz cuadrada R'= G'=B'=255).
Sin embargo, recientemente comenzaron a aparecer tanto cámaras de alto intervalo dinámico (y, lo que es más importante, nuevas formas de captura de imágenes HDR o de creación de imágenes en general) como pantallas HDR, y el resto de la tecnología de vídeo y/o imagen, por ejemplo, codificación de imágenes, composición de imágenes, etc., tiene que mantenerse coordinada con estos nuevos requisitos de nivel técnico. Téngase en cuenta que si en esta solicitud se especifica un intervalo dinámico en primer lugar con un brillo máximo (es decir, la luminancia representada más brillante) solamente, suponemos que el extremo inferior del intervalo es pragmáticamente cero (mientras que en la práctica puede depender de las condiciones de visualización, como la visualización de la placa delantera o la reflexión de la luz de la pantalla del cine, por ejemplo, 0.1 nit), y que esos detalles adicionales son irrelevantes para la explicación particular. En caso de que no se haga nada específico técnicamente para los colores de imagen más oscuros, se podría decir que no hay una razón particular por la cual una pantalla de intervalo dinámico más alto, que luego se simplificaría a un brillo máximo de pantalla más alto en primer lugar, debería representar los colores de píxeles más oscuros de manera diferente a una pantalla de intervalo dinámico más bajo, como en particular una pantalla SDR. Téngase en cuenta también que hay varias formas de definir un intervalo dinámico, y que la más natural que se usa típicamente en las explicaciones a continuación es un intervalo dinámico de luminancia representado por pantalla, es decir, la luminancia del color más brillante frente al más oscuro (por supuesto, en la práctica también pueden estar involucrados aspectos psicovisuales, por ejemplo, un solo píxel brillante en una escena oscura puede no ser tan impresionante, pero para algunas explicaciones técnicas a continuación, esto puede descartarse, y solo se aclara el diseño de elementos técnicos que se ajustan a lo que se necesita para los humanos). Se puede definir una imagen HDR como cualquier imagen que pueda contener colores de píxeles y, como se dijo en particular, colores de píxeles más brillantes, que no se pueden codificar en una codificación de imagen SDR. Como la colorimetría de dichas codificaciones de imagen o vídeo SDR se fijó (con el vídeo Rec. 709 OETF correspondiente al OETF sRGB de fotos fijas), se podría determinar matemáticamente que la codificación de luma de 8 bits podría acomodar un intervalo dinámico de solo 1000:1, es decir, de 0,1 nit a 100 nit, y nada más. Por lo tanto, si se desea poder codificar luminancias de escena que se van a mostrar, por ejemplo, 2 veces más brillantes que la escena SDR normal en blanco, es decir, hasta 200 nits, se necesitaría una nueva forma de codificación de imagen o vídeo HDR (el nuevo SMPTE 2084 es un ejemplo de un OETF que permite codificar luminancias de escena mucho más brillantes, o al menos cómo se van a representar en una pantalla en condiciones normales de visualización de televisión, por ejemplo, hasta 10.000 nits como lumas, incluso como lumas de 10 u 8 bits, que luego podrían manejarse como lumas "normales", por ejemplo, para compresión de vídeo como compresión HEVC). El sistema visual humano puede procesar intervalos dinámicos mucho más altos, y también existen en varias escenas HDR prácticas en el mundo (por ejemplo, una escena iluminada por el sol vista desde el interior de una cueva o una habitación oscura con una ventana pequeña), por lo que existe la necesidad de cadenas de manejo de vídeo de mayor intervalo dinámico, para aumentar la "vivacidad" de las imágenes. Por lo general, la iluminación en interiores puede ser una centésima parte de la iluminación en exteriores, por lo que, sabiendo que los objetos negros reflejan aproximadamente el 1 % de la luz entrante, esto ya implicaría la necesidad de un intervalo dinámico (DR -Dynamic Range)de 10000:1. Pero, si los humanos son sensibles al uno por ciento de los colores más negros en una escena nocturna en visión oscura, un DR de 1.000.000:1 del contenido de la imagen codificada puede estar en orden (lo que algunas cámaras pueden lograr y, por ejemplo, medir logarítmicamente). Por supuesto, si, por ejemplo, una cueva grande se ve desde el interior, en principio, en algunas situaciones se podría optar artísticamente por representar esa forma de cueva circundante como negra mínima recortada, pero en otros escenarios uno realmente desearía o necesitaría todos los valores grises diferentes codificados de la región de píxeles más brillante a la más oscura en la imagen, por ejemplo, cuando se produce alguna acción en la cueva (y algunas vistas externas parciales en algunas formas de cueva pueden parecer bastante extrañas cuando se recortan a negro, debido a la inversión de la detección psicológica del primer plano y el fondo parecen recortes de papel rotos, por lo que se podría evitar eso renderizando más colores oscuros en el interior de la cueva). Por lo tanto, un intervalo de visualización renderizado de 0,01 a 10,000 nit puede ser en la práctica un buen intervalo HDR, pero como se dijo, la codificación o renderización de incluso un par de factores 2x por encima de 100 nit PB ya calificaría como tecnología HDR, con la necesidad correspondiente de observar cuidadosamente cómo debe manejarse de manera diferente a la filosofía de vídeo SDR heredada. Téngase en cuenta también que un sistema de código en sí mismo no tiene un intervalo dinámico de forma nativa, a menos que se le asocie una pantalla de referencia, que establezca que, por ejemplo, R'=G'=B'=Y'=255 debería corresponder a un PB de 100 nit, o 1000 nit, etc. Un error común de tiempos anteriores es pensar que el intervalo dinámico de una imagen codificada está estrechamente relacionado con la cantidad de bits utilizados. Aunque eso sería cierto para las codificaciones lineales, como, por ejemplo, el ADC de una cámara que necesita más bits para abarcar el mayor intervalo de variación de fotoelectrones del pozo de píxeles, y aunque puede ser bueno tener al menos algo más de precisión de codificación, es decir, bits para intervalos dinámicos más altos, la cantidad de bits necesarios también depende de la forma elegida de las funciones de asignación de código de luma, que también se denomina función de transferencia optoeléctrica (OETF -Opto-Electrical Transfer Function).Por lo tanto, una imagen codificada Y'CbCr de 10 bits podría ser una imagen HDR, con colores codificables hasta un valor PB_C, así como una imagen SDR con alta precisión. El tipo de imagen que es, es decir, cómo se deben representar los lumas en una pantalla con PB_D suficientemente alto para poder mostrar todos los lumas codificados como luminancias correspondientes, generalmente se determinará leyendo los metadatos, como, por ejemplo, el valor PB_C codificado en nits de la imagen recibida. El PB_C también se puede interpretar como el PB_D de una pantalla de referencia ideal para la cual la imagen se ha graduado en color, es decir, en qué pantalla se vería óptima, en lugar de demasiado oscura o demasiado brillante.
Por lo tanto, una codificación de una imagen que es capaz de codificar imágenes con luminancias a representar de, por ejemplo, hasta 1000 nit es un buen punto de partida para tener HDR de buena calidad, y el lector puede tener en cuenta dicha configuración cuando necesite resumir una parte de una enseñanza a continuación, a menos que se mencionen otros detalles.
Entonces, en la práctica, hay escenas que pueden tener un intervalo dinámico muy alto (por ejemplo, una captura en interiores con objetos tan oscuros como 1 nit, mientras que simultáneamente se ven a través de la ventana objetos iluminados por el sol con luminancias superiores a 10,000 nit), y dado que las pantallas se están volviendo mejores (un par de veces más brillantes que 100 nit, con 1000 nit apareciendo actualmente, y se prevén PB de varios miles de nit), un objetivo es poder renderizar estas imágenes maravillosamente, sin embargo, y eso es importante: no exactamente idéntico al original, pero al menos muy natural, o al menos agradable. Así que HDR no se trata simplemente de un color más brillante y más oscuro, sino también de todas las luminancias intermedias, es decir, de hecho se trata de apariencias psicovisuales para los humanos en última instancia. Por supuesto, técnicamente, para algunas tecnologías de manejo HDR, como la mera codificación, se podría formular la apariencia necesaria en términos de luminancias técnicas que se representarán en una pantalla, porque eso es lo que debe suceder al controlar la pantalla correctamente, para que un ser humano vea los colores que aparecen correctamente. Pero el solicitante quiere enfatizar (para que el lector entienda toda la historia a continuación y lo que significa) que cuando uno desea diseñar un sistema técnico HDR versátil, uno necesita abolir el paradigma inveterado de la vista de conexión directa de 1 a 1 de la mera codificación. En Rec. 709, un radiodifusor podía ver en su monitor SDR estándar (único existente) qué luminancias estaba capturando, viendo cómo se renderizaban en su monitor, y se renderizaban en todos los televisores en casa, que serían los mismos en todas partes, porque solo había el sabor único de una pantalla SDR PB_D de 100 nits. Lo único que todavía tenía que hacer era convertir las luminancias que se iban a representar (medidas por la cámara) en códigos de luma (porque dichos códigos harían un mejor uso de los detalles técnicos de la tecnología de transmisión disponible), aplicando aproximadamente una función de raíz cuadrada, y luego en el lado del receptor la función inversa (EOTF) garantizaría que un espectador que vea el contenido decodificado sustancialmente en el mismo televisor en el mismo entorno de visualización que en el lado de la creación, experimentaría el programa como se deseaba. Esa sigue siendo la visión de HDR10. Se utiliza un EOTF de forma diferente al del Rec. 709, pero aún los colores renderizados por visualización de referencia que eran visualizables en el lado de creación todavía se renderizan con luminancias idénticas en el lado de recepción, simplemente aplicando una ecuación matemática fija a los lumas recibidos. Pero el mundo HDR real es muy variable, con diferentes espectadores que tienen diferentes pantallas con diferentes PB_D, una cantidad diferente de lámparas encendidas en sus salas de visualización, etc. Y eso fue exactamente por lo que se criticaron las películas HDR codificadas con HDR10: debido a que las películas HDR contienen muchos píxeles que son relativamente oscuros, será difícil verlos bajo una iluminación envolvente brillante (aunque la acción importante a menudo tiene lugar en las partes relativamente más oscuras del vídeo). Y HDR10 no ofrece ninguna solución para eso, con la esperanza de que los fabricantes de pantallas lo resuelvan. Sin embargo, el solicitante piensa que en general es un asunto complicado, que depende del tipo de imagen de escena HDR, y debe tener un mecanismo para permitir que el creador de contenido tenga voz en la representación de visualización definitiva (variable, es decir, no matemática fija invertida directamente conectada 1 a 1 entre alguna representación de luminancia y luma de los colores deseados) de los colores de la imagen HDR.
El lector también debe entender que debido a que un espectador suele ver el contenido en una situación diferente (sentado en una sala de estar débilmente iluminada por la noche, o en una casa oscura o en un cine, en lugar de estar de pie en un paisaje africano brillante), no hay identidad entre las luminancias de la escena y las que finalmente se muestran en la televisión (u otra pantalla). En realidad, ningún televisor puede ni podrá representar exactamente al menos algunos objetos como, por ejemplo, el sol de mil millones de nits, ni el espectador quiere ser cegado por él (al ver una pantalla pequeña, los ángulos o el deslumbramiento determinado de ese modo no son los mismos que en un entorno envolvente de ángulo sólido de 4*pi, por lo que también se debe tener cuidado con eso). El solicitante resolvió esta traducción de las luminancias apropiadas que se mostrarán a partir de los valores RGB relativos capturados por una cámara definiendo una gradación de color HDR maestra, para comenzar a codificar y comunicar. Este conjunto de imágenes HDR graduadas se puede crear según lo desee un artista (debe ser claramente obvio para el lector que, aunque podemos mencionar al artista, cuáles deben ser los aspectos técnicos de esta invención, lo que permite al artista hacer la comunicación y el control de sus requisitos), si tiene un monitor de referencia disponible, por ejemplo, puede sentarse en un entorno de visualización típico y calificar perfectamente sus imágenes HDR para una pantalla PB de 5000 nits. Pero eso es solo la mitad de la historia, es decir, poder (en absoluto, en un nuevo conjunto de requisitos de vídeo) determinar consistentemente una imagen de aspecto artísticamente agradable para una escena HDR (y poder representar fielmente esa imagen si uno la ve exactamente en la misma pantalla p B_D de 5000 nits bajo las mismas restricciones de situación de visualización). Lo que debería suceder si un consumidor que recibe imágenes HDR de 5000 nits solo tiene una pantalla de 1000 nits se explicará a continuación (ajuste de pantalla). Esa es una cuestión completamente diferente, lejos de ser algo que se pueda manejar con un enfoque de comunicación directa de 1 a 1, y uno puede comenzar a reflexionar sobre cuál debería ser ese único sistema de referencia con una pantalla de referencia PB_D.
Si esta solicitud habla de imágenes de "alto intervalo dinámico", significa que una de ellas tiene contenido de imagen adecuado para su visualización en al menos una pantalla PB_D de 1000 nits (por supuesto, el contenido también se puede mostrar en una pantalla de 100 nits o 500 nits, pero a continuación no es tan perfecto como podría ser, por ejemplo, las lámparas serán más tenues de lo ideal). Por lo tanto, en esta imagen habrá contenido que la haga visualmente interesante cuando se muestre en una pantalla PB_D más alta, es decir, hay algunos objetos de imagen que son mucho más brillantes que el promedio (o, por el contrario, en comparación con el color más brillante que se puede normalizar como Y=1; al menos algunos objetos que son mucho más oscuros, que los típicos de las imágenes SDR). Por ejemplo, una escena interior puede tener brillos que van hasta 500 nits o incluso más en la escena original, y dependiendo de si uno tiene un invernadero bien iluminado o una región de túnel estrecho de un par de nits o menos, y los brillos exteriores pueden ser en el mundo real varios miles de nits. En una pantalla, uno puede a continuación renderizar el interior por debajo de 100 nit y usar lo que la pantalla tenga disponible por encima de eso de manera óptima para los objetos al aire libre, por ejemplo, hasta 500 nit si uno tiene una película o programa de "día opaco", y hasta 1500 nit si está soleado afuera, en caso de que uno tenga una pantalla que pueda renderizar hasta 1500 nit o más (PB_D >= 1500 nit). Por lo tanto, incluso solo en la representación, puede haber una relación entre las regiones de imagen más brillantes y más oscuras de (1500/2)/(100/2) o al menos 500/100 (siendo esto típicamente definible como regiones que están iluminadas de manera diferente, es decir, puntos medios de regiones que todavía tienen un contraste intrarregional de hasta 100:1 y típicamente 30:1 debido a la reflexión del objeto). Si se asocia esto con códigos de luma por medio de una función continua, esos lumas también se separarán, pero serán menos útiles para especificar el contenido (dependerán de la forma de la OETF y, posiblemente, de los requisitos técnicos). Cuando esta solicitud menciona imágenes de intervalo dinámico más bajo (que las imágenes HDR) o bajo, hablamos de imágenes (tal vez un aspecto graduado diferente de exactamente la misma imagen de escena original capturada por la cámara, es decir, la imagen HDR de la misma escena) que tienen (o de hecho están asociadas con una pantalla de referencia de PB) un brillo máximo que es al menos una parada (un factor multiplicativo 2) más bajo, o típicamente al menos 2 3 paradas (4x u 8x, o más). Una imagen SDR se ajustaría al PB_C prescrito estándar de 100 nit. La relación de contraste de todos los objetos en esos no suele ser mucho más de 100: 1 o hasta 1000:1 como máximo, es decir, normalmente se ve un histograma de luminancia o luma mucho más uniforme.
Una segunda cosa que se necesita si se conoce el intervalo dinámico de luminancia de píxeles de imagen (que debería representarse en última instancia) para el que se necesita definir códigos de luma, es cómo distribuir realmente los códigos, es decir, con qué función de asignación de código asociar un código de luma correspondiente Y' (no solo 1023 en una codificación de 10 bits que normalmente se puede asignar al PB_D de la pantalla de referencia asociada, sino, por ejemplo, con qué luminancia debería corresponder el código de luma 743) con un objeto o luminancia de píxel Y, o viceversa.
En los últimos 2-5 años, un par de empresas han propuesto diferentes formas de codificar vídeos HDR (es decir, imágenes en movimiento o, en otras palabras, conjuntos de imágenes temporalmente sucesivas). Ha habido una cierta prisa hacia los primeros productos, que se esperan en 2016, por lo que a pesar de la complejidad de la codificación y el manejo de imágenes HDR, es posible que se hayan recortado algunas esquinas. Esto ha llevado a diferentes técnicas de codificación, que incluso se basaron en diferentes filosofías básicas. Que no se decidiera finalmente significaría que todos los sistemas de manejo de imágenes tendrían que poder ocuparse de las diferencias, y eso podría volverse bastante complejo (ciertamente en comparación con la simplicidad de la colorimetría única de la era del vídeo SDR, hace 5 años).
Dolby Laboratories Inc. comenzó con un sistema de dos capas (es decir, se necesita una imagen base y una imagen de corrección para hacer una imagen HDR, en línea con los conceptos de escalabilidad en la compresión de vídeo), que es algo más caro de poner en chips baratos, pero también ha diseñado una codificación de una sola capa y contribuyó con una EOTF básica, el llamado cuantificador perceptual PQ(Perceptual Quantizer),recientemente estandarizado como SMPTE ST. 2084.
La tecnología se explica muy bien en: https://www.smpte.org/sites/default/files/2014-05-06-EOTF-Miller-1-2-handout.pdf.
La idea detrás de esto era que la raíz cuadrada clásica (o más exactamente Rec. 709) función de conversión o transferencia optoelectrónica OETF (la inversa de la potencia cuadrada EOTF), que se usaba convencionalmente para convertir luminancias de escena de cámara a códigos de luma, no es adecuada para las altas relaciones de contraste entre diferentes regiones que posiblemente ocurren en imágenes HDR, sin importar cuántos bits se usen (o al menos para números pragmáticos como 14 bits o menos, para los altos intervalos dinámicos que pueden ocurrir en la vida real, como las gradaciones maestras para 20 paradas o más escenas). Pero esto resultó ser una buena inspiración. Aunque originalmente se diseñó debido a un comportamiento físico accidental de los cañones de electrones de los CRT(Cathode-Ray Tubes - Tubos de Rayos Catódicos),la función de raíz cuadrada siguió de cerca cómo la visión humana convierte las luminancias de la escena en códigos de luminosidad visual, por lo que era una buena manera de usar mejor los códigos (con un siguiente código correspondiente a una siguiente impresión de luminosidad psicovisual, por lo que no se desperdician demasiados códigos en lo que no se puede percibir fácilmente de todos modos, ni, lo que es peor, no hay regiones donde haya muy pocos códigos para codificar con precisión gradientes de luminancia suaves y precisos). Ahora se puede generalizar esta curva que da para cada intervalo de luminancia sucesivo (por ejemplo, una parada más brillante) aproximadamente una cantidad igual de códigos de luma hasta un brillo codificable máximo, que Dolby normalmente considera de 10.000 nits (que de hecho debería ser suficiente para la representación pragmática de la pantalla porque algunas personas ya se quejan de que es demasiado brillante, aunque por experimento también se puede encontrar que se pueden hacer imágenes impresionantes incluso con regiones grandes e incluso regiones parpadeantes por encima de 20.000 nits, y todo, por supuesto, depende de cómo se asignan las luminancias de varios objetos de imagen a lo largo del intervalo posible, y uno no siempre necesita llenar eso hasta PB para cada tipo de imagen todo el tiempo; y aquellos que se quejan de imágenes dolorosamente brillantes que podrían ser peligrosas deberían darse cuenta de que la luna llena en la noche también es de 5000 nits, y nadie se ha quedado ciego al mirar la luna).
Así que Dolby estandarizó una EOTF de referencia, y uno puede usar su inversa siendo la OETF (o aproximadamente la inversa en caso de que uno quiera más comportamientos) para definir lumas para todos los objetos/píxeles en la imagen, y a continuación uno puede poner esos códigos (típicamente codificados por colores clásicamente como YCbCr, pero también se podría usar la codificación RGB), por ejemplo, en un disco Blu-Ray, después de aplicar técnicas de codificación HEVC regulares. A continuación, se tiene una clasificación HDR maestra en elBD,(Blue-Ray Disk)que se puede representar, de la manera que desee el artista, por ejemplo, mediante un televisor de 5000 nits que puede decodificarlo. Por lo tanto, se tiene un mecanismo para proporcionar de extremo a extremo, 1 a 1, para mostrar imágenes HDR (solo) de alguna escena en una pantalla del consumidor, en las instalaciones del consumidor. Por supuesto, cuando se dice a continuación, por ejemplo, a través de un BD, el lector experto entenderá que todos los demás mecanismos de comunicación de imagen o vídeo, como, por ejemplo, transmisión por satélite, entrega de vídeo por Internet, etc., también se entienden, ya que los conceptos presentados tienen una gran aplicabilidad. Esta EOTF 2084 también ha sido elegida como la función de mapeo de luminancia a luminancia para la codificación HDR10.
La emisora británica BBC ha diseñado una forma diferente de codificación de vídeo HDR. Vinieron con una OETF estandarizada (porque comenzaron desde la vista de la cámara en lugar de la pantalla que estandariza una EOTF de una pantalla de referencia), que tiene una forma algo diferente. Su visión y tecnología se describen muy bien en: http://down-loads.bbc.co.uk/rd/pubs/whp/whp-pdf- files/WHP283.pdf
Definen una OETF que sigue de cerca la raíz cuadrada clásica Rec. 709 forma de la función OETF hasta un gris medio (Y'=0,5) de la clásica de 100 nits Rec. 709 OETF, y para luminancias más altas se convierte en logarítmico, para poder exprimir más colores brillantes sobre el color del objeto blanco de la escena en los códigos disponibles. Se inspiró en lo que las cámaras ya hacían durante mucho tiempo cuando necesitaban hacer una buena imagen de salida LDR para una escena que era demasiado HDR. Es decir, en lugar de una relación de contraste de luminancia de aproximadamente 200:1 píxeles, se tenían, por ejemplo, algunas regiones que eran demasiado brillantes, y se intentó exprimir brillos que son 4 veces más brillantes que el blanco de la escena que debería asignarse a Y'=255, por lo tanto, la luminancia renderizada Y= 100 nit. Aunque los objetos blancos de la escena a continuación se vuelven grisáceos, a veces puede ser psicovisualmente aceptable porque el cerebro también ve e interpreta las regiones de píxeles más brillantes en la imagen total. Siempre se puede mapear tales luminancias de escena brillantes para mostrar PB simplemente reduciendo la exposición de la cámara (por ejemplo, cambiando el iris), pero a continuación la cara del lector de noticias puede oscurecerse demasiado. Entonces, lo que hicieron las cámaras fue seguir la curva hasta, por ejemplo, Y'= 80 % o algún otro punto de inflexión, y a partir de ahí usar una curva que tenga una pequeña pendiente, por lo que puede representar un buen número de luminancias de escena más altas en el 20 % restante de los códigos. O se podría usar alguna curva de registro específica de la cámara, que redujo un poco las luminancias de los píxeles más oscuros (por lo que tal vez oscurezca un poco las caras, lo que no debería ser necesariamente un problema en una escena de alto contraste, porque el espectador entiende que la persona está de pie en una región relativamente oscura (posiblemente sombra), y el brillo podría ajustarse adecuadamente, en una pantalla más brillante, de todos modos), pero liberando algunos códigos más para los colores de píxeles realmente brillantes que a continuación suelen representarse de manera un poco más gruesa, por ejemplo, con un recorte suave. De esta manera, hay un equilibrio entre los colores que deben mostrarse lo suficientemente brillantes y una calidad visual aún razonable para colores más brillantes. Pero el problema era que cada cámara hacía este mapeo logarítmico de las luminancias de escena relativas capturadas (por supuesto, en esencia, absolutas) de los códigos de luma de una manera diferente, lo que seguía siendo razonable cuando las cámaras todavía eran solo cámaras LDR extra buenas, pero más problemático para una cámara que es realmente una buena cámara HDR, que se supone que captura escenas HDR complejas de tal vez 20 paradas. Así que la BBC quería definir una curva fija para todos los propósitos prácticos. Aun así, al aplicar esa curva OETF fija como una curva de mapeo de luminancia a la imagen graduada HDR maestra como entrada, se obtendría una versión SDR razonable de la misma, y si se transmite esta imagen, a continuación las pantallas heredadas pueden representar directamente la imagen SDR, y las pantallas HDR pueden aplicar la curva inversa fija para reconstruir la imagen HDR maestra. Y una ventaja del procedimiento de la BBC es que poco se tiene que cambiar en la tecnología, ya que todo funciona casi como solía ser (pero eso podría ser demasiado engañoso y tener un precio a pagar, durante la producción o al menos algunas combinaciones de vídeo).
Pueden tener varios puntos de partida diferentes, por ejemplo, Dolby puede haberse centrado más en el mercado de películas profesionales, mientras que la BBC puede haberse centrado más en los requisitos prácticos de televisión, como producciones de campo de espectáculos, equipos de televisión desplegados, etc. Pero una diferencia importante que es interesante para esta solicitud de patente es que la BBC consideró que las luminancias de píxeles (o, de hecho, los colores) deberían representarse relativamente, mientras que Dolby consideró que deberían representarse absolutamente. Esa es una diferencia importante en la filosofía, porque determina si te paras en el lado referido a la escena o en el lado referido a la pantalla de la brecha que debe cruzarse para llegar a la representación óptima. Es una gran diferencia sobre qué luminancias se codificarán en dos imágenes que deben combinarse, pero va aún más allá, puede influir en cómo una filosofía alternativa de este tipo dictaría que la combinación puede ser necesaria, desde el punto de vista del enfoque y las propiedades esenciales.
Por lo tanto, la BBC abordó el problema definiendo una OETF básica, que definía luminancias y lumas HDR relativas de grado maestro (o al menos capturadas por cámara, con también algunas decisiones de apariencia como elegir una exposición, y tal vez una curva gamma), y las luminancias de visualización apropiadas para ser renderizadas deben calcularse aplicando algún sistema gamma, que dependería tanto de la pantalla PB_D como del brillo del entorno de visualización. Eso significaría que si un fabricante de pantallas obtiene contenido codificado por la BBC, que puede contener luminancias de hasta 12 veces el nivel de color blanco de la escena, pero tal vez no dependiendo del contenido real de la escena y la configuración del iris de la cámara, podría hacer una de dos cosas. Podría usar la filosofía de BBC relativamente, y siempre mapear el código PB_C a la pantalla PB_D, cualquiera que sea la pantalla PB_D (y a continuación tal vez aplicar alguna función de brillo gamma y modificación de contraste, dependiendo de qué PB_D uno realmente tenga, pero al menos el blanco se renderizaría al blanco, lo que tiene al menos una ventaja que es que si no hay tales regiones demasiado brillantes, sino solo colores de píxeles relativamente más oscuros como en una escena brumosa, se establece de una manera calibrada fácil que tales colores codificados más oscuros también se renderizarán más oscuros que PB_D, pero por otro lado, las partes más brillantes de la escena se renderizarán con una luminancia variable PB_D; lo que parecería ser una buena propiedad para combinar datos de imagen, ¿pero lo es?). O bien, podría pretender que estos datos de luminancia de imagen codificados son buenos alrededor de o para exactamente algún valor de luminancia absoluta PB_D, por ejemplo, 1000 nits, y a continuación hacer su propia degradación interna en caso de que el televisor tenga, por ejemplo, solo 500 nits Pb_D (mediante mapeo de gama ciega). Dolby, sin embargo, consideró que se debe especificar en términos absolutos qué luminancias se deben representar, al menos si tiene una pantalla Sim2 o pulsar de 5000 nits de alta calidad, y cómo se generó esta imagen artísticamente no importa, siempre que pueda definir las luminancias de objetos necesarias a lo largo del intervalo de referencia de luminancia maestro EOTF 0-10000 nit. Entonces, por ejemplo, si uno tiene una cara oscura en una película de terror, en el procedimiento absoluto normalmente se diría que esta imagen debe renderizarse, por ejemplo, a 15 nits, que se puede renderizar en pantallas de intervalo dinámico bajo y alto. Sin embargo, en un procedimiento relativo, el brillo de esta cara se escalaría, incluso si uno no fuera tan lejos como para que el 15 % de 100 nits también significara el 15 % de 5000 nits, ya que una función gamma dependiente de PB de la pantalla corregiría algo por eso, pero aun así, no se determinaría con tanta precisión a qué luminancia se representaría finalmente la cara en una pantalla. Eso hace que uno piense en lo que le hubiera gustado al artista, si en el lado de la representación pueden ocurrir tantos cambios, por lo que hay algo que decir para una representación absoluta más precisa (si se usa el intervalo dinámico completo de una pantalla, por supuesto, la sensibilidad del espectador se adaptaría a eso, pero normalmente se usaría un subintervalo de una pantalla HDR si el contenido requiriera una representación de hasta solo, por ejemplo, 900 nits, al menos para, por ejemplo, el 99 % de los píxeles de la imagen). Aun así, tampoco la codificación de luminancia absoluta tiene una respuesta completa, porque si el PB_D del realmente presente es inferior al PB_C de la codificación, es decir, las luminancias necesarias para que la imagen sea óptima, todavía se necesita alguna estrategia de degradación, que mejor no sea demasiado ciega y en contra de las necesidades de reclasificación de apariencia de la escena o tipo de escena HDR en particular. El lector puede imaginar que tales filosofías diferentes conducen no solo a diferentes códigos que determinan las EOTF, sino probablemente también a un manejo diferente de las imágenes, es decir, cómo se asignarán las luminancias de los píxeles del objeto a varias regiones a lo largo de esa curva o su intervalo de luminancia de referencia correspondiente. Y si eso ya conduce a discusiones difíciles cuando uno tiene el problema relativamente más simple de mapear alguna imagen de entrada con un PB_C particular a alguna pantalla de PB_D más bajo, que aún se podría imaginar que es algo designable a voluntad (por ejemplo, si se usa lo que llamaremos una curva r, debido a su forma que aumenta un poco los brillos, y a continuación para las luminancias más brillantes comienza a obtener una pendiente cada vez más pequeña, comprimiendo efectivamente aquellos en subintervalos más pequeños del intervalo de luminancia SDR, es decir, como el primer cuarto de un círculo o elipse), ya que se podría estirar, por ejemplo, la parte de refuerzo para los colores más oscuros de la curva de mapeo de luminancia HDR a SDR para aumentar un poco más los colores más oscuros, lo que aumentaría el brillo de algún objeto típico en esa parte del intervalo de luminancia de entrada o la curva, digamos el abrigo de alguien, a continuación el lector puede imaginar que las cosas pueden volverse más complejas cuando se desea armonizar los brillos de los objetos en diferentes imágenes, de diferente intervalo de dinámica, generalmente iluminados de manera diferente y potencialmente codificados de manera diferente.
El solicitante como Dolby también piensa que es mejor definir una EOTF maestra, que definimos como 0-5000 nit. Una de las razones es que una imagen capturada de una escena africana brillante es básicamente diferente en términos absolutos de la de un otoño noruego, por lo que, aunque siempre se pueden aplicar todo tipo de transformaciones matemáticas de color (que afectan al menos a la luminancia) para producir en última instancia la apariencia de brillo adecuada, ¿por qué no codificar ya esta diferencia en los valores de luma y sus luminancias absolutas correspondientes en el intervalo de luminancia de referencia? (Ventajosamente, incluso se podrían diseñar esos lumas para que se correlacionen ya con los brillos psicovisuales, a continuación se podrían codificar más fácilmente losdesiderataartísticos en formas de curva adicionales apropiadas al calificar a partir de la imagen HDR inicial maestra imágenes correspondientes de diferente intervalo dinámico, que ni HDR10 ni BBC tienen). Pero lo más importante, al final solo existe la representación definitiva de los colores de los píxeles (incluso si eso puede suceder en pantallas de diferentes PB), y sin al menos una pantalla de referencia asociada (definida no solo por un brillo máximo, sino también por su comportamiento en escala de grises como una EOTF), la imagen es solo un conjunto de números (que con suerte se pueden decodificar correctamente), no mucho más. Se trata de la experiencia definitiva de la imagen HDR, y no tanto de cómo se diseñó hasta ese momento, y eso es también lo que los graduadores ven en su(s) pantalla(s) de referencia. Uno debe poder, en el lado de la creación, hacer una imagen inicial inequívocamente definida. Por lo tanto, debemos comenzar por estandarizar una EOTF de referencia que solucione esto (de lo contrario, por ejemplo, los números de luma digital en el ordenador que se utiliza para la gradación de color no están definidos), y luego se pueden construir más sistemas además de eso (incluso si se desea volver a construir algo de relatividad en el sistema, al menos eso puede ser relatividad controlada, determinada en función de algún sistema de medición de luminancia de referencia comúnmente aceptable).
Ahora, habiendo resumido aquí arriba algunas ideas básicas de HDR de fondo necesarias para la novela, podemos pasar a una situación más práctica, de tener disponibles diferentes imágenes para las cuales los creadores decidieron por alguna razón que tenían que ser codificadas por uno u otro procedimiento.
La diferencia en el comportamiento del Dolby EOTF frente a BBC EOTF (el presente solicitante de patente diseñó una EOTF que es muy similar a Dolby PQ, o puede usar el Dolby PQ) se puede observar en la Figura 1. OETF 113 es el PQ EOTF (hemos mostrado solo la parte de hasta 1000 nits, porque si mostramos el gráfico de hasta 10.000 nits, las otras dos curvas se vuelven poco claras). BBC OETF 112 es una curva relativa, por lo que se puede debatir sobre qué luminancias absolutas debe codificar, pero asumimos que normalmente subirá a 500 nit (o tal vez a 1000 nit, pero luego puede comenzar a mostrar errores y volverse menos apropiada). La curva Rec. 709 solo puede codificar luminancias absolutas de hasta 100 nits, y debemos recordar que por varias razones en un futuro lejano todavía puede haber mucho contenido SDR (que, por ejemplo, no se convirtió fácilmente a alguna versión HDR). En el eje y hemos mostrado lumas relativas, porque queremos evitar la discusión de profundidad de bits, que no es tan relevante para esta solicitud (asumiremos que todas las codificaciones utilizarán 10 bits para los tres canales de color, por lo que la luma máxima 1023 se convierte en 1023/1023=1,0). Debería ser obvio que si obtenemos una luma de entrada de 0,5 (es decir, 512 o 128 en 8 bits) eso puede significar cualquier cosa como luminancia correspondiente, dependiendo del procedimiento de codificación utilizado (en algún lugar alrededor de 0,7 podríamos ser 10 veces diferentes, por lo que simplemente hacer un interruptor de reemplazo de luma de píxeles podría de repente producir un píxel reemplazado muy oscuro o muy brillante). En la Figura 1B mostramos cómo difieren las curvas si también las definimos en una luminancia de entrada relativa de 0-1,0. Debe quedar claro que si se comienza con los lumas de una imagen codificada, las luminancias a representar se pueden calcular a partir de las curvas inversas.
Ahora, ignorando todos los problemas prácticos, como los errores de color después de varias calidades de codificación, los costos de rediseño de chips, etc., se puede decir que los tres mecanismos de codificación funcionan bien si solo se necesita comunicar un único conjunto de imágenes HDR, que es en lo que se centró en la primera fase de la investigación, el desarrollo y la estandarización.
Pero los sistemas prácticos de manejo de HDR necesitan más, de lo contrario, los usuarios se quedan con cabos sueltos y preguntas, lo que uno no puede hacer como diseñador de sistemas.
El solicitante ha diseñado un sistema de codificación, que no solo puede manejar la comunicación (codificación) y el uso (representación adecuada en última instancia) de un único vídeo HDR estandarizado, para un único tipo típico de pantalla en el campo (todos los que necesitan tener una pantalla PB de 5000 nits, o tal vez todos los que todavía no tienen un televisor heredado de 100 nits pueden comprar solo un televisor PB de 1000 nits), pero cuyo sistema puede manejar varios tipos de pantalla posibles con varios PB_D en el campo, al poder calcular una imagen óptimamente (re)clasificada para cada pantalla en particular, que el solicitante de tecnología llama sintonización o sintonización de pantalla. Sus principales características, y particularmente el decodificador 251, se resumen en la Figura 2 (en la medida en que sea necesario para esta solicitud).
El solicitante tenía el enfoque de que cualquier optimización de aspecto final dependiendo del entorno de visualización podría realizarse en el lado de la pantalla, aunque no con una gamma final como propone la BBC, sino por un mecanismo que (aunque calculado por un receptor, por ejemplo, dentro de un televisor o reproductor BD) no está determinado únicamente por el televisor (es decir, su diseñador), y no solo en función de factores del lado del receptor como el brillo máximo de la pantalla real y el brillo envolvente de visualización, sino que también depende del contenido de la imagen en sí, ya que las imágenes son complejas, y también lo es su optimización a las peculiaridades del lado de representación. Esto cruza la antigua y difícil brecha entre la creación y el uso del contenido. El lado receptor puede ser el único lado que realmente sabe qué capacidad de visualización está realmente disponible, sin embargo, el lado de la creación es el único lado que todavía sabe definitivamente de qué se trata el contenido, como losdesiderataartísticos. Si no se puede vender al director de cine o DOP en su lugar todos los televisores para optimizar el aspecto del color en el lado receptor, al menos se puede dejar que el creador especifique las intenciones paramétricamente, al menos aproximadamente, con el creador de la imagen siendo capaz de especificar matemáticamente: "si tuviera una pantalla de este PB_D, al menos preferiría renderizar las diversas luminancias de píxeles como esta y esta".
Los ingenieros del solicitante argumentaron que la parte dependiente del contenido de la imagen podría manejarse permitiendo que un graduador de color del artista (aunque también podría usarse funciones automáticas de análisis de imágenes, es decir, determinar funciones de mapeo de luminancia basadas en propiedades de luminancia establecidas de las imágenes actuales) especifique las transformaciones de color óptimas según él que al menos cambiarían las luminancias de los píxeles del objeto para (simplemente) dos aspectos correspondientes a un intervalo dinámico diferente o, de hecho, PB_C, en dos extremos del intervalo de posibilidades (de los brillos máximos de la pantalla). Por lo tanto, la imagen de aspecto HDR debe corresponder a un PB_C bastante alto que el solicitante eligió de 5000 nits (aunque el solicitante puede usar otro PB_C igual de bien), y la imagen de DR baja también puede ser una calificación s Dr de 100 nits, ya que eso satisfaría, por ejemplo, el 90 % del mercado inicialmente existente de personas que usan pantallas SDR heredadas. Entonces, para una escena en particular, el graduador de color puede decir: "si solo tengo 100 nit PB, debo poner las lámparas en la imagen que preferiría ver renderizada a 4000 nit para tener objetos de lámpara que parezcan muy brillantes en la imagen renderizada, pero eso es imposible ahora, a 95 100 nit, cuando lo primero que deseo es que haya suficiente espacio de luminancia en el intervalo de luminancia de la pantalla para que los objetos de menor luminancia en la habitación sean lo suficientemente brillantes, es decir, entre, por ejemplo, 10 y 90 nit, así que tal vez ahora ponga todos los píxeles de la lámpara exactamente a 100 nit". Lo mismo se puede hacer, por ejemplo, para hacer que una escena nocturna sea apropiadamente oscura y que las luces de la calle sean lo suficientemente brillantes, tanto para una representación de pantalla de 5000 nits como de 100 nits. El lector debe detenerse por un momento para reflexionar que no es tan trivial hacer una clasificación nocturna que se vea apropiadamente nocturna, es decir, de la luminancia correcta para los objetos (por ejemplo, una persona negra sentada en un área sombreada y mal iluminada), y luego tanto en HDR como en SDR (especialmente con otras restricciones como, por ejemplo, la complejidad de IC), pero se puede hacer, al menos si no es perfeccionista, a continuación razonablemente (por supuesto, si la pantalla sigue aproximadamente las especificaciones, y no hace una imagen completamente diferente por sí misma).
Habiendo obtenido estas dos imágenes graduadas (M_HDR y M_LDR, cuyo aspecto de distribución de luminancia suele ser determinado por un ser humano), una para la situación en la que uno tiene una pantalla HDR de alta calidad para renderizar las imágenes y otra para pantallas SDR heredadas de 100 nits, el solicitante quería evitar codificar y comunicar dos conjuntos completos de imágenes, es decir, una necesidad de codificación dual, que necesitaría dos canales, etc. Y el solicitante también quería que las dos imágenes graduadas de DR diferentes fueran codificables con codificaciones basadas en DCT de tipo MPEG existentes, por lo que decidimos que una de las dos secuencias de imágenes de vídeo se definiera paramétricamente con funciones de transformación de color (F_L), que se utilizaría para calcular las imágenes a partir del conjunto de imágenes que realmente se comunican (por ejemplo, aunque no necesariamente, la secuencia de imágenes SDR). Por lo tanto, podemos comunicarnos a través de algún sistema de comunicación de vídeo 250 (el lector experto entiende que nuestro sistema puede emplearse en muchos sistemas, por ejemplo, una transmisión de vías aéreas a un receptor que es un ordenador ya sea desde un servicio de suministro de vídeo profesional, o entre aparatos de consumo conectados en una red interna, o un sistema de comunicación basado en cable securitizado profesional, siendo el receptor un aparato profesional en un cine, o un sistema basado en Internet, etc.), por ejemplo, las imágenes HDR maestras M_HDR, como por ejemplo la señal de vídeo codificada HEVC S codificada por el codificador de vídeo 203. El codificador también añade todos los parámetros que definen las funciones de transformación de color F_L como metadatos, por ejemplo, mensajes SEI o similares. O viceversa, podemos transmitir la clasificación maestra de LDR M_LDR, junto con funciones que permiten volver a calcular en el lado receptor imágenes de mayor intervalo dinámico, como, por ejemplo, M_HDR.
Por lo tanto, en el lado de creación (o transcodificación) habrá, por ejemplo, algún aparato de gradación de color 201, que contiene un conjunto de transformación de color 202, dispuesto para determinar y aplicar varias funciones de transformación de color F_L como se desee, para obtener una imagen de aspecto LDR maestra M_LDR a partir de la imagen HDR maestra creada previamente M_HDR, por ejemplo, 5000 nit PB_C típicamente (que se puede hacer en el mismo aparato de gradación de color al mismo tiempo, o se puede determinar de otra manera, previamente). Como ejemplo de procesamiento de imágenes, el lector puede consultar el documento WO2014/056679, cuyas enseñanzas de solicitud se incorporan a la presente en su totalidad para los países que lo permiten. Como ejemplo de una transformación, se puede obtener una imagen de una función que no afecta a las cromaticidades, sino solo a las luminancias de píxeles (todas las discusiones a continuación se centrarán, por simplicidad de comprensión, en las transformaciones de luminancia) que dobla las luminancias más altas un poco hacia abajo y aumenta los colores más oscuros en una entrada HDR relativa de 0-1.0 (eje x) a la gráfica de salida LDR de la función, de modo que se verán lo suficientemente brillantes en la pantalla de 100 nits relativamente más oscura (una curva en forma de r). Pero también son posibles funciones más complejas que personalizan y potencialmente solo ajustan localmente algunas luminancias de objetos, y también transforman aspectos de cromaticidad como la saturación, siempre que se puedan hacer dos apariencias óptimas relacionadas: una imagen LDR y una imagen HDR.
Ahora, lo siguiente que se puede hacer con esta tecnología de codificación es que si realmente no se necesita volver a calcular imagen(es) M_HDR de 5000 nits, porque se necesitan imágenes de intervalo dinámico medio M_MDR que tengan un aspecto correctamente graduado para una pantalla realmente conectada 280 de brillo máximo PB_D= 1500 nits, por ejemplo, con nuestros algoritmos de ajuste de pantalla se pueden obtener las imágenes M_MDR correctamente graduadas, a partir de las imágenes M_HDR (o M_LDR en otras realizaciones/aplicaciones) recibidas. El lado receptor tiene un decodificador HEVC clásico, por ejemplo, 260, que emite una imagen normal (por ejemplo, RGB lineal o YCbCr) M_HDR, y las funciones de transformación de color requeridas (F_L o su función de espejo de forma inversa) para cambiar M_HDR a M_LDR. Sobre la base de toda esta información, nuestro conjunto de sintonización de color 271 en un conjunto de procesamiento de color 270 (que asumimos para esta realización ilustrativa está separado de un televisor, por ejemplo, dentro de un decodificador, o un servidor de un proveedor de vídeo a pedido, etc., pero también puede residir dentro de un televisor) no solo puede determinar las funciones óptimas necesarias F*_L para determinar la(s) imagen(es) M_MDR requerida(s) a partir de la(s) imagen(es) recibida(s), sino también en última instancia, emitir la(s) imagen(es) de intervalo dinámico medio M_MDR. Los algoritmos de ajuste de visualización para obtener una función F*_L adecuada para la transformación de luminancia SDR a MDR en función de la función o funciones de transformación de luminancia F_L SDR a HDR pueden ser bastante complejos dependiendo de la variante de realización que se desee, por ejemplo, para tener en cuenta los detalles del entorno de visualización, pero para comprender las presentes aplicaciones, todos esos detalles están más allá de lo necesario, por lo que el lector puede simplemente tomar nota de que habrá alguna función de luminancia F*_L para aplicar para obtener de cualquier imagen codificada entrante e imagen MDR, por ejemplo, digamos una función gamma.
Aunque este mecanismo ahora permite tener una representación de imagen HDR óptima no solo para un único tipo posible de pantalla HDR (por ejemplo, todos los que necesitan comprar una pantalla PB_D de 1000 nits, y nadie puede comprar una pantalla PB_D de 3000 nits y aun así obtener una imagen agradable, al menos no si uno se preocupa por la precisión colorimétrica), pero para cualquier pantalla posible, esta experiencia técnica adicional aún no es suficiente para un ecosistema de manejo HDR totalmente flexible. Hasta ahora, la tecnología resumida todavía solo se centra en obtener un único conjunto HDR de imágenes de vídeo, desde una única escena HDR capturada, correctamente a los diversos sitios de consumo, y una manera de representarlo adecuadamente en un único televisor disponible. Esa ya era una tarea desalentadora para prepararse para la nueva tecnología de vídeo HDR, por lo que se retrasaron otros aspectos para tratarlos más adelante.
Pero hoy en día la programación de vídeo es más compleja. Uno puede querer obtener feeds de todo tipo de sitios diferentes, y se ha vuelto fácil hacer contenido de vídeo (incluso para los consumidores), con dispositivos portátiles simples (incluso un feed de noticias de vida desde un helicóptero, o algún sporter filmando sus acciones con una GoPro atada a su casco), y comunicarlo fácilmente a través de varios medios de comunicación como, por ejemplo, Internet. Y, de hecho, al menos teóricamente, debido a que el gran despliegue por parte de los consumidores aún puede necesitar despegar, los televisores se están volviendo más como ordenadores, con conexiones a Internet, y capaces de usar o cosuministrar varias fuentes de datos, presentadas como información visual. Por ejemplo, esperamos varios usos del vídeo, p.ej., uno puede estar viendo un programa de noticias en la parte de atrás y al mismo tiempo jugando algún videojuego en algún área renderizada de la pantalla, ya sea un área de la misma pantalla o en una pantalla adyacente.
Ese problema comenzó en el área de LDR, pero fue mucho menos difícil, porque todos los vídeos se definieron en la misma colorimetría Rec. 709, y más o menos similarmente iluminados y expuestos. E incluso los gráficos por ordenador de, por ejemplo, un juego se definieron de manera similar. Pero hoy en día el vídeo o las imágenes HDR pueden ser cualquier cosa, porque eso es lo que uno quisiera atender, por lo que si uno no encuentra una buena estrategia de marco para manejar y, en particular, combinar múltiples contribuciones de imágenes (parciales), uno podría esperar caos en el futuro. Como se dijo, en el pasado, todo el vídeo se definía en el mismo marco de LDR, es decir, todos los códigos de luma máximos correspondían a las mismas luminancias renderizadas de 100 nit, y las luminancias correspondientes a lumas por debajo del máximo, podían decodificarse por medio del único Rec existente.
709 EOTF.
Todavía había cierta preocupación (especialmente en producciones complejas, o fuera de la radiodifusión y otras producciones de campo), y la necesidad de un manejo cuidadoso, porque las cámaras podrían tener algunos ajustes de configuración "menores". Los más importantes eran típicamente el balance de blancos (es decir, el aspecto cromático de los colores neutros y blancos, es decir, si los objetos blancos se veían demasiado azules o demasiado amarillentos, lo que podría hacerse evidente al cambiar entre diferentes alimentaciones de la cámara) y la configuración de exposición. Si uno bajara la exposición de una captura de la misma escena de una de las cámaras, esa cámara sería vista rápidamente como dando una imagen demasiado oscura. Especialmente para producciones profesionales de múltiples cámaras del mismo programa que era visible, como en un programa de noticias que corta a un reportaje en vivo, uno podría esperar una captura diferente (especialmente si se trata de un vídeo de teléfono móvil amateur), o al menos, eso fue una captura (ya sea temporalmente intercalado o Picture-in-picture) de una escena de aspecto totalmente diferente (por ejemplo, una escena nocturna de El Cairo, en lugar de un estudio bien iluminado en los EE. UU.). Ahora bien, hay dos situaciones que uno debe discriminar. Por supuesto, si uno cambia entre una escena nocturna y una escena del mediodía de un desierto, el espectador esperaría alguna diferencia en el brillo promedio de la escena, o de las luminancias de los objetos en la escena, aunque todavía debería ser una diferencia razonable, por ejemplo, la escena del desierto no sorprende al espectador, o lo hace entrecerrar los ojos. Pero, por otro lado, uno puede hacer que cualquier escena se vea nocturna o brillante, jugando con la combinación de la exposición de la cámara y el brillo final de la pantalla de renderizado. En la era SDR que a veces conducía a imágenes extrañas, si un hombre de la cámara tenía que hacer una elección de exposición inconveniente. Por ejemplo, alguien parado lejos de la ventana en una habitación profunda sería mucho más oscuro que los objetos cerca de la ventana. El camarógrafo quería exponer a la persona en el área más oscura, para que se viera bien colorida, lo que podría resultar en que el lado izquierdo de la imagen, y todos los objetos de la habitación de allí, estuvieran totalmente recortados en blanco, haciendo que el espectador tuviera que ver una fea "media imagen". Pero al menos la colorimetría estaba razonablemente definida. Uno sabía que los colores saldrían así, y eso sería lo mismo independientemente de si tales imágenes se mezclaban o se renderizaban únicamente. En la era HDR, uno quería resolver estos problemas haciendo que todas las regiones fueran codificables en lugar de recortadas a blanco, por ejemplo, reduciendo la exposición en función de cuánto más brillantes sean exactamente las partes brillantes de la sala que corresponden a la luminancia del actor o presentador en una escena en particular. Pero eso volvería desagradablemente como un problema, en caso de que uno quiera mezclar armoniosamente el contenido de vídeo, por lo tanto, existe la necesidad de la tecnología de las siguientes realizaciones.
Además, las cámaras más complejas y recientes obtuvieron configuraciones adicionales, como, por ejemplo, una gamma negra. Puede que no sea fácil combinar perfectamente dos cámaras diferentes (si son de la misma marca, al menos se podría, por ejemplo, apagar o establecer parámetros similares a todos los "exóticos"), pero al menos era tarea del sombreador de la cámara, que es un ingeniero con un ojo especial para las diferencias de color (o director técnico) para controlar de forma remota todas esas configuraciones colorimétricas. Eso libera al operador de cámara real para centrarse en el encuadre, que ya es una tarea bastante difícil, especialmente para algunas producciones con actores saltando por la escena, etc. En cualquier caso, en el marco SDR, incluso si uno hiciera las cosas un poco mal, el hecho de que el creador de contenido se asegurara de que al menos su tema principal estuviera razonablemente iluminado (es decir, al menos el 10 % del blanco, o aproximadamente 1 parada por debajo del gris medio como una luma o impresión de luminosidad visual), combinado con el intervalo limitado de 100:1 que corresponde aproximadamente a varias reflectancias difusivas, cualquier combinación incorrecta con alguna luminancia de objeto incorrectamente posicionada en comparación con otras luminancias de objeto normalmente no sería demasiado desarmónica (al menos, los espectadores críticos pueden percibir que algo está mal, por ejemplo, tal vez los negros se vuelvan un poco más gris lechoso, pero nada se vería realmente brillante, o destellaría con grandes diferencias de brillo, como algo que podría suceder en la producción HDR).
Pero ahora, en la era emergente del HDR, no existe un intervalo de referencia LDR de 0-100 nits, ni las cámaras (y otros sistemas) actúan de manera relativamente simple en ese intervalo (es decir, normalmente realizan transformaciones de color no extremas). Como se puede ver en la Figura 1, incluso si en el futuro elegimos usar solo uno de los posibles códecs HDR, lo cual no es obvio, todavía habrá algún contenido definido por el códec LDR. Y una diferencia entre 5000 nit y 100 nit es tan extrema que no se puede llamar un cambio de aspecto "menor" (a veces solo lo notan los profesionales), sino una variación muy notable y potencialmente incluso extremadamente irritante (y podemos esperar que si varios dispositivos como la televisión en el futuro quisieran actuar de acuerdo con las preferencias de su diseñador a lo largo de ese vasto intervalo de luminancia de ese vasto espacio de color, esa variabilidad puede volverse aún más extrema, y no como se desea).
El problema puede no ser tan evidente aún si uno está viendo un solo programa de una sola fuente. Por ejemplo, si alguien está viendo el contenido HDR de una pantalla PB_D alta en un entorno oscuro, los colores pueden ser demasiado brillantes, pero al menos sus ojos pueden adaptarse. Las diferencias siempre se vuelven muy claras si uno tiene alguna referencia para juzgar una imagen, por ejemplo, en una presentación de imagen en imagen (PIP) de dos vídeos.
Dado que las imágenes hoy en día pueden venir de todas partes, no necesariamente bajo el control de un director que decide sobre el aspecto de las imágenes ni se muestran por sí mismas en un marco controlado, sino que solo se unen potencialmente a veces por primera vez en el lado de la pantalla (por ejemplo, se inserta un comercial dedicado), se necesita urgentemente un buen marco para coordinar la combinación de varias imágenes HDR originales.
Por lo tanto, como se ha dicho, la mayor parte de la (novedosa) tecnología HDR solo se centra en poder comunicar la información de la imagen HDR, al comunicar lumas de píxeles claramente definidos, que luego se pueden convertir en luminancias renderizadas. Si uno tiene una pantalla con un PB_D más bajo que el p B_C del contenido, tendría que hacer algo, ya que no se puede renderizar la luminancia hasta PB_C en esa pantalla. Se podría hacer una compresión lineal (mapeo de blanco a blanco relativamente, es decir, renderizar los píxeles en la imagen con luminancia codificada PB_C en realidad en la pantalla con luminancia PB_D), pero luego, con toda probabilidad, la imagen renderizada se verá subóptima (por ejemplo, algunas de las partes más oscuras de la imagen pueden verse demasiado oscuras, tal vez incluso con la acción siendo invisible). Por lo tanto, se podría intentar hacer un mapeo de luminancia más inteligente, que mantenga las luminancias más oscuras razonablemente visibles, por ejemplo, con una curva en forma de r. Las técnicas generales de mapeo de gama serían posibles, por ejemplo, dentro de un televisor, pero estas serían ciegas, es decir, no se adaptarían a los detalles de las imágenes HDR y, por lo tanto, serían muy subóptimas.
El documento US-20150245004 enseña que se pueden mezclar dos imágenes, de las cuales al menos una puede ser una imagen HDR y la otra puede ser una imagen SDR. La solicitud describe que puede haber un desajuste en el espacio de color (es decir, el ancho del triángulo RGB, porque se utilizan otros primarios aditivos en una definición de color DCI P3 que en una definición de vídeo habitual sRGB, pero ese aspecto cromático es irrelevante para la presente explicación de la solicitud, ya que se puede elegir además de lo que es de esencia primaria aquí, a saber, las luminancias de los píxeles de la imagen y el intervalo dinámico correspondiente de la codificación de la imagen), y un desajuste en el intervalo dinámico. Sin embargo, esa solicitud no es muy detallada sobre cómo debería o podría ocurrir la mezcla de vídeo. [0029] menciona que la mezcla puede ocurrir en el espacio de color del dispositivo de visualización, es decir, el intervalo dinámico que en la denominación de esta solicitud termina en PB_D. Además, el procesamiento parece estar relacionado con la conversión a una función de transferencia diferente TF, o corrección gamma [0027]. Por último, hay una enseñanza muy genérica [0036] sobre que el conjunto de composición puede evaluar el intervalo dinámico del contenido de vídeo, y presumiblemente eso se corresponde con la enseñanza no detallada de que se puede realizar un análisis estadístico de las imágenes de entrada [0028]. El experto en la materia interpretaría esto a la luz del conocimiento existente. De hecho, ha habido una enseñanza en la optimización de vídeo SDR, que analiza las propiedades estadísticas del vídeo de entrada, a saber, los puntos finales del histograma de luminancia, y optimiza ese histograma en particular para el intervalo de visualización disponible. Por ejemplo, debido a varias razones, no es raro que los píxeles negros u oscuros en una imagen capturada sean más brillantes de lo que podrían (o tal vez deberían) ser, por ejemplo, una luma de 30 en lugar de 0 (ignorando nuevamente por un momento detalles complejos sobre los intervalos de protección contra desbordamientos, fugas de luz de la pantalla, problemas de visibilidad dependientes de la iluminación, etc.). Luego, se podría estirar el histograma para que la luma de imagen más baja sea 0 en lugar de 30, lo que da como resultado imágenes más bonitas debido al mayor contraste de las estructuras de la imagen y mejores negros, lo que puede ser especialmente agradable para la visualización envolvente oscura.
En realidad, cuando se necesita diseñarprima facieun mezclador de vídeo, sin haber inventado más detalles enseñados, el experto podría tener las siguientes dos opciones a considerar como se explica con la Figura 13 (aparte de mezclar códigos de luma, que como se explica con la Figura 1 es, aunque agradable y simple para la mezcla pura de imágenes SDR, no tan evidente o inteligente cuando se tienen imágenes definidas de manera diferente). Si una enseñanza dice que necesita convertir debido a diferentes funciones de transferencia, el experto pensaría en un sistema de mezcla de diseño natural como en la Figura 13A. En esta mezcla se tiene un intervalo de luminancias naturales (1301), por ejemplo, hasta 50.000 nit para ser lo suficientemente grandes y, de hecho, cualesquiera que sean las formas OETF de las definiciones de código, las convierte en luminancias. Ambas imágenes contenían luminancias (físicamente definidas de forma única), por supuesto, se podrían mezclar en principio, pero la pregunta es si eso sería suficiente, dadas las consideraciones prácticas psicovisuales y artísticas. En segundo lugar, si mapeamos a un intervalo dinámico de visualización preestablecido común (1302), con un PB_D de, por ejemplo, 700 nit [por lo que, por simplicidad, ahora omitimos la etapa de la OETF y razonamos puramente sobre las luminancias correspondientes], a continuación otro mapeo natural (el paradigma de mapeo relativo, por ejemplo) que se podría considerar es ajustar (en función de las "propiedades estadísticas de las imágenes") las imágenes hacia la capacidad de la visualización (es decir, el intervalo dinámico de la imagen hacia el intervalo dinámico de la visualización). La forma natural de hacerlo es estirar los intervalos (es decir, correspondientes a un mapeo de blanco a blanco), por ejemplo, linealmente. También se podría aplicar alguna función de mapeo en forma de gamma, pero la pregunta es a continuación cuál debería ser ese coeficiente gamma y por qué. Pero esto crea resultados que ya son exactamente lo que en varios casos nos gustaría evitar. Si se estira, por ejemplo, una imagen SDR de un paisaje con nieve a 700 nits, puede llegar a ser molestamente brillante.
Además, aunque estos sistemas de mapeo natural ya no son perfectos solo por consideraciones sobre sus puntos finales, como dónde debería mapearse el color más brillante, tales técnicas ignoran por completo lo que, como se dijo, es probablemente el aspecto más importante del HDR, a saber, la distribución (controlada con precisión) de todas las luminancias de los objetos entre los puntos finales del intervalo dinámico (y en la actualidad eso todavía parece ser una falta de comprensión de muchos, si no de la mayoría de los expertos, que parecen insistir en que el h Dr se trata simplemente del valor de luminancia blanca dividido por el negro que cualquier tecnología puede alcanzar, aunque a menudo una imagen que se representa correctamente en una pantalla de intervalo dinámico más bajo puede verse mejor que una imagen mal controlada en una pantalla de DR más alta, por ejemplo, contraste y efecto HDR). Se puede entender fácilmente que el intervalo dinámico no se trata solo de puntos finales técnicos, centrándose en el ejemplo de tener nieve en una clasificación maestra HDR de PB_C=5000 nit. El graduador, por ejemplo, asignaría la parte más brillante de la nieve al sol a 800 nits, mientras que otro graduador puede ponerla a solo 550 nits, por lo que esencialmente esto parece una situación de intervalo dinámico más bajo, ya que la mayor parte de la capacidad del códec no se utiliza para esta imagen. En la nivelación SDR, se puede suponer que normalmente el graduador colocará el píxel más brillante de la nieve a 100 nits. Para imágenes graduadas MDR, se puede reflexionar sobre a qué luminancia debe caer el píxel más brillante, incluso cuando solo se renderiza una imagen en lugar de una mezcla posiblemente muy complicada de varios contenidos de imagen. Entonces, ¿cómo se sabe a qué luminancia final (mezcla) se debe representar en última instancia un píxel de nieve, ya sea que provenga de una imagen SDR, donde está relativamente codificada como máximo 1,0, o de "alguna" codificación de imagen HDR, en la que, incluso ignorando la forma OETF porque ese puede no ser el factor determinante más importante, el píxel de nieve tiene una luminancia relativa que parece algo arbitraria a primera vista de, por ejemplo, 0,126.
La Figura 14 aclara otro punto importante que se pasa por alto con los procedimientos que simplemente se centran en el intervalo dinámico de cualquier sistema técnico, ya sea alguna codificación correspondiente a una pantalla de referencia teórica o una pantalla real, etc., como algo con una extensión definida principalmente por el punto final, como, por ejemplo, cómo funcionarían las transformaciones de luminancia ciega para el mapeo de gama. Especialmente en HDR, la iluminación de los objetos no necesita ser controlada estrictamente como, por ejemplo, en un estudio de noticias SDR, pero en principio puede ser cualquier cosa. Si uno camina al sol más allá de un lugar vacío en el bosque, por ejemplo, un área de hierba, uno puede percibir visualmente que el interior del bosque ya puede parecer negro. Eso, por supuesto, no es en absoluto porque sea negro, porque los árboles allí son de un color marrón como en cualquier otro lugar, y la maleza es igual de verde, sino porque la iluminación local es, por ejemplo, 1/20°, o incluso menos, que la iluminación local es el lugar libre sin árboles, que recibe la luz completa del sol y el cielo. Y el 1/20° comienza a parecerle a los humanos como el negro psicovisual, hasta que uno echa un vistazo más de cerca.
Un objeto como una camiseta, por lo tanto, puede tener diferentes luminancias, incluso en la misma película (en otras palabras, podría caer por todo el lugar en el intervalo de, por ejemplo, 1000 nit PB_C_HDR; tenga en cuenta que un graduador podría decidir restringir un poco la variación en su calificación maestra, pero explicamos con una relación natural casi de 1 a 1 con las luminancias relativas capturadas por la cámara de la escena original). En el sol, la camiseta será - 5 veces más brillante que en una media sombra inicial, donde la camiseta está principalmente iluminada por, un ángulo sólido considerable del cielo azul. De hecho, 100 nit también serían artísticamente lo que uno podría esperar para un "día opaco" en una buena pantalla HDR, mientras que los 500 nit podrían aparecer como si estuvieran realmente iluminados por el sol. Cuanto más se adentra la persona en el bosque, más área del cielo que podría iluminarlo está bloqueada por las hojas de los árboles, por lo que la luminancia del objeto en particular, en este caso la camiseta de la persona, sería, por ejemplo, 100 nit, ergo 50x más oscura que la camiseta brillante, ergo probablemente también se vea algo negruzca en una representación de esta escena HDR en particular. Tal vez en una clasificación HDR cinematográfica para la visualización en el hogar, las luminancias se pueden clasificar de forma más conservadora, por ejemplo, la mitad de los valores dados, pero la distribución de las diversas luminancias aún puede ser el mismo punto. Entonces, una pregunta ahora sería, si uno con cualquiera de las formas de mezcla relativamente estáticas anteriores intercalara estas diversas representaciones de camisetas en un vídeo en ejecución (con sus propios detalles de luminancia), ¿eso siempre sería "automáticamente" razonablemente bueno, y si no, ¿qué debería hacerse a continuación?
Otra técnica anterior interesante es la siguiente:
El documento US2015/0042890 enseña la ecualización de vídeo que incluye realizar la ecualización de modo que una secuencia de imágenes tenga un intervalo dinámico que sea constante en un grado predeterminado, donde el vídeo de entrada incluye vídeos e imágenes de intervalo dinámico alto y estándar de ambos. La ecualización se realiza con un punto de anclaje común (por ejemplo, nivel de gris del 20 % o media logarítmica de luminancia). El documento US2013/0328907 enseña un procedimiento para transformar datos de imagen para su visualización en una pantalla diana. Una función de transferencia sigmoidea proporciona un parámetro libre que controla el contraste de tono medio. La función de transferencia puede ajustarse dinámicamente para adaptarse a las condiciones cambiantes de iluminación ambiental. La transformación puede seleccionarse para adaptar automáticamente los datos de imagen para su visualización en una pantalla objetivo de una manera que preserve sustancialmente la intención creativa incorporada en los datos de imagen.
El documento WO2014/130213 enseña sistemas y procedimientos para superponer una segunda imagen/datos de vídeo sobre una primera imagen/datos de vídeo que se describen en esta invención. Los primeros datos de imagen/vídeo pueden estar destinados a representarse en una pantalla con ciertas características, por ejemplo, capacidades HDR, EDR, VDR o UHD. Los segundos datos de imagen/vídeo pueden comprender gráficos, subtítulos, texto, publicidad o cualquier dato que se desee superponer y/o componer en los primeros datos de imagen/vídeo. Los segundos datos de imagen/vídeo pueden mapearse en apariencia de acuerdo con las estadísticas de imagen y/o características de los primeros datos de imagen/vídeo. Además, dicho mapeo de apariencia se puede hacer de acuerdo con las características de la pantalla que se van a representar los datos compuestos. Se desea que dicho mapeo de apariencia renderice datos compuestos que sean visualmente agradables para un espectador, renderizados en una pantalla deseada. El documento US2015/256860 enseña un procedimiento para fusionar gráficos y datos de vídeo de alto intervalo dinámico. En un receptor de vídeo, un procedimiento de gestión de visualización utiliza metadatos para mapear datos de vídeo de entrada desde un primer intervalo dinámico en el intervalo dinámico de datos gráficos disponibles. La señal de vídeo reasignada se mezcla con los datos gráficos para generar una señal compuesta de vídeo. Para aliviar los saltos de mapeo de tonos perceptuales durante los cambios de escena de vídeo, un transformador de metadatos transforma los metadatos en transformados para que en un receptor de televisión (TV) los valores de metadatos pasen sin problemas entre escenas consecutivas.
RESUMEN DE LA INVENCIÓN
El problema anterior de necesitar un procedimiento para coordinar razonablemente la combinación de imágenes con un intervalo dinámico (potencialmente muy) diferente se puede resolver teniendo un aparato (301) para combinar dos imágenes o dos vídeos de imágenes (Im_HDR, Im_LDR) de diferentes fuentes y con diferente luminancia máxima, siendo una de ellas una imagen o vídeo de alto intervalo dinámico, comprendiendo el aparato:
- un conjunto de establecimiento de intervalo dinámico (302) dispuesto para establecer un intervalo dinámico de luminancia de combinación (CombRng), que se caracteriza por al menos una luminancia máxima (LMC) que se determina en función de las luminancias máximas de las dos imágenes o los dos vídeos de imágenes,
el conjunto de establecimiento de intervalo dinámico que comprende además un conjunto de determinación de anclaje de luminancia (303), dispuesto para determinar una luminancia de anclaje (anc) en el intervalo dinámico de luminancia de combinación (CombRng);
- un conjunto de transformación de color (310), dispuesto para realizar al menos una transformación de luminancia en al menos una de las dos imágenes o vídeos, donde el conjunto de transformación de color (310) comprende un conjunto de lectura de luminancia de anclaje de fuente (311) dispuesto para leer al menos una luminancia de anclaje de fuente (L_SA1) a partir de metadatos de una primera fuente (350) que proporciona una primera imagen o vídeo (Im1_LDR) de las dos imágenes o vídeos,
y donde el conjunto de transformación de color está dispuesto para establecer una transformación de luminancia (FF_1) que se aplicará a la primera imagen o vídeo que produce una primera imagen de salida que tiene primeras luminancias de salida, cuya transformación de luminancia depende del valor de la luminancia de anclaje de fuente (L_SA1) al tener la propiedad de que la luminancia de anclaje de fuente (L_SA1) se mapea a una luminancia de salida en las proximidades de la luminancia de anclaje (anc); y
- un conjunto de combinación de imágenes (320) dispuesto para combinar las luminancias de salida de la primera imagen de salida con luminancias de la otra de las dos imágenes o dos vídeos de imágenes para formar al menos una imagen de salida combinada (Im_o).
En primer lugar, para evitar dudas, por combinación de imágenes nos referimos a varias opciones posibles para reunir espacialmente o, en caso de vídeo, posiblemente también temporalmente, el contenido de la imagen. La combinación debe entenderse en el sentido original latino amplio como "unir dos juntos", y no en el sentido más limitado de, por ejemplo, mezclar, que reservamos en este texto para la adición ponderada de dos fuentes por píxel. El experto entiende que las diversas realizaciones de esta invención resuelven la necesidad de una buena combinación (armoniosa de luminancia o coincidencia coordinada) de vídeo que se produce, entre otras cosas, en diversas combinaciones de imagen en imagen (y en general hoy en día esto incluye intercalar espacialmente al menos algunos píxeles de la primera imagen con parte de la segunda imagen, por ejemplo, en una cantidad que cambia temporalmente que corresponde a voltear la primera imagen como si fuera una página y mostrar píxeles de la imagen subyacente, pero esta invención se asegurará de que los colores de los píxeles, y en particular sus brillos percibidos, corresponderán correctamente), mezclar combinaciones tales como un desvanecimiento o intercalación temporal tal como, por ejemplo, un corte a un comercial en momentos regulares durante una película, etc. Tanto cuando se reemplaza una región espacial de una imagen por otra (entera o parte de una) segunda imagen, como cuando se muestran temporalmente imágenes de otra secuencia de vídeo entre o después de las imágenes de un primer vídeo, no se debe tener demasiada discordancia de brillo (es decir, una de las imágenes no debe verse excesivamente más brillante que la otra, por ejemplo, en lo que respecta a su lóbulo de histograma principal u objetos clave), especialmente cuando también hay contenido intermitente, etc. En cualquier escenario de este tipo, se puede establecer un intervalo dinámico de luminancia de combinación (CombRng), que es el intervalo dinámico de la imagen combinada (representación vacía), que se llenará con datos de imagen combinados (por ejemplo, se podría tomar para la intercalación o sucesión temporal el intervalo más grande de los dos).
Debe quedar claro para el experto en la materia qué es una imagen de alto intervalo dinámico y por qué, a saber, una imagen que no es una imagen LDR heredada definida para un brillo máximo de 100 nits, es decir, que no se puede combinar de una manera LDR clásica (a primera vista, parece haber algún desajuste entre el objeto de la imagen o las luminancias de los píxeles definidas en los dos marcos de codificación de imágenes diferentes). Debe quedar claro para el lector experto que si el aparato obtiene solo 2 imágenes fijas (o, por ejemplo, 5), normalmente la imagen de salida (Im_o) será una imagen fija. En caso de que se combinen dos o más vídeos de imágenes sucesivas, se generará un vídeo de salida, es decir, una sucesión de esas imágenes de alguna forma, por ejemplo, en caso de que cada vídeo tenga una imagen para cada instante de tiempo, el vídeo resultante puede ser un vídeo de mezcla de mezcla alfa con exactamente la misma cantidad de imágenes para instantes de tiempo correspondientes que las dos secuencias de imágenes originales, o el vídeo resultante puede tener imágenes para diferentes instantes de tiempo, por ejemplo, tener una longitud del 100 % del primer vídeo, 50 % del segundo vídeo, con sus diversas imágenes asignadas en la mezcla a algunos de los instantes de tiempo.
Para mantener las enseñanzas de esta patente legibles y concisas, fingiremos que las realizaciones solo hacen transformaciones en luminancias (el lector puede, al leer, fingir que las imágenes son imágenes en escala de grises), ya que las enseñanzas son principalmente sobre cómo manejar las diferencias en el intervalo dinámico de luminancia y las impresiones de brillo que esto daría a un espectador. Sin embargo, por supuesto, el lector experto entiende que en realidad normalmente se realizarán transformaciones de color, por ejemplo, puede entender tanto cómo una luminancia corresponde a una definición de color lineal R,G, B, como cómo se puede crear un píxel con una luminancia deseada transformando su color, por ejemplo, en RGB lineal como en el documento WO2014/056679. En caso de que para mayor concisión digamos a continuación algo para vídeo, el experto entenderá que también puede aplicarse a imágenes fijas. En algunos casos, el vídeo puede, debido a los aspectos en tiempo real, desear formas más simples de manejo, por lo que se presentan elegantes soluciones rápidas para la mezcla. Algunas de nuestras realizaciones de mejor rendimiento funcionarán con la intervención de artistas humanos, ya que los humanos pueden juzgar mejor de qué se tratan exactamente las imágenes HDR y qué necesitan en varias presentaciones mixtas, pero otras realizaciones funcionarán con anotación automática mediante algoritmos de análisis de imágenes.
El aparato debe ser capaz de establecer un intervalo dinámico de luminancia de combinación más adecuado, que es un nuevo intervalo dinámico que es una parte de la razón por la que un problema de combinación muy complejo se convierte en uno más manejable. Como se explicará a continuación, este no necesita ser simplemente uno de los intervalos dinámicos que ya existen, es decir, donde ya se ha inventado y definido, a saber, ni el intervalo dinámico de cualquiera de las imágenes fuente necesariamente, ni el intervalo dinámico de la pantalla final en la que se debe representar el contenido (si incluso eso se conoce durante la combinación, que no es cierto para todas las realizaciones), la pantalla prevista (que puede no conocerse en algunas realizaciones, aunque algunos aparatos del lado de creación pueden tener una estimación razonable de lo que puede ser una buena pantalla de referencia, que es un representante típico de la pantalla típica que se espera en el campo, en las instalaciones del consumidor). Ese intervalo dinámico de luminancia de combinación debe ser tal que la presentación combinada tenga la mejor calidad visual o impacto en el espectador. Eso puede depender, por supuesto, de varios aspectos del contenido a definir. Si el contenido principal (que llamaremos la segunda imagen o vídeo, porque eso hace que la afirmación sea más fácil de leer) es, por ejemplo, una película, a continuación al creador de la película no le gustaría que su película se molestara demasiado. Por ejemplo, no debe ser para que después de un comercial brillante, el espectador ya no pueda ver bien lo que está sucediendo en una escena oscura de la película. En tal escenario, como normalmente habrá uno de los dos vídeos que está distorsionado en sus propiedades de luminancia para hacerlo más armonioso con el otro vídeo de entrada y, por lo tanto, el vídeo combinado, la película es el vídeo más importante (o principal), para el cual las luminancias deben dejarse en gran medida sin distorsionar (cuando sea posible). Pero también al productor o patrocinador comercial le gustaría que su comercial saliera en el renderizado final lo mejor posible. El conjunto de transformación de color (310) y/o el conjunto de combinación (320) pueden imponer una política de que el comercial no pueda sobrepasar la película. Aun así, p.ej., un comercial LDR tampoco debe oscurecerse innecesariamente. Por ejemplo, una cara puede no verse muy bonita si, al compararse con otro objeto relacionado en la película, se ve casi negra. Como dijimos anteriormente, el bosque puede parecer negro en comparación con las regiones iluminadas por el sol muy brillantes, si el sistema visual humano adapta su interpretación de los valores de gris en esa área brillante. Por lo tanto, si hay áreas importantes (grandes) en la película o transmisión HDR (o juego, etc.) que son muy brillantes, digamos 2000 nit, y especialmente cuando están estrechamente adyacentes a los píxeles SDR combinados, a continuación un objeto SDR de solo aproximadamente 20 nit podría parecer negruzco, por lo que se puede desear algo de brillo antes de combinar. Además, la visibilidad de, por ejemplo, las características faciales u otros detalles del objeto se reduce con la luminancia y el contraste promedio del objeto. Aunque experimentamos que incluso con imágenes individuales, algunas personas pueden quejarse de que en algunas situaciones la distribución del brillo del objeto (por ejemplo, el histograma de luminancia de píxeles de una representación HDR) no es completamente óptima, por ejemplo, demasiado brillante en algún escenario, la adaptación visual y el cerebro humano suelen ser relativamente indulgentes si se representa una sola imagen, ya que el cerebro puede determinar y ajustarse a lo que deberían ser todos los objetos en esa única imagen. Pero si un objeto ahora está compuesto espacialmente en otra imagen, el espectador está obligado a notar diferencias como serias, incluso si algún contenido está en un marco. Porque el cerebro juzga parte del contenido de las imágenes como referencia para la distribución del brillo de la escena, y normalmente las escenas no están tan desconectadas como un PIP, sino que tienen una variación de iluminación suave. Como se mostrará, no es tan fácil a primera vista saber cuál es una buena combinación de brillo. Al menos, eso no se puede hacer durante la creación de los vídeos separados, ya que, por ejemplo, el creador de la película no sabe qué comercial local se insertará (por ejemplo, por un operador de cable), o incluso, qué segunda imagen seleccionará el espectador de alguna fuente de imagen en, por ejemplo, un PIP mientras ve la película (tal vez transmitida por su ordenador doméstico, o aparato doméstico central de gestión de contenido). También téngase en cuenta que la importancia visual de algunos dicen que el objeto relativamente brillante depende, entre otras cosas, de su tamaño. Al tener las dos imágenes disponibles, el aparato puede tomar decisiones de combinación más inteligentes. Es posible que sea necesario que reduzca la luminancia máxima renderizable (LMC), por ejemplo, para que el contenido h Dr se parezca más a la primera imagen, si se trata de una imagen SDR. Eso puede depender de observar otras propiedades del píxel o luminancias de objeto (donde un objeto es un conjunto agrupado inteligentemente de píxeles semánticamente relacionados). Por ejemplo, si los objetos más brillantes son lámparas, se puede permitir reducir el brillo de esas lámparas en el intervalo dinámico de combinación (CombRng) durante algún tiempo. Ese no es el HDR más espectacular, pero la imagen HDR todavía se puede usar para renderizar lámparas muy brillantes, y especialmente para pantallas conectadas con un brillo máximo más bajo (LM_MDR) que el de la imagen combinada (LMC), las lámparas codificables más brillantes no se pueden renderizar exactamente, es decir, con la luminancia del códec, de todos modos. Entonces uno todavía tiene una película de alto intervalo dinámico, pero luego con un intervalo dinámico que es más apropiado para la situación de una combinación.
De hecho, uno puede pensar en dos escenarios alternativos típicos. Genéricamente, se puede afirmar que el intervalo dinámico de combinación, es decir, al menos su luminancia superior (LMC), está definido por el aparato que analiza las necesidades de, por un lado, la entrada de al menos dos imágenes y, por otro lado, si algo con respecto a eso ya se puede determinar, el intervalo dinámico (al menos el brillo máximo) de la pantalla prevista en la que se debe representar la combinación de imágenes (es decir, las necesidades de HDR del contenido de imagen presentado adecuadamente de una pantalla HDR típica). Por lo tanto, algunas realizaciones necesitarán determinar el CombRng basándose únicamente en las dos imágenes, si aún no se puede decir nada o no se puede decir mucho sobre cómo se deben ajustar para su uso (pero en algunas realizaciones ya puede haber un ajuste hacia algún uso típico esperado: por ejemplo, si las imágenes HDR maestras de, por ejemplo, PB_C=5000 nit se mostrarán principalmente en pantallas de intervalo dinámico más bajo, y luego se espera que se intercalen considerablemente con material de imagen SDR, se puede considerar crear ya, por ejemplo, para la compresión de vídeo para la comunicación, las imágenes combinadas o combinables (en el lado de recepción, lo que significa que es posible que alguna información de imagen aún necesite ser transformada por luminancia) en un intervalo dinámico más bajo que el PB_C=5000 nit, por ejemplo, 1.5x el brillo máximo esperado de la pantalla del lado del consumo de, por ejemplo, 1000 nit, ergo, el intervalo dinámico de combinación tendrá a continuación un PB_C de, por ejemplo, 1500 nit). Un primer ejemplo típico tendrá a continuación una película HDR, es decir, con el intervalo dinámico más grande de los dos vídeos de entrada de imágenes sucesivas, y el contenido SDR debe transformarse por luminancia, o al menos anotarse adecuadamente poniendo sus uno o más valores de anclaje de fuente en metadatos co-comunicados, de modo que armonice razonablemente (o pueda armonizarse en el sitio de presentación final) con la película HDR, siendo el contenido principal. Sin embargo, un escenario típico alternativo ya puede pretransformar el contenido HDR a un intervalo dinámico más bajo, que está más en línea con la representación de visualización típica prevista y/o la inserción de contenido SDR. Si se tiene una pantalla real para la representación de, por ejemplo, 750 nit PB_D, dicho sistema puede, por ejemplo, transformar (o anotar con luminancias de anclaje para determinar las transformaciones de luminancia) las luminancias de ambos vídeos (lo que puede ocurrir en sitios y tiempos de producción totalmente diferentes, que es el poder del anclaje consistente) para hacerlos armoniosos en una combinación DR de, por ejemplo, 1500 o 2000 nit PB_C, o tal vez incluso 1000 nit PB_C. Este contenido combinado o combinable se puede degradar fácilmente al intervalo dinámico de visualización definido PB_D = 750 nit necesario.
Especialmente porque el solicitante diseñó un marco en el que las (diversas) imágenes de aspecto de intervalo dinámico diferente último (reclasificado) se pueden comunicar no realmente como imágenes codificadas reales (es decir, con los colores de píxeles final y fijamente definidos en los componentes de color de las imágenes típicamente comprimidas por DCT), sino como funciones para calcular los diversos brillos de píxeles posibles de dicha imagen secundaria a partir de cualquier imagen primaria, esas funciones se pueden redefinir y, por lo tanto, se pueden comunicar definiciones más complejas (por ejemplo, las especificaciones de cómo se deben calcular las luminancias de imagen para al menos algunos objetos de imagen especiales en diversas situaciones, por ejemplo, varios intervalos dinámicos de combinación). La codificación clásica de imágenes o vídeos solo codifica y comunica "la" imagen que se utilizará, es decir, con sus luminancias de píxeles como deberían (!) ser renderizadas, pero el solicitante puede transmitir una imagen completamente diferente (es decir, con la estructura espacial y la textura necesarias de los objetos, pero no la colorimetría correcta, en particular, aún no las luminancias correctas de los objetos o píxeles de la imagen), y luego una prescripción de un procedimiento de cómo crear finalmente las luminancias correctas para la imagen final, que en esta solicitud será una imagen combinada, definida con todas sus luminancias de píxeles en el intervalo dinámico de luminancia combinado CombRng.
Del mismo modo, puede haber razones para, por ejemplo, aumentar el mínimo (LmiC) del intervalo de combinación en comparación con el mínimo (LmiH) de una de las imágenes que es una imagen de intervalo dinámico (con intervalo dinámico Im2_Rng), por ejemplo, porque con la combinación de una imagen LDR relativamente brillante (por ejemplo, si no se ha oscurecido con mucha precisión) el brillo global (o local para al menos algunas partes oscuras de la imagen HDR) de la imagen de salida combinada es tal que las partes más oscuras, que provienen exclusivamente de la imagen HDR, no se pueden ver muy bien. Es decir, al transformarlos en un CombRng con negros más brillantes, se pueden iluminar adecuadamente (eso sucederá debido a la elección del intervalo de combinación, y además no es necesario realizar un procesamiento inteligente de la imagen HDR per se, es decir, se iluminará adecuadamente incluso mediante una simple transformación de color al CombRng).
Por lo tanto, el lector puede entender cómo en varios puntos de la cadena de manejo de imágenes, por ejemplo, todavía algún sitio de creación de contenido, donde se define el contenido final, por aparatos típicamente bajo el control de proveedores de contenido, antes de ingresar a la parte de la cadena de imágenes de consumo de imágenes, o algún sitio de consumo de imágenes (por ejemplo, mezcla de dos tipos de contenido únicamente bajo la responsabilidad del usuario final, por ejemplo, por el usuario final que usa su control remoto o control informático), se puede establecer un intervalo dinámico de combinación adecuado, ya sea por un humano, potencialmente de forma semiautomática o automática. En general, dicho aparato observará tanto el contenido de la imagen (es decir, la calidad HDR, es decir, qué PB_C tienen los diversos contenidos, pero también la distribución de las diversas luminancias de objetos o píxeles en ese intervalo dinámico que termina en PB_C, y qué tipo de objetos brillantes [por ejemplo, efectos HDR] existen, y si pueden distorsionarse fácilmente por luminancia sin crear modificaciones muy objetables en el aspecto), así como las necesidades del uso final de estas imágenes, es decir, típicamente la representación de la pantalla (si, por ejemplo, las imágenes se van a suministrar a una base instalada de consumidores de pantalla SDR, a continuación un CombRng más bajo puede estar en orden). Cuando se hace automáticamente, un algoritmo utilizará modelos heurísticos que imitan lo que los combinadores humanos (es decir, aquellos que hacen las imágenes combinadas y/o los metadatos para eso, por ejemplo, especificando el valor de LMC y al menos un punto de anclaje, que será un punto de anclaje de origen de al menos una de las dos imágenes o vídeos que se combinarán en última instancia) utilizarán como metodología. En el lado oscuro del CombRng, se juzgará qué colores más oscuros seguirán siendo relativamente visibles, modelando dicha visibilidad en función de aspectos como, por ejemplo, el deslumbramiento de las áreas más brillantes de los objetos de imagen más brillantes, la luz de fuga de la pantalla esperada y el enmascaramiento dependiente de la luz del entorno de los colores más oscuros debido a los reflejos típicos de la placa frontal de la pantalla, etc. El nuevo elemento en este modelo en comparación con la pantalla única y el entorno de visualización típico esperado (por ejemplo, cine en casa, con luces atenuadas) es la introducción del contenido de la imagen secundaria. Pero, en general, dado que este establecimiento del CombRng generalmente es lo primero (antes de la determinación de un anclaje adecuado), esta estimación puede ser aproximada (por ejemplo, no verificar con precisión dónde se introduce el contenido de SDR y si la parte más brillante de la imagen de SDR, incluso potencialmente iluminada , cae geométricamente junto a una parte oscura de la película, por lo tanto, potencialmente enmascaramiento considerable, aunque algunas realizaciones podrían tener en cuenta todo eso también al establecer la luminancia superior e inferior del CombRng, por ejemplo, en una determinación directa o iterativa, esta última verificando iterativamente cuál sería una buena luminancia de anclaje, y luego luminancias límite de CombRng correspondientemente adecuadas).
Dado que en varias aplicaciones ya puede ser adecuada una combinación aproximada (por ejemplo, si el espectador de la película quiere disfrutar en última instancia de su película, no debe interrumpirla ni combinarla con ninguna imagen adicional, pero si lo hace, debe reconocer que siempre habrá alguna distorsión en la colorimetría de ese contenido de vídeo principal, incluso si es solo psicovisualmente en la apreciación de la impresión total de la imagen de la imagen combinada, y no realmente un cambio de las luminancias de la película, en comparación con cómo eran antes de la combinación), ya puede ser adecuado calcular rápidamente alguna luminancia heurística inferior LmiC, en función del contenido típico. Por ejemplo, si el histograma muestra que la mayor parte del contenido de SDR se encuentra entre 10 nit y 100 nit, con aproximadamente la mitad del área de visualización de la imagen combinada ocupada por píxeles s Dr con luminancia superior a 50 nit, el aparato puede establecer que no necesita negros más profundos que, por ejemplo, 0,01 o incluso 0,1 nit para esa combinación (porque el algoritmo heurístico típico de visualización juzga que las estructuras de imagen más oscuras no se verán bien en tales condiciones). Lo que hace que este establecimiento de un intervalo de combinación sea tan interesante es que (aunque el creador del contenido original de la película HDR puede haber hecho una película con ultra-negros definidos de hasta 0,0001 nit, para el caso en que la película se disfruta en una habitación oscura en, por ejemplo, una pantalla OLED que puede renderizar negros muy profundos), el aparato de combinación (por ejemplo, un STB, o incluso el propio televisor), ahora puede decidir aclarar un poco los colores más oscuros de la película HDR, determinando un mapeo de luminancia apropiado acondicionado entre la película HDR (o en general el contenido principal) DR y el intervalo dinámico de combinación, y en particular la parte inferior de esos intervalos dinámicos, antes de poner los píxeles de la película HDR en la imagen combinada. En el lado brillante del intervalo de luminancia, los algoritmos generalmente implicarán determinar cuánto recorte o compresión de contraste para una imagen HDR original sigue siendo adecuada (que será diferente, por ejemplo, para lámparas que no necesitan tener una estructura interna renderizada, en comparación con nubes iluminadas por el sol, donde idealmente se tendría suficiente contraste en la imagen renderizada final y, por lo tanto, cualquier codificación de imagen para eso [de modo que idealmente la determinación de la imagen final sea razonablemente simple en función de esa imagen recibida codificada que en sus luminancias codificadas ya especifica principalmente cuáles deberían ser las luminancias renderizadas finales de todos los píxeles], ergo menos compresión para los colores de imagen más brillantes, definiendo esas áreas brillantes con un subconjunto más grande de códigos de luma, ya sea en la imagen combinada o en la imagen HDR definida por precombinación antes de haberla transformado realmente en los píxeles de imagen combinados). Entonces, dependiendo de las necesidades, por ejemplo, un comercial insertado (para el creador de películas esperado, por ejemplo, cuando conoce en un canal en particular su película, por lo que esta definición potencialmente reclasificada de la vista de movimiento se ofrecerá junto con los comerciales) que no debería parecer molestamente oscuro, puede ser necesario exprimir las nubes en una región algo más pequeña de luminancias brillantes no muy por encima de las luminancias más brillantes de la imagen SDR, al menos cuando esa imagen SDR se transforma para combinación. Para poder seguir ajustando esta imagen de la manera más apropiada (y genéricamente, es decir, al menos alguna parte de la imagen SDR y alguna parte u objeto importante de la imagen HDR típicamente) y para varios anuncios introducidos, por ejemplo, SDR, idealmente la imagen HDR especifica una serie de luminancias importantes para esas nubes, por ejemplo, 3, entre las cuales el aparato de combinación puede cambiar, típicamente atenuar, las diversas áreas de nubes (reduciendo así también los contrastes de, por ejemplo, una parte gris oscura de una nube de truenos). Pero aquí es donde las luminancias de anclaje entrarán en juego como se enseña a continuación, con la presente parte de la enseñanza explicando que el intervalo de combinación, por supuesto, no debe terminar con un valor de LMC tan bajo que comience a destruir el aspecto de la imagen principal (por ejemplo, si la película se trata de nubes de tormenta, que típicamente tienen grises diferentes si algunas partes de las nubes están fuertemente iluminadas, por ejemplo, los bordes iluminados por el sol de las nubes, y los vientres de las nubes no están iluminados por el sol, sino solo por la luz ambiental, por lo que pueden ser mucho más oscuros, a continuación un aspecto central de esta película se perderá si el CombRng es tal que estas nubes deben comprimirse en un subintervalo superior del CombRng con solo, por ejemplo, 10 lumas, porque incluso con un fuerte estiramiento de luminancia funcional como un intento de corrección por una pantalla, esto nunca puede dar una buena representación HDR de esas nubes, como deberían merecer). Pero de lo contrario, el aparato de combinación puede decidir hacer una reducción de la calidad del brillo y los contrastes de la imagen HDR, para armonizar la imagen HDR (especialmente cuando se trata de escenas HDR menos exigentes, como, por ejemplo, un partido de fútbol con algo de contenido al sol y algo en la sombra) con imágenes típicas o reales de menor intervalo dinámico con las que se combinará.
Por supuesto, aunque un intervalo dinámico (al menos un máximo, y posiblemente también un mínimo distinto de cero especificado con precisión) es una propiedad determinante muy importante (inicial) para el aspecto final de una imagen, pero esto aún no finaliza completamente cómo se ubicarán los brillos del objeto o píxel dentro de ese intervalo. Los procedimientos simples de manejo de imágenes pretenderán que todo lo que se necesita es un límite superior e inferior de algún intervalo dinámico, y luego hacer algún mapeo (que a menudo no es mucho más inteligente que la mera compresión lineal, es decir, mapear el contenido de entrada blanco al intervalo final blanco, y el contenido de entrada negro al intervalo final negro). Y eso incluso puede variar considerablemente también, especialmente cuando uno comienza a usar todo el potencial de los grandes intervalos dinámicos, con escenas muy críticas, tanto en cuanto a las luminancias necesarias para ser representables, por ejemplo, simultáneamente muchos negros profundos en una cueva, y muchos colores iluminados por el sol vistos a través de una pequeña grieta en el exterior, e incluso objetos que necesitan un control crítico de su contraste intra-objeto, como una persona condenada a través de la niebla. Pero como se dijo anteriormente, el inventor piensa que un buen control de la apariencia de la imagen HDR, y especialmente la apariencia de las imágenes combinadas, también es importante para un buen control de todas o al menos muchas, o al menos las más importantes, de las luminancias entre los límites del CombRng, por lo que también se necesita algo más para tener buenos sistemas de manejo de imágenes HDR, en particular, tales aparatos que pueden, sin una intervención humana más difícil, crear imágenes combinadas finalmente de aspecto apropiado, para cualquier situación que pueda ocurrir en la práctica (ya que no se puede vender el mismo director de Hollywood en cada STB o TV, para que determine las luminancias combinadas finales apropiadas para el espectador). Se necesita un mecanismo rápido, que aún pueda ser bien adaptado por los creadores de contenido, según sean críticas o complejas sus necesidades, para obtener un resultado de buena calidad razonable en al menos la mayoría de los casos prácticos de combinación de contenido de imágenes.
Por lo tanto, el segundo componente para controlar suficientemente la combinación, es que el aparato determina una luminancia de anclaje (anc). Eso puede ser varias cosas, pero generalmente es una luminancia semánticamente relevante, de un objeto semánticamente importante. Por ejemplo, puede ser un objeto importante particularmente típico iluminado de una manera particular, que proporciona luminancias en un subintervalo del intervalo total de imágenes HDR. Será una luminancia que se puede esperar que sea buena, en algún intervalo de combinación, para determinar otras luminancias a su alrededor (es decir, esta luminancia determina si la totalidad de las luminancias son de brillo apropiado, ni demasiado oscuras ni demasiado brillantes). En otras palabras, si se representa correctamente la luminancia del anclaje, cualquiera que sea el correcto para un intervalo de combinación particular, a continuación las otras luminancias tampoco serán malas (y con la Figura 16 ilustraremos cómo se puede controlar con más componentes técnicos para que sean cada vez mejores, según el deseo del artista creador).
La Figura 15 muestra una escena HDR típica, con dos regiones de iluminación considerablemente diferente, a saber, un granero (Ins) con iluminación tenue (véase la geometría de la escena en la Figura 15a) y una región exterior soleada (Outs) con iluminación considerablemente más brillante. Para que un graduador de contenido haga una imagen HDR de aspecto adecuado para la visualización típica de televisión (entorno tenue) a partir de las luminancias de la escena física, puede ser sensato graduar las luminancias interiores como en una imagen SDR, es decir, hasta 100 nits para el objeto más brillante en interiores. Las luminancias al aire libre en el mundo real serían aproximadamente 100 veces más brillantes, hasta 10.000 nits, pero eso se experimentaría como demasiado brillante para la representación de televisión (incluso si el espectador normalmente tuviera una pantalla de 10.000 nits PB_D de gama alta). Por lo tanto, el graduador puede, por ejemplo, optar por hacer esta escena con las luminancias exteriores HDR más brillantes (en el subintervalo de luminancia de píxeles exteriores SDROU) del intervalo HDR maestro (DRH) de hasta 1200 nit para el objeto más brillante (excepto tal vez algunas pequeñas reflexiones especulares en metal), y con una luminancia exterior promedio típica de 250 nit.
El poder de tener una luminancia de anclaje se ilustra con la Figura 15C. En este ejemplo, lo hemos simplificado y asumimos que las luminancias más oscuras, del subintervalo de luminancia de píxeles internos SDRIN, se pueden representar con luminancias iguales en todas las situaciones (formarán un conjunto estable y sin cambios de luminancias en el intervalo de combinación, que por supuesto no siempre es el caso; por ejemplo, si el comercial SDR contiene muchos colores brillantes, el aparato puede utilizar el punto de anclaje inferior AncS_ins que caracteriza los píxeles internos del material de la imagen de la fuente maestra HDR, para elevar un poco los píxeles más oscuros, pero aclararemos los principios básicos de nuestras realizaciones con un escenario en el que solo se utilizará un punto de anclaje para posicionar correctamente la luminancia de las luminancias de píxeles de al menos esta primera imagen maestra HDR, en el intervalo de combinación (es decir, con el segundo punto de anclaje AncS_outs del conjunto de píxeles brillantes al aire libre). En primer lugar, aunque se puede usar cualquier luminancia de un objeto interesante, por ejemplo, con un espectro de reflexión de luz típico que conduce a una apariencia de valor de gris típica, generalmente no es malo usar alguna posición de anclaje de brillo promedio en un sublóbulo del histograma de todas las luminancias de imagen correspondientes a una región de iluminación razonablemente similar, cuando se desea determinar las luminancias de los píxeles alrededor de dicho valor. El lector puede imaginar que a continuación con la Figura 16, porque si por alguna razón el aparato desea "volver a iluminar" dicha región para, por ejemplo, más luz, a continuación las luminancias a su alrededor pueden iluminarse continuamente con el punto de anclaje, al igual que los objetos reflectantes reales se volverían más luminosos si la iluminación que cae sobre ellos aumentara. Téngase en cuenta que para las determinaciones automáticas al calcular un valor de ANC representativo, se debe tener cuidado de no hacer que, por ejemplo, las luminancias de borde iluminadas por el sol muy brillantes de las nubes se desvíen demasiado del resultado de un promedio razonable, por lo que, por lo general, si los humanos pueden determinar y comunicar una luminancia de anclaje junto con las imágenes codificadas, eso sería capaz de producir los mejores resultados. Por lo tanto, el lector debe entender que hay dos tipos de valor de ANC, a saber, en primer lugar, el resultado (es decir, una posición en el intervalo de combinación donde las luminancias de las imágenes que corresponden al mismo significado semántico de la definición de ANC, es decir, están cerca de dicho valor de luminancia de ANC, pero en el intervalo dinámico de la fuente (iluminado de manera diferente y codificado de manera diferente), deberían caer en última instancia cuando se renderizan o escriben en la imagen combinada), y en segundo lugar un valor de ANCS (correspondiente) para todas o al menos la mayoría de las imágenes de entrada (en caso de que a algunas imágenes les falte un ANC anotado, el aparato debe estimar algún valor, por ejemplo, un valor de SDR que no debería ser demasiado irrazonable para el contenido de SDR más típico). Si se define dicho valor anc (incluso uno que sea semánticamente diferente al de la combinación, pero que pueda relacionarse con el de la combinación, por ejemplo, multiplicándolo por un factor 4), a continuación se puede armonizar el contenido de entrada con el marco de combinación y, por lo tanto, con todo el resto del contenido de la imagen.
El lector puede ver cómo el valor de ANC (es decir, el valor de ANC resultante de la combinación de imágenes y el intervalo que se está preparando antes de la mezcla real de las dos imágenes) se coordina con el intervalo dinámico de luminancia de combinación determinado, es decir, típicamente al menos su brillo máximo, por ejemplo, para una combinación de calidad HDR superior PB_CS= 2000 nit. Si el conjunto de establecimiento de intervalo dinámico (302) eligió el intervalo de combinación de calidad superior (CmbRngSup), tenemos disponible un intervalo dinámico de alta calidad que está cerca del intervalo dinámico del contenido HDR maestro. Por lo tanto, tiene sentido posicionar también el valor anc resultante (del tipo semántico: "posición donde, en promedio, los colores brillantes, del segundo sublóbulo y externos deben caer en la imagen combinada") a 250 nit (donde el aparato sigue las reglas típicas para la representación de regiones brillantes en películas de televisión, que también fue la base que llevó a la selección de 250 nit (aproximadamente) del graduador maestro para la imagen HDR maestra). Esta situación de combinación conducirá a que la mayoría de las luminancias HDR relevantes, también de los píxeles externos, se representarán bien según lo previsto por el creador de contenido, es decir, con las mismas luminancias que se codifican en la imagen de entrada<h>D<r>maestra, y solo, por ejemplo, las reflexiones especulares deben atenuarse un poco para caer por debajo de 2000 nit. Este es un ejemplo del primer tipo de escenario anterior: el intervalo de combinación sigue en gran medida el contenido de vídeo HDR maestro original, que es líder y se representa sustancialmente sin distorsiones de luminancia, y luego solo se necesita armonizar el contenido SDR (lo que se hará observando los correspondientes 1 o más valores anc para la imagen SDR).
Para un intervalo de combinación de calidad inferior (Com-RngInf), el aparato ya puede tener en cuenta las reducciones de calidad necesarias, también para la imagen maestra HDR. Aquí, el aparato puede necesitar reducir la posición del valor Anc_Outs, lo que, por ejemplo, puede hacer típicamente con una estimación heurística de las necesidades de contrastes inter e intrarregionales (incluso sin mirar una imagen y escena en particular, ya se pueden determinar algunos valores globales para buenas posiciones de luminancias de anclaje, que deberían funcionar consistentemente para las próximas tomas HDR diferentes de la película). La segunda posición resultante Anc_Outs2, dependiendo de la cantidad de intervalo que quede por encima de 100 nit o, en otras palabras, por encima de las luminancias más bajas de SDRIN (por ejemplo, en paradas, siendo 10x 3 paradas para posicionar todos los efectos HDR, cualesquiera que sean, es decir, reflejando objetos en la iluminación brillante y soleada, pero también lámparas o reflejos especulares, y típicamente también teniendo en cuenta los valores que los clientes desearían ver para imágenes HDR de buena calidad, es decir, sin áreas de objetos grandes que sean demasiado brillantes, ni demasiado tenues) en una posición de luminancia en el CombRng de modo que la región brillante o partes de la misma tengan un contraste suficiente por encima de los 100 nit (para tener una apariencia realmente soleada, por ejemplo, un factor 5-10 puede ser un buen valor, y esto puede formularse como la división de los dos valores anc), sin embargo, también hay espacio suficiente para efectos HDR aún más brillantes, como pequeñas áreas de reflexión especular en objetos, llamas o explosiones, o rayos láser, y cualquiera que sea la película en realidad puede contener para ser calificado y renderizado cerca de ese límite superior de 1000 nit PB_C_Inf. Algunas realizaciones de procedimientos automáticos pueden funcionar mediante el cálculo de estimaciones de errores. Por ejemplo, se pueden analizar las texturas en las regiones, con una complejidad que indica la necesidad de un mayor o menor contraste intrarregional.
Por lo tanto, si solo se conocen las dos imágenes, por ejemplo, la película que está creando el cineasta (anotando con al menos un valor anc, y tal vez ya el mapeo de luminancia a un CombRng típicamente adecuado) y una variante promedio típica del contenido SDR esperado, a continuación el aparato puede calcular al menos un error para la compresión de distorsión de luminancia de la imagen HDR, y la distorsión o falta de armonía de la imagen SDR, en su rebrillantamiento antes de la combinación, como se ilustra con la Figura 17. Dichos errores de distorsión se pueden calcular tanto para escenarios promedio típicos, por ejemplo, con una probabilidad de luminancias de píxeles para una o más escenas HDR típicas, evaluando cómo sería necesario distorsionar dicha escena (principalmente en las áreas más brillantes de la imagen), cuando tiene que ocurrir una degradación a un CombRng con PB_col, PB_Co2, etc., y/o para imágenes reales, es decir, teniendo en cuenta el dolor restante si se aplica un mapeo de luminancia real (óptimo) para mapear todas las luminancias de objeto o región de la representación de imagen nativa y su intervalo dinámico, a la imagen recoloreada en el intervalo de combinación. En la Figura 17 vemos aclarado esquemáticamente cómo un error E_cmp puede asociarse a la compresión de al menos una parte u objeto de la imagen, por ejemplo, las estructuras de la nube. Varias realizaciones prácticas que imitan el comportamiento del graduador humano pueden, por ejemplo, extraer una textura, y al calcular las medidas de textura y otras medidas espaciales y/o estadísticas de la región local, estimar cuán problemática sería una degradación a un subintervalo más pequeño. Por ejemplo, para las nubes, el analizador de textura encontraría que no hay límites definidos, y que la apreciación de la nube ocurriría principalmente por la distribución (suave) de los (muchos) valores de gris, y no por los aspectos típicos de la forma geométrica (por ejemplo, el patrón lineal de una textura de falda escocesa permitiría más compresión o posterización en menos códigos de luma). Es decir, si los muchos valores de gris distribuidos suavemente graduados finos se asignan a un conjunto más limitado y de brillos incorrectos, se esperaría rápidamente que ocurriera algún error, lo que disuadiría al aparato de hacer esto en una medida demasiado grande, particularmente si la imagen principal es de importancia colorimétrica crítica, porque, por ejemplo, el consumidor debería poder disfrutar de la calidad de color artístico graduado fino de la película, que no debería reducirse a la clasificación aproximada a menudo extrema y llamativa de, por ejemplo, algunos comerciales (además del concepto principal de proporcionar luminancias de anclaje, algunas realizaciones permitirán al creador de contenido indicar con metadatos adicionales cuánta distorsión permitiría entre o alrededor de los anclajes, por ejemplo, que el intervalo entre AncS_outs/10 y AncS_outs*10 preferiblemente no debería comprimirse o estirarse en un factor de, por ejemplo, 2 o 3).
La Figura 17 muestra un ejemplo más concretamente esclarecedor de cómo se pueden formular los errores, para llegar a una armonización de luminancia en una realización basada en tales ecuaciones de error. Se debe mezclar la imagen del granero HDR y un comercial SDR para un refresco, y además de sus intervalos mostramos los histogramas de las distribuciones de luminancia de las imágenes de la escena (hist_HDR respectivamente el histograma de la imagen comercial de bajo intervalo dinámico hist_SDR, con en la dirección horizontal los recuentos N(Li) del número de píxeles en el número total de píxeles de la imagen que tienen una luminancia igual a algún valor Li). La compresión de la imagen HDR en el subintervalo superior más pequeño del CombRng hasta PB_comb, por ejemplo, siendo 1000 nit, conduce a un error E_cmp. Este error se puede equilibrar con, por ejemplo, con un error para iluminar el contenido de SDR, o un error correspondiente a la incompatibilidad de este CombRng con los intervalos típicos de pantallas previstas. Por ejemplo, si se considera que todos en el mundo tendrían una pantalla PB_D de 1000 nits de todos modos, este error E-cmp se puede normalizar a cero, porque esa modificación del contenido maestro tendría que ocurrir de todos modos. Pero aun así, un CombRng de, por ejemplo, 1500 nit puede ser mejor, es decir, tener un error negativo, lo que indica que es de mayor calidad que una combinación de 1000 nit, si se pesa mucho la calidad visual del contenido de la película. Aparte de los errores que se pueden calcular para desviar los brillos del contenido SDR, que pueden ser menos importantes (porque, por un lado, en un paradigma SDR, se supone que los espectadores pueden adaptarse rápidamente a diferentes brillos, pero por otro lado, el brillo de la imagen SDR representada potencialmente "incorrectamente", por ejemplo, juzgada por muchos espectadores expertos o no expertos como demasiado brillante cuando se representa por sí sola en un monitor HDR con el píxel más brillante, por ejemplo, de 1000 nits, para esta imagen en particular, que ahora se juzga no por sí misma sino en relación con la imagen HDR maestra), se puede evaluar el siguiente error. Se puede determinar un error de desajuste de luminancia SDR (E_MM), y esto se puede hacer, por ejemplo, tan simple como la diferencia entre el valor Anc_HDR del CombRng, es decir, también donde idealmente se asigna el valor de la imagen de origen y el valor de la imagen HDR (AncS_outs), y el mapeado real a la luminancia (D AncSDR) de la luminancia de anclaje de origen SDR AncB_SDR. Es decir, la mejor armonización en este ejemplo de acuerdo con la heurística ocurriría si D_AncSDR es igual a Anc_HDR. La razón por la que esto funciona es porque este tipo de imagen HDR contiene un área suficientemente grande de píxeles exteriores brillantes (por lo que su creador de contenido definió una luminancia de anclaje superior, AncS_outs). Como el espectador cuando ve esta escena de película HDR ya está acostumbrado a las luminancias más brillantes, la introducción de píxeles aproximadamente igualmente brillantes para el comercial SDR (por ejemplo, PIP) es mucho menos objetable que cuando el usuario solo estaba viendo luminancias oscuras, por ejemplo, 5 minutos en una cueva o sótano (en cuyo caso, una introducción de un comercial tan brillante probablemente asustaría al espectador, o al menos estropearía significativamente su disfrute del resto de la escena de la película, al menos colorimétricamente). Este sistema funciona especialmente bien si el creador del contenido SDR utiliza un tipo particular de su anclaje, es decir, que puede ser tan simple que utiliza solo dos tipos: brillo superior a la media y brillo inferior a la media. Independientemente de cómo se distribuyan realmente las luminancias en el intervalo de 0,1-100 nits de luminancias SDR, el creador puede indicar qué tipo de imagen SDR es y, por lo tanto, cómo debe representarse, en particular según esta invención, cómo debe armonizarse con varios subintervalos posibles de una imagen HDR. Por ejemplo, la imagen SDR puede ser el contenido normal de una escena opaca u oscura ("brillo por debajo de la media"), o pueden ser lumas que se supone que representan una escena soleada. Suponemos que el creador del comercial quiere que se muestre como una escena "soleada", con colores para que se vea brillante y vívida, lo que es exactamente brillante y vívido en una combinación, por supuesto, también dependiendo de cuáles sean los colores de la otra imagen.
El lector ya puede comprender el poder de la luminancia de anclaje en la coordinación de las imágenes que se combinarán. Incluso en un sistema tan simple, y suponiendo que el creador de contenido comercial tiene interés en que su imagen se vuelva "suficientemente brillante" (pero probablemente nunca tenga interés en molestar al espectador con representaciones de su parte del contenido total de la imagen que son demasiado brillantes), pero por supuesto también hay un (más, igual o tal vez en algunos escenarios menos) desiderátum de calidad de imagen importante del creador de películas HDR también, la combinación ya puede funcionar razonablemente de inmediato en caso de que la película HDR solo tenga contenido "más oscuro" en caso de que el creador de contenido HDR solo incluya un AncS_ins más bajo. Entonces el aparato entiende que al menos esta escena en la película no tiene regiones brillantes (demasiadas, importantes) y, por lo tanto, el espectador se adaptará a un contenido más oscuro, por ejemplo, en este ejemplo de aclaración simple no limitativo solo en la SDRIN del subintervalo SDR. Por lo tanto, el aparato puede hacer una combinación armoniosa si en esa situación mapea el AncB_SDR (aunque se supone que es "contenido de SDR brillante") al Anc_ins inferior, o en sus proximidades. Con proximidad nos referimos a una fracción fija en el aparato o personalizable típicamente multiplicativa del valor de anc por encima o por debajo del valor de anc, por ejemplo, entre 1/3 o 1/2 y 2 o 3 veces respectivamente. La extensión de la proximidad se puede determinar (ya sea en tiempo de ejecución por el aparato de combinación, o en un lado de creación, por ejemplo, con límites de luminancia de proximidad comunicados explícitamente) sobre la base de en diversas realizaciones de aspectos tales como, por ejemplo, errores de luminancia permitidos de los objetos cuando se mapean, diferencia de tipo o variabilidad esperada de anclajes, etc. Pero claramente, si AncB_SDR es, por ejemplo, del 20 % de 100 nits, si incluso se mapea a 3x 25 nits (es decir, la posición límite superior de la vecindad de Anc_ins), a continuación la combinación es mucho más armoniosa (ya que el perfeccionismo generalmente no se necesita lograr, sino más bien un sistema de trabajo pragmáticamente razonable, equilibrado entre la precisión de la apariencia y la complejidad de realizar el sistema en la práctica) que con un estiramiento lineal en el que el contenido de SDR se mapea sin rodeos de blanco a blanco, es decir, de 100 nits a 1000 nits, lo que haría que el promedio de AncB_SDR sea de 200 nits (!), que es probable que todos los objetos de la imagen SDR se vean demasiado brillantes para ser agradables (tenga en cuenta que, en principio, un anc podría especificarse incluso por debajo de las luminancias reales del histograma, por ejemplo, el modo, es decir, el valor de luminancia más frecuente del histograma, pero en cualquier caso, las luminancias reales se volverán excesivamente brillantes de manera similar).
Volviendo a la Figura 15B, mostramos allí de manera interesante cómo los anclajes, y su posicionamiento en diferentes posiciones relativas en cualquier CombRng, se relacionarán con los diversos mapeos de luminancia (influyen en ellos). La función TL_CS es el mapeo de luminancia para mapear las luminancias de la imagen HDR maestra original a luminancias en el CombRng (es decir, listo para hacer la combinación de imágenes, ya sea reemplazo de píxeles, mezcla alfa, etc.). El solicitante ha encontrado muy útil realizar transformaciones de luminancia en un sistema de ejes relativos, es decir, tanto las luminancias de entrada como las luminancias de salida o lumas que terminan en 1,0 (en caso de que las lumas se utilicen como coordenadas verticales, el mapeo se define teniendo en cuenta la OETF, por ejemplo, alguna definición fija de OETF como SMPTE 2084 o Rec. 709 para comunicaciones de imágenes compatibles con versiones anteriores). Para lumas, eso es muy útil, porque elude la discusión sobre cuántos bits se debe cuantificar el eje vertical (1.0 es solo el valor de código de luma más alto, es decir, el color codificable más brillante). Para (por ejemplo, los ejes de luminancia de entrada), aún se podría reflexionar sobre si esto es o no un remanente del manejo relativo de luminancias, pero en cualquier caso las curvas necesarias se pueden definir para cualquier transformación de imagen necesaria para cualquier intervalo dinámico (ya que esta versión siempre se puede equiparar matemáticamente con su marco de luminancia absoluta correspondiente). Vemos que si queremos mantener idénticas las luminancias absolutas de los píxeles más oscuros, en un sistema de ejes relativos con menor brillo máximo, esto corresponde a elevar esa parte de la función de mapeo de luminancia TL_CS por encima de la diagonal, y a continuación se puede ver claramente cómo el subintervalo superior restante del CombRng conduce a cierta compresión, que no es demasiado excesiva para el intervalo de combinación de calidad superior. Pero para el intervalo de combinación de calidad inferior, la compresión de los objetos HDR más brillantes debe ser más severa, como también se ve en la forma de la función de mapeo de luminancia correspondiente a ese intervalo de combinación inferior, a saber, TL_CI. En cualquier caso, esta situación de un brillo máximo de un intervalo de combinación, y un buen punto de anclaje, deja en claro que genéricamente, cualquiera que sea el disparo HDR, se necesitará hacer una cierta compresión de los brillos, que generalmente tendrán aproximadamente esta forma (las posibilidades precisas de las realizaciones se detallan a continuación). También se ve al combinar las dos funciones, que si se necesita transformar relativamente del superior al inferior CombRng, se necesitaría relativamente iluminar los píxeles más oscuros, pero que visualmente corresponden en primer lugar a una compresión de las regiones HDR más brillantes (el subintervalo porcentual relativo es, además del intervalo total disponible, una buena medida de la calidad de codificación o representación de una parte de una imagen). En cualquier caso, es la forma en que el solicitante define sus transformaciones de luminancia en sus realizaciones reales más típicas, y en particular la propiedad muy útil que dilucidaremos con la Figura 16.
Los procedimientos de manejo de vídeo HDR (de hecho, simplemente codificación) como HDR10, que simplemente consideran la representación fija de imágenes HDR, ni siquiera necesitan comunicar una función de transformación de luminancia fija (ya que pueden poner toda la distribución de brillo del objeto HDR en las luminancias de la imagen, que no necesitaría comunicación de una OETF cuando se transmiten lumas, si se elige que la OETF sea fija). Las tecnologías que tienen una visión simplista de la distribución de luminancia del objeto HDR, es decir, su reclasificabilidad a otros intervalos dinámicos, como el Hybrid-loggamma de la BBC, pueden utilizar una función fija para comunicarse, por ejemplo, como una LUT.
El solicitante quería que tanto el creador de contenido como el usuario (ya sea el fabricante de TV y/o el espectador final) pudieran liberar la calidad total del HDR (jerárquicamente), es decir, diseñar un sistema en el que el creador de contenido pueda indicar sus deseos sobre el contenido de la imagen HDR de forma incremental (de grueso a fino, dependiendo de cuán crítico sea, o cuánto tiempo y presupuesto quiera gastar), y el lado del consumo de vídeo también puede decidir hasta qué precisión desea seguir estas especificaciones, o si el sistema final quiere impartir algún micro sabor del manejo del color en las imágenes, por ejemplo, desviándose un poco de los contrastes del objeto como se especifica en la(s) función(es) de gradación fina.
La Figura 16 muestra un ejemplo del poder de los anclajes, cuando se combina con uno de los sistemas preferenciales de los solicitantes para permitir, por ejemplo, que un graduador humano especifique jerárquicamente sus necesidades de reclasificación de luminancia, con un conjunto de funciones consecutivas.
Considere que los intervalos de entrada y salida están cuantificados de manera perceptualmente uniforme (aproximadamente logarítmicamente). Esto crearía un conjunto de niveles de brillo visualmente equidistantes, por ejemplo, ultra-ulta-oscuro, ultra-oscuro, muy-oscuro, oscuro, etc., hasta extremadamente brillante. Entonces se puede imaginar que un graduador puede definir su aspecto de una imagen, al equiparar aproximadamente las luminancias del objeto con uno de estos niveles, por ejemplo, una imagen HDR de buena calidad debe tener la luminancia de la lámpara en el subintervalo de luminancias extremadamente brillantes, por ejemplo, entre el 90 % y el 100 % de PB_C. Por supuesto, un intervalo dinámico más bajo de la salida, aquí el intervalo de combinación de luminancias (L_Cmb_out) puede no extenderse hasta un nivel que aparezca como luminancias extremadamente brillantes, pero luego el graduador recurriría a mapear esas luminancias de píxeles de la lámpara al nivel más alto disponible, por ejemplo, muy brillante. Esto formaría parte de la forma de la función de mapeo de luminancia, y el lector puede entender cómo un graduador (o también un sistema automático que utiliza heurística de análisis de imágenes) podría llegar a una forma de función de mapeo de luminancia completa.
Ahora, solo definir dos de estos ejes sería una forma típicaprima facie(aunque bastante roma) de mapear luminancias definidas en un intervalo dinámico, para emitir luminancias en un segundo, por ejemplo, un intervalo dinámico de salida más pequeño (que equivaldría a una función que es la diagonal en este gráfico). De hecho, se formarían luminancias de salida "medio razonables", porque esta estrategia asignaría el blanco de cualquier imagen de origen al color más brillante posible (codificable o renderizable) del intervalo dinámico de salida, y el negro al negro, que debido a la definición logarítmica también distribuiría razonablemente los valores de gris entre negro y blanco de la imagen de entrada a la de salida.
Pero esto da imágenes bastante poco espectaculares con los brillos y contrastes incorrectos, y mucho menos que permite a un artista adaptar bien las necesidades artísticas a la composición de cualquier escena HDR en particular (aunque el píxel más brillante y más oscuro de nuestra escena de granero en, por ejemplo, una codificación PB_C=5000 nit puede tener el mismo valor que en una imagen de, por ejemplo, una lámpara de escritorio en una habitación oscura con pocos objetos en la parte posterior, por supuesto, la composición de la imagen y la semántica de estas dos imágenes serán muy diferentes, lo que dará como resultado necesidades muy diferentes con respecto a la clasificación y la reclasificación de los diversos objetos o luminancias de píxeles).
Por lo tanto, el solicitante ya para el uso exclusivo de la imagen, es decir, la reconstrucción a una aproximación de la imagen HDR maestra original de digamos 5000 nits, o un ajuste óptimo de la pantalla para obtener una imagen MDR óptima para conducir, por ejemplo, una pantalla PB_D de 750 nits, inventó un sistema de definición de mapeo de luminancia que consiste en poder especificar al menos dos funciones consecutivas. En primer lugar, una función de reclasificación gruesa F_CRS_MDR reasigna globalmente los brillos de todos los subintervalos perceptuales, para tener una mejor apariencia inicial de la imagen HDR actual y sus detalles. Vemos una curva aproximadamente en forma de r, para la cual la mitad más brillante de las luminancias de píxeles de la escena HDR se comprimen en un subintervalo algo pequeño de luminancias de salida, por ejemplo, las luminancias de una imagen SDR para controlar una pantalla SDR, o para que coincida mejor con las enseñanzas de la combinación, una imagen MDR de 1000 nits, cuando la imagen HDR maestra tenía un PB_C de 5000 nits. Dependiendo de las necesidades de la escena, el graduador puede adaptar esa forma. Por ejemplo, si solo hay algunos puntos de reflexión especular de un par de píxeles, o bombillas en esa mitad superior de las luminancias, el graduador podría, en principio, incluso definir una función que recorta a 1.0 para la mitad superior de las luminancias de entrada, ya que eso no degradaría significativamente la calidad visual de esa escena en particular. Pero si la mitad superior contiene las nubes iluminadas por el sol, incluso bajar un poco la pendiente local de la curva podría conducir a errores de calidad significativos. El lector debe tener en cuenta que estamos hablando de ejes de luminancia relativos, por lo que si la salida es, por ejemplo, un intervalo SDR, es posible que no haya muchos códigos de luma y luminancias correspondientes disponibles para representar fielmente al mismo tiempo luminancias muy oscuras, luminancias medias y luminancias muy brillantes (considere, por ejemplo, una imagen de 3 regiones iluminadas de manera diferente, con, por ejemplo, una cocina oscura en las áreas en 3D más cercanas al espectador donde se esconde una persona negra, una habitación media que normalmente está iluminada y de nuevo objetos soleados vistos a través de las ventanas, como se muestra esquemáticamente en la Figura 16b; y otro ejemplo típico de 2 regiones se muestra en la Figura 16C, con un escaparate brillante en una calle por la noche, es decir, una semántica diferente que el ejemplo del granero, pero con subintervalos que podrían tratarse de manera similar, o no si el creador de contenido así lo decide).
La Figura 16C puede ser lo suficientemente "simple" (HDR afecta a la complejidad), para poder gradar suficientemente, y ajustando las funciones de mapeo de luminancia, con solo una función de gradación gruesa especificada F_CRS_MDR.
Pero para una escena de 3 regiones más compleja (R1 indica la luz del día brillante al aire libre con objetos como casas que son visibles a través de las ventanas, la región media R2 normalmente está iluminada o débilmente, es decir, con luminancias SDR típicas, y R3 tiene las luces apagadas, es decir, con luminancias oscuras) puede ser más difícil mapear razonablemente todos los subintervalos de luminancia y los brillos de objetos correspondientes a los pequeños subintervalos de especialmente los intervalos dinámicos más bajos (como, por ejemplo, el intervalo SDR). En tal caso, el graduador puede considerar óptimo utilizar una curva adicional, a saber, una curva de gradación fina F_FINGR, que se aplicará a las luminancias relativas resultantes de la gradación gruesa, es decir, que en efecto se desvía de manera equivalente de esa forma de curva gruesa como se muestra. Pero tal estrategia también se puede aplicar a escenas h Dr "más simples" como el escaparate nocturno con iluminación interna de la Figura 16C. Para hacer que el escaparate y su objeto tengan un contraste y brillo lo suficientemente impresionantes como para que parezca realmente luminoso (de forma coordinada, pero al renderizar esta única imagen por sí sola, tanto en, por ejemplo, una pantalla HDR de 5000 nits, como en una pantalla HDR de 1000 nits, y aun así razonablemente aproximado y lo suficientemente agradable en la medida en que lo permita la capacidad limitada de la pantalla, en una pantalla SDR PB_D de 100 nits), y también para hacer que los píxeles de objetos urbanos nocturnos relativamente oscuros (al menos en la clasificación HDR maestra) sean lo suficientemente brillantes y visibles, el graduador puede crear una función F_CRS_MDR que es, por ejemplo, relativamente plana en el extremo superior. Esto puede proporcionar un aspecto general razonable tanto para el escaparate como para la calle oscura, es decir, un aspecto general razonable de la imagen. Pero el escaparate puede contener objetos específicos que no salen bien con respecto a un aspecto, ya sea su luminancia, contraste o color, por ejemplo, una llama en el escaparate, o tal vez alguna parte fuertemente iluminada del cuello blanco o la camisa del maniquí, etc. Por lo tanto, el graduador puede definir una curva de corrección (es decir, la curva de gradación fina F_FINGR), que en alguna parte del intervalo de luminancia, por ejemplo, correspondiente a las luminancias de esa camisa, por ejemplo, reduce los brillos, por ejemplo, para obtener más contraste intraobjeto, o colorido o lo que sea que la función realice como efecto (incluso puede haber varias asignaciones de luminancia localizadas espacialmente involucradas para evitar el cambio de otros objetos con luminancias similares en otras regiones de la escena, pero explicando que una mayor complejidad de nuestro sistema está más allá de las necesidades para comprender la presente solicitud).
De manera interesante, la función gruesa pone rápidamente todas las luminancias de los objetos ya aproximadamente correctas, con una acción fácil del graduador (por ejemplo, en una de nuestras realizaciones solo necesita girar dos diales que determinan las pendientes de la parte superior de los brillos a partir de 1,0, y la parte inferior de la función a partir de 0,0, y nuestro codificador luego determina automáticamente una curva de gradación gruesa suave, que luego puede ser utilizada por los diversos aparatos de combinación de imágenes HDR de la presente invención y solicitud). Pero a continuación la "gradación real" puede comenzar, ajustando las luminancias de varios píxeles de objetos de imagen y, en consecuencia, los contrastes intra e interobjeto correspondientes, permitiendo que el graduador determine la forma de curva de gradación fina que desee.
Un decodificador normal, o sintonizador de pantalla, solo usaría estas dos curvas tal como están. En la dirección de codificación (en caso de que utilicemos un sistema compatible con versiones anteriores que comunique la información de la imagen HDR en realidad como imágenes SDR renderizables en pantalla heredadas), primero se aplica la función de clasificación gruesa y luego la función de clasificación fina que crea la imagen SDR correspondiente de aspecto óptimo a esta imagen de clasificación maestra HDR de escena HDR en particular, que fue la entrada del codificador. En el lado de la decodificación, para reconstruir la aproximación de la imagen HDR maestra a partir de la(s) imagen(es) SDR recibida(s), se utilizan las funciones inversas de exactamente esta función de clasificación fina y gruesa, porque ese era en realidad el vínculo entre estas dos funciones óptimas, que se especificaron para ser óptimas en las situaciones de representación típicas dadas. Es decir, tener una pantalla HDR, luego renderizar la imagen HDR, y cuando se tiene una pantalla SDR vista en condiciones de visualización típicas, luego renderizar las imágenes SDR del par (y cuando se tiene una pantalla con PB_D que se desvía considerablemente de estas dos imágenes graduadas PB_C, luego usar nuestra sintonización de pantalla para crear la imagen de aspecto de intervalo dinámico intermedio, que corresponde adecuadamente a la imagen HDR maestra, es decir, que se aproxima lo suficiente a sus apariencias de luminancia de objeto, al menos en la medida en que las capacidades de visualización más bajas lo permitan).
Pero ahora tenemos una situación en la que necesitamos combinar contenido, es decir, generalmente puede haber una necesidad de modificar nuevamente las luminancias de al menos una, y tal vez todas las imágenes, para que sean armoniosas. La división de las necesidades de clasificación en tales dos curvas es muy poderosa, porque permite separar las necesidades relacionadas con el objeto, como un contraste local suficiente, de la compresión general de los diversos subintervalos en el intervalo dinámico de salida disponible (incluso si está optimizado para la combinación).
Por lo tanto, la función gruesa definida por la luminancia de anclaje, incluso si solo consiste en segmentos lineales, ahora se puede usar como una asignación gruesa alternativa de los subintervalos, porque aparentemente esa fue una mejor gradación para la mezcla, que la función gruesa original F_CRS_MDR para la representación única de, por ejemplo, la película HDR, en un intervalo dinámico con sustancialmente el mismo brillo máximo que el intervalo de combinación seleccionado. Ahora, varias realizaciones podrían correlacionar las formas de varios subsegmentos de la curva F_CRS_MDR, pero generalmente eso no será tan necesario. Lo que es importante es que el aparato de combinación puede aplicar los detalles de gradación fina a los diversos niveles optimizados recién asignados (es decir, llevar diversas subregiones semánticas de la imagen HDR maestra, como nubes o interiores de cuevas, a los diversos subintervalos del CombRng), manteniendo esencialmente la forma de curva de gradación fina. Por lo tanto, se puede cambiar la curva de desviación a la nueva posición (a lo largo de la curva gruesa óptima para mapear la luminancia HDR de entrada al intervalo de combinación, que es F_Cmb), realizando una nueva curva de gradación fina ahora óptima para la combinación F_FINCMB. Esto se puede hacer, por ejemplo, simplemente igualando las luminancias maestras, es decir, desplazando en líneas verticales las cantidades de desviación multiplicativa.
A estas alturas, el lector debería comenzar a comprender que dichos sistemas basados en anclajes son muy potentes para armonizar diversos contenidos, incluso si son complejos en cuanto a los datos de degradación de luminancia, pero aun así de una manera relativamente simple y ergo factible.
Ahora describiremos primero una realización más simple en la que el aparato puede determinar de forma autónoma dicha luminancia de anclaje en la imagen HDR, y de una manera relacionada en el intervalo de combinación. En última instancia, es importante tener la luminancia de anclaje en el CombRng, pero esto se puede equiparar fácilmente en algunas realizaciones con donde está en la imagen h Dr (y menos fácil en otras realizaciones, en cuyo caso el creador de contenido de la imagen HDR puede codificarla explícitamente, como L_S2A1). Por ejemplo, aclararemos los principios con un ejemplo importante de tener un rostro (por supuesto, los humanos son importantes, por lo que en muchas imágenes o vídeos habrá al menos un actor o presentador, etc., y generalmente pueden estar razonablemente bien iluminados por el creador de contenido, aunque, en el área de<l>D<r>nunca se especificó con precisión lo que razonablemente bien sería, ni era realmente necesario). Pero el lector experto debe entender que nuestras enseñanzas sobre la(s) luminancia(s) de anclaje son genéricas, por lo que es posible que haya otras luminancias de anclaje para otras imágenes, imágenes que ni siquiera pueden tener una cara, como, por ejemplo, una luminancia gris media. El lector debe entender que en la era de LDR un gris medio era una cosa única y muy precisa (el medio de la codificación, que normalmente se representaría como un gris de aspecto promedio, y se corresponde en la escena original con una reflectividad del objeto de aproximadamente el 18 % de la iluminación blanca o entrante, que también debido a la representación relativa de blanco sobre blanco correspondería a aproximadamente el 18 % de PB_D), pero no es totalmente único para HDR (porque puede haber un objeto reflectante gris medio en una imagen relativamente iluminada de manera oscura, o incluso una región oscura de una imagen, y el mismo objeto gris puede residir en una imagen o región relativamente iluminada de manera brillante, especialmente si uno no quiere forzar el uso del contenido HDR en la camisa de fuerza de LDR nuevamente, con una forma muy precisa de iluminación y captura, pero uno quiere escenas de luz liberalmente, contenido de grado artístico liberalmente, etc.).
Es ventajoso si algunas de esas luminancias de anclaje están estandarizadas (de modo que cada aparato entienda rápidamente de qué se trata cada situación de luminancia específica de cualquier entrada de imagen), pero incluso si una primera imagen se especifica con otro tipo de anclaje que la segunda imagen, o el anclaje de una imagen es diferente de qué anclaje (si solo uno) el aparato decide que es óptimo especificar el CombRng, a continuación esas diversas especificaciones aún pueden estar relacionadas aproximadamente. Por ejemplo, si un negro no se especifica con precisión (y, por supuesto, al igual que en HDR puede haber varios blancos y brillos, puede haber varios negros), el aparato puede asumir, dependiendo de la situación (es decir, el PB_D u otras capacidades de la pantalla, y posiblemente el entorno de visualización), que se supone que se representa, por ejemplo, 2,5 paradas, o 4 paradas por debajo de lo que el aparato decidió que era su gris medio principal (ya sea que esa sea la primera luminancia de anclaje y, o una secundaria auxiliar). Los negros pueden describirse (es decir, codificarse en vídeo) y manejarse, por ejemplo, renderizarse, con una precisión menor o mayor. Si un creador de contenido se preocupa por lo que sucede en los negros, por ejemplo, porque hay alguna acción crítica de un criminal que se esconde en los arbustos, que debe ser "percibida a medias", es decir, ni ser demasiado conspicua ni pasada por alto por el espectador, a continuación debe anotar la imagen o vídeo con metadatos descriptivos adicionales para esa subgama o régimen de manejo de color. Y, en particular, el creador debe definir al menos una luminancia de anclaje para los negros. Si no le importa o menos, por ejemplo, porque en la presente escena HDR solo hay alguna textura de fondo como fotos en un sótano oscuro, que podría renderizar con una calidad semántica más o menos igual, ya sea que estén bien o menos bien vistas, a continuación el creador puede confiar en las optimizaciones típicas del lado de recepción o del lado intermedio de los negros, donde el aparato de renderización puede renderizarlos con varios niveles de luminancia, siempre que todavía se vea razonablemente negro (es decir, negro profundo, negro bueno o negro lechoso).
Por lo tanto, redactado con un ejemplo simple para hacer que el usuario comprenda fácilmente los puntos principales de nuestra invención, la luminancia de anclaje (anc) en el intervalo dinámico de luminancia combinada (CombRng) especifica qué luminancia facial debe haber en la imagen combinada (de salida), para que parezca apropiada. Eso, por supuesto, dependerá de si la cara está bien iluminada, fuertemente iluminada o en las sombras. Eso evita que el actor o la persona en, por ejemplo, el comercial, o el comentario de BD, o la conversación por videoteléfono, etc., no sea excesivamente más brillante que el de la película. Por supuesto, el aparato tiene medios para no necesariamente colocar exactamente las dos luminancias de cara, sino representar una en una luminancia de desplazamiento (por ejemplo, si el actor en la película HDR principal está en la oscuridad a propósito, pero el resto de la película HDR es (mucho) más brillante, el comercial no necesita atenuarse necesariamente a los detalles de luminancia de ese actor de película; tenga en cuenta que algunas realizaciones del aparato de combinación podrían decidir adicionalmente mediante el uso de heurísticas, como, por ejemplo, cuánto tiempo ya ha tenido lugar la escena oscura de la película, por ejemplo, manteniendo el tiempo transcurrido desde la luminancia anterior considerablemente diferente o el tipo de, por ejemplo, una escena de luz diurna, y algunas realizaciones podrían incluso anotar las luminancias de la película con metadatos adicionales, por ejemplo, el anc al comienzo de una escena de película que tiene un segundo elemento de datos que indica cuánto durará la escena oscura, pero describiremos los elementos esenciales de las realizaciones aquí suponiendo que algunos creadores de contenido no querrán pasar por el problema de haciendo muchas anotaciones, y solo hará el simple acto de hacer clic en algún lugar de la imagen, u otra representación de la misma como un histograma, con un puntero, para definir el valor actual de anc, que por supuesto en las interfaces de usuario puede mostrarse, por ejemplo, mostrando todas las luminancias en la imagen en un intervalo o vecindad alrededor del valor de anc en un pseudocolor rojo, como una verificación de la selección humana del valor de anc).
Por lo tanto, el aparato sabe dónde debería estar realmente una buena luminancia de representación facial (el anc de este ejemplo de aclaración), dependiendo de los detalles de la situación (suponemos por el momento una cara caucásica con una reflectividad espectral promediada en las longitudes de onda de aproximadamente 36 %, y por supuesto otros tipos de piel de, por ejemplo, 5 % de reflectividad caerá, bajo esa iluminación local, en posiciones de luminancia CombRng relacionadas). El lector puede no molestarse con más detalles y comprender más fácilmente los diversos aspectos clave suponiendo que el CombRng está en la presente explicación solo el intervalo dinámico de la imagen HDR (Im2_Rng en la Figura 4), y el aparato sabe dónde está la luminancia facial más importante, a lo largo de ese intervalo. Como se explicó anteriormente, pueden ocurrir varias determinaciones alternativas del CombRng óptimo en varias realizaciones del aparato, que dependen de al menos algunas de, por un lado, las características de luminancia (intervalo de luminancia codificable, contenido realmente en el intervalo, etc.) de las imágenes de entrada, en la medida en que ya se conozcan o puedan estimarse, o, por otro lado, el uso real establecido o esperado del contenido de la imagen, por ejemplo, las capacidades de luminancia de una pantalla en la que se va a representar el contenido en un entorno de visualización (es decir, de hecho, la apariencia típica de imágenes genéricas, promedio o de prueba, y las imágenes presentes particulares). Esto ya es complicado, porque las caras tienden a no tener solo un color o luminancia (y mucho menos que en algunas películas las caras puedan estar pintadas de azul, etc.). Si se estudian varios rostros incluso en imágenes LDR, se ve que pueden contener lumas de píxeles incluso hasta los límites del intervalo LDR en principio (es decir, en una captura o clasificación muy contrastada, al menos algunos píxeles de la parte más oscura del rostro son casi cero, por ejemplo, en una captura retroiluminada, y los reflejos se recortan a 255; a veces, por ejemplo, con el contenido del consumidor, incluso se ve que la mitad del rostro se consume como blanco recortado), aunque muchos rostros tienen menos contrastes entre la región normalmente iluminada y la región de sombra, es decir, son más normales. Aquí podemos dividir el contenido en imágenes bien iluminadas frente a imágenes especialmente iluminadas, por ejemplo, en producciones de campo de la vida real (hoy en día incluso se incorporan imágenes hechas por no profesionales, por ejemplo, en un programa de noticias, y si se trata de una escena nocturna, las caras pueden estar mal iluminadas). Se podría decir que en situaciones tan complejas también se podría renunciar a una representación o combinación precisa, pero por otro lado también se podría decir que cuanto más anormalmente (desviándose de la buena práctica de captura) se dispara algún contenido de imagen en primer lugar, más se puede beneficiar de regularizarlo más adelante, por ejemplo, mediante el uso de un valor Anc apropiado (por ejemplo, si un camarógrafo en el campo se encuentra en una situación desfavorable, por ejemplo, cuando no puede iluminar a la persona que por alguna razón necesita estar en una parte más oscura de la escena, y solo tiene una cámara con menor capacidad de DR, puede necesitar optimizar de manera no perfecta sus imágenes de disparo, pero al menos con el mecanismo Anc puede anotar rápidamente los detalles (exóticos) de esta imagen, por ejemplo, tan simple como con un estilo en la pantalla de su cámara, o en su dispositivo informático portátil antes de comunicar el contenido a, por ejemplo, la casa de producción, etc.). Se espera que con la aparición de mejores cámaras y otros aparatos de manejo de imágenes, por ejemplo, cámaras que puedan capturar escenas nocturnas oscuras como si fueran escenas diurnas, que muchos años en el futuro la complejidad del manejo de imágenes (HDR) solo aumentará, ya sea porque habrá varios estándares y niveles de producción, por ejemplo, también algunas personas todavía suministran contenido de noticias con un viejo teléfono móvil de mala calidad. Entonces, la mejor solución sería hacer una tecnología que pueda manejar bien todas esas situaciones. Por ejemplo, una película de gángsters puede tener una iluminación dura, por ejemplo, cinenoir,con caras contrastantes y reflejos fuertes, por ejemplo, en el cabello o en una cara calva. Los programas de entrevistas pueden iluminarse de una manera menos contrastante, ya que a veces para el lego las sombras son casi imperceptibles, y uno puede iluminar a las mujeres con una iluminación más agradable y uniforme. También debe tenerse en cuenta que no es la relación de iluminación original 4:1 (la mitad facial más brillante frente a la más oscura) de la cara en la escena cuando se captura lo que es importante, sino más bien lo que está en la imagen codificada (cómo se gradúa el contraste). Este contraste generalmente puede haber experimentado cierta luminancia en BRUTO en la cámara para el mapeo de luma, y si la imagen es un escaneo de una imagen o película de celuloide, los contrastes finales pueden depender de aspectos tales como el desarrollo, el empuje, etc.
Hemos identificado este aspecto como que hay una gama de colores faciales, por ejemplo, en el ejemplo aclaratorio de la Figura 4, los colores de la cara en la imagen LDR están iluminados suavemente (por lo tanto, una pequeña gama de luminancias R_f), y la cara en la imagen HDR estaba más iluminada porque era, por ejemplo, una película de terror, lo que lleva a un intervalo más grande R_f2; por ejemplo, una persona podría estar caminando por un pasillo iluminado con poca frecuencia con focos, haciendo que su cara se vuelva más oscura y brillante con el tiempo, alrededor de un valor promedio). Lo relevante es también cómo, geométricamente, se ilumina el rostro. Si hay, por ejemplo, una pequeña mancha blanca en una cabeza calva, y esta imagen se mezcla de manera inapropiada, demasiado brillante, con la otra película HDR en el CombRng, se podría escuchar un comentario de que parece que tiene una lámpara que sobresale de su cabeza (y el espectador puede hacer tales reconocimientos confusos cuando tal persona parpadea rápidamente a través de la imagen, y potencialmente pierde parte de la historia, o al menos se distrae en la parte incorrecta de la imagen). Pero un pequeño punto de un par de píxeles no es necesariamente un problema importante todavía. Eso se puede ignorar generalmente para la determinación del color típico de la cara. Cuando se representa en pantallas HDR, puede parecer que esa persona está iluminada por una lámpara extremadamente brillante, pero al menos el punto es pequeño (digamos un par de píxeles). Si lo mismo le sucede a toda su nariz, sus ojos o toda la mitad de su cara, a continuación eso podría ser más desconcertante.
Por lo tanto, al poder indicar una luminancia facial (por ejemplo, L_SA1 en la primera imagen, digamos LDR) en el contenido, el creador también puede indicar fácil y rápidamente no solo dónde hay una luminancia facial, sino también potencialmente qué tipo de distribución de luminancia es. Por ejemplo, si solo hay una pequeña luz en su cabello, puede usar el promedio de los píxeles más oscuros de la cara real como L_SA1, y algunos píxeles que se vuelven más brillantes se verán bien. Si, por otro lado, la mitad (o más de la mitad) de la cara está fuertemente iluminada, puede usar ese valor de luminancia promedio u otro valor de luminancia característico como L_SA1, y luego el resto se oscurecerá, y esa será una forma típicamente mejor de fusionar, sea cual sea el contenido con el que se fusionará esta cara. En este caso, el creador aún puede indicar con metadatos adicionales que la cara es en realidad una cara atípicamente iluminada, por ejemplo, X se detiene por encima de la iluminación normal. Dicha información puede ser utilizada ventajosamente por el aparato de combinación para juzgar a qué luminancia (por encima o por debajo de la posición anterior en el CombRng) debe representarse esta cara (aproximadamente). La iluminación normal de una cara caucásica (blanca) se puede tomar del espectro de reflexión, que en promedio a lo largo de las longitudes de onda da una reflectividad del 36 %. Entonces, eso está a una parada por encima del 18 % del gris medio (lo que hace que estos dos valores sean identificables). Como se dijo anteriormente, en el marco clásico de LDR, también se representaría este gris medio a aproximadamente el 18 % del brillo máximo de la pantalla, por ejemplo, el 12 %. Por supuesto, otras razas deberían ser un poco más oscuras dependiendo de su tipo de piel, porque de lo contrario puede ser difícil detectar realmente el tipo de piel del actor en la película para aquellos que lo deseen, y eso podría llevar a confusión. Por ejemplo, una piel negra puede reflejar tan solo un 5 %, es decir, 3 puntos más oscura que la típica caucásica. En cuanto a la representación, se puede hacer que la cara sea algo más brillante en el intervalo LDR que el 36 % del brillo máximo de 100 nits, para tener caras muy "soleadas". Por ejemplo, el creador de imágenes puede indicar en un primer campo de los metadatos el código de luminancia de la luminancia "promedio" o de referencia (a través de la EOTF las lumas se pueden calcular en luminancias absolutas) de este objeto de cara, por ejemplo, 853, o el 80 % en una codificación normalizada de las lumas, y puede indicar en un segundo campo que esta es una luminancia de cara de tipo "2SB", lo que significa que se ilumina dos paradas más brillante que el resto de esa localidad en la escena y su imagen, etc. El lector entiende que lo mismo se puede lograr mediante diferentes mecanismos de codificación, por ejemplo, también se puede codificar un segundo punto de anclaje L_S2A1pkS que es una luminancia k parada más brillante que aún contiene un color de cara (por ejemplo, el más brillante, o el percentil 95, o el más brillante todavía en la cara y no un resalte de cabello), y un tercer punto de anclaje L_S2A1mkS que especifica algún extremo más oscuro de esta cara en esta imagen HDR o toma de imágenes de vídeo. Por lo tanto, se pueden indicar puntos de anclaje de varios tipos de una manera comprensible estándar (a ser acordada por varios estándares que implementan el sistema), por ejemplo, ya sea con un conjunto de tipos enumerados como "Face36", "Facet8", "Face72", "Face5", "MiddleDimGrey", "MiddleBlack", "MiddleDeepBlack", o se puede usar una anotación jerárquica y secuencial de datos, por ejemplo, "Cara” "1 parada arriba" "Dim" (en el que, entonces, "cara" significa el 36 % de reflexión de la cantidad promedio de luz que reside en esa parte de la imagen con un tipo particular de iluminación, y lo que es más importante, un subintervalo particular del intervalo dinámico de la pantalla que se utilizará para renderizar esos píxeles, para dar la apariencia correcta de la escena renderizada: "Dim" serían los colores brillantes medios, que, por ejemplo, se representan típicamente, en la mayoría o en todas las pantallas, en el intervalo de 10-100 nits, por debajo de los cuales debería haber al menos una región de negros, y preferiblemente una región de "Negros" que están ligeramente peor iluminados, es decir, el valor de iluminación tenue dividido por hasta 10 (o 1-10 luminancias de nits típicamente), y una región de negros profundos, hasta1/100° de la iluminación tenue normal (es decir, 0.x hasta 1 luminancias de nits), que en la representación de escenas artísticas HDR típicamente se usaría, por ejemplo, para el paisaje sombrío profundo que se ve en un castillo cuando el héroe camina a través de él simplemente con una vela. Por encima de la iluminación tenue, uno ya debería poder obtener excelentes resultados, crear un paisaje HDR de alta calidad bien controlado, si se agrega una región para los "Brillos" (donde se representaría el exterior soleado, por ejemplo, aproximadamente 10x para ver televisión, donde en escenas reales sería 100x más iluminado, es decir, luminancias de 100-1000 nit), y uno para los "Ultrabrillos", donde se podrían representar, por ejemplo, lámparas, explosiones, etc., es decir, los efectos que aún hacen interesante tener pantallas HDR de alta gama, con un subintervalo superior de, por ejemplo, 1000-10,000 nit. Debe ser suficiente un control, ya sea para la sintonización de la pantalla (para cerrar finalmente la brecha entre la codificación de imágenes referidas a la escena y referidas a la pantalla, después de la codificación absoluta de la estructura de la imagen reintroduciendo nuevamente algún nivel correcto de relación de visualización), o como en esta solicitud para la combinación correcta de imágenes, que permite un control diferenciado preciso en 5 escenas. En realidad, si se hace un estudio de los tipos de escena HDR, que existen en la vida real o que los artistas podrían hacer, a menudo se ven dos imágenes de región, como, por ejemplo, la tienda por la noche en la Figura 16C (una imagen de región uniformemente iluminada, por supuesto, normalmente es codificable por SDR), y ya es algo menos probable encontrar imágenes de tres regiones como la Figura 16b, y cuando se necesita toda la potencia de los 5 regímenes de iluminación diferentes, se está haciendo una escena HDR realmente compleja (tal vez en algunas películas solo aparece al principio como un comercial que muestra las últimas posibilidades de HDR). Pero el lector comprenderá ahora que nuestros principios no se limitan a realizaciones más pequeñas o más complejas. Si el graduador de contenido especifica solo un valor anc, ya es posible la armonización de varios contenidos de imagen con ese valor anc. Esto normalmente sucedería si solo hay un objeto crítico en la imagen, por ejemplo, el único actor o presentador (pero como se dijo, aunque este actor, incluso cuando se ilumina con mucho contraste, solo tendrá una iluminación y luminancia típicas, en teoría puede ser cualquier cosa entre 0 nit y PB_C). Si no se necesita nada específicamente para el tipo de anclaje, se supone que el aparato de combinación funcionará con un anclaje normal relacionado con un valor de gris medio, y de una luminancia de renderización normal, típicamente "Dim". Por lo tanto, los creadores de contenido que anotan solo 1 valor anc, generalmente deben usar un valor representativo para una posición gris media (en la iluminación local de esa área de la escena y su imagen) de su actor, por ejemplo, en un histograma bimodal que reside en el sol, y luego anotar el tipo como, por ejemplo, "Brillante", de modo que incluso con esta pequeña cantidad simple de información, el aparato de combinación puede juzgar muy bien qué hacer (por ejemplo, en caso de que la película no se moleste demasiado, puede decidir renderizar el "De todos modos, el actor" brillante "en el comercial como un PIP tenue dentro de la película, o para permitir una impresión de brillo, puede representar al actor brillante algo por encima del nivel de atenuación, por ejemplo, a (brillante+tenue)/2, por ejemplo, a (30+300)/2 nit; si el estándar permite la comunicación de metadatos adicionales, y estos metadatos se completan, los creadores de contenido como, por ejemplo, el comercial pueden indicar que no quieren desviarse de su representación" brillante "preferida demasiado, pero por otro lado, por diversas razones, los aparatos podrían ignorarlo, por ejemplo, porque el espectador final ha indicado con la interfaz de usuario que quiere disfrutar de la película, es decir, se debe dar preferencia a los errores de perturbación más bajos del contenido insertado brillante en el histograma de la película).
Por supuesto, si el graduador anota más valores, puede, por ejemplo, especificar sus "Oscuridades profundas", y luego el aparato de combinación puede tener eso en cuenta en su combinación final, ya sea que ya esté preparado para negros malos finalmente renderizables en un entorno de visualización brillante, o no (es decir, con la combinación que aún se realiza en un marco teóricamente perfecto de un sistema de renderizado ideal antes de la sintonización de la pantalla a un sistema real).
Por lo tanto, teniendo tanto la luminancia de anclaje (anc) que indica dónde colocar aproximadamente el color de la cara (asumimos por simplicidad de explicación para esta realización que los colores de la cara HDR ya estaban en ese nivel de luminancia, por lo que obtener los colores de la cara de la imagen HDR es a continuación trivial, sin necesidad de consideraciones complejas de mapeo de luminancia), y una forma de identificar dónde está al menos el color de la cara principal en la imagen LDR (luminancia de anclaje de fuente L_SA1), el aparato puede poner de manera relativamente simple todos los colores de la cara de ambas imágenes combinadas correctamente en la imagen de combinación como imagen de salida. E incluso para las realizaciones más simples, los colores circundantes (de la cara para empezar) y todos los demás colores de la imagen caerán relativamente bien automáticamente alrededor de esa luminancia de anclaje (anc). La filosofía para los otros colores también era relativamente simple, ya que no era necesario elaborarla con más detalle para esos escenarios de representación técnica. Si todos los demás colores cayeran en un intervalo de aproximadamente 2-2,5 paradas alrededor del gris medio (por ejemplo, el blanco suele ser 90 % o 5 veces más brillante en luminancia lineal), eso daría una buena imagen. Las impresiones a menudo no podían obtener negros muy profundos, y también la práctica televisión LDR se limitaba a típicamente 32:1 (el blanco máximo frente a los negros más profundos todavía razonablemente bien discriminables), en vista de la luz que se reflejaba en el vidrio frontal del televisor. Al ser 5 paradas del contenido del objeto de imagen, significaba que si uno se aseguraba de que los colores más oscuros y, en particular, los negros importantes estuvieran a 2-2,5 paradas del gris medio, uno también estaría razonablemente bien en el lado más oscuro de una escena LDR bien iluminada. Todo esto, en principio, ya no significa nada en el manejo de imágenes HDR, en particular para la composición y el renderizado, por lo que se necesita un mecanismo mejorado, y en particular en vista de la complejidad (las imágenes pueden contener casi cualquier cosa), alguna guía humana de lo que es semánticamente relevante, y por lo tanto, lo que sería una buena combinación. Las realizaciones más complejas pueden tomar decisiones coordinadas más inteligentes de cómo se pueden colocar inteligentemente otras luminancias de objetos alrededor del objeto principal tal como lo coloca la luminancia de anclaje, que en este ejemplo simple de entender es una cara. Se podría anotar, por ejemplo, un punto de anclaje que es un límite de un intervalo, etc. Para evitar dudas, cuando nos referimos al vídeo, nos referimos solo a una sucesión temporal de imágenes, y no nos limitamos a que una estrategia en particular deba aplicarse de manera similar para una película completa, sino que puede aplicarse solo a una parte de esa película, por ejemplo, una toma de imágenes de una misma escena (es decir, por ejemplo, el CombRng puede ser diferente en diferentes momentos de tiempo, ciertamente si más adelante se combina un nuevo comercial con diferentes características de luminancia del objeto). Dado que la mayoría de las características de las realizaciones de nuestra invención serán similares al menos para las combinaciones espaciales, ya sea que se utilicen imágenes fijas o vídeos, para evitar formulaciones tediosas menos legibles, podemos usar en los casos en que no es necesaria la distinción de una de las dos realizaciones, vídeo o imagen, en la aclaración, y el lector debe entender que también puede leer la otra. La determinación de una función que mapea una primera luminancia (anclaje de fuente) a una segunda luminancia (anclaje de intervalo de combinación y), debe ser lo suficientemente clara para el lector para varias realizaciones. Como se dijo, se podría, por ejemplo, construir el conjunto de transformación de color del aparato de combinación para que sea tan simple como hacer una función lineal de dos partes que eleve la luminancia de entrada particular (imagen fuente) desde la diagonal hasta donde debe estar, y luego conectar las líneas al máximo y mínimo del intervalo de entrada y salida (0, y [PB_C_image_1; LMC]), pero si uno tiene una función particularmente conformada para reprocesar luminancias de imagen para hacerlas más apropiadas para diferentes intervalos dinámicos o brillos, etc., también se puede, por ejemplo, escalar linealmente esa función para que el punto en él para ancS caiga en el valor de salida de anc en el eje Y. También debe quedar claro cómo se podrían construir sistemas similares que no necesitan usar la colocación exacta del anclaje, pero que funcionan con una vecindad (no demasiado grande) alrededor de ese valor anterior. La proximidad utilizable puede establecerse como cualquier combinación entre lo que el creador de contenido puede haber indicado en los metadatos de origen (por ejemplo, este anclaje puede representarse con una desviación del 20 % de su valor exacto) y lo que el aparato de combinación puede decidir dependiendo de la situación (como se dijo, aunque, por ejemplo, una cara en el cálculo comercial puede salir del cálculo que se representará, por ejemplo, a 150 nits, el aparato de combinación puede, de acuerdo con varias reglas de programa, decidir desviarse un poco de eso, por ejemplo, puede decidir que los PIP que desean colocarse en la posición central muy importante de la imagen se iluminarán un poco, y, por ejemplo, en la medida en que el aparato de combinación, que puede ser el único aparato que tiene toda la información de todas las partes de la imagen que se combinarán, y tal vez incluso el sistema de representación y el entorno en el que se mostrará la imagen combinada, juzgue que es óptimo o razonable para la presentación total actual del contenido de la imagen combinada). Si no se especifica nada más, un factor 2x por debajo o por encima de la posición de anclaje ideal puede ser una proximidad pragmáticamente razonable.
Por último, también nos gustaría mencionar que debido a que las realizaciones del solicitante pueden funcionar con funciones que especifican el aspecto final de las imágenes, en diversas realizaciones no es necesario que un aparato real (por ejemplo, el aparato de combinación) haga realmente la imagen combinada. Por ejemplo, si el aparato de combinación es un s Tb , podría enviar una imagen combinada de manera totalmente óptima a un televisor, por ejemplo, HDR10 codificada a través de HDMI si ese estándar es suficiente para lo que se necesita para esa imagen, y luego el televisor la representa directamente como una pantalla tonta. Pero el STB también podría juzgar y preparar la situación, y luego enviar todos los datos necesarios: al menos algunos datos de imagen y algunas transformaciones (que cuando se han convertido en las transformaciones óptimas FF para calcular la imagen combinada deberían ser suficientes, pero algunas otras realizaciones también podrían enviar valores de anclaje, tal vez incluso más valores de luminancia de anclaje determinados por el STB al televisor). En ese caso, el televisor tiene toda la información para realizar la combinación de manera única, es decir, en una combinación PIP no solo hará la selección de píxeles, sino que aplicará FF_1 a los píxeles de imagen SDR correspondientes recibidos antes de almacenarlos en el búfer de imagen combinada, y FF_2 a las luminancias de los píxeles de imagen HDR, para obtener las luminancias correctas de esos píxeles en la imagen combinada. Las realizaciones más simples de un aparato de combinación pueden determinar solo una buena posición de anclaje. Por ejemplo, dependiendo de lo que muestre el televisor, cómo se configura (por ejemplo, mediante un control de brillo del usuario), etc., solo puede determinar un valor de anclaje gris promedio de luz tenue, que en las condiciones actuales debería representar imágenes de buen aspecto, por ejemplo, anc_1D = 30 nit. Por supuesto, esto no producirá el mejor control sobre la combinación de imágenes, pero si un primer contenido indica con su anclaje (por ejemplo, un valor de luminancia promedio negro) que la acción está sucediendo en una noche oscura, y el segundo contenido indica que es un comercial brillante y llamativo, esta realización de aparato de combinación simple ya debería ser capaz de armonizar razonablemente ambas imágenes en torno a su valor anc_1D. Por supuesto, las realizaciones de aparatos de combinación mejores y más complejas habrán juzgado cuál sería una buena situación de combinación para varios tipos de contenido, y habrán especificado valores óptimos de anc para el valor de anc del tipo de brillo anterior (negro profundo a ultrabrillante). El aparato podrá a continuación armonizar poderosamente cualquier contenido entrante, observando su tipo de situación o efectos HDR indicados examinando sus valores de origen (y potencialmente metadatos adicionales como funciones de reclasificación, por ejemplo, indicando cómo los negros pueden hacerse grises si es necesario), a esos diferentes subintervalos de iluminación del CombRng, cualquiera que sea la situación (por ejemplo, si la combinación se realiza o prepara para un manejo adicional esperado, por ejemplo, sistema de renderizado que tiene brillos bajos, por ejemplo, no hay suficiente brillo máximo de visualización para renderizar espectacularmente los ultrabrillos lo suficientemente más brillantes que los brillos, en cuyo caso la combinación puede oscilar hacia alguna forma de posterización para los píxeles de imagen más brillantes; esa no sería la mejor combinación teórica de los colores de píxeles de imagenper se,pero una buena combinación para tales sistemas de menor calidad). Por lo tanto, la luminancia de anclaje en el intervalo de combinación se determina típicamente como al menos una buena luminancia para determinar las otras luminancias a su alrededor, y se determina por el aparato de combinación (en función de las necesidades genéricas de renderización de imágenes de buena calidad y/o especificaciones de contenido real o previsto y/o capacidades de visualización), y los anclajes de fuente hacen una cosa similar en el intervalo dinámico de la imagen de fuente, y se determinan típicamente de acuerdo con lo que el creador cree que es importante para sus imágenes, es decir, al menos qué objetos y regiones de píxeles importantes específicos a su alrededor (al menos en cuanto a luminancia) deben renderizarse y usarse bien controlados, en los diversos escenarios de uso posibles, en combinaciones de imágenes particulares. Se puede entender cómo definir una luminancia de anclaje adecuada para un objeto específico, es decir, una subparte espacial y temporal de imágenes, y debe quedar claro que los anclajes pueden necesitar redefinirse cuando la película cambia a una nueva (toma de) imagen(es), de una escena diferente, por ejemplo, la primera escena que ocurre en la sala de estar de una casa con luz natural en un día lluvioso, y la siguiente escena en el sótano iluminada por una única práctica, a saber, una bombilla en el medio del sótano (ambas escenas tendrán objetos similares que pueden indicarse con un anclaje, por ejemplo, la camisa del actor, pero, por supuesto, tendrán diferentes luminancias graduadas en las imágenes maestras, y deben representarse de manera diferente en las imágenes MDR definitivas para pantallas variables).
Es ventajoso cuando el conjunto de transformación de color (310) está dispuesto para determinar la transformación de color (específicamente la transformación de luminancia) (FF_1) de modo que una luminancia de salida (LF 1 _o), que se determina como resultado de aplicar la transformación de color (FF_1) a una luminancia de entrada de un color de píxel de la primera imagen o vídeo (Im1_LDR) que es igual a la al menos una luminancia de anclaje de fuente (L_SA1), es igual a la luminancia de anclaje (anc). Por lo tanto, una forma de coordinar las luminancias de las al menos dos imágenes (o vídeos) que se combinarán es diseñar la estrategia de combinación para que las luminancias de anclaje elegidas para todas las imágenes sean las mismas y se establezcan en el valor de la luminancia de anclaje apropiada (anc) en el intervalo dinámico de combinación de la imagen de salida (Im_o) en la que se producirá la combinación de imágenes final (por ejemplo, un PIP o una mezcla alfa). El experto entiende cómo el aparato puede calcular una función que tiene como propiedad: FF_1(L_i=L_SA1)=anc, y luego un mapeo para todas las luminancias alrededor de anc respectivamente L_<s>A 1. En particular, dado que podemos estar trabajando en el espacio de color de luminancia lineal (y las opciones inteligentes con respecto a la colocación de la luminancia del objeto a lo largo del eje de luminancia ya se han realizado en gran medida por el decodificador 251 que trabaja en al menos una de las imágenes, debido a que el creador de contenido creó los detalles de las diferentes imágenes graduadas para su intervalo dinámico de imagen, y las funciones de transformación de luminancia de reclasificación correspondientes si se comunican), a menudo se puede usar un mapeo lineal (o a veces una simple no linealidad para contrastes de distribución desigual, como una función gamma). Como se aclaró con la Figura 18a, se puede entender cómo uno (con un factor de atenuación lineal) tiene que atenuar las luminancias según lo determinado por la codificación de la imagen de entrada mediante algún factor para las imágenes más oscuras, y ocurre un mapeo similar algo diferente para las luminancias de la imagen de entrada más brillantes que el anclaje de fuente L_SA1.
En el caso de una función lineal, se puede entender fácilmente que la función se puede determinar (por ejemplo, en un sistema normalizado a 1.0 ejes con eje x = luminancia de entrada lineal de la imagen LDR, y el eje y es luminancia normalizada en CombRng), a saber, como L_out=FF_1(L_in)=C*(L- L_SA1)+anc. C es una constante de contraste, que el aparato puede optimizar aún más para hacer que las dos imágenes sean más armoniosas. Se podría determinar mirando la semántica de las dos imágenes, por ejemplo, el histograma y la distribución de la luminancia espacial (por ejemplo, pequeñas formas en la parte superior de la imagen siendo lámparas, etc.), las relaciones de brillo promedio de las imágenes, etc. Por ejemplo, si la película HDR consiste principalmente en un sótano oscuro, en el que una persona camina en las sombras, con la parte de alto brillo que consiste solo en una sola lámpara, a continuación los contrastes relevantes (de la mayoría de la imagen HDR) no serán muy altos. Entonces, si uno tiene que combinar con un comercial de LDR muy contrastante, es posible que desee disminuir un poco el contraste de ese comercial, para estar más en línea con los contrastes más bajos que el sistema visual percibe, por lo tanto, espera en entornos oscuros (por ejemplo, uno podría restringir la parte más brillante del comercial de LDR, aplicando una parte suavemente inclinada de FF_1 para esos colores relativos más brillantes, cualquiera que sea el contenido semántico, ya sea objetos al aire libre iluminados por el sol o píxeles de bombillas, como en la Figura 18C. Por otro lado, aumentar C algo por encima de 1 puede ayudar a aumentar la intensidad de un comercial, incluso si no se muestra al máximo o el brillo promedio HDR en una película HDR que es muy contrastante (es decir, se pueden controlar los contrastes en el subintervalo local del h Dr CombRng al que se asignarán todas las luminancias de imagen SDR posibles, etc.). Por supuesto, el lector entiende que el aparato también puede realizar otras transformaciones de luminancia (color) FF, por ejemplo, una función que tiene un contraste relativamente alto justo debajo del punto (L_SA1, anc), pero luego comienza a disminuir su pendiente, nivelando en algunos negros de umbral L_out=L_b, etc. De hecho, en principio, cualquier función puede ser determinada por el aparato de combinación, siempre que mapee aproximadamente la luminancia de anclaje de la fuente a la luminancia de anclaje, pero típicamente las funciones resultantes serán relativamente simples (y, por ejemplo, una función de segmento multilineal generalmente ya dará buenos resultados, al menos en imágenes de escena HDR menos críticas), a menos que el lado de creación haya comunicado detalles específicos para el aparato de combinación a seguir, como las funciones de mapeo de luminancia parcial para reclasificar varios subintervalos de luminancia, o la realización del aparato de combinación tiene conjuntos de análisis de imagen internas significativas, que le permiten proponer combinaciones de aspecto más bello (identificando y optimizando varios contrastes entre píxeles o entre regiones, calidad de representación de textura, etc.).
De manera ventajosa, el conjunto de transformación de color (310) está dispuesto para determinar la transformación de color (FF_1) de modo que una relación de luminancia de una segunda luminancia de salida (LT2_o), que se determina como resultado de aplicar la transformación de color (FF_1) a una segunda luminancia de entrada (LT1_i), dividida por la luminancia de salida (LF1_o) es una constante multiplicativa (C) por una relación de la segunda luminancia de entrada (LT1_i) dividida por la luminancia de anclaje de fuente (L_SA1). Como se mencionó anteriormente, las realizaciones más simples pueden determinar un valor fijo de C para todo el intervalo de luminancia (parcial) (la luminancia de entrada de la imagen a procesar), pero también se puede hacer que C sea una función variable de la luminancia de entrada L_i (C=CF(L_i)). Los intervalos de luminancia parciales se pueden definir por el aparato de combinación (de nuevo, ya sea guiado por prescripciones de metadatos adicionales recibidas, o por sí mismo) de varias maneras, por ejemplo, se puede determinar la extensión de un lóbulo de histograma principal, o se puede determinar un intervalo para luminancias en la imagen LDR entre ancS/k y k* ancS, con k, por ejemplo, igual a 4, y el resto de las luminancias LDR se mapean con las dos funciones parciales discontinuas de la Figura 18C, etc. Como ejemplo de funciones más variables FF, se puede aumentar el contraste de las partes más brillantes de la imagen LDR (por encima de la constante L_it, por ejemplo, como un percentil de histograma, etc.), en caso de que haya información importante (por ejemplo, caras fuertemente iluminadas), pero alternativamente también se puede disminuir el contraste para esa región brillante en caso de que solo sea información menos relevante por encima de la acción principal, de modo que, por ejemplo, el aparato puede aumentar un poco la luminancia promedio de la primera imagen LDR mixta, por ejemplo, (por ejemplo, mapeando a anc+d_anc), pero no exagerar la película HDR con reflejos demasiado brillantes en la imagen LDR mapeada por luminancia en CombRng. Esto permite, entre otras cosas, hacer que las luminancias correspondan más a una distribución de brillo calculada en el cerebro humano esperada. Por lo tanto, LT2_o se puede seleccionar, por ejemplo, como un cierto porcentaje por encima de LF1_o (por ejemplo, igual a anc), por ejemplo, 150 % de LF1_o, o k paradas por encima de LF1_o, y luego especificar C1 para ese intervalo de luminancia, etc. La adaptación inteligente de dicha (al menos una o más) subregión de la que suele ser la menos importante de las imágenes (por ejemplo, un comercial de SDR) puede mejorar en gran medida el aspecto armonioso de la combinación total.
Ventajosamente, el conjunto de transformación de color (310) comprende un conjunto de determinación de desviación (312) dispuesto para determinar sobre la base de la al menos una luminancia de anclaje de fuente (L_SA1) un desplazamiento de luminancia (d_anc), y donde el conjunto de transformación de color está dispuesto para determinar la transformación de color (FF_1) de modo que una luminancia de salida (LF1_o), que se determina como resultado de aplicar la transformación de color (FF_1) a una luminancia de entrada de un color de píxel de la primera imagen o vídeo (Im1_LDR) que es igual a la al menos una luminancia de anclaje de fuente (L_SA1), es igual a la luminancia de anclaje (anc) más el desplazamiento de luminancia (d_anc). Como se dijo, puede haber diferencias considerables entre dichos aspectos de luminancia relacionados con el objeto como, por ejemplo, la iluminación de una cara (por ejemplo, mucho contraste) y la relación de la luminancia de la cara con el resto de la imagen. Por lo tanto, el aparato puede decidir que es más apropiado no renderizar la cara LDR (o cualquier objeto de anclaje de primera imagen de intervalo dinámico, o región y subintervalo correspondiente de luminancias) exactamente a la luminancia de salida, sino más bien, por ejemplo, 2 veces más brillante. Esto puede determinarse, entre otras cosas, en función de un tipo de iluminación facial (que, por ejemplo, puede indicarse típicamente con una codificación de tipo de anclaje), por ejemplo, si la luminancia de anclaje de fuente (L_SA1) se determina como la luminancia promedio de una media cara muy brillantemente iluminada, y la cara debe representarse en la imagen final con un tamaño grande, a continuación el aparato puede decidir determinar una d_anc negativa de, por ejemplo, el 50 %. Las consideraciones heurísticas detrás de estas reglas y matemáticas del programa pueden considerar, por ejemplo, que las regiones brillantes pueden irradiar demasiado las regiones más oscuras circundantes, o ser demasiado llamativas y conspicuas, o simplemente irritantemente brillantes en comparación con el resto de la imagen, que puede ser lo principal que el espectador estaba viendo, como una película, etc. Las consideraciones también pueden evaluar la composición de brillo de la imagen de película HDR. Por ejemplo, esa imagen puede consistir en una región interior oscura y una región exterior más brillante vista a través de una puerta de garaje abierta. Si se supone que el PIP del anuncio de LDR relativamente mucho más brillante se coloca en la parte oscura, debe oscurecerse (es decir, un d_anc relativamente grande, por ejemplo, para llevar la luminancia promedio de la cara en el LDR, o luminancias de anclaje adicionales que caracterizan la imagen de LDR, siendo pesado en una sola luminancia representativa para la imagen de LDR, a medio camino entre el ANC y la luminancia promedio local de esa región oscura de la segunda imagen de película HDR), para que el contraste entre las dos imágenes, y los contrastes locales vistos desde allí por el cerebro en objetos adyacentes de esas dos imágenes, no sean demasiado excesivos. Pero si el PIP brillante se va a presentar cerca de la parte soleada al aire libre de la película HDR, es posible que incluso deba iluminarse con un d_anc positivo. Por lo tanto, en general, estas desviaciones d_anc se calcularán en función de cuál sería una combinación ideal (de, por ejemplo, dos caras) en una situación ideal (por ejemplo, si las caras estuvieran rodeadas en ambas imágenes por un fondo gris medio), y cuál es la situación real de al menos la imagen principal (es decir, en este ejemplo, la película HDR, en la que pegamos el comercial de LDR), tanto a nivel mundial (es decir, qué tipo de objetos comprende, con luminancia y tamaño promedio, y caracterizadores potencialmente más semánticos, como la complejidad interna con una medida de textura, etc.), como localmente alrededor de donde ocurriría la composición (por ejemplo, en un PIP de tamaño pequeño X,Y). Por lo tanto, los desplazamientos se determinarán en general en función de lo que sea armonioso para las dos imágenes, y en varias realizaciones que dependerán de los detalles de las imágenes por sí mismas (contrastes, tipo de posición de anclaje de la fuente y contenido del objeto en esa vecindad, y contenido fuera de esa vecindad, tamaño geométrico, etc.), y la combinación (si el PIP está, por ejemplo, colocado en un lugar pequeño menos crítico en la parte inferior derecha de la imagen, o cómo la mezcla brillará a través de la información parcial en una mezcla de mezcla, etc.). Las realizaciones más simples solo usarán una estructura de armonización relativamente simple, lo que no es tan maloper se(especialmente si el valor anc+d_anc se puede optimizar para mitigar, por ejemplo, un riesgo de contraste excesivo, si eso se juzga por el comercial), pero las combinaciones más avanzadas pueden ver con mayor precisión dónde y cómo se coloca exactamente la segunda información de imagen, o incluso propiedades adicionales de la combinación.
De manera ventajosa, el conjunto de transformación de color (310) está dispuesto para leer al menos una segunda luminancia de anclaje de fuente (L_S2A1) obtenida de una segunda fuente (351) que entrega una segunda imagen o vídeo (Im1_HDR) de las dos imágenes o vídeos, y en la que el conjunto de determinación de desviación (312) está dispuesto para determinar el desplazamiento de luminancia (d_anc) también en función de la al menos una segunda luminancia de anclaje de fuente (L_S2A1). Hemos descrito anteriormente una realización simple, en la que la estructura de luminancia de la imagen principal (a la que llamamos imagen 2 en nuestra formulación de reivindicación) tiene una estructura de luminancia conocida y, por lo tanto, se puede transformar fácilmente y formar la referencia básica en el CombRng. Es una forma útil de combinación en caso de que la imagen HDR sea una imagen principal, que debe distorsionarse mínimamente, por lo que es principalmente el contenido secundario el que se transforma hacia ella. Esto puede suceder, por ejemplo, si se sabe que la imagen HDR es de un tipo producido para garantizar que todos los objetos reflectantes Lambertianos (por ejemplo, de un programa de entrevistas de estudio) reciban una luminancia que siempre caiga dentro del intervalo de 0-400 nits del intervalo dinámico de Im HDR Im2_Rng (y eso corresponderá, por ejemplo, a un intervalo de 0-300 nits en CombRng, o el mismo intervalo de 0-400 en CombRng), y todo lo anterior es en su mayoría destacado, como, por ejemplo, pequeñas reflexiones especulares sobre metales. En ese escenario, se tiene un tipo específico de escena HDR, en la que la parte inferior se produce de una manera que es en gran medida similar a la producción de televisión LDR, y los efectos HDR son en su mayoría luces, para las cuales no se es demasiado crítico sobre su luminancia exacta (y no, por ejemplo, objetos a través de una ventana, que no solo deben verse claramente, sino que los objetos exteriores tal vez incluso deberían tener luminancias particulares para transmitir algún estado de ánimo artístico). En este caso, el problema se trata principalmente de coordinar el anuncio de LDR con la situación de iluminación del programa de entrevistas HDR, principalmente la parte de hasta 400 nits, y también se coordina en cierta medida con lo que exactamente hay en las regiones brillantes (por ejemplo, se podría usar el mecanismo de contraste anterior con constantes multiplicativas C, o cualquier determinación general y aplicación de una función de mapeo de luminancia, para iluminar pequeñas regiones destacadas (identificadas o supuestas) en el anuncio de LDR para que se correspondan más con las luminancias de estos aspectos destacados realmente presentes en el programa de entrevistas HDR).
Pero, en general, el contenido HDR puede ser cualquier cosa. Por ejemplo, es posible que sus caras no se iluminen a aproximadamente el 25 % de 400 nits firmemente, sino que caigan por todo el eje de luminancia si un actor está corriendo, por ejemplo, a través de un pasillo oscuro de la mina con lámparas escasamente colocadas. Por lo tanto, es ventajoso que todos los que hacen cualquier contenido anoten su contenido, de modo que también la imagen HDR indicará dónde caen una o más de sus caras en su eje de luminancia, con al menos una segunda luminancia de anclaje de fuente (L_S2A1). Entonces es más seguro que ambas imágenes armonizarán en su combinación final, porque el aparato puede, mediante la lectura de L_S2A1, verificar dónde están las luminancias de la cara en la segunda imagen HDR (véase el ejemplo de aclaración correspondiente en la Figura 4). La imagen HDR se puede transformar de manera óptima para cualquiera que sea la mejor situación de combinación final (en particular, el CombRng), por ejemplo, teniendo en cuenta que lo más probable es que la película se muestre al aire libre en lugar de en un entorno oscuro, etc. Por ejemplo, la función FF puede modular la diferente iluminación facial en menor grado, en particular si, por ejemplo, la situación de visualización será tal que la representación de la textura del objeto oscuro se deteriorará en comparación con la visualización cinematográfica óptima de la película.
También es ventajoso si el conjunto de transformación de color está dispuesto para establecer una transformación de color (FF_1) que se aplicará a la primera imagen o vídeo también en función de las primeras funciones de remapeo de color (F1_L) que especifican un cambio en la distribución de luminancia de los objetos en la primera imagen o vídeo (Im1_LDR) para mapear esa primera imagen o vídeo desde el intervalo dinámico asociado con la codificación de la primera imagen o vídeo, a un intervalo dinámico con un brillo máximo que difiere al menos de un factor multiplicativo 2, o en el que el conjunto de transformación de color está dispuesto para establecer una transformación de color (FF_2) que se aplicará a la segunda imagen o vídeo también en función de las segundas funciones de remapeo de color (F2_L) que especifican un cambio en la distribución de luminancia de los objetos en la segunda imagen o vídeo (Im2_HDR) para mapear esa segunda imagen o vídeo desde el intervalo dinámico asociado con la codificación de la segunda imagen o vídeo, a un intervalo dinámico con un brillo máximo que difiere al menos en un factor multiplicativo 2. Como se explicó anteriormente, en nuestro marco básico de codificación de vídeo o imagen HDR indicamos con funciones de transformación de color comunicadas (al menos definiendo una transformación de luminancia, pero a veces también una transformación de saturación necesaria, por ejemplo, para aumentar la saturación de objetos que debían oscurecerse en el aspecto LDR, para mantenerlos lo suficientemente vivos; las funciones que especifican el aspecto de los intervalos dinámicos que difieren típicamente al menos un factor 2 en PB_C, por ejemplo, cómo transformar un grado extremo o medio, por ejemplo, 5000 nit PB_C en el otro, por ejemplo, 100 nit PB_C) cómo debe cambiar una distribución de luminancia de los objetos (que es en general una optimización compleja hacia las capacidades más bajas de una pantalla o códec PB menor, teniendo en cuenta los detalles semánticos de la escena HDR) cuando se pasa de un intervalo dinámico más alto a uno más bajo (o viceversa). Es decir, cuando se transforma de una imagen maestra graduada HDR de 5000 nits, a, por ejemplo, una imagen de 100 nits, o alguna imagen de intervalo dinámico medio, por ejemplo, óptima para controlar una pantalla de 1200 nits. Por lo general, el creador puede determinar cómo le gustaría que cambiara el aspecto, por ejemplo, oscurecer progresivamente los reflejos y las regiones oscuras.
El poder del marco de combinación es que puede decidir cómo formular el nuevo tipo de funciones, que no se asignan a un (único) intervalo dinámico de representación óptimo diferente, sino a un intervalo dinámico de combinación, dependiendo, entre otras cosas, de la precisión con la que se quiera controlar la colorimetría de la combinación (que por sí misma puede depender de varios ajustes de parámetros externos, con parámetros que cuantifican, entre otros, el deseo de un creador, propietario o distribuidor de contenido, un espectador -está tratando de disfrutar atentamente de la película, por ejemplo-, o incluso el fabricante de la pantalla). Por supuesto, el aspecto total de la combinación puede variar dependiendo de la combinación particular y de lo que contiene, pero eso no significa que las funciones de reclasificación per se no contengan necesidades o deseos de reclasificación interesantes (ya sea en el subintervalo más brillante, digamos el 20 % superior de las lumas, hay nubes que desean una reclasificación cuidadosa, u objetos menos importantes), que también el aparato de combinación puede querer seguir hasta cierto punto.
Ahora, si las funciones lineales simples FF mencionadas anteriormente se utilizan para mapear luminancias de entrada de imágenes alrededor de la luminancia de anclaje ANC, es posible que no se necesiten los detalles de F_L. Pero las asignaciones más sofisticadas pueden variar en la estrategia lineal, y en particular deben hacerlo de acuerdo con lo que se dice implícitamente que necesita el creador de contenido en las funciones F_L para esa imagen particular de esa escena<h>D<r>en particular, en ese subintervalo de luminancias. Por ejemplo, si al creador le gusta hacer que las luminancias más oscuras desaparezcan rápidamente en negro, el conjunto de transformación de color (310) puede tenerlo en cuenta al determinar una función óptima FF, por ejemplo, puede estirar parte del contraste para regiones más brillantes (alrededor del color de la cara y, por ejemplo) recortando más rápidamente a negro un porcentaje mayor de las luminancias LDR de lo que haría la función lineal. Por lo tanto, el aparato puede evaluar la forma funcional de al menos una función de transformación de luminancia del conjunto de funciones F_L (que, por simplicidad de comprensión, el lector puede suponer que es solo una asignación de función de forma arbitraria normalizada a 1.0 luminancias de entrada a normalizada a 1.0 luminancias de salida), y usar una parte de esa forma para diseñar la forma de la función final para asignar a CombRng. Cabe señalar que en tales funciones se pueden dar varios deseos para reclasificar partes de una imagen, ya sea por sí misma o en relación con otras luminancias posibles en otras partes de otras imágenes, etc. Por ejemplo, se podría especificar para una región geométrica de una imagen que las luminancias presentes allí, por ejemplo, no se deben aumentar demasiado, incluso si, por ejemplo, en el resto de esa imagen hay píxeles con la misma luminancia que se pueden aumentar en gran medida. En principio, se puede indicar cualquier forma de función parcial de este tipo (por ejemplo, las realizaciones anteriores que el solicitante ha desarrollado permiten la especificación de un subconjunto de píxeles en una imagen que cumple con la propiedad de caer en una región geométrica particular como un rectángulo, y tiene luminancias entre L_min y L_max, y luego se podría definir una función parcial de comportamiento de mapeo deseada, por ejemplo, para luminancias en esa región de, por ejemplo, la imagen HDR que cae entre L_min+k y L_max-l, con k y 1 constantes. Por ejemplo, se podría dar una función de refuerzo única o parametrizada para aquellas luminancias L_out=B*L_in+O, donde B y O podrían ser función de varias propiedades, como LMC, o un promedio de las luminancias de la imagen de salida combinada que rodea el rectángulo en el que se colocan los datos de la imagen HDR, etc. Cualquier comportamiento de reclasificación dividido puede indicarse en las especificaciones funcionales antes de la combinación final, o incluso deconstruirse después de que se haya creado una imagen combinada (para que al menos parte del contenido total sea combinado).
Es ventajoso si el conjunto de establecimiento de intervalo dinámico (302) está dispuesto para establecer el intervalo dinámico de luminancia de combinación (CombRng) dependiendo de las luminancias en al menos una de las dos imágenes o vídeos. No todas las realizaciones necesitan o pueden tener en cuenta los detalles del entorno de visualización final. Por ejemplo, la imagen de salida se puede mezclar en alguna sala de control principal para su transmisión a varios usuarios. La situación final puede no conocerse, y podría variar considerablemente (si un espectador está mirando, por ejemplo, en el tren, y otro en la sala de cine que ha hecho en su ático). En ese caso, es ventajoso que la combinación se optimice en función de las características de ambas (o de todas si se mezclan más de 2) imágenes, porque eso siempre será relevante. Por supuesto, el lector entenderá que si se aplica bien, el paradigma de combinación es aún más escalable. Por ejemplo, un primer creador de contenido puede haber mezclado dos fuentes de imágenes, pero eso no significa que en el futuro no se pueda mezclar más contenido. Y eso podría suceder tantopost factum,como con el primer creador ya anticipando, y al menos algunas de las realizaciones del aparato de combinación deberían atender a todas estas situaciones. Por ejemplo, el primer creador de contenido puede tener la primera palabra sobre lo que debería suceder, por lo que podría determinar un CombRng (y/o anc) que sea óptimo para su contenido, pero tal vez ya anticipando que alguna entidad más adelante añadirá algún contenido de imagen que algunas características adicionales típicas (por ejemplo, una cinta de teletipo con información de noticias en la parte inferior, o en una sala de cine o tienda o situación de museo, un proyector secundario que proyecta alguna información de imagen secundaria además o parcialmente a través del contenido de imagen renderizado primario, etc., cuyo contenido secundario tendrá un intervalo dinámico, brillo promedio, dinámica como la evolución temporal del brillo promedio, etc.). El mezclador de contenido secundario aún puede decidir si es mejor seguir la indicación del primer creador de contenido, por ejemplo, mantener el CombRng, o tal vez ajustarlo mejor, dado que ahora hay información adicional con respecto a la imagen combinada final o su presentación. Son posibles dos clases de realizaciones. En una clase más simple, las dos imágenes ya están en esta etapa mezcladas inseparablemente (por ejemplo, composición PIP final), y el lado de recepción final solo puede optimizar esta imagen total de acuerdo con sus detalles de renderización (pantalla PB de la pantalla a renderizar, brillo envolvente promedio, etc.). Es decir, para simplificar la comprensión, digamos que toma esta imagen combinada y se aplica como función de raíz cuadrada a sus luminancias, para obtener las luminancias de salida finales que se renderizarán. Esto puede ser suficiente para muchos escenarios, porque la imagen de mezcla ya puede tener brillos armonizados y el entorno de visualización puede no diferir demasiado del previsto.
Las realizaciones más avanzadas permitirán la redeterminación de las distribuciones de luminancia de objeto/píxel de las dos imágenes en el lado receptor, y en algunas realizaciones pueden comprender la redeterminación de las imágenes originales, al menos en cierta medida (por ejemplo, su codificación básica, o al menos la gradación de luminancia original; que es la deconstructibilidad mencionada anteriormente). Por ejemplo, algunas realizaciones podrían especificar la combinación PIP de alguna manera de distribución de luminancia, pero codificar conjuntamente los detalles específicos de CombRng y las funciones FF para llevar al menos una de las dos imágenes a luminancias correctamente armonizadas dentro de CombRng. Por ejemplo, uno puede imaginar que uno solo pone el PIP LDR en la imagen envolvente HDR con luminancias escaladas linealmente a 5000 nit PB, que sin el procesamiento correcto en el extremo receptor, por supuesto, daría una combinación de aspecto horrible. Pero el lado receptor obtiene toda la información necesaria para hacer que el renderizado combinado sea correcto, a su lado, es decir, con una imagen PIP armonizada. Puede hacerlo cambiando adecuadamente las luminancias de píxel en ese rectángulo, teniendo en cuenta todo lo que sabe (es decir, por ejemplo, funciones de mapeo de luminancia parcial recibidas para esa región, o valores de ANC adicionales especiales para esa región rectangular, etc.; o lo que puede determinar en su propio extremo, por ejemplo, que dicha región parece considerablemente brillante en comparación con los píxeles circundantes, etc.). El experto en la materia habrá entendido ahora que estas funciones<f>F no son las funciones F_L para reclasificar para un intervalo dinámico diferente per se, por ejemplo, no simplemente las funciones para mapear razonablemente una única imagen LDR de manera apropiada a un intervalo dinámico de visualización MDR de PB, por ejemplo, 1500, sino más bien funciones con las que el lado de creación especifica (o el aparato de combinación en cualquier ubicación que se establezca) que esto daría una buena mezcla para la imagen LDR armonizada con la imagen HDR, es decir, teniendo en cuenta los detalles de las dos imágenes juntas.
Ventajosamente, el conjunto de establecimiento de intervalo dinámico (302) está dispuesto para establecer el intervalo dinámico de luminancia de combinación (CombRng) dependiendo de un brillo máximo de una pantalla en la que se va a representar la al menos una imagen de salida (Im_o), y preferiblemente también de una característica de brillo de un entorno de visualización. Si una realización de nuestro aparato se incorpora en un aparato o sistema de sitio de renderización final, por ejemplo, un televisor u ordenador, a continuación puede ser apropiado especificar aún más la combinación de acuerdo con los detalles de visualización. Si una imagen LDR se viera excesivamente brillante cuando se ve por sí sola en un entorno oscuro, es probable que sea demasiado brillante para ese entorno de visualización oscuro cuando se combina con una película, en particular porque esa película ya puede haber sido optimizada para esa situación de visualización en particular (consulte en la Figura 3 la imagen de aspecto reajustada MDR Im2_MDR apropiada que se calcula para una pantalla PB de, por ejemplo, 1200 nit vista en un entorno tenue, a partir de un Im_HDR de 5000 nit que todos los espectadores que tienen la misma suscripción de contenido o ven el mismo programa transmitido reciben). Las imágenes parciales se pueden mezclar en su intervalo dinámico MDR apropiado (Im1_LM e Im2_HM). Esto será particularmente importante cuando, por ejemplo, los píxeles más oscuros de alguna imagen sean difíciles de ver en entornos de visualización más brillantes, en particular si el espectador se distrae con (tal vez incluso espacialmente vecino) contenido brillante de las otras imágenes combinadas, y luego tener, por ejemplo, un valor anc adicional para los píxeles más oscuros en al menos una de las imágenes (por ejemplo, la imagen principal) puede mejorar significativamente la optimización de la combinación final. El lector experto entenderá que, por supuesto, con la presentación combinada de las dos imágenes, la optimización generalmente debe ser diferente de las optimizaciones de imagen únicas, y dependiendo de la totalidad de la situación, ya que eso es lo que el espectador llega a percibir (por supuesto, pragmáticamente uno construirá aparatos que hagan la optimización con mayor o menor precisión en función de la complejidad que uno puede permitirse en vista del precio de mercado posicionado del aparato; algunas de las realizaciones más simples ya pueden hacer un trabajo bastante razonable). Al ver un único comercial de LDR que es demasiado brillante, incluso en un entorno de visualización oscuro, el espectador adaptará en gran medida su visión a lo que se ve en la pantalla. Pero al tener dos imágenes combinadas, no es trivial a priori a qué se adaptará exactamente la visión humana y, en consecuencia, qué luminosidades y brillos verá el cerebro para la combinación de luminancias de píxeles renderizados (no es poco probable que comience a ver mal la película principal), de ahí el deseo de tener un sistema donde el creador de contenido pueda al menos indicar la información y la orientación mínimamente necesarias (los sistemas técnicos prácticos siempre son un equilibrio entre la complejidad, por ejemplo, la cantidad de esfuerzo invertido por un creador de contenido y el costo de los circuitos integrados que necesitan hacer los cálculos, frente a la necesidad de poder manejar al menos algunas transformaciones de color mínimamente necesarias para que el sistema se comporte al menos la mitad de lo razonable, en lugar de solo mal; y varias realizaciones, típicamente estandarizadas, decidirán cuán lejos irán con las funciones de control específicas adicionales en qué escenarios). Por lo tanto, el lector experto entiende que es ventajoso determinar el CombRng (y también la luminancia de anclaje típicamente, y también las formas específicas de las funciones FF si no son lineales, o el multiplicador de contraste C si es lineal) dependiendo de al menos las capacidades de la pantalla (su PB puede ser suficiente en la mayoría de las situaciones, pero se pueden incorporar características adicionales, por ejemplo, si no se utiliza completamente en vista del ahorro de energía, etc.). Y si se conectan aparatos para evaluar el brillo del entorno envolvente del espectador, es posible que se desee hacer más. Por ejemplo, se puede usar un medidor de iluminancia, pero puede ser mejor usar una cámara en algún lugar de la sala del lado receptor, por ejemplo, conectada a la pantalla, que se puede calibrar en un medidor de luminancia para varias regiones del entorno de visualización de imágenes, y ya está en algunos televisores. A partir de esto, se puede estimar aproximadamente cómo experimentará el espectador las imágenes. Se pueden usar versiones más simples o más avanzadas, por ejemplo, una cámara que verifica las diversas luminancias en una región detrás (ver alrededor) del televisor hasta 1 ancho de televisor en cada lado.
Es ventajoso si el conjunto de determinación de anclaje de luminancia (303) está dispuesto para determinar la luminancia de anclaje (anc) dependiendo de al menos uno de: el intervalo dinámico de luminancia de combinación (CombRng), las luminancias en al menos una de las dos imágenes o vídeos, un brillo máximo de una pantalla en la que se va a renderizar la al menos una imagen de salida (Im_o), y una característica de brillo de un entorno de visualización. También debe establecerse al menos una luminancia de anclaje y, a partir de la cual, las distribuciones de las luminancias de ambas imágenes pueden distribuirse de manera armonizada. El lector debe entender que varias realizaciones pueden hacer la determinación de CombRng y anc en cualquier orden. Por ejemplo, algunas realizaciones pueden establecer primero, por ejemplo, dependiendo de las capacidades de la pantalla (real o esperada) y las características de brillo del entorno de visualización, lo que sería un buen CombRng, por ejemplo, típicamente para la situación de la película actual, o incluso por toma de imágenes, etc.
Por ejemplo, algunas realizaciones pueden, antes de comenzar una película, analizar las primeras imágenes de la película, o un conjunto característico de imágenes muestreadas a lo largo de la película. O la película puede tener metadatos codificados conjuntamente, a partir de los cuales el aparato puede establecer, incluso antes de decodificar la primera imagen, cuál sería un CombRng al menos inicial razonable. Por ejemplo, los metadatos pueden especificar que el brillo promedio de la película es de 200 nits en un intervalo inferior de hasta 400 nits, y con una secuencia más extrema, digamos un disparo en un desierto, que cae hasta (es decir, que debe representarse preferiblemente en cualquier pantalla MDR que tenga capacidad suficiente para hacerlo) luminancias de objetos difusos como del cielo o arena de hasta 900 nits (y un promedio de 600 nits). La realización del aparato de combinación de imágenes puede decidir a continuación que debe reservar en el CombRng (especialmente si se trata de pantallas de servicio de varios PB) un área fija de exceso de brillo, por ejemplo, hasta el 200 % de esa 900 nit que sería el requisito más excesivo para esa película, de modo que el 100 % superior de luminancias se puede usar para todos los reflejos (ya sean pequeños puntos de reflexión especular, lámpara o incluso regiones por encima del brillo que contienen detalles de imagen, como una parte muy iluminada de una escena). Por supuesto, las especificaciones más avanzadas pueden ayudar a determinar cuál debería ser exactamente la región de luminancias más brillantes en CombRng, codificando también qué tipo de efectos HDR son típicos en el programa o película, o parte de los mismos. Trabajar con un par de subintervalos de este tipo es potente y versátil (ya sea que indiquen principalmente las necesidades del contenido, o las capacidades de representación previstas, o ambas), especialmente si se complementa con un par de buenas luminancias de anclaje para esos intervalos.
Después de haber decidido un CombRng óptimo, el aparato puede a continuación basarse en él para determinar dónde debe estar la luminancia de anclaje de, por ejemplo, un color de cara. Por ejemplo, si la mitad del intervalo es para los objetos Lambertianos bien iluminados, a continuación puede decidir usar el 40 % de ese 50 % de luminancia máxima como punto de luminancia frontal. Sin embargo, algunas realizaciones pueden funcionar al revés. Teniendo en cuenta todas las características de representación, el aparato puede determinar una luminancia anc adecuada para las caras o la región principal de los objetos Lambertianos de color gris medio, de modo que se vea apropiadamente brillante para el espectador. A continuación, puede construir un CombRng adecuado en torno a eso. Por ejemplo, se ve en la imagen HDR más exigente y ve objetos brillantes (ver lámparas) hasta 20 veces la luminancia de la cara. Luego puede decidir poner el máximo del intervalo en ese valor de luminancia, o considerar, por ejemplo, que el 80 % de ese valor debería ser suficiente para una representación combinada de dos conjuntos de imágenes, y luego los valores más altos en Im_HDR respectivamente Im2_MDR (cualquiera que se use en la combinación en la realización particular) normalmente se recortará al LMC máximo del intervalo dinámico de la combinación. Esto puede ser muy útil en caso de que se quiera armonizar el contenido con, por ejemplo, capacidades de menor intervalo dinámico, especialmente si, por ejemplo, la película HDR no es el contenido principal, sino, por ejemplo, un PIP en una pantalla de ordenador que muestra principalmente otras regiones de imagen con, por ejemplo, información, etc. Por lo tanto, las realizaciones simples harán que un objeto sea 2 veces más brillante que el color de la cara o, en general, cualquier luminancia de anclaje en cualquier imagen (es decir, la primera y la segunda imagen HDR, o la imagen LDR en caso de que se use una imagen LDR en la combinación) dos veces más brillante también en los píxeles de imagen respectivos cuando esté listo para agregarse a la imagen de combinación, o imágenes (Im_o). O las transformaciones de color más avanzadas (o combinaciones, algunas de las cuales también pueden pesar o cambiar las luminancias de los píxeles en sus combinaciones matemáticas) pueden hacer que algunas luminancias sean más oscuras o más brillantes. Y el aparato puede hacer consideraciones similares para llegar a la luminancia límite inferior LmiC del CombRng, por ejemplo, algo más brillante que en al menos una de las imágenes fuente, de modo que la imagen combinada (que ahora puede tener objetos mucho más brillantes que al menos uno de los originales) no tenga un aspecto demasiado oscuro o demasiado contrastante, etc.
Otras realizaciones pueden realizarse como aparatos correspondientes (ya sean pequeños como parte de un IC, o tan grandes como un sistema profesional o de consumidor completo) o procedimientos, por ejemplo:
Un procedimiento de combinación de dos imágenes o dos vídeos de imágenes (I m_HDR, I m_LDR) de diferentes fuentes y con diferente luminancia máxima, siendo una de ellas una imagen o vídeo de alto intervalo dinámico, comprendiendo el procedimiento:
- establecer un intervalo dinámico de luminancia de combinación (CombRng), que se caracteriza por al menos una luminancia máxima (LMC) que se determina en función de las luminancias máximas de las dos imágenes o los dos vídeos de imágenes,
el establecimiento comprende además determinar una luminancia de anclaje (anc) en el intervalo dinámico de luminancia de combinación (CombRng);
- aplicar una transformación de luminancia (FF_1) en al menos una de las dos imágenes o vídeos que producen una primera imagen de salida que tiene primeras luminancias de salida, cuya transformación de luminancia se establece en función de un valor de una luminancia de anclaje de fuente (L_SA1) que se lee a partir de metadatos de una primera fuente (350) que entrega una primera imagen o vídeo (Im1_LDR) de las dos imágenes o vídeos, la transformación de luminancia tiene la propiedad de que la luminancia de anclaje de fuente (L_SA1) se mapea a una luminancia de salida en las proximidades de la luminancia de anclaje (anc); y
- combinar las luminancias de salida de la primera imagen de salida con luminancias de la otra de las dos imágenes o dos vídeos de imágenes para formar al menos una imagen de salida combinada (Im_o).
Un procedimiento para combinar dos imágenes como las anteriores, en el que la transformación de color (FF_1) se determina de modo que una luminancia de salida (LF1_o), que se determina como resultado de aplicar la transformación de color (FF_1) a una luminancia de entrada de un color de píxel de la primera imagen o vídeo (Im1_LDR) que es igual a la al menos una luminancia de anclaje de fuente (L_SA1), es igual a la luminancia de anclaje (Anc), o un desplazamiento de luminancia de la luminancia de anclaje (Anc) por una diferencia determinada (d_Anc).
Un procedimiento de combinación de dos imágenes en el que la transformación de color (FF_1) se determina de modo que una relación de luminancia de una segunda luminancia de salida (LT2_o), que se determina como resultado de aplicar la transformación de color (FF_1) a una segunda luminancia de entrada (LT1_i), dividida por la luminancia de salida (LF1_o) es una constante multiplicativa (C) por una relación de la segunda luminancia de entrada (LT1_i) dividida por la luminancia de anclaje de fuente (L_SA1). Como se explicó anteriormente, las otras luminancias que se producen en las imágenes alrededor de la luminancia de anclaje se pueden mapear simplemente alrededor de la luminancia de anclaje, o de una manera determinada con mayor precisión.
Un procedimiento para combinar dos imágenes en el que se determina una transformación de color (FF_2) de la segunda imagen o vídeo de imágenes en función de al menos una segunda luminancia de anclaje de fuente (L_S2A1) obtenida de una segunda fuente (351) que entrega una segunda imagen o vídeo (Im1_HDR) de las dos imágenes o vídeos. Se pueden determinar varias luminancias de anclaje no solo de la primera sino también de la segunda imagen, de modo que sus diversos intervalos de brillo (por ejemplo, bien iluminados, sombras claras, sombras profundas, lámparas, etc.) se pueden coordinar de manera óptima entre sí en el intervalo de salida de la imagen de salida CombRng.
Un procedimiento para combinar dos imágenes en el que al menos una de las transformaciones de color (FF_1, FF_2) que se aplicarán a la respectiva de las al menos dos imágenes o vídeos se determina al menos en parte en función de al menos una función recibida (F1_L, F2_L) que indica cómo se va a transformar la imagen respectiva desde el intervalo dinámico correspondiente al que está codificada, a un intervalo dinámico que es al menos dos veces mayor o menor. Como se dijo, estas funciones determinan cómo deben verse exactamente los brillos de todos los objetos en su escena en cualquier intervalo dinámico (al menos 2 veces diferente de su intervalo dinámico nativo, es decir, el PB de la pantalla de referencia que corresponde a la EOTF que define los códigos de luma Y' de la imagen de entrada recibida). Por lo tanto, esa información también se puede utilizar si se necesita volver a calificar, por ejemplo, a un intervalo dinámico algo más bajo (por ejemplo, CombRng es un poco más bajo que el intervalo MDR de Im_MDR). Esto hará la mayor parte de la inteligencia para llegar a luminancias coordinadas al menos para una imagen o vídeo que se utiliza por sí solo, pero puede ser un buen punto de partida para determinar aproximadamente un conjunto inicial de luminancias de píxeles de la imagen mapeada a CombRng también para presentaciones combinadas de contenido de imagen. Pueden ocurrir ajustes finos adicionales, ya sea algo simplistas, por ejemplo, un estiramiento lineal heurístico determinado por el aparato o procedimiento de combinación, o más avanzados teniendo en cuenta las coordinaciones de luminancia requeridas específicas en las imágenes en sus objetos o subintervalos de luminancia (ya sea determinado inteligentemente de acuerdo con, por ejemplo, algoritmos de segmentación de objetos y los intervalos de luminancia correspondientes, o más aproximadamente, por ejemplo, dividiendo el CombRng en 5 subintervalos iguales o no iguales, y lo mismo para los dos intervalos de luminancia de imagen de entrada, y sus subintervalos correspondientes), ya que son especificados por el creador del contenido en las características de forma de las funciones F1_L respectivamente F2_L, lo que se esté examinando y utilizando en cualquier realización.
Un procedimiento para combinar dos imágenes como las anteriores, en el que al menos uno del intervalo dinámico de luminancia de combinación (CombRng) y la luminancia de anclaje (anc) se determina en función de al menos un factor del conjunto: una propiedad dependiente de la distribución de luminancia de los objetos en al menos una de las dos imágenes, información que resume las características de luminancia de al menos una de las dos imágenes, el intervalo dinámico de una pantalla en la que se va a representar al menos una imagen de salida combinada (Im_o) y una medida de brillo para un entorno de visualización en el que se va a ver la imagen de salida.
Todo lo anterior puede incorporarse en varios sistemas y formas, ya sean aparatos de consumo o sistemas profesionales, de los cuales algunos componentes pueden residir en servidores en otros países conectados a través de Internet, etc.
Puede ser ventajoso si una imagen se complementa con metadatos, tales como una especificación de un CombRng (por ejemplo, su luminancia superior LMC y su luminancia límite inferior LmiC), y/o una luminancia de anclaje típica, por ejemplo, de una cara, y posiblemente también al menos una función de transformación de color que indique cómo mapear las luminancias de píxeles de la imagen al CombRng.
También es ventajoso si el creador de contenido anota sus imágenes con al menos una luminancia de anclaje semánticamente relevante (y preferiblemente de un tipo acordado previamente), de modo que cuando se reciben, las opciones de iluminación de la imagen pueden ser entendidas por un aparato que desea combinar varias imágenes.
Ventajosamente, cada uno de los procedimientos puede realizarse como un programa informático que puede comunicarse a través de algún soporte físico, por ejemplo, un producto de programa informático que comprende código de software que permite que un procesador ejecute el código, de modo que cuando se ejecuta el código se realizan todas las etapas de cualquiera de las realizaciones de procedimiento anteriores.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
Estos y otros aspectos del procedimiento y aparato según la invención resultarán evidentes a partir de y con referencia a las realizaciones y realizaciones descritas en lo sucesivo, y con referencia a los dibujos adjuntos, que sirven meramente como ilustraciones específicas no limitantes que ejemplifican los conceptos más generales, y en los que los guiones se utilizan para indicar que un componente es opcional, los componentes no discontinuos no son necesariamente esenciales. Los guiones también se pueden usar para indicar que elementos, que se explican como esenciales, pero ocultos en el interior de un objeto, o para cosas intangibles como, por ejemplo, selecciones de objetos/regiones (y cómo se pueden mostrar en una pantalla).
En los dibujos:
La Figura 1 ilustra esquemáticamente cómo en la era HDR (recientemente iniciada) se han propuesto varias formas diferentes de codificar vídeos (en 2015), lo que conducirá a imágenes con características de luminancia muy diferentes, que no son fáciles de relacionar;
La Figura 2 ilustra esquemáticamente los componentes básicos de cómo la tecnología de codificación HDR del solicitante puede codificar una imagen HDR, junto con un aspecto (o gradación de color) diferente de luminancia LDR de los brillos de los objetos de la misma escena HDR de la imagen, y cómo esta información es suficiente para calcular un aspecto apropiado con los brillos correctos de los objetos de la imagen en cualquier pantalla HDR disponible con cualquier brillo máximo (PB_MDR);
La Figura 3 ilustra esquemáticamente una realización básica del presente aparato de combinación de imagen o vídeo con capacidad HDR, que muestra los conjuntos principales;
La Figura 4 ilustra esquemáticamente cómo ocurre la transformación de color apropiada al intervalo dinámico de combinación óptimamente elegido antes de la combinación de vídeo o imagen;
La Figura 5 ilustra esquemáticamente qué problemas pueden ocurrir si uno no prepara cuidadosamente las luminancias de píxeles (o en colores generales) de las dos imágenes, sino que las combina de una manera simplista, para que una de las posibles combinaciones sea una composición de imagen en imagen;
La Figura 6 ilustra esquemáticamente cómo el aparato puede determinar alguna función o funciones de transformación (FF) de color, o al menos luminancia, apropiadas a modo de ejemplo, para al menos una de las al menos dos imágenes que se van a combinar;
La Figura 7 ilustra esquemáticamente qué algoritmos se pueden usar, según lo desarrollado por los inventores del presente solicitante, para volver a calificar artísticamente de manera óptima automáticamente, según lo desee un creador de contenido, una imagen de un primer intervalo dinámico a una segunda imagen diferente, de la cual el intervalo dinámico (al menos su brillo máximo) puede diferir en varios factores de dos;
La Figura 8 ilustra esquemáticamente algunos ejemplos más avanzados de cómo el aparato puede ajustar las funciones (FF) para transformar en color las imágenes que se combinarán en el intervalo de combinación (CombRng), en función de los detalles semánticos de la distribución de luminancia del objeto en la escena HDR como se muestra;
La Figura 9 ilustra esquemáticamente un ejemplo de una aplicación de una realización del aparato y procedimiento descritos en la presente, a saber, en una producción original multivídeo, tal como, por ejemplo, un programa de entrevistas para televisión;
La Figura 10 ilustra esquemáticamente un segundo ejemplo en el que se utiliza una realización del aparato y el procedimiento en un sistema en un nodo intermedio de una red de comunicación de vídeo, tal como, por ejemplo, una sala de control de transmisión para dar servicio a un área local (el lector debe entender que otras realizaciones de aparato de combinación pueden residir en otros lugares de la cadena de gestión de vídeo o imagen, por ejemplo, en las instalaciones del usuario final del vídeo);
La Figura 11 muestra esquemáticamente cómo las realizaciones del aparato pueden determinar un CombRng y asignar luminancias de imagen de fuente en el mismo, a partir de una buena posición de un valor de luminancia de una luminancia de anclaje;
La Figura 12 muestra esquemáticamente ejemplos aclaratorios adicionales de cómo las realizaciones del aparato pueden determinar un CombRng y asignar luminancias de imagen de fuente en el mismo, a partir de una buena posición de un valor de luminancia de una luminancia de anclaje;
La Figura 13 muestra esquemáticamente cómo se podrían combinar simplísticamente píxeles de dos imágenes si no se utilizan los aspectos técnicos de la presente invención, pero que podrían conducir a imágenes combinadas de mala calidad;
La Figura 14 muestra esquemáticamente cómo incluso en un procedimiento de captura de imágenes, en particular codificado con un procedimiento técnico de codificación de vídeo HDR, se podrían tener luminancias muy variables para el mismo objeto, en particular si se desea utilizar más libremente el potencial de la formación de imágenes HDR;
La Figura 15 aclara además esquemáticamente cómo se podrían determinar varios intervalos de combinación, y lo que eso podría significar en la práctica, en particular para el establecimiento de la(s) luminancia(s) de anclaje sensible(s) relacionada(s) (anc), y a partir de ella las funciones típicas de mapeo de luminancia para armonizar el contenido parcial de las al menos dos imágenes o vídeos;
La Figura 16 muestra esquemáticamente en particular cómo se puede lograr una armonización muy potente en caso de que se haya especificado la parte anterior de la cadena de manejo de vídeo, la codificación de vídeo per se, de una manera particular de reclasificación gruesa y fina de las diversas luminancias de imagen;
La Figura 17 muestra esquemáticamente cómo las versiones automáticas pueden formular la determinación de las diversas variables en función de diversos algoritmos que determinan factores tales como errores, tanto de distorsión del contenido de la imagen como de desarmonía del contenido, que en el caso de la clasificación humana y la anotación de imágenes pueden ser determinados por el creador de contenido humano; y
La Figura 18 muestra esquemáticamente algunos ejemplos adicionales de realizaciones de funciones de transformación de luminancias útiles para determinar luminancias armonizadas para la combinación de imágenes.
DESCRIPCIÓN DETALLADA DE LOS DIBUJOS
Las Figuras 1 y 2 ya se han explicado anteriormente, y la Figura 2 muestra cómo codificamos preferiblemente un vídeo HDR, o más precisamente una imagen graduada LDR y una imagen graduada HDR (típicamente 5000 nit PB) de la misma escena, que puede decodificarse (aplicando una o más funciones de transformación de luminancia a la o las imágenes LDR recibidas) para producir una imagen reclasificada óptimamente para un brillo máximo de visualización en cualquier lugar dentro o incluso fuera del intervalo de intervalos dinámicos abarcados por la clasificación LDR y HDR como extremidades.
La Figura 3 aclara en un nivel superior algunos componentes básicos subyacentes a la mayoría de las realizaciones de nuestra imagen HDR, o vídeo, aparato o procedimiento de combinación armónica. A continuación, describiremos la situación con un ejemplo de PIP, aunque también se pueden utilizar las mismas técnicas, por ejemplo, para atenuar el brillo de una clasificación de forma coordinada en una sucesión temporal de vídeo intercalado de diferentes fuentes. Por ejemplo, se puede establecer un buen nivel de CombRng para el comercial de LDR y adaptar las luminancias en las imágenes h Dr de manera gradual hacia él (se podrían enviar varios metadatos adicionales con respecto a la evolución temporal de los diversos vídeos). El lector experto entenderá que una vez que la situación de luminancias muy diferentes y definidas de manera diferente (y mucho menos códigos de luma) de las dos imágenes se ha convertido en luminancias similares relacionadas correspondientes (a combinar), también se puede comenzar a mezclar el contenido de manera más compleja, por ejemplo, mezcla alfa, o reemplazar parte de una cara con alguna estructura de cara generada por ordenador con luminancias coordinadas adecuadamente, etc. Por ejemplo, si las luminancias de la cara (por ejemplo, a cada lado de la cara iluminada de manera diferente) mapeadas al CombRng de la primera imagen son x e y, y de la segunda imagen x+e1 e y+e2, con desviaciones suficientemente pequeñas de e1 y e2, a continuación se pueden aplicar ecuaciones de mezcla como L_out_comb = alfa*L_im1_comb+(1-alfa)*L_Im2_comb, en la que L_im1_comb y L_Im2_comb son respectivamente las luminancias de píxeles de la primera y segunda imagen después de haber sido transformadas en color (con la función FF respectiva a usar) al CombRng, y alfa es un número real entre 0,0 y 1,0, y L_out_comb es la luminancia final para ese píxel mezclado en la imagen de salida Im_o, es decir, la imagen combinada que tiene CombRng como intervalo dinámico.
El lector puede entender que si un creador tiene el mayor control posible sobre las imágenes originales (en particular, puede incluso necesitar conocer los detalles del entorno de renderizado previsto), por supuesto, podría ajustar una imagen combinada con cualquier medio hasta que sea completamente satisfactoria según sus deseos. Pero las presentes realizaciones satisfacen las muchas situaciones en las que eso no es tan simple o posible, por ejemplo, porque no hay tiempo para hacer toda esa cantidad de ajustes manualmente, o algunas entradas o variables que definen el aspecto óptimo aún no son controlables, o ni siquiera se conocen. Algo siempre puede cambiar en la situación del manejo de imágenes, así que eso es lo que la tecnología de manejo HDR más avanzada debe atender. O al menos nuestras realizaciones permiten aplicaciones más versátiles, en las que en varios momentos se puede realizar un ajuste fino colorimétrico, por ejemplo, de acuerdo con nuevos deseos, y se puede retener parte de la información de aspecto de la imagen original. Eso es importante, que uno retenga algo de al menos los aspectos más importantes de las imágenes en cada etapa. Por supuesto, el usuario final podría decidir volver a colorear totalmente el vídeo, pero a continuación todos los esfuerzos del creador de contenido se han omitido y perdido, y eso de hecho no es útil para nadie (incluso si, por ejemplo, un fabricante de televisores quiere agregar algo de su propio gusto particular a la representación de imágenes, no necesariamente debe hacerlo ignorando todo lo que trata la imagen, en particular lo que el creador de contenido especificó sobre la imagen; pero por otro lado, el lado receptor no debe sentir que no tiene absolutamente nada que decir sobre la colorimetría de la imagen, incluso si claramente parece ser inapropiado para la situación).
El decodificador 251 es de nuevo similar a lo que aclaramos en la Figura 2, es decir, puede manejar gradaciones de imágenes (HDR, LDR) de acuerdo con nuestro procedimiento de codificación HDR explicado (extraer funciones de mapeo de luminancia, determinar nuevas imágenes recalificadas MDR a partir de las mismas, etc., de acuerdo con las diversas realizaciones posibles de imágenes globales o locales). Por supuesto, el lector entiende que esto es simplemente dilucidar una de las posibles realizaciones, y el aparato normalmente sería capaz de manejar (es decir, decodificar y combinar) todo tipo de vídeo o imágenes HDR o LDR, es decir, Im_HDR también podría definirse de acuerdo con la PQ EOTF, o el procedimiento BBC-HLG, etc. En este ejemplo, sin embargo, suponemos que a partir de alguna (segunda) fuente de imágenes 351 (por ejemplo, un canal de transmisión por satélite, o una conexión a un almacenamiento de vídeo a través de Internet, o incluso una cámara conectada, etc.), se obtiene la segunda de las dos imágenes a mezclar (por ejemplo, el programa principal, más importante (conductor) es una película HDR que se gradúa artísticamente con precisión en color), y por ejemplo, es una gradación PB HDR de 5000 nits cuyas imágenes se transforman con un EOTF PQ, y luego se codifican por DCT, y se codifican de acuerdo con algún perfil y nivel de HEVC. También se comunican metadatos que comprenden las funciones F2_L para degradar esta imagen HDR a una imagen LDR de 100 nits. El decodificador puede crear una imagen óptima para una pantalla conectada, por ejemplo, una imagen MDR de 2500 nits, Im2_MDR. Esta sería la calificación correcta en esta película que se está viendo por sí sola, sin combinación con ningún otro (primer) dato de imagen, ya sea espacial o temporalmente intercalado.
En la Figura 7 resumimos cómo, según una de nuestras realizaciones, se puede hacer dicha reclasificación de un primer aspecto de intervalo dinámico a un segundo. Supongamos que L_in están normalizadas [0.0-1.0] luminancias de entrada HDR, que corresponden a luminancias reales (que se renderizarán en una pantalla al renderizar la imagen HDR) de 0-5000 nit. L_out es una luminancia LDR, normalizada, pero correspondiente a un PB=100 nit (es decir, una luminancia SDR). La función 702 que asigna este HDR a esta imagen LDR es un ejemplo de un color F2_L en particular transformación de luminancia (se puede suponer para una comprensión simple que uno simplemente tiene una imagen en escala de grises, pero hemos demostrado que se puede aplicar la transformación de color requerida en colores RGB de esta manera también). Supongamos que queremos derivar la función de reclasificación óptima 703, que corresponde a la PB_MDR de una pantalla MDR de, por ejemplo, 3400 nit. La línea diagonal 701 sería el mapeo de luminancia requerido si quisiéramos mapear la imagen de entrada de 5000 nits en una imagen óptima para una pantalla de PB= 5000 nits, porque la imagen HDR ya está graduada de manera óptima para esa pantalla (es decir, está transformada simbólicamente por una transformada de identidad). Establecemos una dirección de derivación DIR, por ejemplo, vertical. La función escalada para una pantalla PB de 3400 nit, debe dar un valor F*(Ls) para cualquier luminancia de entrada Ls que esté entre F(Ls), es decir, cualquiera que sea la función de degradación óptimamente determinada F (F2_L) que se encuentre en ese punto de luminancia, y Ls. Podemos determinar que este punto es Ls+FI(PB_MDR, Ls)*(F(Ls) -Ls), siendo FI alguna función que da valores entre 0 y 1, y en escenarios más simples siendo solo función de PB_MDR, que también se puede escribir de manera multiplicativa como k(PB_MDR)*Ls. Qué función se utiliza exactamente depende de la filosofía de reclasificación de la realización utilizada, y el lector puede imaginar que puede haber varias realizaciones más o menos complejas dependiendo de si, por ejemplo, se tienen en cuenta las características específicas del entorno de visualización (o incluso las preferencias del espectador), pero los detalles de eso están más allá de lo que esta solicitud necesita como explicación, que ya es lo suficientemente compleja (el lector debe entender que se puede establecer alguna función de reclasificación, y aplicar a la imagen de entrada, para obtener la imagen reclasificada correctamente con las luminancias correctas de los objetos de imagen para una pantalla MDR).
Como se dijo, la primera imagen puede ser cualquier cosa, pero aclararemos los principios con un comercial de LDR, siendo los principios de nuestras realizaciones similares para otros contenidos. Este 2500 MDR puede no ser la clasificación apropiada (es decir, 2500 puede no ser el PB apropiado) cuando se mezcla con un anuncio de LDR de 100 nits, al menos debido a la enorme diferencia en el intervalo dinámico de las dos imágenes, pero también debido a la distribución posiblemente extrema de las luminancias de los objetos en el anuncio de LDR (es decir, 2500 nits pueden no ser el mejor valor de LMC para el CombRng, pero luego se puede elegir otro valor). Se debe entender el alto intervalo dinámico no solo como "alto", es decir, brillante, sino también en términos de "dinámico", es decir, donde en el eje de luminancia el creador ha asignado los diversos objetos y/o regiones semánticas en la(s) imagen(es). Contrariamente a los conceptos erróneos populares, mostrar una imagen simplemente con un alto brillo aún puede dar como resultado una apariencia bastante plana de LDR, e incluso una irritantemente brillante, por lo que se desea un control más estricto sobre todos o muchos valores de gris. Por ejemplo, el creador del anuncio puede haber hecho que el anuncio de LDR sea extra brillante y llamativo, para darle un alto impacto visual en pantallas LDR de 100 nits. Pero este impacto puede ser demasiado alto incluso en el intervalo dinámico de 2500 nits (y mucho menos en una pantalla PB_D de 5000 nits para un espectador que haya comprado dicha pantalla), por lo que, por ejemplo, CombRng teniendo en cuenta tanto la necesidad de mostrar lámparas muy brillantes en la película como la extremidad de la clasificación LDR, puede que para ese caso sea necesario que sea, por ejemplo, 1500 nits LMC. El aparato puede usar procedimientos tales como medir el contraste global de la imagen LDR, por ejemplo, contar cuán grande es la cantidad de píxeles por encima de k % = por ejemplo, 80 % de luminancia en la imagen LDR, cuán a menudo alta y extrema es la luminancia promedio, o cómo varía la cantidad de píxeles por encima de k %, etc., y a partir de ahí determinar una medida de extremidad, y a partir de ahí determinar, por ejemplo, cuán brillantes pueden llegar a ser las partes más brillantes de este comercial LDR cuando se mapea al CombRng, y, por ejemplo, determinar qué LMC debe ser (por ejemplo, el píxel más brillante de los píxeles LDR puede convertirse en 300 nit, dependiendo de la no linealidad que se use, o dependiendo de la cantidad de brillo que se necesite para colocar las luminancias de la cara, y los píxeles Lambertianos más brillantes de la película HDR (es decir, identificados en el intervalo inferior de esa película, por ejemplo, como 5x el gris medio codificado de esa región principal para la película HDR) pueden, por ejemplo, convertirse en k veces más o menos, es decir, 200 o 450, y el brillo de las lámparas pueden llegar a ser 5 veces 300 nits, dando un LMC=1500 nits).
El lector experto entiende que hay varias maneras de llegar al CombRng (o anc), por ejemplo, se puede determinar principalmente por la película HDR, y luego una determinación de cómo coordinar la imagen LDR con la película HDR asignada a ese CombRng (como se enseñó en los primeros ejemplos descritos anteriormente), o como se ejemplifica aquí, se puede determinar principalmente o en gran medida por las características de la imagen LDR, mientras se protege la calidad suficiente de las imágenes HDR al determinar hasta qué punto los objetos HDR más brillantes pueden extenderse por encima de los colores más brillantes o promedio en la imagen LDR, o iterativamente hasta que se encuentre un óptimo razonable para los dos, etc. Todo eso depende de las necesidades de la situación particular y del comportamiento de la realización del aparato de combinación particular. Cuál de las dos imágenes tiene la mayor importancia se puede preestablecer de varias maneras, por ejemplo, el espectador puede en algunas realizaciones con su control remoto indicar que quiere una perturbación mínima de su película por cualquier imagen que se combine, o los creadores de contenido pueden dar indicaciones sobre su contenido, que el aparato de combinación finalmente decide, etc.
Volviendo a la Figura 3, una primera fuente de imágenes 350 proporciona la(s) primera(s) imagen(es), que suponemos que es una imagen LDR Im1_LDR, es decir, codificada de manera estándar, por ejemplo, de acuerdo con Rec. 709 (por supuesto, puede haber un conjunto decodificador, que no se muestra para esto). Es posible que, en caso de que sea un vídeo reciente, se haya anotado con sus propias funciones F1_L para convertirlo a HDR, o que no se haya anotado, en caso de que sea un vídeo SDR antiguo. Es decir, puede tener funciones F1_L asociadas en sus metadatos, lo que permite la conversión artísticamente óptima a otros intervalos dinámicos distintos de su DR nativo de 100 nits. En caso de que falten funciones, el aparato de combinación siempre puede aplicar funciones y estimaciones que funcionen razonablemente bien en promedio. De nuevo, la fuente de imágenes 350 puede ser varias fuentes, por ejemplo, una cámara de seguridad en la puerta principal de la casa del espectador puede reproducir una imagen cuando alguien toca el timbre, etc.
Como se explicó, de acuerdo con uno de los diversos algoritmos posibles, un conjunto de establecimiento de intervalo dinámico (302) analiza la situación, por ejemplo, las características de luminancia de la primera y segunda imágenes, y establece un intervalo dinámico de luminancia de combinación adecuado (CombRng), en el ejemplo anterior con LmiC =0 nit, y LMC= 1500 nit. Un conjunto de determinación de anclaje de luminancia (303) determinará una luminancia de anclaje (ANC). Por ejemplo, lee de la primera fuente de imagen en los metadatos asociados con la primera imagen una luminancia de anclaje de fuente (L_SA1) del tipo "luminancia de cara", siendo este valor, por ejemplo, 45 nit. Sabiendo que para al menos una de las caras de las imágenes parece ser importante, a continuación debe establecer cuál sería un buen color de cara y en el CombRng (por supuesto, otras realizaciones pueden decidir primero un anc, incluso sin mirar qué luminancias de anclaje de fuente donde se especifica, o cuando se ve que la luminancia de anclaje fue, por ejemplo, un gris promedio en una subregión exterior brillante, puede determinar para el CombRng un gris promedio general y una posición d_anc en la que posicionar luminancias exteriores brillantes en comparación con una representación neutra general de colores en el CombRng. Dependiendo de la complejidad de la realización, una realización típica puede querer verificar cuál es el valor de una segunda luminancia de anclaje de fuente L_S2A1 del color de cara de tipo que indica cómo están actualmente los colores de cara en esta toma de la película. En un eje de luminancia normalizado, por supuesto, este será un valor más bajo, porque el intervalo superior se utiliza para efectos HDR como objetos o regiones iluminados, o lámparas. Aun así, si un valor razonable en un intervalo de objetos difusos de hasta, por ejemplo, 400 nit sería 180 nit, y encontramos un valor de solo 30 nit, sabemos que tenemos una cara oscura por naturaleza o una cara poco iluminada, o ambas cosas. En cualquier caso, incluso si esa cara se viera más oscura que la del comercial, será mucho más oscura si decidimos colocar nuestro valor anc en, por ejemplo, 180*1500/2500. Por lo tanto, es posible que deseemos calcular un valor de anc que esté algo más cerca de los 30 nits, colocar la luminancia de la cara LDR en o alrededor de ese valor de nits, por ejemplo, 0,8* 180* 1500/2500, y tener los colores de la cara HDR mapeados más cerca de ese valor de anc también, por ejemplo, 0,3*180*1500/2500. Esto garantiza que tengamos rostros adecuadamente atenuados para la imagen lDr , y rostros apropiadamente oscuros, como deberían ser según la historia, para la película HDR, y ambos coordinados según el valor óptimo de anc. Por supuesto, lo mismo se puede hacer teniendo en cuenta otras luminancias de anclaje o luminancias adicionales, tales como, por ejemplo, un gris medio para una región específicamente iluminada por HDR.
Habiendo establecido un CombRng con una luminancia de anclaje anc, lo único que queda por hacer genéricamente es mapear de manera óptima las dos imágenes en ese intervalo dinámico de acuerdo con un valor de luminancia específico que se determina porque debe caer en o alrededor del valor anc. Una forma de hacerlo es con una asignación lineal de las luminancias, con un valor de contraste C determinado de manera óptima, que es la pendiente de la línea de la función de mapeo de luminancia, y luego asignar luminancias calculando la ecuación lineal hasta que se produzca el recorte (y la cantidad de recorte se puede controlar junto con el valor C; tenga en cuenta que se puede recortar a algún valor dentro del CombRng, es decir, por debajo del valor máximo LMC). El mapeo descendente al CombRng en este ejemplo también se puede hacer teniendo en cuenta la misma matemática que utiliza el decodificador 251, a saber, utilizando al menos un mapeo de luminancia (F2_L) con una forma que codifica el comportamiento necesario para las partes más brillantes y más oscuras de la imagen, según lo determinado típicamente por un graduador humano. Por ejemplo, una vez que se conoce el CombRng, se podrían tener los píxeles correspondientes a la segunda imagen mapeados por el decodificador 251 inmediatamente a partir de la imagen HDR de 5000 nits Im2_HDR. El conjunto de transformación de color (310) está dispuesto para realizar todas las transformaciones de color de píxeles necesarias, en particular al menos los ajustes de luminancia apropiados, de modo que el conjunto de combinación (320) puede aplicar algoritmos simples (por ejemplo, ser una simple conjunto de ponderación aditiva o reemplazo o conmutación de píxeles, porque toda la optimización colorimétrica ya se ha realizado). Un conjunto de lectura de luminancia de anclaje de fuente (311) leerá al menos una luminancia de anclaje de fuente asociada con una de las dos imágenes, por ejemplo, una luminancia de cara de la imagen LDR, o un buen valor promedio para los negros en la escena de imagen, etc. Como se muestra anteriormente, en algunas realizaciones también puede leer una serie de luminancias de anclaje de fuente, que son características de regiones de luminancia especiales en las imágenes (por ejemplo, un valor de gris especial, o un valor de gris asociado con un objeto semánticamente importante común, tal como una luminancia promedio de cielo brillante u oscuro, etc.), de ambas o, en general, de todas las imágenes. Dado que en algunos escenarios menos simples no se desea mapear las luminancias de las dos imágenes en función de la equiparación de solo una luminancia de anclaje similar (anclada a anc), sino que se desea posicionar de manera inteligente la luminancia de salida en comparación con anc, un conjunto de determinación de desviación (312) está dispuesto para determinar un desplazamiento de luminancia apropiado (d anc). Como se ejemplifica, esto puede ser, por ejemplo, porque el anuncio contiene una cara muy iluminada y contrastada, y la película de terror comprende una cara oscura fangosa, y, por ejemplo, si se determina que la anc está cerca de la luminancia de la cara oscura de la película, a continuación se quiere un desplazamiento positivo suficientemente grande d_anc para dónde mapear los colores de la cara de la cara comercial de LDR. Las imágenes mapeadas de luminancia correctamente intermedias Im2_HM e Im1_LM irán a continuación al conjunto de combinación (320), que puede ser a continuación, por ejemplo, tan simple como un conmutador de píxeles, que dependiendo de la posición (x,y) del píxel pone el color HDR mapeado (es decir, Im2_HM) en la imagen de salida Im_o, o el color LDR Im1_LM, ya sea como RGB lineal, o recalculado en un Y'CbCr, etc.
La Figura 4 aclara todo más para el ejemplo elegido, mostrando los mapeos en los intervalos dinámicos de luminancia. Im1_Rng es el intervalo dinámico LDR 0-100 nits de la primera imagen LDR, es decir, que tiene luminancias codificadas que deben estar entre la luminancia mínima Lmi_L= 0 nits y la luminancia máxima LM_L= 100 nits. Im2_Rng es, por ejemplo, el intervalo dinámico de la imagen HDR con LMH=5000 nits (o podría ser la imagen MDR optimizada para la visualización, en cuyo caso LMH sería de 2500 nits en el ejemplo anterior). De esto ya se puede ver que no hay necesidad de que el CombRng sea de ninguna manera el mismo o cercano ni al Im2_Rng ni al intervalo de la pantalla Di_Rng. Este intervalo de visualización se muestra para comparación, pero en algunas realizaciones ni siquiera se puede usar en la combinación, sino que en su lugar Im_o irá a un conjunto de transformación de color de sintonización de visualización para mapear la imagen de salida combinada Im_o definida hasta, por ejemplo, 3000 nits en un intervalo dinámico de visualización de, por ejemplo, 1400 nits, o cualesquiera que sean los valores (el experto entiende que puede haber escenarios donde LMC es mayor que LM_MDR, por ejemplo, si la combinación se realizó en otro aparato, por ejemplo, en una cabecera de cable, y un usuario particular tiene una pantalla HDR con PB limitado, por ejemplo, 950 nits; o, en caso de que la mezcla ocurra toda en la ubicación del espectador, y el espectador tiene una pantalla con PB alta, por ejemplo, 7000 nits, pero actualmente recibe contenido de un programa HDR como un programa de noticias con Pb = 1200 nits, o menos, y una imagen LDR, a continuación se puede determinar que LMC es mucho menor que LM_MDR=7000 nits). Las funciones de sintonización pueden ser, por ejemplo, las del contenido de la película HDR (es decir, F2_L), ya que el anuncio LDR ya habrá sido suficientemente armonizado con él. Por supuesto, las realizaciones más complejas pueden optimizar directamente ambas imágenes al intervalo dinámico de visualización. El lector comprenderá que hay situaciones en las que el CombRng ni siquiera puede ser, por ejemplo, el intervalo dinámico de la pantalla, por ejemplo, en un sitio de producción o transmisión de vídeo, donde aún no se conocen los detalles específicos del televisor del espectador. Esa es una de las complejidades que ha creado el mercado de HDR, y que deberá ser atendida. En la era LDR, todos los televisores eran aproximadamente iguales (con PB de alrededor de 100 nits), por lo que el manejo de vídeo era simple, pero ahora algunos espectadores pueden tener un televisor HDR de 1000 nits, otros un televisor HDR de 7000 nits, otros un televisor SDR de 100 nits heredado, mientras que a otros les gusta ver las imágenes en su I-pad o teléfono móvil, con un PB de, por ejemplo, 500 nits (que aún no comienza a divulgar todos los detalles del contenido de las diversas imágenes). Debe entenderse que solo por su gran varianza, esos intervalos dinámicos de visualización no siempre pueden ser trivialmente el CombRng más apropiado para combinar las dos imágenes y representar ambas de manera óptima. Pero también, especialmente si tenemos que renderizar en última instancia en, por ejemplo, un televisor o monitor de 1000 nits, ¿sería lo más óptimo si tuviéramos que actualizar y combinar un LDR hasta 5000 nits de intervalo dinámico HDR de imagen 2, si posteriormente tenemos que reducir significativamente de nuevo, y arriesgarnos, especialmente cuando usamos las funciones F2_L, ¿a perder una parte importante de los colores LDR más brillantes?
Explicamos eso un poco más con la Figura 5, que utiliza un ejemplo de PIP 501 (pero ocurren problemas similares, por ejemplo, con el enmascaramiento y la adaptación temporal, etc.) en una región principal 500 de una película HDR.
Los combinadores LDR clásicos pueden hacer su combinación en Y'CbCr (es decir, luma 2 coordenadas de crominancia), R'G'B' no lineal, RGB lineal o, en principio, cualquier espacio de color (aunque eso puede ser menos típico para sistemas que necesitan trabajar en velocidad de vídeo, pero también quieren ahorrar en recursos de cálculo). Supongamos que tenemos una imagen en valor de grises.
En caso de que uno cambie de manera simplista por píxel los códigos de luma Y' de los píxeles, eso conduciría a resultados muy malos, porque se determinan de manera muy diferente para las imágenes HDR y LDR (básicamente se convierte en un problema importante de malentendido del aparato de manejo). Por ejemplo, todo lo que se ve a través de la ventana 510 en el PIP de LDR (digamos que es un comentario del director) puede haber sido recortado al código máximo de luma, Y'=255, o 1,0 normalizado, porque es demasiado brillante para LDR y no es interesante en ese único vídeo de todos modos. Al renderizar la imagen combinada Im_o en una codificación de luma, donde algunos de los lumas de píxeles normalizados de la película HDR original (por ejemplo, una escena de noche oscura) los píxeles han sido reemplazados por los lumas normalizados de la imagen LDR, decodificándola con, por ejemplo, PQ HDR EOTF, el PIP se verá excesivamente brillante (los colores de la ventana se renderizarían como, por ejemplo, PB_D=4000 nit, donde, alternativamente, en principio, se podrían haber armonizado bien los colores del objeto exterior, o al menos colores recortados menos irritantemente brillantes). Esto conducirá a una sobreirradiación 502, también llamada hemorragia o propagación de la luz. Si esto no se debe a la física de la pantalla (por ejemplo, baja cantidad de LED de retroiluminación, interreflexiones en la placa frontal de la pantalla), a menudo el deslumbramiento en el ojo humano también puede hacer que las regiones muy brillantes en una pantalla HDR sean difíciles de ver sin usar la mano para bloquear el área brillante. En resumen, al espectador no le gusta, y prefiere lo contrario, si la tecnología lo hiciera posible. Al menos, debe quedar claro que esas luminancias del PIP de LDR y las regiones oscuras de la escena nocturna en la película HDR no están bien armonizadas. Pero también puede suceder lo contrario. Si el PIP está al lado de un sol en la película HDR, u otra parte muy brillante, podría ser demasiado tenue. Lo que también puede ser feo es, por ejemplo, que los colores que claramente se supone que son blancos, se vean demasiado grisáceos. Si, como se muestra a la derecha, disminuimos la luminancia de la cara PIP acercándola a la luminancia de la cara HDR oscura, por el hecho de que las luminancias de los otros objetos en la imagen LDR están relacionadas con el color de la cara (en relación de contraste), también se atenuarán más adecuadamente. Por lo tanto, todos los colores deben verse relativamente bien coordinados.
Uno puede pensar ingenuamente que todos los problemas se pueden resolver asignando el subintervalo LDR adecuado a la imagen PIP (es decir, el subintervalo de luminancias de 0-100 nits, ya que caería en el HDR CombRng, cualquiera que sea), lo que corresponde a decodificarlo correctamente con el Rec 709 maximizado a un PB LDR de 100 nits, en lugar del PB de pantalla (relativo) de, por ejemplo, 3000 nits, y luego hacer que esos píxeles LDR tengan luminancias de hasta un máximo de 100 nits en el intervalo dinámico de la pantalla (suponiendo que el CombRng se toma como igual al DR de la pantalla disponible). Pero como se ha dicho, aunque en algunas situaciones puede ser una buena opción, eso hace que la decisión dependa de lo que realmente es el intervalo dinámico de visualización (visto relativamente, se convierte en una relación aleatoria). Para una escena iluminada por el sol muy brillante, podría suceder que junto al PIP LDR máximo de 100 nits, en una pantalla de 3000 nits haya objetos adyacentes con, por ejemplo, una luminancia de 1500 nits. Esto hace que el PIP sea bastante decepcionantemente oscuro, y sus colores se verán fangosos en lugar de vividos, que no es lo que esperaría la persona que pagó por el comercial. Lo mismo podría suceder cuando se combina en el intervalo dinámico de la imagen HDR (Im2_Rng). Por lo tanto, se entenderá que la mezcla adecuada no es algo trivial, es decir, se necesita un buen marco como en la presente invención. Además, al tener dos imágenes HDR, incluso si las EOTF no fueran tan diferentes, uno todavía no estaría seguro de cómo el creador de contenido usó ese intervalo disponible, es decir, diseñó colorimétricamente su sistema total (reglas de producción de contenido, etc.). Incluso si el P<b>de las dos codificaciones no difiriera demasiado, por ejemplo, 5000 vs.
4000 nit, el creador aún podría haber tomado decisiones significativamente diferentes (por buenas razones, por ejemplo, para hacer que su historia particular con escenas HDR bien diseñadas se vea espectacular, frente a otro creador que hace que un programa de noticias sea fácilmente convertible a otros intervalos dinámicos, por ejemplo, para ver en pantallas portátiles, aunque las imágenes aún deberían tener algo de HDR) sobre, por ejemplo, el intervalo inferior en el que caen los objetos reflectantes de Lambertian, por ejemplo, una escena en interiores. El primer creador puede haber definido los de hasta 300 nits (en el sistema de 4000 nits), mientras que el creador de la segunda imagen puede haber decidido por su escena, por ejemplo, el interior es una estación espacial, que sube a 900 nits (en el sistema de 5000 nits). A veces puede ser tan simple como si te gustan las estaciones espaciales brillantes o inquietantemente oscuras. Incluso si siguieran reglas muy estrictas con respecto a la iluminación o al menos a la representación de las luminancias de las caras, por ejemplo, el 50 % del blanco difusivo (es decir, los 300 o 900 nits), sin las caras de armonización adecuadas en la combinación podrían verse considerablemente, incluso extrañamente, diferentes, posiblemente incluso brillantes. Y lo mismo podría suceder con los muchos otros objetos colorimétricamente críticos que pueden contener las imágenes HDR, por ejemplo, si una piscina parece algo brillante e iluminada desde dentro, o simplemente agua embotada, o cuán oscura debería ser una escena nocturna, o cuán brumoso es un día, o alguien puede incluso preocuparse por las luminancias en un cartel iluminado en la parte delantera de una máquina expendedora de bebidas, especialmente si eso se relaciona con otros objetos en la escena, y la historia y el estado de ánimo comunicados, etc.
La Figura 6 ilustra dos posibles ejemplos de la transformación de color al CombRng. Tenemos como imagen de entrada una de las imágenes a combinar, con luminancias de entrada relativas L_in. Como se explicó, el aparato necesita determinar una función de transformación de color (FF_1), que asigna una luminancia de salida L_out_comb en el CombRng a todas las luminancias de entrada posibles. Con esta función, por ejemplo, cargada en una LUT, se puede comenzar a procesar los colores de píxeles entrantes para las imágenes sucesivas. Una primera determinación lineal simple produce la función lineal 601, determinada por los dos parámetros anc_Fc para la luminancia del color de la cara L_SA1Fc en la imagen de entrada, y la constante de contraste multiplicativa C. Esta función puede recortar en el blanco o negro, lo que puede o no ser deseable (de nuevo, dependiendo de cuán simple lo desee la parte decisora, ya sea en última instancia el creador del contenido o el fabricante del aparato). En realizaciones más complejas, podemos mejorar eso. La función de mapeo de luminancia 602 muestra cómo podemos configurar bien los mapeos deseados en función de solo un par de luminancias de anclaje importantes. Eso, en general, aunque no sería mucho más difícil de usar, produciría resultados mucho mejores. Tal vez esta imagen LDR comercial tenía demasiados píxeles brillantes, por ejemplo, en el fondo. Al aplicar reglas de composición fotográfica particulares, se puede optar por fotografiar a la persona principal sobre un fondo más oscuro o más claro, por ejemplo, un fondo gris promedio, o un fondo muy claro o blanco, o potencialmente incluso un fondo oscuro. A menudo, en un vídeo que dependerá de cuál sea el fondo real (por ejemplo, si el vídeo es un reportaje sobre un fotógrafo de moda que va a fotografiar a su modelo contra un fondo blanco, el vídeo lo mostrará hablando delante de las paredes blancas o el fondo que se fotografiará). En los estudios, el fondo puede haber sido diseñado. En un anuncio meteorológico, el meteorólogo puede estar de pie frente a una representación (normalmente virtual, por pantalla verde) de una foto que ha sido enviada por un espectador, un no profesional. O en una película, alguien puede estar sentado frente a una pantalla publicitaria brillante, por ejemplo, una pantalla LED, por alguna razón, etc. Este es otro ejemplo de la necesidad de coordinar, en algún lugar, porque en el pasado se mostraba una foto LDR bien coordinada en un programa meteorológico LDR, pero pronto los espectadores pueden enviar fotos HDR para programas que todavía se producen de manera LDR, o dentro de un par de años alguien puede enviar una foto LDR de muy baja calidad para que se muestre, por lo tanto, mezclada en un programa HDR. En cualquier caso, para la curva 602 supusimos que habría muchos píxeles demasiado brillantes en la imagen LDR para ser PIP-ed. Es posible que no solo necesitemos reducir los valores de salida de la función 602 para algunos blancos, sino también, por ejemplo, comenzar a hacer clips suaves para las luminancias de entrada más brillantes. Entonces, la curva 601 produciría resultados que son demasiado brillantes. El aparato (301) ha hecho esto leyendo tres tipos de luminancia de anclaje de fuente en la imagen de entrada y asignándolos a las luminancias de anclaje respectivas en la imagen de salida de CombRng. A saber, el creador de contenido también ha especificado un buen nivel de referencia para el blanco difusivo, es decir, qué luminancias en su imagen corresponden a objetos reflectantes Lambertianos que son blancos (es decir, con una reflectividad de, por ejemplo, el 90 %) y que están iluminados de manera promedio. El aparato asignará para esta imagen LDR una luminancia anc_DW para los blancos difusivos de la imagen LDR en el CombRng, que es explícitamente inferior a lo que produciría la curva de transformación de luminancia lineal 601. Por lo tanto, el aparato de combinación ahora puede decidir inteligentemente cómo transformar por luminancia dichos píxeles de imagen brillantes, dado lo que haya determinado como necesidades particulares para esos píxeles más brillantes en la imagen de combinación. Se puede especificar un comportamiento apropiado similar en el extremo oscuro, por ejemplo, en este caso para evitar el recorte, especificando a priori en el contenido una luminancia de anclaje negro L_SA1RBk, y determinando en el momento de la combinación una luminancia de anclaje negro adecuada anc_RBk. El aparato puede a continuación, por ejemplo, decidir continuar la función linealmente al negro absoluto (es decir, 0,0) desde este punto anc_RBk, y hacer que ascienda con una pendiente muy pequeña por encima de anc_DW. O puede optimizar los negros para una situación de renderización específica, con el conocimiento de la luminancia de anclaje negro de la fuente L_SA1RBk.
Aclaramos un par de posibles ejemplos más complejos con la Figura 8, a saber, cómo algunos de nuestros aparatos y realizaciones de procedimiento no solo pueden diseñar funciones de múltiples segmentos en función de varias luminancias de anclaje, sino que también determinan la forma de partes de la curva de transformación de luminancia (FF) en función del comportamiento de reclasificación como se especifica en las funciones de transformaciones de color (F2_L y, si están disponibles, F1_L) según se comunican conjuntamente con la imagen desde el lado de creación en metadatos.
Podemos suponer que la función (FF) que determina entre las tres luminancias de anclaje ocurre de nuevo como antes (por interpolación lineal o no lineal), pero que el aparato va a determinar el comportamiento de transformación de luminancia de la función de transformación de luminancia avanzada 810 en la Figura 8B en función del conocimiento obtenido sobre la gradación por el creador de contenido a partir de los metadatos recibidos (F2_L). F2_L es ahora la transformación de luminancia (para la segunda imagen, pero lo mismo puede entenderse para todas las demás imágenes que se combinarán en la imagen de salida de combinación) de la segunda imagen, desde su intervalo dinámico nativo (DR1) a otro intervalo dinámico preespecificado (DR2), es decir, las luminancias de entrada L_DR1_im2 están relacionadas con las luminancias de salida L_DR2_im2, que es otro aspecto de intervalo dinámico para esa misma escena HDR fotografiada). Podemos ver en el gráfico que hay una parte principal (entre anc_DW y anc_RBk), que está bien representada (se representará) con luminancias suficientemente brillantes y contrastantes (para la situación de combinación), pero que los negros (por debajo de L_SA1RBk) se pueden descartar fácilmente al menos para algunos aspectos correspondientes a algunos intervalos dinámicos, porque la función cae rápidamente a cero, y clips. Es decir, en este ejemplo no habrá objetos muy importantes en este subintervalo de las luminancias más oscuras. El aparato puede usar esto para determinar su función apropiada 810, por ejemplo, eliminando rápidamente la función para estos negros oscuros, y puede decidir esto en función de la oscuridad o el contraste que desea que sea la combinación, o al menos la segunda parte de la imagen en esa imagen de combinación (por ejemplo, en función de la cantidad de píxeles con luminancia por debajo de L_SA1RBk que hay en esa segunda imagen, o después de la combinación apropiada, por ejemplo, escalado, en la imagen de salida Im_o, etc.). Es decir, el aparato de combinación analiza el comportamiento de reclasificación de la codificación de dos imágenes clasificadas recibidas (es decir, cómo se manejan las luminancias de píxeles más oscuras cuando se reclasifica de una imagen clasificada PB_C maestra, por ejemplo, de 5000 nits, a una clasificación de SDR de 100 nits, en esa parte de la forma de la función de mapeo de luminancia recibida), y determina una forma parcial que es similar en cierto grado.
También hemos ilustrado una posibilidad para los píxeles más brillantes. La discontinuidad en la curva F2_E indica que claramente hay dos regiones, por ejemplo, los objetos Lambertianos en la escena interior y los colores brillantes que representan lámparas (o situaciones similares). Especialmente si tenemos lámparas, eso significa que podemos asignar más libremente sus luminancias finales, dependiendo, entre otras cosas, del intervalo dinámico que tengamos disponible en la pantalla MDR y/o el CombRng. Por lo tanto, el aparato puede determinar un nivel promedio apropiado L_RefB para esas luminancias de píxeles y finalizar la forma de curva 810 como tal. La Figura 8<a>muestra cómo la función de mapeo de luminancia recibida F2_L para mapear entre las gradaciones HDR y SDR maestras como se ve recibida, con la forma y el comportamiento de la función parcial brillante (802) y parcial oscura (801) correspondientes.
El lector experto entiende que las diversas realizaciones de la presente serán aplicables en muchos sistemas y a muchos escenarios de combinación, y con los diversos componentes en diversas combinaciones, pero aclaramos algunas posibilidades adicionales ejemplares con dos Figuras.
La Figura 9 muestra un ejemplo de un sistema de producción de televisión. Esta puede ser una producción de estudio multicámara (primera cámara 901 y segunda cámara 902), y parte del contenido en vivo puede venir de la ubicación, etc. También puede ser una producción de campo, con una furgoneta OB, etc. El director técnico debe mezclar las transmisiones de la cámara y otros vídeos, algunos de los cuales pueden ser HDR y algunos LDR, por ejemplo, y los vídeos HDR pueden, por supuesto, contrastar con los vídeos LDR que son de un solo tipo (el estándar único universal Rec. 709 que existía), o pueden ser de varios tipos y características. Quiere determinar la combinación óptima, en un aparato de determinación de combinación 903, que puede residir en una sala de control de producción. Aunque determina una combinación, mostramos en este ejemplo que esta combinación no necesariamente debe dar como resultado una Im_o definida de manera fija (más bien, el director técnico solo necesita determinar una combinación adecuada, pero los detalles de esa combinación pueden comunicarse de varias maneras a varios sitios receptores más adelante en la tubería de comunicación de vídeo, con los receptores incluso pueden querer volver a determinar la combinación en una diferente, por ejemplo, ligeramente diferente de la preferida por el director técnico; es decir, la combinación puede comunicarse como imagen y función aproximadas y otros metadatos, antes de la combinación). En ese caso, se puede comunicar una señal de imagen 910 con metadatos, que comprende las dos imágenes (por ejemplo, con funciones de escala para determinar la combinación PIP decidida), y con las transformaciones de color CombRng, anc y posiblemente también FF_1 y FF_2 determinadas para mapear las imágenes al CombRng, de modo que cualquier receptor (por ejemplo, un receptor de transmisión 904, en algún nodo intermedio, tal como, por ejemplo, en una sala de control de transmisión) pueda aplicar realmente la combinación final. Para permitir la posible redeterminación (de al menos uno de CombRng, anc, FF_1 o FF_2), el lado de producción también puede transmitir metadatos adicionales en el vídeo, por ejemplo, si contiene muchas escenas brillantes, que necesitan un brillo adicional de 3x por encima del brillo promedio de la película (es decir, así es como desean que este contenido se mapee por luminancia en el CombRng final), detalles con respecto a las luminancias de objetos o regiones, o información semántica, como, por ejemplo, el intervalo de luminancia y/o la ubicación del cielo, etc.
La Figura 10 muestra otra posible realización, a saber, un aparato de combinación intermedio (1001). Esto puede ser, por ejemplo, en una sala de control de transmisión de un proveedor por cable o similar. Puede obtener la(s) imagen(es) de la producción principal (como se crea en la Figura 9 y se comunica(n) como imágenes finales o imágenes iniciales con metadatos suficientes para combinarlas adecuadamente según el director), es decir, Im_Prod y, por ejemplo, un feed comercial local ImLocComm. El aparato de combinación intermedio (1001) también puede realizar potencialmente una transformación de intervalo dinámico, por ejemplo, para convertir un Im_Prod de 5000 nits en imágenes de salida codificadas con PB=3000 nits, que pueden ser más adecuadas para el propósito, por ejemplo, la distribución adicional sobre algún sistema de comunicación de vídeo preestablecido. Esto último es, por supuesto, más interesante si el aparato 1001 emite dos flujos de imágenes separados para mezclarse más tarde, pero en este ejemplo, donde asumimos que se genera un flujo de imágenes adecuado final (solo para ser sintonizado por los receptores finales), que normalmente ya tendrá un LMC diferente de 5000 nit.
El lector también puede entender cómo de similarmente un sistema del lado del consumidor puede combinar imágenes o vídeos HDR, por ejemplo, una película junto con imágenes recibidas a través de un ordenador, y combinadas en un IC de un decodificador, ordenador personal, etc., o cómo se puede usar el mismo en salas de videoconferencia, etc. La imagen de la Figura 3 puede ir a un televisor, una de las imágenes puede recibirse en un disco Blu-Ray a través de un reproductor BD, etc.
Las Figuras 11y12 ofrecen un par de posibilidades para determinar el CombRng. El eje de luminancia se ha dado en conjuntos Log _base2, porque esto da una mejor correlación con la luminosidad visual humana y las impresiones de brillo de las imágenes si se renderizan. Los algoritmos para determinar las diversas luminancias de píxeles también pueden formularse ventajosamente en dicha representación logarítmica, en realidad algunas de nuestras realizaciones de codificación de vídeo preferidas también funcionan en dichas representaciones de luminancia perceptualmente uniformadas. En estas realizaciones, el aparato ya ha determinado un buen valor para anc_FC. Por ejemplo, el aparato supone que el valor LDR de aproximadamente 30 nits será un buen valor, también para representaciones<h>D<r>. El aparato analizará ahora la situación de distribución de luminancia de las dos imágenes, combinada con los detalles de la combinación, para llegar a buenas opciones para LMC y LmiC. El aparato tendrá reglas para esto, que pueden seleccionarse y variarse, por ejemplo, mediante la configuración de control del espectador. Los dos primeros ejemplos son donde una imagen de intervalo dinámico más alto (I m2, mostrada con la línea más gruesa) es la imagen principal, y una imagen de intervalo dinámico más bajo (no necesariamente SDR) Im1 es un PIP, por ejemplo, ocupando U del área (que es uno de los parámetros de control que puede indicar el dominio visual de objetos o regiones del Im1 en comparación con los objetos en la escena de Im2. En estos ejemplos, el aparato querrá que domine el aspecto del HDR Im2, por lo que determinará el CombRng y la colocación de Im2 en él primero, y como guía, y luego colocará Im1 de manera armonizada en él. En estas realizaciones, los colores de cara ya se han asignado al color de cara final óptimo anc_FC, por lo que la pregunta restante es sobre la asignación del resto de las luminancias. Esto estará influenciado tanto por las extremidades de CombRng como por las funciones de transformación de color que surgen de las mismas para ajustar de manera coordinada la luminancia en las otras luminancias, y la variabilidad permitida para cambiar la forma de esas funciones según lo requiera el impacto del brillo. En la Figura 11A, el HDR I m2 tiene un histograma que ya se ajusta bien a una escena típica con una cara cuando se representa alrededor de anc_FC, es decir, la cara en Im2 normalmente está iluminada. Vemos desde la larga cola hasta los negros que hay áreas oscuras en la escena, por ejemplo, esta puede ser una habitación sin luz en algún lugar detrás del actor. Podría ser que algunos de los colores de los píxeles no fueran visibles en algunas representaciones porque son indiscriminadamente oscuros, pero al menos están codificados y calculados por el aparato, de modo que cualquier aparato de representación final (por ejemplo, un televisor que sintoniza su intervalo MDR y el procesamiento de brillo específico del proveedor de las regiones más oscuras) puede usar estos datos de manera apropiada. Vemos además que hay un modo de luminancia brillante HiLaIm2, que puede corresponder, por ejemplo, a una lámpara, en la que nos gustaría ver alguna estructura idealmente (por ejemplo, cómo se refleja la lámpara en su luminaria de metal). La imagen a ser PIP-ed, Im1, tiene una característica con un pico de alto conteo de píxeles HiModIm1 cerca del blanco (las luminancias más brillantes en ese código). Esto puede deberse a que la persona (que también tiene un área razonablemente grande, como se puede ver en el modo cerca de anc_FC, donde un color de cara típico debería estar en imágenes típicamente iluminadas) está de pie frente a una pantalla grande y brillante, por ejemplo, una caja de luz, que está cerca del blanco o incluso recortada al máximo de blanco potencialmente. Este pico tiene una gran probabilidad de ser demasiado brillante e inquietante en la combinación. Sin embargo, en este primer ejemplo, debido a que los colores de la cara están en ambas imágenes en posiciones normales, y ya hay una cantidad razonablemente grande de colores más brillantes en la imagen HDR (tanto el modo de objetos iluminados de forma difusa, por ejemplo, debajo del conjunto principal de lámparas, como algunos resaltados HLaIm2 que son 100 veces más brillantes que la cara), se puede poner el HiModIm1 en su posición normal (es decir, el mismo número de paradas por encima del anclaje en el CombRng que se codifica en el Im1 cuando se decodifica en una representación de luminancia lineal, que también es en este ejemplo un valor decodificado normal de alrededor de 100 nit porque la luminancia de la cara está en su posición LDR normal), porque habrá una luminancia normal que también se podría ver en Im2, es decir, no será demasiado inarmónica. Esto también significa que los reflejos de Im2 se pueden mantener en sus posiciones normales (porque no se necesita volver a emparejar o volver a coordinar, ya que todos los colores emparejados encajan en el perfil de distribución de luminancia de la imagen HDR actual, que tiene sus reflejos donde están para esta imagen), es decir, el aparato puede seleccionar LMC para que sea el límite superior del modo de luminancia HiLaIm2, o el brillo máximo del intervalo HDR Im2 en caso de que no tenga luminancias de hasta PB. Eso no es necesariamente así, pero puede ser una opción razonable si no se conocen más detalles, por ejemplo, con respecto al uso típico más adelante en la línea de la cadena de manejo de imágenes HDR). En la Figura 11B tenemos una situación similar (la misma Im1 es PIP-ed), pero ahora la Im2 tiene un histograma diferente (por ejemplo, una toma posterior de la película). Aquí las caras deben representarse (es decir, si se representaron por sí solas sin ninguna combinación con otro contenido de imagen) relativamente oscuras, por ejemplo, a 4 nit. Podría ser, por ejemplo, que una persona esté de pie en las sombras. En este ejemplo, el aparato no quiere hacer que las caras en el PIP sean tan oscuras, pero aun así quiere una oscuridad más coordinada para las caras de Im1 también. El aparato decidió tomar una configuración de Anc_FC una parada por encima de la luminancia de las caras de la imagen HDR, es decir, 8 nits, y renderizar las caras Im2 una parada por debajo de Anc_FC (ya que deberían conservar su aspecto oscuro, para mantener la intención artística de esta escena de la película), y (dependiendo, entre otras cosas, del tamaño del PIP) renderizar en CombRng las caras de la parada Im1 1 comercial de LDR por encima de Anc_FC (todavía claramente una parte de la imagen más brillante, pero no demasiado brillante). Al mantener las relaciones de todas las luminancias de los objetos en Im1 (el mapeo lineal a través de la luminancia de anclaje anc_FC), esto ya reduciría la luminancia de la región grande HiModIm1 a menos de 60 nit en lugar de alrededor de 100. Aun así, cuando el aparato juzga el impacto del brillo (que puede juzgar puramente sobre las luminancias, por ejemplo, calculando un contraste CHL entre algún color de referencia de una parte u objeto importante de Im2, por ejemplo, el color de la cara Anc_FC, y esta luminancia HiModIm1, o también mediante análisis espacial, por ejemplo, pesando un área resaltada más grande y más cercana de Im1 como un contraste más serio con el importante, por ejemplo, área central de Im2), aún puede considerar que el área brillante grande de Im1 es demasiado brillante en comparación con el aspecto bastante oscuro de la mayoría de Im2. Por lo tanto, puede decidir reducir la luminancia de este modo HiModIm1 en 1 parada, llevándolo a 30 nits, lo que no debería distraer demasiado para un pequeño PIP en la esquina superior derecha. Como se muestra anteriormente, el aparato puede hacerlo de varias maneras, por ejemplo, reduciendo el factor de contraste C para la transformación de luminancia a CombRng por encima de anc_FC, o alguna función no lineal que se puede calcular en función de alguna posición máxima deseada LAMX para los píxeles más brillantes posibles en Im1, potencialmente determinada además por el posicionamiento de alguna luminancia de anclaje blanco difuso, etc. Téngase en cuenta también que el aparato en esta realización también ha realizado algún procesamiento de armonización en el subintervalo de luminancia negra. Debido a que los negros de la imagen HDR son muy profundos (y se puede suponer que varias pantallas pueden renderizar esto, al menos cuando el algoritmo se aplica antes de la optimización de la pantalla, si se ejecuta con una pantalla conectada, o incluso en la pantalla, por supuesto, el aparato puede tener en cuenta lo que la pantalla puede renderizar realmente con suficiente calidad visual, es decir, visibilidad), el aparato también puede profundizar los negros de Im1, para hacer que ambos conjuntos de negros sean más armoniosos. Puede hacerlo extendiendo, por ejemplo, todas las luminancias por debajo de lo que se codificó para Im1 como LA_Bk (algún delimitador negro), por ejemplo, estirando el contraste local en 2x. Se puede ver en la Figura 11B que en este ejemplo el mantenimiento de las regiones más brillantes de la imagen HDR aún puede ser útil, es decir, la LMC se determina nuevamente al valor máximo necesario para la representación fiel de Im2 en pantallas que pueden hacerlo, porque el problema estaba principalmente en la coordinación de Im1 en una subregión de luminancia que es mucho más profunda. Téngase en cuenta que el aparato ha elegido en este ejemplo limitar LmiC algo por encima de los colores más oscuros en Im2, por ejemplo, X se detiene por debajo de anc_FC, porque juzga que los colores que son demasiado oscuros serán ignorados por el espectador en la combinación de todos modos. El mapeo de transformaciones de color a CombRng puede tener esto en cuenta y aclarar los colores más oscuros para llevarlos dentro de CombRng.
La Figura 12A da un ejemplo en el que Im1 (es decir, en nuestra simple aclaración, el comercial) se convierte en la imagen dominante. Tal vez los espectadores no quieran que su película se vuelva pequeña cuando comiencen los comerciales, pero el PIP podría ser, por ejemplo, un segundo canal para ver, o incluso contener los cambios de película Im2 inicialmente vistos a un PIP pequeño si algo importante comienza en un segundo canal que el espectador también le gustaría ver (por ejemplo, esta imagen de Im1 corresponde al inicio de las noticias que el espectador no quiere perderse porque se espera una noticia importante). Ahora supongamos que Im1 es una imagen SDR, pero alguien (por ejemplo, el creador del contenido, digamos un comercial, puede haber especificado el siguiente desiderátum en los metadatos "renderizar la luminancia más brillante a 500 nit, en pantallas de PB de al menos 1000 nit", o el espectador puede haber elegido alguna configuración de usuario, que indica cuán dinámico o conservador quiere ver los brillos de su contenido, incluso si SDR) lo ha especificado para que se renderice en intervalos dinámicos más altos como muy brillante, ya que hay espacio para eso en pantallas más brillantes. Entonces, si se decodifica normalmente según Rec. 709 obtendríamos el histograma Im1Nat, pero en realidad, obtendremos en el CombRng que se renderizará el histograma Imladj con valores para Im1 en la combinación de hasta 500 nit (al menos cuando el desiderátum del creador de contenido SDR sea seguido completamente por el aparato de combinación, porque, por ejemplo, se establece en un modo de visualización de contenido gratuito, pagado por los propietarios comerciales). La Figura 12A proporciona a continuación una realización de cálculo en la que, por ejemplo, un espectador más joven ha configurado su sistema en modo dinámico. Para poder contrastar espectacularmente con la gran área brillante proveniente de Im1, el aparato necesita establecer (al menos en este intermedio que especifica CombRng, cualquier ajuste de visualización que le pueda suceder) las lámparas brillantes a, por ejemplo, 8000 nit, es decir, necesita establecer LMC a 8000 nit (incluso cuando era, por ejemplo, 4000 nit en la decodificación Im2 original). La Figura 12b es una realización que contrasta con la primera posibilidad porque el espectador ha configurado su sistema como conservador (porque no le gusta ver imágenes demasiado brillantes). Ahora bien, esa es otra consideración de armonización, donde el brillo del contenido de SDR es principal, y lo suficientemente brillante, por lo que el lector ve que este es un resultado muy diferente de la derivación del LMC del CombRng. Debido a que ya hay tantos píxeles de Im1 que son muy brillantes, lo que contribuye a un alto brillo general juzgado o experimentado de la imagen combinada Im_o, el aparato puede desear reducir las luminancias del modo HDR brillante HiLaIm2 y, en consecuencia, LMC a 2000 nit solamente (a pesar de que la película fue, por ejemplo, de clasificación maestra en una pantalla de clasificación PB_D de 10,000, y se comunicó como imágenes HDR<p>B_C de 5000 nit, por ejemplo, con una asignación de luma EOTF SMPTE 2084). Aunque ahora hay menos contraste entre las lámparas más brillantes de la imagen HDR y la gran región brillante de la Im1 (2 paradas en lugar de 5 o más), es decir, la película HDR perderá parte de su impacto cuando aparezca el PIP, al menos la imagen general no es demasiado brillante. El espectador puede desear esta forma de combinación.
Además, si el intervalo CombRng se especifica antes de anc_FC, el aparato puede observar diversos aspectos de las luminancias de los píxeles y objetos en ambas imágenes, por ejemplo, especificar una o más luminancias típicas correspondientes. Por ejemplo, puede observar un porcentaje de píxeles en ambas imágenes k veces por encima del gris medio, o por encima de 1 vez por debajo de la luminancia máxima de las imágenes decodificadas, y decidir a partir de estos valores en ambas imágenes cuáles serían los buenos valores para varias luminancias típicas, la luminancia máxima posible en la combinación LMC al menos para empezar. Si una realización del aparato utiliza un valor típico de las luminancias de objeto más brillantes para cada imagen, puede determinar cómo se relacionarían cuando se mapean en CombRng, es decir, por ejemplo, qué contraste de luminancia tendrían, y proponer un contraste más armonizado. Por supuesto, otros valores, como los valores representativos del gris medio de la mayoría de los colores de la escena (el gris medio puede tener una reflectancia real del 10 % en alguna iluminación típica de la escena, pero también se puede usar para indicar, por ejemplo, un modo, valor mayoritario o promedio, etc. de los píxeles en la imagen), puede ayudar a determinar cuáles serán los diversos contrastes interregionales en la imagen combinada, por ejemplo, las partes más brillantes de Im2 frente a la parte gris media de Im1, etc., y eligió relaciones armoniosas entre ellas. Por ejemplo, algunas realizaciones de aparatos pueden configurarse para elegir siempre algunos valores de contraste típicos, con las regiones brillantes, oscuras y promedio asignadas a algunas subregiones de luminancia típicas de CombRng (que por supuesto pueden diferir dependiendo de si LMC es de 1000 nits, 2000 nits, 5000 nits o 10000 nits aproximadamente), y esos valores pueden desviarse (por ejemplo, mapear k paradas más altas en CombRng) cuando se detecta algún tipo de imagen característica, por ejemplo, escena nocturna, programa de noticias bien iluminado, noche en la naturaleza, etc. Al determinar un buen valor de ANC para, por ejemplo, una buena cara o brillo gris (o regiones de luz brillante), el aparato puede medir en qué entorno de visualización está sentado el espectador. Por ejemplo, la cámara orientada hacia adelante en un televisor puede resumir las características de brillo del entorno en uno o más valores de caracterización, que se pueden usar en ecuaciones para escalar el valor de anc_FC, etc. (por ejemplo, 1 o más paradas hacia arriba o hacia abajo), y los contrastes necesarios para otras luminancias en comparación con la(s) luminancia(s) de anclaje, etc. Por ejemplo, la cámara puede ver que el espectador (por detección de rostros) está sentado en un autobús bajo cierta iluminación local, y puede determinar una segunda región que son las paredes y otros objetos detrás, generalmente peor iluminados. Si un solo valor de brillo del entorno caracterizador tiene que ser derivado por una realización, el brillo de las paredes circundantes se valorará más alto en el cálculo (por ejemplo, a *surround_average_L+b*local_spot_average_L), porque la iluminación local generalmente vendrá desde arriba e influirá en menos experiencia del entorno en el que se encuentra el espectador (por ejemplo, lo que el cerebro establece como un negro profundo en ese entorno, del que la pantalla solo forma parte). A partir de estas diversas aclaraciones, ahora debe quedar claro para el lector que en las diversas realizaciones, puede haber diversas formas de llegar a la totalidad de CombRng, una o más luminancias y formas de función de mapeo de luminancia, y de hecho, al final, una imagen de salida armoniosa para cada situación.
La Figura 18 muestra simplemente algunas posibilidades típicas genéricas de elucidación de determinadas funciones de transformación de color FF que se aplicarán a las luminancias de al menos una de las imágenes o partes de la imagen que se mezclarán (o algunas o todas ellas tienen sus respectivas funciones FF_x), y a partir de estos ejemplos el lector puede imaginar otras posibilidades siguiendo los conceptos generales de nuestras invenciones y sus diversas realizaciones. Por ejemplo, la Figura 18a muestra dos maneras simples de determinar una función FF_1 compuesta de dos partes (en este ejemplo, que termina en los puntos finales exactos del intervalo, que se pueden desviar en otros escenarios). En caso de que la luminancia del resultado de salida (LF1_o) de aplicar la función a una luminancia de la imagen de entrada que es igual al anclaje de fuente (L_SA1) tenga que ser exactamente igual a anc, obtenemos de este programa interno del aparato la función dibujada. En caso de que la luminancia de salida LT2_v pueda caer en una vecindad, se puede determinar una función de dos segmentos algo diferente similar FF que atraviesa el punto con el valor Y anc/k, donde k es, por ejemplo, 1.5, 2, 3 o 4.
La Figura 18B muestra que se pueden diseñar funciones de forma compleja alrededor de esto, por ejemplo, anclaje gris medio normalmente/débilmente iluminado, con, por ejemplo, una curva en S para los negros. El aparato de combinación puede proponer dicha parte de función de mapeo de luminancia, por ejemplo, observando típicamente las funciones de luminancia de reclasificación (por ejemplo, la función de clasificación fina) que se ha comunicado de acuerdo con nuestros principios de codificación para obtener una de las imágenes de intervalo dinámico de la otra, realmente recibida. Si el aparato de combinación ve un comportamiento de tipo S para los negros, puede entender que parece haber una región de objetos importantes en el medio de los negros, que debe tener un buen contraste fuerte, mientras que los negros más profundos parecen ser en gran medida ignorables, porque la función muestra que pueden ser casi recortados al negro mínimo (0, o lo que sea Min-Black). Por lo tanto, las realizaciones de un programa de combinación algo más inteligente seguirán este comportamiento en su forma FF determinada, pero ahora la función se vuelve a configurar porque el mapeo no va entre el intervalo maestro de luminancias HDR de 5000 nits y un intervalo SDR de 100 nits, sino por decir un CombRng de 500 nits (por lo que habrá una necesidad de transformar un poco el negro, de acuerdo con necesidades similares de asegurarse principalmente de que los medios se representen mejor, pero será algo diferente). De manera similar, para la parte de función para los brillos, el aparato de combinación puede decidir seguir las especificaciones de forma correspondientes a los subintervalos críticos de luminancia de objetos de imagen en un grado más preciso o menor. La Figura 18c muestra un ejemplo en el que el aparato de combinación controla el contraste C de algún "intervalo medio" de la imagen SDR, por ejemplo, para combinarse, y también en este ejemplo el aparato decidió no estirar la parte superior de la función Ff hasta el máximo del CombRng (de la imagen de salida Im Cmb), como en la realización que podría resultar en una representación de píxeles SDR demasiado brillante (el lector debe entender que los histogramas de luminancia de imagen HDR generalmente tienen lóbulos muy extendidos, con el lóbulo de las luminancias más brillantes, por ejemplo, que solo contiene 20x5 píxeles de 20 pequeños parches especulares, mientras que la imagen SDR contiene histogramas estrechamente agrupados, con muchas luminancias alrededor del máximo PB_C= 100 nit, por ejemplo, incluso regiones de imagen potencialmente grandes de escenografía exterior recortada a blanca, y ciertamente en una película HDR relativamente más tenue u oscura, esas regiones de píxeles combinados no deben ser tan brillantes como PB_Comb = 2000 nit, para no destruir el placer de ver películas). Debe apreciarse que en los días anteriores las realizaciones de aparatos de combinación pueden tener solo un par de tales reglas preprogramadas sensatas en su software o hardware, pero las realizaciones adicionales en el futuro podrían hacer análisis complicados, para llegar a combinaciones de imágenes finalmente equilibradas. Por lo tanto, se pueden diseñar varias realizaciones diferentes del sistema en torno a ese aparato central que maneja la mezcla correcta de imagen o vídeo, por ejemplo, para permitir que un humano pueda especificar, mucho antes de que la mezcla (a menudo desconocida) ocurra realmente, de una manera elegante y no demasiado engorrosa, lo que su contenido necesita, seleccionando un buen valor de la luminancia de anclaje de su contenido. Pueden ocurrir varias realizaciones en el aparato mezclador, por ejemplo, cuando el aparato usa el mismo tipo de anclaje (aunque algunos aparatos también podrían decidir usar un tipo de anclaje diferente y convertir el mapeo armonizado de las dos imágenes de sus tipos de anclaje en las luminancias disponibles del intervalo dinámico de mezcla). El lector experto puede entender que, en la práctica, la primera situación puede incorporarse, por ejemplo, en un aparato de mezcla que funciona en una especie de modo esclavo, verificando que al menos el vídeo principal, por ejemplo, definió cuál era su luminancia crítica de anclaje facial, luego establece cuál sería una buena luminancia facial en el intervalo dinámico de mezcla (por ejemplo, ya teniendo en cuenta las características de renderización finales), y luego transforma la luminancia de la segunda imagen (incluso si no contiene una cara), para estar en armonía con esa luminancia de la cara importante en la primera imagen (es decir, cómo se representó en el intervalo dinámico de combinación). Un ejemplo de la segunda estrategia, en la que el aparato de mezcla está liderando, podría ser, por ejemplo, si el usuario está mirando fotos en la televisión y ha establecido alguna referencia para eso (definiendo una luminancia de anclaje como un valor único representativo para el brillo general típico al que las representaciones fotográficas deben (aproximadamente) cumplir; y típicamente también un intervalo dinámico de presentación, por ejemplo, ha definido un intervalo dinámico de combinación no demasiado brillante (visualización suave) ya con la luminancia de las fotos mapeada en ese intervalo, antes de que entren otros datos de imagen y se mezclen armoniosamente, y también puede haber especificado que las fotos actualmente usan principalmente la mitad de ese intervalo, es decir, todos nuestros píxeles tienen luminancias por debajo de PB_Comb_PhotView/2, aunque hay algo de espacio en el intervalo dinámico de combinación para píxeles más brillantes, si el contenido secundario lo desea). La mezcla del contenido de la imagen secundaria (el contenido primario son las fotos en las que ya se están mapeando bajo un mapeo de luminancia determinado) ocurrirá a continuación por el aparato mirando el valor de anclaje en el contenido (que puede ser diferente del tipo de anclaje de la visualización de fotos, pero mediante un cálculo de fórmula del aparato de mezcla estará relacionado con él, por ejemplo, anc_face_inmix = 1.3*anc_photviewapplic), y el intervalo dinámico de combinación de visualización de fotos establecido con luminancias entre, por ejemplo, 0 o k nit y PB_Comb_PhotView. Es muy útil tener un sistema genérico de mezcla de contenido de imágenes HDR único (apto para todas las situaciones) que pueda manejar varias situaciones, y la determinación en varias especies dependerá de lo que sea óptimo para la situación y de lo que ya conozca el aparato en cualquier momento.
Por ejemplo, en caso de que aún no se conozca el sistema de renderizado final, lo mejor que puede hacer un mezclador cuando necesita armonizar los dos contenidos de la imagen es al menos ver cómo se mezclan mejor (por ejemplo, si una de las imágenes tiene excesivamente más (tal vez grandes) regiones de alto brillo, que deben atenuarse para disfrutar del otro contenido de la imagen). En ese caso, es posible que la etapa de optimización de la pantalla final (por ejemplo, en el televisor de un consumidor) aún deba realizar una optimización más compleja, teniendo en cuenta las imágenes ya indicadas como la forma en que deben mezclarse (genéricamente) de manera óptima. Sin embargo, en realizaciones en las que el entorno de representación ya se conoce, y en particular cuando tiene fuertes deseos, el mezclador puede equilibrarse más hacia el aspecto final (es decir, las necesidades de calidad visual del Combrng determinado por la visualización de un factor grande, y por ejemplo, sacrificar algo de la representación única perfecta de una de las imágenes, haciendo un mapeo diferente). En caso de que las capacidades de representación sean de importancia primordial en la determinación del CombRng, típicamente se utilizarán al menos algunas consideraciones típicas con respecto a las propiedades esperadas de, por ejemplo, imágenes HDR (por ejemplo, las reglas del software del aparato de combinación que determinan que probablemente la mayor parte de una imagen HDR típica "genérica" residiría (+-) por debajo de, por ejemplo, 500 nits, y los objetos brillantes deben ser renderizables si se asignan para ser visualizadas luminancias de, por ejemplo, hasta 1500 nits. Si una pantalla, por ejemplo, solo tiene una capacidad de solo PB_D=1000 nits, eso correspondería a una representación errónea no óptima de imágenes HDR de buena calidad (es decir, explosiones brillantes de, por ejemplo, 1400 nits serían demasiado tenues). En tal situación, aunque el PB_D real de la pantalla disponible puede tener un gran impacto en la determinación del PB_C del CombRng para mezclar el contenido de la imagen antes de la representación, el aparato de combinación aún podría decidir determinar que el PB del CombRng es algo superior a 1000 nits (y aplicar un ajuste de pantalla final de la imagen mezclada para asignarla al intervalo de representación de la pantalla), por ejemplo, 15 % más alto, es decir, 1150 nits. Por supuesto, idealmente en las mejores realizaciones, la optimización del CombRng, y también un punto anterior adecuado en ese intervalo dinámico de combinación, tendrá en cuenta, y equilibrará, todos los factores conocidos (es decir, de las necesidades de representación de contenido ideales, y todos los requisitos prácticos y limitaciones de la fase de mezcla de imágenes HDR actual). Una determinación óptima de un punto puede mirar típicamente lo que está disponible (posible) después de haber definido previamente el CombRng óptimo (pero como se enseña, pueden estar involucrados varios otros factores, tales como, por ejemplo, qué tipo de contenido contienen semánticamente las imágenes, y en algunas realizaciones posiblemente incluso lo que el espectador final espera para dicho contenido de imagen, etc.). Por lo tanto, varias realizaciones pueden establecer el ANC de varias maneras, abarcando desde una configuración fija en el aparato que (lo que se especifique como tipos de anclaje de imagen de origen) siempre relacionará todo con luminancias de cara adecuadas, sobre un sistema que tiene varias opciones de tipo ANC y elige la más cercana a lo que se determinó en al menos una de las imágenes de origen que se combinarán (es decir, una luminancia ANC en el CombRng del mismo tipo que se indica en al menos una de las imágenes que se combinarán, como por ejemplo, buen color de cara, pero en el CombRng, es decir, óptimo para la situación de combinación, que debe entenderse es diferente que para representar cada imagen por sí sola), es decir, típicamente la imagen principal, a una determinación sobre la marcha del aparato de lo que sería un valor ANC sensible dado todos los detalles fiscales de la situación (distribución de luminancia de píxeles de contenido y capacidades de visualización, por ejemplo), etc. El último tipo de realización es bueno si, por ejemplo, un color de cara tiene que determinarse de manera óptima dadas limitaciones de representación específicas, como, por ejemplo, cuán oscura puede mostrar la pantalla objetos oscuros, por encima de los cuales debería caer la luminancia de la cara, lo que puede ser especialmente crítico para caras en regiones oscuras de las imágenes de origen. Por lo tanto, para que quede claro, algunas realizaciones del aparato pueden funcionar determinando algún valor de ANC (por ejemplo, una buena luminancia promedio), aunque las dos imágenes entrantes actualmente se pueden definir con luminancias de ANC del tipo color de cara, porque genéricamente lo único que se necesita para hacer que el aparato funcione es que puedan ser relacionadas por el aparato (es decir, que la luminancia de cara típica en una imagen de entrada se pueda mapear en las proximidades del valor de ANC de "tipo promedio" del CombRng, porque el aparato juzga que se obtendrían imágenes suficientemente buenas si las caras son, por ejemplo, un 50 % más brillantes que el valor de ANC bien utilizable establecido de forma particular, en primer lugar e independiente. Por lo tanto, los tipos de ANC de la imagen de origen y CombRng deben estar relacionados o ser identificables. Un ANC puede resumir de manera óptima y elegante todas las complejidades colorimétricas de una imagen, y en muchas situaciones solo se necesitaría un punto de coordinación para la combinación de todos modos. Para completar, debe ser obvio que un valor anc en un intervalo dinámico significa que no es ninguna de las luminancias de punto final, sino más bien información adicional a eso. En cuanto al establecimiento de un intervalo dinámico de luminancia, el lector experto puede entender cómo eso puede implicar determinar una luminancia superior, y para las realizaciones que no toman sistemáticamente la luminancia más baja como nit cero, también establecer una luminancia más baja, de nuevo dependiente de las necesidades equilibradas de los factores conocidos, tales como la cantidad de contenido de imagen relevante en las regiones más oscuras de la imagen, la capacidad del sistema de representación para mostrar colores oscuros, etc.
Los componentes algorítmicos descritos en este texto pueden (total o parcialmente) realizarse en la práctica como hardware (por ejemplo, partes de un IC específico de la solicitud) o como software que se ejecuta en un procesador de señales digitales especial, o un procesador genérico, etc.
Debe ser comprensible para el experto a partir de nuestra presentación qué componentes pueden ser mejoras opcionales y se pueden realizar en combinación con otros componentes, y cómo las etapas (opcionales) de los procedimientos corresponden a los respectivos medios de los aparatos, y viceversa. La palabra "aparato" en esta solicitud se usa en su sentido más amplio, a saber, un grupo de medios que permiten la realización de un objetivo particular y, por lo tanto, puede ser, por ejemplo, (una pequeña parte de circuito de) un IC, o un aparato dedicado (como un aparato con una pantalla), o parte de un sistema en red, etc. "Disposición" también está destinada a ser utilizada en el sentido más amplio, por lo que puede comprender, entre otros, un solo aparato, una parte de un aparato, una colección de (partes de) aparatos cooperantes, etc.
Debe entenderse que la denotación de producto de programa informático abarca cualquier realización física de una colección de comandos que permita a un procesador genérico o de propósito especial, después de una serie de etapas de carga (que pueden incluir etapas de conversión intermedias, como la traducción a un lenguaje intermedio y un lenguaje de procesador final) introducir los comandos en el procesador y ejecutar cualquiera de las funciones características de una invención. En particular, el producto de programa de ordenador puede realizarse como datos en un soporte tal como, por ejemplo, un disco o cinta, datos presentes en una memoria, datos que viajan a través de una conexión de red, por cable o inalámbrica, o código de programa en papel. Además del código de programa, los datos característicos requeridos para el programa también pueden incorporarse como un producto de programa informático.
Es posible que algunas de las etapas necesarias para el funcionamiento del procedimiento ya estén presentes en la funcionalidad del procesador en lugar de estar descritos en el producto de programa informático, como los etapas de entrada y salida de datos.
Cabe señalar que las realizaciones mencionadas anteriormente ilustran la invención en lugar de limitarla. Cuando el experto en la materia puede realizar fácilmente un mapeo de los ejemplos presentados a otras regiones de las reivindicaciones, para mayor concisión no hemos mencionado todas estas opciones en profundidad. Aparte de las combinaciones de elementos de la invención como se combinan en las reivindicaciones, son posibles otras combinaciones de los elementos. Cualquier combinación de elementos se puede realizar en un solo elemento dedicado.
Cualquier signo de referencia entre paréntesis en la reivindicación no pretende limitar la reivindicación. La palabra "que comprende" no excluye la presencia de elementos o aspectos no enumerados en una reivindicación. El artículo “un” o “una” que precede a un elemento no excluye la presencia de una pluralidad de dichos elementos.
Claims (15)
1. Un aparato (301) para combinar dos imágenes o dos vídeos de imágenes (Im_HDR, Im_LDR) de diferentes fuentes y con diferente luminancia máxima, siendo una de ellas una imagen o vídeo de alto intervalo dinámico, comprendiendo el aparato:
- un conjunto de establecimiento de intervalo dinámico (302) dispuesto para establecer un intervalo dinámico de luminancia de combinación (CombRng), que se caracteriza por al menos una luminancia máxima (LMC) que se determina en función de las luminancias máximas de las dos imágenes o los dos vídeos de imágenes, el conjunto de establecimiento de intervalo dinámico comprende además un conjunto de determinación de anclaje de luminancia (303), dispuesto para determinar una luminancia de anclaje (anc) en el intervalo dinámico de luminancia de combinación (CombRng);
- un conjunto de transformación de color (310), dispuesto para realizar al menos una transformación de luminancia en al menos una de las dos imágenes o vídeos, donde el conjunto de transformación de color (310) comprende un conjunto de lectura de luminancia de anclaje de fuente (311) dispuesto para leer al menos una luminancia de anclaje de fuente (L_SA1) a partir de metadatos de una primera fuente (350) que entrega una primera imagen o vídeo (Im1_LDR) de las dos imágenes o vídeos,
y donde el conjunto de transformación de color está dispuesto para establecer una transformación de luminancia (FF_1) que se aplicará a la primera imagen o vídeo que produce una primera imagen de salida que tiene primeras luminancias de salida, cuya transformación de luminancia depende del valor de la luminancia de anclaje de fuente (L_SA1) al tener la propiedad de que la luminancia de anclaje de fuente (L_SA1) se mapea a una luminancia de salida en las proximidades de la luminancia de anclaje (anc); y
- un conjunto de combinación de imágenes (320) dispuesto para combinar las luminancias de salida de la primera imagen de salida con luminancias de la otra de las dos imágenes o dos vídeos de imágenes para formar al menos una imagen de salida combinada (Im_o).
2. Un aparato según la reivindicación 1, en el que el conjunto de transformación de color (310) está dispuesto para determinar la transformación de luminancia (FF_1) de modo que una luminancia de salida (LF1_o), que se determina como resultado de aplicar la transformación de luminancia (FF_1) a una luminancia de entrada de un color de píxel de la primera imagen o vídeo (Im1_LDR) que es igual a la al menos una luminancia de anclaje de fuente (L_SA1), es igual a la luminancia de anclaje (anc).
3. Un aparato según la reivindicación 2, en el que el conjunto de transformación de color (310) está dispuesto para determinar la transformación de luminancia (FF_1) de modo que una relación de luminancia de una segunda luminancia de salida (LT2_o), que se determina como resultado de aplicar la transformación de luminancia (FF_1) a una segunda luminancia de entrada (LT1_i), dividida por la luminancia de salida (LF1_o) es una constante multiplicativa (C) por una relación de la segunda luminancia de entrada (LT1_i) dividida por la luminancia de anclaje de fuente (L_SA1).
4. Un aparato según una de las reivindicaciones anteriores, en el que el conjunto de transformación de color (310) comprende un conjunto de determinación de desviación (312) dispuesto para determinar sobre la base de la al menos una luminancia de anclaje de fuente (L_SA1) un desplazamiento de luminancia (d_anc), y en el que el conjunto de transformación de color está dispuesto para determinar la transformación de luminancia (FF_1) de modo que una luminancia de salida (LF1_o), que se determina como resultado de aplicar la transformación de luminancia (FF_1) a una luminancia de entrada de un color de píxel de la primera imagen o vídeo (Im1_LDR) que es igual a la al menos una luminancia de anclaje de fuente (L_SA1), es igual a la luminancia de anclaje (anc) más el desplazamiento de luminancia (d_anc).
5. Un aparato según la reivindicación 4, en el que el conjunto de transformación de color (310) está dispuesto para leer al menos una segunda luminancia de anclaje de fuente (L_S2A1) obtenida de una segunda fuente (351) que entrega una segunda imagen o vídeo (Im_HDR) de las dos imágenes o vídeos, y en el que el conjunto de determinación de desviación (312) está dispuesto para determinar el desplazamiento de luminancia (d_anc) también en función de la al menos una segunda luminancia de anclaje de fuente (L_S2A1).
6. Un aparato según una de las reivindicaciones anteriores, en el que el conjunto de transformación de color está dispuesto para establecer una transformación de luminancia (FF_1) que se aplicará a la primera imagen o vídeo también dependiendo de las primeras funciones de remapeo de luminancia (F1_L), en el que estas primeras funciones de remapeo de luminancia (F1_L) especifican un cambio en la distribución de luminancia de los objetos en la primera imagen o vídeo (Im1_LDR) para mapear esa primera imagen o vídeo del intervalo dinámico asociado con la codificación de la primera imagen o vídeo a un intervalo dinámico con un brillo máximo que difiere del brillo máximo del intervalo dinámico asociado con la codificación en al menos un factor multiplicativo 2;
o
en el que el conjunto de transformación de color está dispuesto para establecer una transformación de luminancia (FF_2) que se aplicará a la segunda imagen o vídeo también en función de las segundas funciones de remapeo de luminancia (F2_L), en el que estas segundas funciones de remapeo de luminancia (F2_L) especifican un cambio en la distribución de luminancia de los objetos en la segunda imagen o vídeo (Im2_HDR) para mapear esa segunda imagen o vídeo del intervalo dinámico asociado con la codificación de la segunda imagen o vídeo a un intervalo dinámico con un brillo máximo que difiere al menos un factor multiplicativo 2 del brillo máximo del intervalo dinámico asociado con la codificación de la segunda imagen.
7. Un aparato según una de las reivindicaciones anteriores, en el que el conjunto de establecimiento de intervalo dinámico (302) está dispuesto para establecer el intervalo dinámico de luminancia de combinación (CombRng) dependiendo de las luminancias presentes en las dos imágenes de vídeos.
8. Un aparato según la reivindicación 7, en el que el conjunto de establecimiento de intervalo dinámico (302) está dispuesto para establecer el intervalo dinámico de luminancia de combinación (CombRng) dependiendo además de un brillo máximo de una pantalla en la que se va a representar la al menos una imagen de salida combinada (Im_o), y preferiblemente también de una característica de brillo de un entorno de visualización.
9. Un aparato según una de las reivindicaciones anteriores, en el que el conjunto de determinación de anclaje de luminancia (303) está dispuesto para determinar la luminancia de anclaje (anc) dependiendo de al menos uno de: el intervalo dinámico de luminancia combinado (CombRng), las luminancias en al menos una de las dos imágenes o vídeos, un brillo máximo de una pantalla en la que se va a representar la al menos una imagen de salida combinada (Im_o) y una característica de brillo de un entorno de visualización.
10. Un procedimiento para combinar dos imágenes o dos vídeos de imágenes (Im_HDR, Im_LDR) de diferentes fuentes y con diferente luminancia máxima, siendo una de ellas una imagen o vídeo de alto intervalo dinámico, comprendiendo el procedimiento:
- establecer un intervalo dinámico de luminancia de combinación (CombRng), que se caracteriza por al menos una luminancia máxima (LMC) que se determina en función de las luminancias máximas de las dos imágenes o los dos vídeos de imágenes, comprendiendo además el establecimiento determinar una luminancia de anclaje (anc) en el intervalo dinámico de luminancia de combinación (CombRng);
- aplicar una transformación de luminancia (FF_1) en al menos una de las dos imágenes o vídeos que producen una primera imagen de salida que tiene primeras luminancias de salida, cuya transformación de luminancia se establece en función de un valor de una luminancia de anclaje de fuente (L_SA1) que se lee a partir de metadatos de una primera fuente (350) que entrega una primera imagen o vídeo (Im1_LDR) de las dos imágenes o vídeos, la transformación de luminancia tiene la propiedad de que la luminancia de anclaje de fuente (L_SA1) se mapea a una luminancia de salida en las proximidades de la luminancia de anclaje (anc); y
- combinar las luminancias de salida de la primera imagen de salida con las luminancias de la otra de las dos imágenes o dos vídeos de imágenes para formar al menos una imagen de salida combinada (Im_o).
11. Un procedimiento para combinar dos imágenes según la reivindicación 10, en el que la transformación de luminancia (FF_1) se determina de modo que una luminancia de salida (LF1_o), que se determina como resultado de aplicar la transformación de luminancia (FF_1) a una luminancia de entrada de un color de píxel de la primera imagen o vídeo (Im1_LDR) que es igual a la al menos una luminancia de anclaje de fuente (L_SA1), es igual a la luminancia de anclaje (anc), o igual a la luminancia de anclaje (anc) más una diferencia determinada (d_anc).
12. Un procedimiento para combinar dos imágenes según una de las reivindicaciones de procedimiento anteriores, en el que la transformación de luminancia (FF_1) se determina de modo que una relación de luminancia de una segunda luminancia de salida (LT2_o), que se determina como resultado de aplicar la transformación de luminancia (FF_1) a una segunda luminancia de entrada (LT1_i), dividida por la luminancia de salida (LF1_o) es una constante multiplicativa (C) por una relación de la segunda luminancia de entrada (LT1_i) dividida por la luminancia de anclaje de fuente (L_SA1).
13. Un procedimiento para combinar dos imágenes según una de las reivindicaciones de procedimiento anteriores, en el que se determina una transformación de luminancia (FF_2) de la segunda imagen o vídeo de imágenes basándose en al menos una segunda luminancia de anclaje de fuente (L_S2A1) obtenida de una segunda fuente (351) que proporciona una segunda imagen o vídeo (Im1_HDR) de las dos imágenes o vídeos.
14. Un procedimiento para combinar dos imágenes según una de las reivindicaciones de procedimiento anteriores, en el que al menos una de las transformaciones de luminancia (FF_1, FF_2) que se aplicarán a la respectiva de las al menos dos imágenes o vídeos se determina al menos en parte en función de al menos una función de mapeo de luminancia recibida (F1_L, F2_L) cuya función de mapeo de luminancia recibida indica cómo se debe transformar la imagen respectiva del intervalo dinámico para el que se codifica, a un intervalo dinámico que tiene un brillo máximo que es al menos dos veces mayor o menor que el brillo máximo del intervalo dinámico para el que se codifica la imagen respectiva.
15. Un procedimiento para combinar dos imágenes según una de las reivindicaciones de procedimiento anteriores, en el que al menos una de la combinación del intervalo dinámico de luminancia (CombRng) y la luminancia de anclaje (anc) se determina adicionalmente en función de al menos un factor del conjunto: una propiedad dependiente de la distribución de luminancia de los objetos en al menos una de las dos imágenes, información que resume las características de luminancia de al menos una de las dos imágenes, el intervalo dinámico de una pantalla en la que se va a representar la al menos una imagen de salida combinada (Im_o), y una medida de brillo para un entorno de visualización en el que se va a ver la imagen de salida combinada.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP15196054 | 2015-11-24 | ||
| US201662383692P | 2016-09-06 | 2016-09-06 | |
| PCT/EP2016/077373 WO2017089146A1 (en) | 2015-11-24 | 2016-11-11 | Handling multiple hdr image sources |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2979319T3 true ES2979319T3 (es) | 2024-09-25 |
Family
ID=65638024
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES16797820T Active ES2979319T3 (es) | 2015-11-24 | 2016-11-11 | Manejo de múltiples fuentes de imágenes HDR |
Country Status (5)
| Country | Link |
|---|---|
| JP (1) | JP6831389B2 (es) |
| ES (1) | ES2979319T3 (es) |
| PL (1) | PL3381179T3 (es) |
| RU (1) | RU2723676C2 (es) |
| ZA (1) | ZA201804211B (es) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3451677A1 (en) * | 2017-09-05 | 2019-03-06 | Koninklijke Philips N.V. | Graphics-safe hdr image luminance re-grading |
| WO2021108719A1 (en) | 2019-11-27 | 2021-06-03 | Dolby Laboratories Licensing Corporation | Rate-control-aware reshaping in hdr imaging |
| CN111915517B (zh) * | 2020-07-23 | 2024-01-26 | 同济大学 | 适用于室内光照不利环境下rgb-d相机全局定位方法 |
| CN112949502B (zh) * | 2021-03-05 | 2024-03-29 | 浙江大华技术股份有限公司 | 游泳池安全员的环视检测方法、系统和电子装置 |
| CN120356440B (zh) * | 2025-06-10 | 2025-11-11 | 京东方科技集团股份有限公司 | 一种基于智慧控制的tft-lcd液晶显示器 |
Family Cites Families (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8135230B2 (en) * | 2007-07-30 | 2012-03-13 | Dolby Laboratories Licensing Corporation | Enhancing dynamic ranges of images |
| CN102422322B (zh) * | 2009-05-11 | 2015-01-21 | 杜比实验室特许公司 | 用于在目标环境下在装置处再现来自源环境的图像的色貌的方法和设备 |
| US8606009B2 (en) * | 2010-02-04 | 2013-12-10 | Microsoft Corporation | High dynamic range image generation and rendering |
| CN103891294B (zh) * | 2011-04-28 | 2017-09-01 | 皇家飞利浦有限公司 | 用于hdr图像编码和解码的装置与方法 |
| RU2761120C2 (ru) * | 2011-09-27 | 2021-12-06 | Конинклейке Филипс Н.В. | Устройство и способ для преобразования динамического диапазона изображений |
| KR101579831B1 (ko) * | 2011-10-20 | 2015-12-23 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 비디오 등화를 위한 방법 및 시스템 |
| JP6104411B2 (ja) * | 2013-02-21 | 2017-03-29 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーバーレイグラフィクス合成のためのアピアランスマッピングのシステムおよび装置 |
| KR102223751B1 (ko) * | 2013-07-12 | 2021-03-05 | 소니 주식회사 | 재생 장치, 재생 방법, 및 기록 매체 |
| CN106713697B (zh) * | 2013-10-22 | 2019-02-12 | 杜比实验室特许公司 | 用于扩展动态范围图像的引导颜色分级 |
| US9973723B2 (en) * | 2014-02-24 | 2018-05-15 | Apple Inc. | User interface and graphics composition with high dynamic range video |
| US9230338B2 (en) * | 2014-03-05 | 2016-01-05 | Dolby Laboratories Licensing Corporation | Graphics blending for high dynamic range video |
| US10536731B2 (en) * | 2014-05-12 | 2020-01-14 | Apple Inc. | Techniques for HDR/WCR video coding |
| CN107113470B (zh) * | 2014-11-10 | 2021-07-13 | 皇家飞利浦有限公司 | 用于编码的方法、视频处理器、用于解码的方法、视频解码器 |
| EP3255892B1 (en) * | 2015-02-03 | 2021-12-29 | Sony Group Corporation | Transmitting device, transmitting method, receiving device, and receiving method |
-
2016
- 2016-11-11 PL PL16797820.4T patent/PL3381179T3/pl unknown
- 2016-11-11 RU RU2018122765A patent/RU2723676C2/ru active
- 2016-11-11 JP JP2018545548A patent/JP6831389B2/ja active Active
- 2016-11-11 ES ES16797820T patent/ES2979319T3/es active Active
-
2018
- 2018-06-22 ZA ZA2018/04211A patent/ZA201804211B/en unknown
Also Published As
| Publication number | Publication date |
|---|---|
| RU2018122765A3 (es) | 2020-02-27 |
| ZA201804211B (en) | 2021-05-26 |
| JP2019506817A (ja) | 2019-03-07 |
| RU2723676C2 (ru) | 2020-06-17 |
| RU2018122765A (ru) | 2019-12-26 |
| JP6831389B2 (ja) | 2021-02-17 |
| PL3381179T3 (pl) | 2024-06-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10902567B2 (en) | Handling multiple HDR image sources | |
| ES2808177T3 (es) | Optimización de imágenes de alto rango dinámico para pantallas particulares | |
| JP6596125B2 (ja) | Hdrイメージの符号化のためのコードマッピング関数を作成するための方法及び装置、並びに、かかる符号化イメージの使用のための方法及び装置 | |
| ES2825699T3 (es) | Optimización e imágenes de alto rango dinámico para pantallas particulares | |
| ES2770426T3 (es) | Métodos y dispositivos de codificación y decodificación de imágenes HDR mejorados | |
| ES2744795T3 (es) | Métodos y aparatos para codificar unas imágenes HDR, y métodos y aparatos para usar tales imágenes codificadas | |
| ES2951773T3 (es) | Codificación y decodificación de vídeos HDR | |
| EP3679725B1 (en) | Graphics-safe hdr image luminance re-grading | |
| BR112014023535B1 (pt) | Codificador de imagem para codificar uma imagem de uma cena de alto alcance dinâmico, decodificador de imagem para decodificar uma representação de imagem codificada de uma cena de alto alcance dinâmico, método de codificação de imagem para codificar uma imagem de uma cena de alto alcance dinâmico e método de decodificação da imagem para decodificar uma representação de imagem codificada de uma cena de alto alcance dinâmico | |
| CN103493487A (zh) | 用于hdr图像编码和解码的装置和方法 | |
| ES2979319T3 (es) | Manejo de múltiples fuentes de imágenes HDR | |
| US20240221135A1 (en) | Display-Optimized HDR Video Contrast Adapation | |
| US20240273692A1 (en) | Display-Optimized Ambient Light HDR Video Adapation | |
| JP7752792B2 (ja) | Hdr画像内の二次グラフィック要素の混合 | |
| US12462359B2 (en) | Display-optimized HDR video contrast adaptation | |
| BR112018010367B1 (pt) | Aparelho para combinar duas imagens ou dois vídeos de imagens, e método para combinar duas imagens ou dois vídeos de imagens | |
| ES2728053T3 (es) | Métodos y aparatos para crear funciones de mapeo de códigos para codificar una imagen HDR, y métodos y aparatos para el uso de tales imágenes codificadas | |
| ES2787827T3 (es) | Aparatos y procedimientos para la codificación y decodificación de imágenes HDR | |
| BR112017002313B1 (pt) | Codificador para codificar um vídeo de entrada de alto alcance dinâmico, método para codificar um vídeo de entrada de alto alcance dinâmico, decodificador de vídeo para decodificar um vídeo de alto alcance dinâmico, decodificador de vídeo para decodificar um conjunto de imagens de vídeo de alto alcance dinâmico e método de decodificação de vídeo de um conjunto de imagens de vídeo de alto alcance dinâmico | |
| BR112015019787B1 (pt) | Codificador de imagem, decodificador de imagem, método de codificação de imagem, método de decodificação de imagem, sinal de imagem, e, objeto de memória |