ES2979319T3

ES2979319T3 - Handling multiple HDR image sources

Info

Publication number: ES2979319T3
Application number: ES16797820T
Authority: ES
Inventors: Mark Jozef Willem Mertens
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2015-11-24
Filing date: 2016-11-11
Publication date: 2024-09-25
Anticipated expiration: 2036-11-11
Also published as: PL3381179T3; RU2018122765A3; JP2019506817A; RU2018122765A; JP6831389B2; ZA201804211B; RU2723676C2

Abstract

Para permitir la combinación versátil de imágenes o vídeos necesaria ahora que están apareciendo vídeos HDR de características de luminancia considerablemente diferentes, el aparato (301) para combinar dos imágenes o dos vídeos de imágenes (Im_HDR, Im_LDR), siendo uno de ellos una imagen o vídeo de alto rango dinámico, comprendiendo el aparato: - una unidad de establecimiento de rango dinámico (302) dispuesta para establecer un rango dinámico de luminancia de combinación (CombRng), que se caracteriza por al menos una luminancia máxima (LMC) que se determina basándose en al menos uno de: una luminancia máxima de al menos una de las dos imágenes o los dos vídeos de imágenes, y un brillo pico de una pantalla para reproducir las dos imágenes o los dos vídeos de imágenes, comprendiendo además la unidad de establecimiento de rango dinámico una unidad de determinación de anclaje de luminancia (303), dispuesta para determinar una luminancia de anclaje (anc) en el rango dinámico de luminancia de combinación (CombRng), - una unidad de transformación de color (310), dispuesta para realizar al menos una transformación de luminancia en al menos una de las dos imágenes o vídeos, en donde la unidad de transformación de color (310) comprende una unidad de lectura de luminancia de anclaje de fuente (311) dispuesta para leer al menos una luminancia de anclaje de fuente (L_SA1) de una primera fuente (350) que proporciona una primera imagen o vídeo (Im1_LDR) de las dos imágenes o vídeos, y en donde la unidad de transformación de color está dispuesta para establecer una transformación de color (FF_1) que se aplicará a la primera imagen o vídeo, transformación de color que depende del valor de la luminancia de anclaje de fuente (L_SA1) al tener la propiedad de que la luminancia de anclaje de fuente (L_SA1) se asigna a una luminancia de salida en una proximidad de la luminancia de anclaje (anc); y - una unidad de combinación de imágenes (320) dispuesta para combinar las dos imágenes o dos vídeos de imágenes para formar al menos una imagen de salida (Im_o). (Traducción automática con Google Translate, sin valor legal)In order to enable the versatile combining of images or videos needed now that HDR videos of considerably different luminance characteristics are emerging, the apparatus (301) for combining two images or two image videos (Im_HDR, Im_LDR), one of them being a high dynamic range image or video, the apparatus comprising: - a dynamic range setting unit (302) arranged to set a combination luminance dynamic range (CombRng), which is characterized by at least one maximum luminance (LMC) which is determined based on at least one of: a maximum luminance of at least one of the two images or the two image videos, and a peak brightness of a display for reproducing the two images or the two image videos, the dynamic range setting unit further comprising a luminance anchor determining unit (303), arranged to determine an anchor luminance (anc) in the combination luminance dynamic range (CombRng), - a color transformation unit (310), arranged to perform at least one color transformation, luminance in at least one of the two images or videos, wherein the colour transformation unit (310) comprises a source anchor luminance reading unit (311) arranged to read at least one source anchor luminance (L_SA1) from a first source (350) providing a first image or video (Im1_LDR) of the two images or videos, and wherein the colour transformation unit is arranged to establish a colour transformation (FF_1) to be applied to the first image or video, which colour transformation depends on the value of the source anchor luminance (L_SA1) by having the property that the source anchor luminance (L_SA1) is assigned to an output luminance in a proximity of the anchor luminance (anc); and - an image combining unit (320) arranged to combine the two images or two image videos to form at least one output image (Im_o). (Automatic translation with Google Translate, without legal value)

Description

DESCRIPCIÓN DESCRIPTION

Manejo de múltiples fuentes de imágenes HDR Handling multiple HDR image sources

CAMPO DE LA INVENCIÓN FIELD OF INVENTION

La invención se refiere a procedimientos y aparatos para manejar correctamente combinaciones de múltiples imágenes de diferentes fuentes y con diferentes características de luminancia (o vídeos de imágenes temporalmente sucesivas) de las cuales al menos algunas tienen un alto intervalo dinámico. The invention relates to methods and apparatus for correctly handling combinations of multiple images from different sources and with different luminance characteristics (or videos of temporally successive images) of which at least some have a high dynamic range.

ANTECEDENTES DE LA INVENCIÓN BACKGROUND OF THE INVENTION

Hasta hace un par de años, todo el vídeo se codificaba de acuerdo con la llamada filosofía de bajo intervalo dinámico (LDR -Low Dynamic Range),también llamada recientemente intervalo dinámico estándar (SDR -Standard Dynamic Range).Eso significaba, cualquiera que fuera la escena capturada, que el máximo del código (por ejemplo, luma de 8 bits Y'=255; o 100 % de voltaje para la activación de pantalla analógica) debería, por definición estandarizada, corresponder a una representación del color blanco en una pantalla LDR con un brillo máximo de pantalla PB_D (es decir, el color blanco más brillante que la pantalla puede representar) por acuerdo estándar de 100 nits. Si la gente compraba una pantalla real que era un poco más oscura o más brillante, se suponía que el sistema visual del espectador se adaptaría para que la imagen siguiera pareciendo apropiada, en lugar de, por ejemplo, demasiado brillante (en caso de que uno tenga, por ejemplo, una escena nocturna en una película de terror). Este es el paradigma de renderizado relativo, que siempre asigna el color de luminancia máxima en la imagen codificada al brillo máximo de la pantalla, sea cual sea. Esto funcionaría si la pantalla disponible real en el lado de renderización o consumo de vídeo/imagen en realidad no es mucho más brillante que 100 nits, pero puede producir resultados indeseables si la pantalla es mucho más brillante, por ejemplo, 10 veces más brillante, es decir, que tiene un PB_D = 1000 nits. Until a couple of years ago, all video was encoded according to the so-called Low Dynamic Range (LDR) philosophy, also recently called Standard Dynamic Range (SDR). That meant, whatever the captured scene, the maximum of the code (e.g. 8-bit luma Y'=255; or 100% voltage for analog display gating) should, by standardized definition, correspond to a representation of the color white on an LDR display with a maximum display brightness PB_D (i.e. the brightest white color the display can represent) by standard agreement of 100 nits. If people bought a real display that was a bit darker or brighter, the viewer's visual system was supposed to adapt so that the image would still look appropriate, instead of, say, too bright (in case one has, say, a night scene in a horror movie). This is the relative rendering paradigm, which always maps the maximum luminance color in the encoded image to the maximum brightness of the display, whatever that may be. This would work if the actual available display on the rendering or video/image consumption side is actually not much brighter than 100 nits, but can produce undesirable results if the display is much brighter, say 10 times brighter, i.e. has a PB_D = 1000 nits.

Por supuesto, esta es una colorimetría de sistema de televisión definida muy estricta para que todos trabajen de manera coordinada, ya que la realización de un programa práctico típicamente significaba mantener un control estricto de la configuración de iluminación de la escena, ya que incluso en una iluminación perfectamente uniforme, el reflejo de varios objetos ya puede dar una relación de contraste de 100:1, y luego todavía existe la diferencia en la iluminación de varias regiones. Por lo general, se iluminaría y expondría (eligiendo una configuración de iris), de modo que los colores blancos en la (parte bien iluminada de la) escena se asignaran aproximadamente al código blanco, es decir, el código de luma máximo correspondiente a un brillo máximo de codificación PB_C, y por lo general podría recortarse a ese valor de luminancia PB_C para objetos o regiones aún más brillantes en la escena. Normalmente, también las cámaras, especialmente las primeras generaciones de cámaras digitales de principios de los años 2000, tenían problemas para captar simultáneamente zonas muy claras y bastante oscuras, es decir, por ejemplo, una parte de una escena vista fuera de la ventana de una habitación o de un automóvil normalmente se recortaría en blanco (dando componentes de color aditivos rojo, verde y azul R=G=B=max., correspondientes a sus valores de código de luma de raíz cuadrada R'= G'=B'=255). Of course, this is a very strictly defined TV system colorimetry in order to get them all to work in a coordinated manner, as making a practical show typically meant keeping tight control of the scene lighting settings, since even in perfectly uniform lighting, the reflection from various objects can already give a contrast ratio of 100:1, and then there is still the difference in illumination of various regions. Typically one would illuminate and expose (by choosing an iris setting), so that the white colors in the (well-lit part of the) scene were roughly mapped to the white code, i.e. the maximum luma code corresponding to a maximum PB_C encoding brightness, and one could usually clip to that PB_C luminance value for even brighter objects or regions in the scene. Typically also cameras, especially the first generations of digital cameras from the early 2000s, had trouble capturing very bright and quite dark areas simultaneously, i.e. for example a portion of a scene viewed outside a room or car window would typically be clipped to white (giving additive red, green and blue color components R=G=B=max., corresponding to their square root luma code values R'= G'=B'=255).

Sin embargo, recientemente comenzaron a aparecer tanto cámaras de alto intervalo dinámico (y, lo que es más importante, nuevas formas de captura de imágenes HDR o de creación de imágenes en general) como pantallas HDR, y el resto de la tecnología de vídeo y/o imagen, por ejemplo, codificación de imágenes, composición de imágenes, etc., tiene que mantenerse coordinada con estos nuevos requisitos de nivel técnico. Téngase en cuenta que si en esta solicitud se especifica un intervalo dinámico en primer lugar con un brillo máximo (es decir, la luminancia representada más brillante) solamente, suponemos que el extremo inferior del intervalo es pragmáticamente cero (mientras que en la práctica puede depender de las condiciones de visualización, como la visualización de la placa delantera o la reflexión de la luz de la pantalla del cine, por ejemplo, 0.1 nit), y que esos detalles adicionales son irrelevantes para la explicación particular. En caso de que no se haga nada específico técnicamente para los colores de imagen más oscuros, se podría decir que no hay una razón particular por la cual una pantalla de intervalo dinámico más alto, que luego se simplificaría a un brillo máximo de pantalla más alto en primer lugar, debería representar los colores de píxeles más oscuros de manera diferente a una pantalla de intervalo dinámico más bajo, como en particular una pantalla SDR. Téngase en cuenta también que hay varias formas de definir un intervalo dinámico, y que la más natural que se usa típicamente en las explicaciones a continuación es un intervalo dinámico de luminancia representado por pantalla, es decir, la luminancia del color más brillante frente al más oscuro (por supuesto, en la práctica también pueden estar involucrados aspectos psicovisuales, por ejemplo, un solo píxel brillante en una escena oscura puede no ser tan impresionante, pero para algunas explicaciones técnicas a continuación, esto puede descartarse, y solo se aclara el diseño de elementos técnicos que se ajustan a lo que se necesita para los humanos). Se puede definir una imagen HDR como cualquier imagen que pueda contener colores de píxeles y, como se dijo en particular, colores de píxeles más brillantes, que no se pueden codificar en una codificación de imagen SDR. Como la colorimetría de dichas codificaciones de imagen o vídeo SDR se fijó (con el vídeo Rec. 709 OETF correspondiente al OETF sRGB de fotos fijas), se podría determinar matemáticamente que la codificación de luma de 8 bits podría acomodar un intervalo dinámico de solo 1000:1, es decir, de 0,1 nit a 100 nit, y nada más. Por lo tanto, si se desea poder codificar luminancias de escena que se van a mostrar, por ejemplo, 2 veces más brillantes que la escena SDR normal en blanco, es decir, hasta 200 nits, se necesitaría una nueva forma de codificación de imagen o vídeo HDR (el nuevo SMPTE 2084 es un ejemplo de un OETF que permite codificar luminancias de escena mucho más brillantes, o al menos cómo se van a representar en una pantalla en condiciones normales de visualización de televisión, por ejemplo, hasta 10.000 nits como lumas, incluso como lumas de 10 u 8 bits, que luego podrían manejarse como lumas "normales", por ejemplo, para compresión de vídeo como compresión HEVC). El sistema visual humano puede procesar intervalos dinámicos mucho más altos, y también existen en varias escenas HDR prácticas en el mundo (por ejemplo, una escena iluminada por el sol vista desde el interior de una cueva o una habitación oscura con una ventana pequeña), por lo que existe la necesidad de cadenas de manejo de vídeo de mayor intervalo dinámico, para aumentar la "vivacidad" de las imágenes. Por lo general, la iluminación en interiores puede ser una centésima parte de la iluminación en exteriores, por lo que, sabiendo que los objetos negros reflejan aproximadamente el 1 % de la luz entrante, esto ya implicaría la necesidad de un intervalo dinámico (DR -Dynamic Range)de 10000:1. Pero, si los humanos son sensibles al uno por ciento de los colores más negros en una escena nocturna en visión oscura, un DR de 1.000.000:1 del contenido de la imagen codificada puede estar en orden (lo que algunas cámaras pueden lograr y, por ejemplo, medir logarítmicamente). Por supuesto, si, por ejemplo, una cueva grande se ve desde el interior, en principio, en algunas situaciones se podría optar artísticamente por representar esa forma de cueva circundante como negra mínima recortada, pero en otros escenarios uno realmente desearía o necesitaría todos los valores grises diferentes codificados de la región de píxeles más brillante a la más oscura en la imagen, por ejemplo, cuando se produce alguna acción en la cueva (y algunas vistas externas parciales en algunas formas de cueva pueden parecer bastante extrañas cuando se recortan a negro, debido a la inversión de la detección psicológica del primer plano y el fondo parecen recortes de papel rotos, por lo que se podría evitar eso renderizando más colores oscuros en el interior de la cueva). Por lo tanto, un intervalo de visualización renderizado de 0,01 a 10,000 nit puede ser en la práctica un buen intervalo HDR, pero como se dijo, la codificación o renderización de incluso un par de factores 2x por encima de 100 nit PB ya calificaría como tecnología HDR, con la necesidad correspondiente de observar cuidadosamente cómo debe manejarse de manera diferente a la filosofía de vídeo SDR heredada. Téngase en cuenta también que un sistema de código en sí mismo no tiene un intervalo dinámico de forma nativa, a menos que se le asocie una pantalla de referencia, que establezca que, por ejemplo, R'=G'=B'=Y'=255 debería corresponder a un PB de 100 nit, o 1000 nit, etc. Un error común de tiempos anteriores es pensar que el intervalo dinámico de una imagen codificada está estrechamente relacionado con la cantidad de bits utilizados. Aunque eso sería cierto para las codificaciones lineales, como, por ejemplo, el ADC de una cámara que necesita más bits para abarcar el mayor intervalo de variación de fotoelectrones del pozo de píxeles, y aunque puede ser bueno tener al menos algo más de precisión de codificación, es decir, bits para intervalos dinámicos más altos, la cantidad de bits necesarios también depende de la forma elegida de las funciones de asignación de código de luma, que también se denomina función de transferencia optoeléctrica (OETF -Opto-Electrical Transfer Function).Por lo tanto, una imagen codificada Y'CbCr de 10 bits podría ser una imagen HDR, con colores codificables hasta un valor PB_C, así como una imagen SDR con alta precisión. El tipo de imagen que es, es decir, cómo se deben representar los lumas en una pantalla con PB_D suficientemente alto para poder mostrar todos los lumas codificados como luminancias correspondientes, generalmente se determinará leyendo los metadatos, como, por ejemplo, el valor PB_C codificado en nits de la imagen recibida. El PB_C también se puede interpretar como el PB_D de una pantalla de referencia ideal para la cual la imagen se ha graduado en color, es decir, en qué pantalla se vería óptima, en lugar de demasiado oscura o demasiado brillante. However, recently both high dynamic range cameras (and, more importantly, new ways of HDR image capture or imaging in general) and HDR displays started to appear, and the rest of the video and/or imaging technology, e.g. image coding, image compositing, etc., has to be kept coordinated with these new technical level requirements. Note that if in this application a dynamic range is specified first of all with a peak brightness (i.e. the brightest represented luminance) only, we assume that the lower end of the range is pragmatically zero (while in practice it may depend on viewing conditions, such as front plate viewing or cinema screen light reflection, e.g. 0.1 nit), and that those additional details are irrelevant for the particular explanation. In case nothing technically specific is done for darker image colors, one could say that there is no particular reason why a higher dynamic range display, which would then be simplified to a higher maximum display brightness in the first place, should render darker pixel colors differently than a lower dynamic range display, like in particular an SDR display. Note also that there are several ways to define a dynamic range, and that the most natural one typically used in the explanations below is a display-rendered dynamic range of luminance, i.e. the luminance of the brightest color vs. the darkest one (of course in practice psychovisual aspects may also be involved, e.g. a single bright pixel in a dark scene may not be that impressive, but for some technical explanations below this can be discarded, and only the design of technical elements that fit what is needed for humans is made clear). An HDR image can be defined as any image that can contain pixel colors, and as stated in particular, brighter pixel colors, which cannot be encoded in an SDR image encoding. Since the colorimetry of such SDR image or video encodings was fixed (with the Rec. 709 video OETF corresponding to the sRGB OETF for still photos), it could be mathematically determined that the 8-bit luma encoding could accommodate a dynamic range of only 1000:1, i.e. from 0.1 nit to 100 nit, and no more. So if one wanted to be able to encode scene luminances that are to be displayed e.g. 2x brighter than the normal white SDR scene, i.e. up to 200 nits, one would need a new way of HDR image or video encoding (the new SMPTE 2084 is an example of an OETF that allows much brighter scene luminances, or at least how they are to be represented on a display under normal TV viewing conditions, e.g. up to 10,000 nits, to be encoded as lumas, even as 10- or 8-bit lumas, which could then be handled as "normal" lumas, e.g. for video compression like HEVC compression). The human visual system can process much higher dynamic ranges, and they also exist in several practical HDR scenes in the world (e.g. a sunlit scene viewed from inside a cave, or a dark room with a small window), so there is a need for higher dynamic range video drive chains, to increase the "liveliness" of images. Typically indoor lighting can be one-hundredth of outdoor lighting, so knowing that black objects reflect about 1% of incoming light, this would already imply the need for a dynamic range (DR) of 10000:1. But, if humans are sensitive to the blackest one percent of colors in a night scene in dark vision, a DR of 1,000,000:1 of the encoded image content may be in order (which some cameras can achieve and e.g. measure logarithmically). Of course, if for example a large cave is viewed from the inside, then in principle in some situations one might artistically choose to render that surrounding cave shape as minimal black clipped, but in other scenarios one would actually want or need all the different grey values encoded from the brightest to the darkest pixel region in the image, for example when some action is happening in the cave (and some partial external views in some cave shapes can look quite strange when clipped to black, due to the psychological detection inversion of foreground and background looking like torn paper cutouts, so one could avoid that by rendering more dark colours inside the cave). So a rendered display range of 0.01 to 10,000 nit may in practice be a good HDR range, but as said, encoding or rendering even a couple of 2x factors above 100 nit PB would already qualify as HDR technology, with a corresponding need to look carefully at how it should be handled differently from legacy SDR video philosophy. Note also that a code system by itself does not natively have a dynamic range, unless a reference display is associated with it, stating that e.g. R'=G'=B'=Y'=255 should correspond to a PB of 100 nit, or 1000 nit, etc. A common misconception from earlier times is that the dynamic range of an encoded image is closely related to the number of bits used. While that would be true for linear encodings, such as for example a camera's ADC which needs more bits to span the larger photoelectron variation range of the pixel well, and while it may be nice to have at least some more encoding precision, i.e. bits for higher dynamic ranges, the number of bits needed also depends on the chosen form of the luma code mapping functions, which is also called the Opto-Electrical Transfer Function (OETF). Thus, a 10-bit Y'CbCr encoded image could be an HDR image, with colours encodable down to a PB_C value, as well as an SDR image with high precision. What kind of image it is, i.e. how the lumas should be represented on a display with high enough PB_D to be able to display all the encoded lumas as corresponding luminances, will usually be determined by reading metadata, such as for example the encoded PB_C value in nits of the received image. The PB_C can also be interpreted as the PB_D of an ideal reference display for which the image has been color graded, i.e. on which display it would look optimal, rather than too dark or too bright.

Por lo tanto, una codificación de una imagen que es capaz de codificar imágenes con luminancias a representar de, por ejemplo, hasta 1000 nit es un buen punto de partida para tener HDR de buena calidad, y el lector puede tener en cuenta dicha configuración cuando necesite resumir una parte de una enseñanza a continuación, a menos que se mencionen otros detalles. Therefore, an image encoding that is capable of encoding images with luminances to be represented of, for example, up to 1000 nit is a good starting point for having good quality HDR, and the reader can take such a configuration into account when needing to summarize a part of a teaching below, unless other details are mentioned.

Entonces, en la práctica, hay escenas que pueden tener un intervalo dinámico muy alto (por ejemplo, una captura en interiores con objetos tan oscuros como 1 nit, mientras que simultáneamente se ven a través de la ventana objetos iluminados por el sol con luminancias superiores a 10,000 nit), y dado que las pantallas se están volviendo mejores (un par de veces más brillantes que 100 nit, con 1000 nit apareciendo actualmente, y se prevén PB de varios miles de nit), un objetivo es poder renderizar estas imágenes maravillosamente, sin embargo, y eso es importante: no exactamente idéntico al original, pero al menos muy natural, o al menos agradable. Así que HDR no se trata simplemente de un color más brillante y más oscuro, sino también de todas las luminancias intermedias, es decir, de hecho se trata de apariencias psicovisuales para los humanos en última instancia. Por supuesto, técnicamente, para algunas tecnologías de manejo HDR, como la mera codificación, se podría formular la apariencia necesaria en términos de luminancias técnicas que se representarán en una pantalla, porque eso es lo que debe suceder al controlar la pantalla correctamente, para que un ser humano vea los colores que aparecen correctamente. Pero el solicitante quiere enfatizar (para que el lector entienda toda la historia a continuación y lo que significa) que cuando uno desea diseñar un sistema técnico HDR versátil, uno necesita abolir el paradigma inveterado de la vista de conexión directa de 1 a 1 de la mera codificación. En Rec. 709, un radiodifusor podía ver en su monitor SDR estándar (único existente) qué luminancias estaba capturando, viendo cómo se renderizaban en su monitor, y se renderizaban en todos los televisores en casa, que serían los mismos en todas partes, porque solo había el sabor único de una pantalla SDR PB_D de 100 nits. Lo único que todavía tenía que hacer era convertir las luminancias que se iban a representar (medidas por la cámara) en códigos de luma (porque dichos códigos harían un mejor uso de los detalles técnicos de la tecnología de transmisión disponible), aplicando aproximadamente una función de raíz cuadrada, y luego en el lado del receptor la función inversa (EOTF) garantizaría que un espectador que vea el contenido decodificado sustancialmente en el mismo televisor en el mismo entorno de visualización que en el lado de la creación, experimentaría el programa como se deseaba. Esa sigue siendo la visión de HDR10. Se utiliza un EOTF de forma diferente al del Rec. 709, pero aún los colores renderizados por visualización de referencia que eran visualizables en el lado de creación todavía se renderizan con luminancias idénticas en el lado de recepción, simplemente aplicando una ecuación matemática fija a los lumas recibidos. Pero el mundo HDR real es muy variable, con diferentes espectadores que tienen diferentes pantallas con diferentes PB_D, una cantidad diferente de lámparas encendidas en sus salas de visualización, etc. Y eso fue exactamente por lo que se criticaron las películas HDR codificadas con HDR10: debido a que las películas HDR contienen muchos píxeles que son relativamente oscuros, será difícil verlos bajo una iluminación envolvente brillante (aunque la acción importante a menudo tiene lugar en las partes relativamente más oscuras del vídeo). Y HDR10 no ofrece ninguna solución para eso, con la esperanza de que los fabricantes de pantallas lo resuelvan. Sin embargo, el solicitante piensa que en general es un asunto complicado, que depende del tipo de imagen de escena HDR, y debe tener un mecanismo para permitir que el creador de contenido tenga voz en la representación de visualización definitiva (variable, es decir, no matemática fija invertida directamente conectada 1 a 1 entre alguna representación de luminancia y luma de los colores deseados) de los colores de la imagen HDR. So in practice there are scenes that can have a very high dynamic range (e.g. an indoor shot with objects as dark as 1 nit, while simultaneously viewing through the window sunlit objects with luminances above 10,000 nit), and since displays are getting better (a couple of times brighter than 100 nit, with 1000 nit appearing currently, and PBs of several thousand nits predicted), one goal is to be able to render these images beautifully, though - and that's important - not exactly identical to the original, but at least very natural, or at least pleasing. So HDR is not simply about brighter and darker colour, but also about all the luminances in between - i.e. it's in fact about psychovisual appearances for humans ultimately. Of course, technically, for some HDR handling technologies, such as mere encoding, one could formulate the necessary appearance in terms of technical luminances to be represented on a display, because that is what needs to happen when driving the display correctly, in order for a human to see the colors appearing correctly. But the applicant wants to emphasize (so that the reader understands the whole story below and what it means) that when one wants to design a versatile HDR technical system, one needs to abolish the inveterate paradigm of the 1-to-1 direct connection view of mere encoding. In Rec. 709, a broadcaster could see on his standard (only existing) SDR monitor what luminances he was capturing, seeing how they were rendered on his monitor, and rendered on all the TVs at home, which would be the same everywhere, because there was only the unique flavor of a 100 nit SDR PB_D display. The only thing still needed to be done was to convert the luminances to be represented (as measured by the camera) into luma codes (because such codes would make better use of the technical details of the available transmission technology), by roughly applying a square root function, and then on the receiver side the inverse function (EOTF) would ensure that a viewer watching the decoded content on substantially the same TV in the same viewing environment as on the creation side would experience the program as intended. That's still the vision of HDR10. It uses a different EOTF than Rec. 709, but still the reference display-rendered colors that were displayable on the creation side are still rendered with identical luminances on the receive side, simply by applying a fixed mathematical equation to the received lumas. But the real HDR world is highly variable, with different viewers having different displays with different PB_Ds, different number of lamps on in their viewing rooms, etc. And that was exactly what HDR movies encoded with HDR10 were criticized for: because HDR movies contain many pixels that are relatively dark, they will be difficult to view under bright surround lighting (although the important action often takes place in the relatively darker parts of the video). And HDR10 offers no solution for that, hoping that display manufacturers will sort it out. However, the applicant thinks that in general it is a complicated issue, dependent on the type of HDR scene image, and there should be a mechanism to allow the content creator to have a say in the ultimate display representation (variable, i.e. not some fixed mathematical inverted directly connected 1-to-1 between some luminance and luma representation of the desired colors) of the HDR image colors.

El lector también debe entender que debido a que un espectador suele ver el contenido en una situación diferente (sentado en una sala de estar débilmente iluminada por la noche, o en una casa oscura o en un cine, en lugar de estar de pie en un paisaje africano brillante), no hay identidad entre las luminancias de la escena y las que finalmente se muestran en la televisión (u otra pantalla). En realidad, ningún televisor puede ni podrá representar exactamente al menos algunos objetos como, por ejemplo, el sol de mil millones de nits, ni el espectador quiere ser cegado por él (al ver una pantalla pequeña, los ángulos o el deslumbramiento determinado de ese modo no son los mismos que en un entorno envolvente de ángulo sólido de 4*pi, por lo que también se debe tener cuidado con eso). El solicitante resolvió esta traducción de las luminancias apropiadas que se mostrarán a partir de los valores RGB relativos capturados por una cámara definiendo una gradación de color HDR maestra, para comenzar a codificar y comunicar. Este conjunto de imágenes HDR graduadas se puede crear según lo desee un artista (debe ser claramente obvio para el lector que, aunque podemos mencionar al artista, cuáles deben ser los aspectos técnicos de esta invención, lo que permite al artista hacer la comunicación y el control de sus requisitos), si tiene un monitor de referencia disponible, por ejemplo, puede sentarse en un entorno de visualización típico y calificar perfectamente sus imágenes HDR para una pantalla PB de 5000 nits. Pero eso es solo la mitad de la historia, es decir, poder (en absoluto, en un nuevo conjunto de requisitos de vídeo) determinar consistentemente una imagen de aspecto artísticamente agradable para una escena HDR (y poder representar fielmente esa imagen si uno la ve exactamente en la misma pantalla p B_D de 5000 nits bajo las mismas restricciones de situación de visualización). Lo que debería suceder si un consumidor que recibe imágenes HDR de 5000 nits solo tiene una pantalla de 1000 nits se explicará a continuación (ajuste de pantalla). Esa es una cuestión completamente diferente, lejos de ser algo que se pueda manejar con un enfoque de comunicación directa de 1 a 1, y uno puede comenzar a reflexionar sobre cuál debería ser ese único sistema de referencia con una pantalla de referencia PB_D. The reader should also understand that because a viewer is typically viewing content in a different situation (sitting in a dimly lit living room at night, or in a dark house, or in a movie theater, rather than standing in a bright African landscape), there is no identity between the luminances in the scene and those ultimately displayed on the TV (or other screen). In reality, no TV can or will be able to accurately represent at least some objects like, say, the billion-nit sun, nor does the viewer want to be blinded by it (when viewing a small screen, the angles or glare determined thereby are not the same as in a 4*pi solid angle surround environment, so care must be taken with that as well). The applicant solved this translation of the appropriate luminances to be displayed from the relative RGB values captured by a camera by defining a master HDR color grading, to begin encoding and communicating. This set of graded HDR images can be created as desired by an artist (it should be clearly obvious to the reader that while we may mention the artist, what the technical aspects of this invention should be, allowing the artist to do the communicating and controlling of his requirements), if he has a reference monitor available for example, he can sit in a typical viewing environment and perfectly grade his HDR images for a 5000 nits PB display. But that's only half the story, namely being able (at all, under a new set of video requirements) to consistently determine an artistically pleasing looking image for an HDR scene (and being able to faithfully represent that image if one views it on exactly the same 5000 nits PB_D display under the same viewing situation constraints). What should happen if a consumer receiving 5000 nits HDR images only has a 1000 nits display will be explained below (display tuning). That's a completely different question, far from something that can be handled with a direct 1-to-1 communication approach, and one can start to ponder what that single reference system should be with a PB_D reference display.

Si esta solicitud habla de imágenes de "alto intervalo dinámico", significa que una de ellas tiene contenido de imagen adecuado para su visualización en al menos una pantalla PB_D de 1000 nits (por supuesto, el contenido también se puede mostrar en una pantalla de 100 nits o 500 nits, pero a continuación no es tan perfecto como podría ser, por ejemplo, las lámparas serán más tenues de lo ideal). Por lo tanto, en esta imagen habrá contenido que la haga visualmente interesante cuando se muestre en una pantalla PB_D más alta, es decir, hay algunos objetos de imagen que son mucho más brillantes que el promedio (o, por el contrario, en comparación con el color más brillante que se puede normalizar como Y=1; al menos algunos objetos que son mucho más oscuros, que los típicos de las imágenes SDR). Por ejemplo, una escena interior puede tener brillos que van hasta 500 nits o incluso más en la escena original, y dependiendo de si uno tiene un invernadero bien iluminado o una región de túnel estrecho de un par de nits o menos, y los brillos exteriores pueden ser en el mundo real varios miles de nits. En una pantalla, uno puede a continuación renderizar el interior por debajo de 100 nit y usar lo que la pantalla tenga disponible por encima de eso de manera óptima para los objetos al aire libre, por ejemplo, hasta 500 nit si uno tiene una película o programa de "día opaco", y hasta 1500 nit si está soleado afuera, en caso de que uno tenga una pantalla que pueda renderizar hasta 1500 nit o más (PB_D >= 1500 nit). Por lo tanto, incluso solo en la representación, puede haber una relación entre las regiones de imagen más brillantes y más oscuras de (1500/2)/(100/2) o al menos 500/100 (siendo esto típicamente definible como regiones que están iluminadas de manera diferente, es decir, puntos medios de regiones que todavía tienen un contraste intrarregional de hasta 100:1 y típicamente 30:1 debido a la reflexión del objeto). Si se asocia esto con códigos de luma por medio de una función continua, esos lumas también se separarán, pero serán menos útiles para especificar el contenido (dependerán de la forma de la OETF y, posiblemente, de los requisitos técnicos). Cuando esta solicitud menciona imágenes de intervalo dinámico más bajo (que las imágenes HDR) o bajo, hablamos de imágenes (tal vez un aspecto graduado diferente de exactamente la misma imagen de escena original capturada por la cámara, es decir, la imagen HDR de la misma escena) que tienen (o de hecho están asociadas con una pantalla de referencia de PB) un brillo máximo que es al menos una parada (un factor multiplicativo 2) más bajo, o típicamente al menos 2 3 paradas (4x u 8x, o más). Una imagen SDR se ajustaría al PB_C prescrito estándar de 100 nit. La relación de contraste de todos los objetos en esos no suele ser mucho más de 100: 1 o hasta 1000:1 como máximo, es decir, normalmente se ve un histograma de luminancia o luma mucho más uniforme. If this request is talking about "high dynamic range" images, it means that one of them has image content suitable for display on at least a 1000 nits PB_D display (of course, content can also be displayed on a 100 nits or 500 nits display, but then it's not as perfect as it could be - for example lamps will be dimmer than ideal). Therefore, in this image there will be content that makes it visually interesting when displayed on a higher PB_D display, i.e. there are some image objects that are much brighter than average (or, conversely, compared to the brightest color that can be normalized as Y=1; at least some objects that are much darker, than typical for SDR images). For example, an indoor scene might have brightnesses going up to 500 nits or even higher in the original scene, and depending on whether one has a well-lit greenhouse or a narrow tunnel region a couple of nits or less, and outdoor brightnesses might be in the real world several thousand nits. On a display, one might then render the interior below 100 nits and use whatever the display has available above that optimally for outdoor objects, e.g. up to 500 nits if one has a "dull day" movie or show, and up to 1500 nits if it's sunny outside, in case one has a display that can render up to 1500 nits or higher (PB_D >= 1500 nit). Thus, even in rendering alone, there may be a ratio between the brightest and darkest image regions of (1500/2)/(100/2) or at least 500/100 (this being typically definable as regions that are differently illuminated, i.e. midpoints of regions that still have intraregional contrast of up to 100:1 and typically 30:1 due to object reflection). If this is coupled with luma codes via a continuous function, those lumas will also be separated, but will be less useful for specifying content (depending on the shape of the OETF and possibly the technical requirements). When this application mentions lower dynamic range (than HDR images) or low, we are talking about images (perhaps a different graded look of exactly the same original scene image captured by the camera, i.e. the HDR image of the same scene) that have (or are in fact associated with a PB reference display) a peak brightness that is at least one stop (a multiplicative factor 2) lower, or typically at least 2-3 stops (4x or 8x, or more). An SDR image would fit the standard prescribed PB_C of 100 nit. The contrast ratio of all objects in those is usually not much more than 100:1 or up to 1000:1 at most, i.e. you typically see a much more uniform luminance or luma histogram.

Una segunda cosa que se necesita si se conoce el intervalo dinámico de luminancia de píxeles de imagen (que debería representarse en última instancia) para el que se necesita definir códigos de luma, es cómo distribuir realmente los códigos, es decir, con qué función de asignación de código asociar un código de luma correspondiente Y' (no solo 1023 en una codificación de 10 bits que normalmente se puede asignar al PB_D de la pantalla de referencia asociada, sino, por ejemplo, con qué luminancia debería corresponder el código de luma 743) con un objeto o luminancia de píxel Y, o viceversa. A second thing that is needed if the dynamic range of image pixel luminance (which should ultimately be represented) for which luma codes need to be defined is known, is how to actually distribute the codes, i.e. with which code mapping function to associate a corresponding luma code Y' (not just 1023 in a 10-bit encoding which can usually be mapped to the PB_D of the associated reference display, but for example with what luminance the luma code 743 should correspond) with an object or pixel luminance Y, or vice versa.

En los últimos 2-5 años, un par de empresas han propuesto diferentes formas de codificar vídeos HDR (es decir, imágenes en movimiento o, en otras palabras, conjuntos de imágenes temporalmente sucesivas). Ha habido una cierta prisa hacia los primeros productos, que se esperan en 2016, por lo que a pesar de la complejidad de la codificación y el manejo de imágenes HDR, es posible que se hayan recortado algunas esquinas. Esto ha llevado a diferentes técnicas de codificación, que incluso se basaron en diferentes filosofías básicas. Que no se decidiera finalmente significaría que todos los sistemas de manejo de imágenes tendrían que poder ocuparse de las diferencias, y eso podría volverse bastante complejo (ciertamente en comparación con la simplicidad de la colorimetría única de la era del vídeo SDR, hace 5 años). Over the past 2-5 years, a couple of companies have proposed different ways of encoding HDR video (i.e. moving pictures, or in other words, sets of temporally successive images). There has been a bit of a rush towards the first products, expected in 2016, so despite the complexity of encoding and handling HDR images, some corners may have been cut. This has led to different encoding techniques, which were even based on different basic philosophies. Not finally settling on this would mean that all image handling systems would have to be able to deal with the differences, and that could get quite complex (certainly compared to the simplicity of single colorimetry in the SDR video era, 5 years ago).

Dolby Laboratories Inc. comenzó con un sistema de dos capas (es decir, se necesita una imagen base y una imagen de corrección para hacer una imagen HDR, en línea con los conceptos de escalabilidad en la compresión de vídeo), que es algo más caro de poner en chips baratos, pero también ha diseñado una codificación de una sola capa y contribuyó con una EOTF básica, el llamado cuantificador perceptual PQ(Perceptual Quantizer),recientemente estandarizado como SMPTE ST. 2084. Dolby Laboratories Inc. started with a two-layer system (i.e., a base image and a correction image are needed to make an HDR image, in line with scalability concepts in video compression), which is somewhat more expensive to put on cheap chips, but has also designed a single-layer coding and contributed a basic EOTF, the so-called Perceptual Quantizer (PQ), recently standardized as SMPTE ST. 2084.

La tecnología se explica muy bien en: https://www.smpte.org/sites/default/files/2014-05-06-EOTF-Miller-1-2-handout.pdf. The technology is explained very well at: https://www.smpte.org/sites/default/files/2014-05-06-EOTF-Miller-1-2-handout.pdf.

La idea detrás de esto era que la raíz cuadrada clásica (o más exactamente Rec. 709) función de conversión o transferencia optoelectrónica OETF (la inversa de la potencia cuadrada EOTF), que se usaba convencionalmente para convertir luminancias de escena de cámara a códigos de luma, no es adecuada para las altas relaciones de contraste entre diferentes regiones que posiblemente ocurren en imágenes HDR, sin importar cuántos bits se usen (o al menos para números pragmáticos como 14 bits o menos, para los altos intervalos dinámicos que pueden ocurrir en la vida real, como las gradaciones maestras para 20 paradas o más escenas). Pero esto resultó ser una buena inspiración. Aunque originalmente se diseñó debido a un comportamiento físico accidental de los cañones de electrones de los CRT(Cathode-Ray Tubes - Tubos de Rayos Catódicos),la función de raíz cuadrada siguió de cerca cómo la visión humana convierte las luminancias de la escena en códigos de luminosidad visual, por lo que era una buena manera de usar mejor los códigos (con un siguiente código correspondiente a una siguiente impresión de luminosidad psicovisual, por lo que no se desperdician demasiados códigos en lo que no se puede percibir fácilmente de todos modos, ni, lo que es peor, no hay regiones donde haya muy pocos códigos para codificar con precisión gradientes de luminancia suaves y precisos). Ahora se puede generalizar esta curva que da para cada intervalo de luminancia sucesivo (por ejemplo, una parada más brillante) aproximadamente una cantidad igual de códigos de luma hasta un brillo codificable máximo, que Dolby normalmente considera de 10.000 nits (que de hecho debería ser suficiente para la representación pragmática de la pantalla porque algunas personas ya se quejan de que es demasiado brillante, aunque por experimento también se puede encontrar que se pueden hacer imágenes impresionantes incluso con regiones grandes e incluso regiones parpadeantes por encima de 20.000 nits, y todo, por supuesto, depende de cómo se asignan las luminancias de varios objetos de imagen a lo largo del intervalo posible, y uno no siempre necesita llenar eso hasta PB para cada tipo de imagen todo el tiempo; y aquellos que se quejan de imágenes dolorosamente brillantes que podrían ser peligrosas deberían darse cuenta de que la luna llena en la noche también es de 5000 nits, y nadie se ha quedado ciego al mirar la luna). The idea behind this was that the classical square root (or more exactly Rec. 709) optoelectronic transfer or conversion function OETF (the inverse of the square power EOTF), which was conventionally used to convert camera scene luminances to luma codes, is not suitable for the high contrast ratios between different regions that are likely to occur in HDR images, no matter how many bits are used (or at least for pragmatic numbers like 14 bits or less, for the high dynamic ranges that may occur in real life, like master gradations for 20 stops or more scenes). But this turned out to be a good inspiration. Although originally designed due to an accidental physical behavior of CRT electron guns, the square root function closely followed how human vision converts scene luminances into visual luminance codes, and so was a good way to make better use of the codes (with a next code corresponding to a next psychovisual luminance impression, so not too many codes are wasted on what can't be easily perceived anyway, nor, worse, no regions where there are too few codes to accurately encode smooth, precise luminance gradients). Now one can generalize this curve giving for each successive luminance interval (e.g. one stop brighter) approximately an equal amount of luma codes up to a maximum encodable brightness, which Dolby normally considers to be 10,000 nits (which should indeed be sufficient for pragmatic display rendering because some people already complain that it is too bright, although by experiment one can also find that one can make impressive pictures even with large and even flickering regions above 20,000 nits, and everything of course depends on how the luminances of various picture objects are allocated over the possible interval, and one does not always need to fill that up to PB for every picture type all the time; and those who complain about painfully bright pictures which might be dangerous should realize that the full moon at night is also 5000 nits, and nobody has ever gone blind by looking at the moon).

Así que Dolby estandarizó una EOTF de referencia, y uno puede usar su inversa siendo la OETF (o aproximadamente la inversa en caso de que uno quiera más comportamientos) para definir lumas para todos los objetos/píxeles en la imagen, y a continuación uno puede poner esos códigos (típicamente codificados por colores clásicamente como YCbCr, pero también se podría usar la codificación RGB), por ejemplo, en un disco Blu-Ray, después de aplicar técnicas de codificación HEVC regulares. A continuación, se tiene una clasificación HDR maestra en elBD,(Blue-Ray Disk)que se puede representar, de la manera que desee el artista, por ejemplo, mediante un televisor de 5000 nits que puede decodificarlo. Por lo tanto, se tiene un mecanismo para proporcionar de extremo a extremo, 1 a 1, para mostrar imágenes HDR (solo) de alguna escena en una pantalla del consumidor, en las instalaciones del consumidor. Por supuesto, cuando se dice a continuación, por ejemplo, a través de un BD, el lector experto entenderá que todos los demás mecanismos de comunicación de imagen o vídeo, como, por ejemplo, transmisión por satélite, entrega de vídeo por Internet, etc., también se entienden, ya que los conceptos presentados tienen una gran aplicabilidad. Esta EOTF 2084 también ha sido elegida como la función de mapeo de luminancia a luminancia para la codificación HDR10. So Dolby standardized on a reference EOTF, and one can use its inverse being the OETF (or roughly the inverse in case one wants more behaviors) to define lumas for all objects/pixels in the image, and then one can put those codes (typically classically color-coded as YCbCr, but one could also use RGB encoding), for example, on a Blu-Ray disc, after applying regular HEVC encoding techniques. One then has a master HDR rating on the BD, (Blue-Ray Disk), which can be rendered, any way the artist wants, for example, by a 5000 nits TV that can decode it. Thus one has a mechanism to provide end-to-end, 1-to-1, for displaying HDR (only) images of some scene on a consumer display, at the consumer premises. Of course, when it is said below, for example, via a BD, the expert reader will understand that all other image or video communication mechanisms, such as, for example, satellite transmission, Internet video delivery, etc., are also understood, since the concepts presented have a wide applicability. This EOTF 2084 has also been chosen as the luminance-to-luminance mapping function for HDR10 encoding.

La emisora británica BBC ha diseñado una forma diferente de codificación de vídeo HDR. Vinieron con una OETF estandarizada (porque comenzaron desde la vista de la cámara en lugar de la pantalla que estandariza una EOTF de una pantalla de referencia), que tiene una forma algo diferente. Su visión y tecnología se describen muy bien en: http://down-loads.bbc.co.uk/rd/pubs/whp/whp-pdf- files/WHP283.pdf The British broadcaster BBC has designed a different way of encoding HDR video. They came up with a standardized OETF (because they started from the camera view rather than the display which standardizes an EOTF from a reference display), which is a bit different in form. Their vision and technology is described very well at: http://down-loads.bbc.co.uk/rd/pubs/whp/whp-pdf-files/WHP283.pdf

Definen una OETF que sigue de cerca la raíz cuadrada clásica Rec. 709 forma de la función OETF hasta un gris medio (Y'=0,5) de la clásica de 100 nits Rec. 709 OETF, y para luminancias más altas se convierte en logarítmico, para poder exprimir más colores brillantes sobre el color del objeto blanco de la escena en los códigos disponibles. Se inspiró en lo que las cámaras ya hacían durante mucho tiempo cuando necesitaban hacer una buena imagen de salida LDR para una escena que era demasiado HDR. Es decir, en lugar de una relación de contraste de luminancia de aproximadamente 200:1 píxeles, se tenían, por ejemplo, algunas regiones que eran demasiado brillantes, y se intentó exprimir brillos que son 4 veces más brillantes que el blanco de la escena que debería asignarse a Y'=255, por lo tanto, la luminancia renderizada Y= 100 nit. Aunque los objetos blancos de la escena a continuación se vuelven grisáceos, a veces puede ser psicovisualmente aceptable porque el cerebro también ve e interpreta las regiones de píxeles más brillantes en la imagen total. Siempre se puede mapear tales luminancias de escena brillantes para mostrar PB simplemente reduciendo la exposición de la cámara (por ejemplo, cambiando el iris), pero a continuación la cara del lector de noticias puede oscurecerse demasiado. Entonces, lo que hicieron las cámaras fue seguir la curva hasta, por ejemplo, Y'= 80 % o algún otro punto de inflexión, y a partir de ahí usar una curva que tenga una pequeña pendiente, por lo que puede representar un buen número de luminancias de escena más altas en el 20 % restante de los códigos. O se podría usar alguna curva de registro específica de la cámara, que redujo un poco las luminancias de los píxeles más oscuros (por lo que tal vez oscurezca un poco las caras, lo que no debería ser necesariamente un problema en una escena de alto contraste, porque el espectador entiende que la persona está de pie en una región relativamente oscura (posiblemente sombra), y el brillo podría ajustarse adecuadamente, en una pantalla más brillante, de todos modos), pero liberando algunos códigos más para los colores de píxeles realmente brillantes que a continuación suelen representarse de manera un poco más gruesa, por ejemplo, con un recorte suave. De esta manera, hay un equilibrio entre los colores que deben mostrarse lo suficientemente brillantes y una calidad visual aún razonable para colores más brillantes. Pero el problema era que cada cámara hacía este mapeo logarítmico de las luminancias de escena relativas capturadas (por supuesto, en esencia, absolutas) de los códigos de luma de una manera diferente, lo que seguía siendo razonable cuando las cámaras todavía eran solo cámaras LDR extra buenas, pero más problemático para una cámara que es realmente una buena cámara HDR, que se supone que captura escenas HDR complejas de tal vez 20 paradas. Así que la BBC quería definir una curva fija para todos los propósitos prácticos. Aun así, al aplicar esa curva OETF fija como una curva de mapeo de luminancia a la imagen graduada HDR maestra como entrada, se obtendría una versión SDR razonable de la misma, y si se transmite esta imagen, a continuación las pantallas heredadas pueden representar directamente la imagen SDR, y las pantallas HDR pueden aplicar la curva inversa fija para reconstruir la imagen HDR maestra. Y una ventaja del procedimiento de la BBC es que poco se tiene que cambiar en la tecnología, ya que todo funciona casi como solía ser (pero eso podría ser demasiado engañoso y tener un precio a pagar, durante la producción o al menos algunas combinaciones de vídeo). They define an OETF that closely follows the classical Rec. 709 square root OETF function shape down to a mid-gray (Y'=0.5) of the classical 100 nit Rec. 709 OETF, and for higher luminances it becomes logarithmic, in order to be able to squeeze more bright colors over the white object color of the scene in the available codes. It was inspired by what cameras were already doing for a long time when they needed to make a good LDR output image for a scene that was too HDR. Namely, instead of a luminance contrast ratio of about 200:1 pixels, one had for example some regions that were too bright, and one tried to squeeze out brights that are 4 times brighter than the white of the scene that should be mapped to Y'=255, hence the rendered luminance Y=100 nit. Although the white objects in the scene below become greyish, it can sometimes be psychovisually acceptable because the brain also sees and interprets the brighter pixel regions in the total image. One can always map such bright scene luminances to display PB by simply reducing the camera exposure (e.g. by changing the iris), but then the newsreader's face may become too dark. So what the cameras did was to follow the curve up to, say, Y'=80% or some other inflection point, and from there use a curve that has a small slope, so it can represent a good number of higher scene luminances in the remaining 20% of the codes. Or one could use some camera-specific log curve, which reduced the luminances of the darker pixels a bit (so maybe darkening faces a bit, which shouldn't necessarily be a problem in a high contrast scene, because the viewer understands that the person is standing in a relatively dark region (possibly shadow), and the brightness could be adjusted appropriately, on a brighter display, anyway), but freeing up some more code for the really bright pixel colors which are then usually rendered a bit more coarsely, e.g. with soft clipping. This way there is a balance between colors that need to be displayed bright enough, and a still reasonable visual quality for brighter colors. But the problem was that every camera did this logarithmic mapping of captured relative scene luminances (of course, in essence, absolute) to luma codes in a different way - which was still reasonable when cameras were still just extra-good LDR cameras, but more problematic for a camera that is actually a good HDR camera, which is supposed to capture complex HDR scenes of maybe 20 stops. So the BBC wanted to define a fixed curve for all practical purposes. Still, applying that fixed OETF curve as a luminance mapping curve to the master HDR graded image as input would result in a reasonable SDR version of it, and if you transmit this image, then legacy displays can directly render the SDR image, and HDR displays can apply the fixed inverse curve to reconstruct the master HDR image. And one advantage of the BBC's approach is that little needs to be changed in the technology, as everything works pretty much as it used to (but that might be too tricky and come at a price, during production or at least some video combinations).

Pueden tener varios puntos de partida diferentes, por ejemplo, Dolby puede haberse centrado más en el mercado de películas profesionales, mientras que la BBC puede haberse centrado más en los requisitos prácticos de televisión, como producciones de campo de espectáculos, equipos de televisión desplegados, etc. Pero una diferencia importante que es interesante para esta solicitud de patente es que la BBC consideró que las luminancias de píxeles (o, de hecho, los colores) deberían representarse relativamente, mientras que Dolby consideró que deberían representarse absolutamente. Esa es una diferencia importante en la filosofía, porque determina si te paras en el lado referido a la escena o en el lado referido a la pantalla de la brecha que debe cruzarse para llegar a la representación óptima. Es una gran diferencia sobre qué luminancias se codificarán en dos imágenes que deben combinarse, pero va aún más allá, puede influir en cómo una filosofía alternativa de este tipo dictaría que la combinación puede ser necesaria, desde el punto de vista del enfoque y las propiedades esenciales. They may have a number of different starting points, for example Dolby may have been more focused on the professional film market, whereas the BBC may have been more focused on practical TV requirements such as field productions of shows, deployed TV crews, etc. But one important difference that is interesting for this patent application is that the BBC considered that pixel luminances (or indeed colours) should be represented relatively, whereas Dolby considered that they should be represented absolutely. That's an important difference in philosophy, because it determines whether you stand on the scene-referential side or the screen-referential side of the gap that needs to be crossed to arrive at the optimal representation. It's a big difference about what luminances are to be encoded in two images that need to be combined, but it goes even further - it may influence how such an alternative philosophy would dictate that combining may be necessary, from the point of view of focus and essential properties.

Por lo tanto, la BBC abordó el problema definiendo una OETF básica, que definía luminancias y lumas HDR relativas de grado maestro (o al menos capturadas por cámara, con también algunas decisiones de apariencia como elegir una exposición, y tal vez una curva gamma), y las luminancias de visualización apropiadas para ser renderizadas deben calcularse aplicando algún sistema gamma, que dependería tanto de la pantalla PB_D como del brillo del entorno de visualización. Eso significaría que si un fabricante de pantallas obtiene contenido codificado por la BBC, que puede contener luminancias de hasta 12 veces el nivel de color blanco de la escena, pero tal vez no dependiendo del contenido real de la escena y la configuración del iris de la cámara, podría hacer una de dos cosas. Podría usar la filosofía de BBC relativamente, y siempre mapear el código PB_C a la pantalla PB_D, cualquiera que sea la pantalla PB_D (y a continuación tal vez aplicar alguna función de brillo gamma y modificación de contraste, dependiendo de qué PB_D uno realmente tenga, pero al menos el blanco se renderizaría al blanco, lo que tiene al menos una ventaja que es que si no hay tales regiones demasiado brillantes, sino solo colores de píxeles relativamente más oscuros como en una escena brumosa, se establece de una manera calibrada fácil que tales colores codificados más oscuros también se renderizarán más oscuros que PB_D, pero por otro lado, las partes más brillantes de la escena se renderizarán con una luminancia variable PB_D; lo que parecería ser una buena propiedad para combinar datos de imagen, ¿pero lo es?). O bien, podría pretender que estos datos de luminancia de imagen codificados son buenos alrededor de o para exactamente algún valor de luminancia absoluta PB_D, por ejemplo, 1000 nits, y a continuación hacer su propia degradación interna en caso de que el televisor tenga, por ejemplo, solo 500 nits Pb_D (mediante mapeo de gama ciega). Dolby, sin embargo, consideró que se debe especificar en términos absolutos qué luminancias se deben representar, al menos si tiene una pantalla Sim2 o pulsar de 5000 nits de alta calidad, y cómo se generó esta imagen artísticamente no importa, siempre que pueda definir las luminancias de objetos necesarias a lo largo del intervalo de referencia de luminancia maestro EOTF 0-10000 nit. Entonces, por ejemplo, si uno tiene una cara oscura en una película de terror, en el procedimiento absoluto normalmente se diría que esta imagen debe renderizarse, por ejemplo, a 15 nits, que se puede renderizar en pantallas de intervalo dinámico bajo y alto. Sin embargo, en un procedimiento relativo, el brillo de esta cara se escalaría, incluso si uno no fuera tan lejos como para que el 15 % de 100 nits también significara el 15 % de 5000 nits, ya que una función gamma dependiente de PB de la pantalla corregiría algo por eso, pero aun así, no se determinaría con tanta precisión a qué luminancia se representaría finalmente la cara en una pantalla. Eso hace que uno piense en lo que le hubiera gustado al artista, si en el lado de la representación pueden ocurrir tantos cambios, por lo que hay algo que decir para una representación absoluta más precisa (si se usa el intervalo dinámico completo de una pantalla, por supuesto, la sensibilidad del espectador se adaptaría a eso, pero normalmente se usaría un subintervalo de una pantalla HDR si el contenido requiriera una representación de hasta solo, por ejemplo, 900 nits, al menos para, por ejemplo, el 99 % de los píxeles de la imagen). Aun así, tampoco la codificación de luminancia absoluta tiene una respuesta completa, porque si el PB_D del realmente presente es inferior al PB_C de la codificación, es decir, las luminancias necesarias para que la imagen sea óptima, todavía se necesita alguna estrategia de degradación, que mejor no sea demasiado ciega y en contra de las necesidades de reclasificación de apariencia de la escena o tipo de escena HDR en particular. El lector puede imaginar que tales filosofías diferentes conducen no solo a diferentes códigos que determinan las EOTF, sino probablemente también a un manejo diferente de las imágenes, es decir, cómo se asignarán las luminancias de los píxeles del objeto a varias regiones a lo largo de esa curva o su intervalo de luminancia de referencia correspondiente. Y si eso ya conduce a discusiones difíciles cuando uno tiene el problema relativamente más simple de mapear alguna imagen de entrada con un PB_C particular a alguna pantalla de PB_D más bajo, que aún se podría imaginar que es algo designable a voluntad (por ejemplo, si se usa lo que llamaremos una curva r, debido a su forma que aumenta un poco los brillos, y a continuación para las luminancias más brillantes comienza a obtener una pendiente cada vez más pequeña, comprimiendo efectivamente aquellos en subintervalos más pequeños del intervalo de luminancia SDR, es decir, como el primer cuarto de un círculo o elipse), ya que se podría estirar, por ejemplo, la parte de refuerzo para los colores más oscuros de la curva de mapeo de luminancia HDR a SDR para aumentar un poco más los colores más oscuros, lo que aumentaría el brillo de algún objeto típico en esa parte del intervalo de luminancia de entrada o la curva, digamos el abrigo de alguien, a continuación el lector puede imaginar que las cosas pueden volverse más complejas cuando se desea armonizar los brillos de los objetos en diferentes imágenes, de diferente intervalo de dinámica, generalmente iluminados de manera diferente y potencialmente codificados de manera diferente. So the BBC addressed the problem by defining a basic OETF, which defined master-grade (or at least camera-captured, with also some appearance decisions like choosing an exposure, and maybe a gamma curve) relative HDR luminances and lumas, and the appropriate display luminances to be rendered should be calculated by applying some gamma system, which would depend on both the PB_D display and the brightness of the viewing environment. That would mean that if a display manufacturer got hold of BBC-encoded content, which may contain luminances up to 12 times the white color level of the scene, but perhaps not depending on the actual scene content and the camera iris settings, it could do one of two things. You could use BBC's philosophy relatively, and always map PB_C code to PB_D display, whatever PB_D display is (and then maybe apply some gamma brightness and contrast modification function, depending on what PB_D one actually has, but at least white would be rendered to white, which has at least one advantage which is that if there are no such overly bright regions but only relatively darker pixel colors like in a foggy scene, it is established in an easy calibrated way that such darker coded colors will also be rendered darker than PB_D, but on the other hand brighter parts of the scene will be rendered with varying luminance PB_D; which would seem to be a nice property for combining image data, but is it?). Or you could pretend that this encoded image luminance data is good around or to exactly some absolute luminance PB_D value, say 1000 nits, and then do your own internal degradation in case the TV has say only 500 nits Pb_D (via blind gamma mapping). Dolby however felt that one should specify in absolute terms what luminances should be rendered, at least if you have a high quality 5000 nit Sim2 or Pulsar display, and how this image was artistically generated doesn't matter as long as you can define the necessary object luminances along the EOTF master luminance reference range 0-10000 nit. So for example if one has a dark face in a horror movie, in the absolute procedure one would typically say that this image should be rendered at say 15 nits, which can be rendered on both low and high dynamic range displays. However, in a relative procedure, the brightness of this face would be scaled, even if one didn’t go so far as to have 15% of 100 nits also mean 15% of 5000 nits, since a PB-dependent gamma function of the display would correct for that somewhat, but still, it wouldn’t be determined so precisely at what luminance the face would finally be rendered on a display. That makes one think about what the artist would have liked, if on the rendering side so many changes can happen, so there is something to be said for a more accurate absolute rendering (if the full dynamic range of a display is used, of course the viewer’s sensitivity would adapt to that, but typically a subrange of an HDR display would be used if the content required rendering down to only, say, 900 nits, at least for, say, 99% of the image pixels). Still, absolute luminance encoding does not have a complete answer either, because if the PB_D of the actually present is lower than the PB_C of the encoding, i.e. the luminances needed for the image to be optimal, then some degradation strategy is still needed, which had better not be too blind and against the appearance reclassification needs of the particular HDR scene or scene type. The reader can imagine that such different philosophies lead not only to different codes determining EOTFs, but probably also to different handling of images, i.e. how the luminances of the object pixels are to be assigned to various regions along that curve or its corresponding reference luminance range. And if that already leads to difficult discussions when one has the relatively simpler problem of mapping some input image with a particular PB_C to some lower PB_D display, which one could still imagine to be something designable at will (for example, if one uses what we will call an r-curve, because of its shape it increases brightnesses a bit, and then for brighter luminances it starts to get a smaller and smaller slope, effectively compressing those into smaller subintervals of the SDR luminance interval, i.e. like the first quarter of a circle or ellipse), since one could stretch, for example, the boost part for darker colors of the HDR to SDR luminance mapping curve to boost darker colors a bit more, which would increase the brightness of some typical object in that part of the input luminance interval or the curve, say someone's coat, then the reader can imagine that things can become more complex when one wants to harmonize the brightnesses of objects in different subintervals. images, of different dynamic range, generally illuminated differently and potentially encoded differently.

El solicitante como Dolby también piensa que es mejor definir una EOTF maestra, que definimos como 0-5000 nit. Una de las razones es que una imagen capturada de una escena africana brillante es básicamente diferente en términos absolutos de la de un otoño noruego, por lo que, aunque siempre se pueden aplicar todo tipo de transformaciones matemáticas de color (que afectan al menos a la luminancia) para producir en última instancia la apariencia de brillo adecuada, ¿por qué no codificar ya esta diferencia en los valores de luma y sus luminancias absolutas correspondientes en el intervalo de luminancia de referencia? (Ventajosamente, incluso se podrían diseñar esos lumas para que se correlacionen ya con los brillos psicovisuales, a continuación se podrían codificar más fácilmente losdesiderataartísticos en formas de curva adicionales apropiadas al calificar a partir de la imagen HDR inicial maestra imágenes correspondientes de diferente intervalo dinámico, que ni HDR10 ni BBC tienen). Pero lo más importante, al final solo existe la representación definitiva de los colores de los píxeles (incluso si eso puede suceder en pantallas de diferentes PB), y sin al menos una pantalla de referencia asociada (definida no solo por un brillo máximo, sino también por su comportamiento en escala de grises como una EOTF), la imagen es solo un conjunto de números (que con suerte se pueden decodificar correctamente), no mucho más. Se trata de la experiencia definitiva de la imagen HDR, y no tanto de cómo se diseñó hasta ese momento, y eso es también lo que los graduadores ven en su(s) pantalla(s) de referencia. Uno debe poder, en el lado de la creación, hacer una imagen inicial inequívocamente definida. Por lo tanto, debemos comenzar por estandarizar una EOTF de referencia que solucione esto (de lo contrario, por ejemplo, los números de luma digital en el ordenador que se utiliza para la gradación de color no están definidos), y luego se pueden construir más sistemas además de eso (incluso si se desea volver a construir algo de relatividad en el sistema, al menos eso puede ser relatividad controlada, determinada en función de algún sistema de medición de luminancia de referencia comúnmente aceptable). The applicant like Dolby also thinks that it is better to define a master EOTF, which we define as 0-5000 nit. One reason is that a captured image of a bright African scene is fundamentally different in absolute terms from that of a Norwegian autumn, so while one can always apply all sorts of mathematical colour transformations (affecting at least luminance) to ultimately produce the appropriate brightness appearance, why not already encode this difference in luma values and their corresponding absolute luminances in the reference luminance range? (Advantageously, one could even design such lumas to already correlate to psychovisual brightnesses, then one could more easily encode the appropriate additional curve shapes by grading from the master initial HDR image corresponding images of different dynamic range, which neither HDR10 nor BBC have.) But most importantly, in the end there is only the ultimate representation of pixel colors (even if that can happen on displays of different PB), and without at least an associated reference display (defined not only by a peak brightness, but also by its grayscale behavior like an EOTF), the image is just a set of numbers (which can hopefully be decoded correctly), not much more. It's all about the ultimate experience of the HDR image, and not so much about how it was designed up to that point - and that's also what graders see on their reference display(s). One must be able, on the creation side, to make an unambiguously defined initial image. So we need to start by standardizing a reference EOTF that fixes this (otherwise, for example, the digital luma numbers on the computer used for color grading are undefined), and then more systems can be built on top of that (even if one wants to build some relativity back into the system, at least that can be controlled relativity, determined based on some commonly acceptable reference luminance measurement system).

Ahora, habiendo resumido aquí arriba algunas ideas básicas de HDR de fondo necesarias para la novela, podemos pasar a una situación más práctica, de tener disponibles diferentes imágenes para las cuales los creadores decidieron por alguna razón que tenían que ser codificadas por uno u otro procedimiento. Now, having summarized above some basic ideas of background HDR needed for the novel, we can move on to a more practical situation, of having available different images for which the creators decided for some reason that they had to be encoded by one procedure or another.

La diferencia en el comportamiento del Dolby EOTF frente a BBC EOTF (el presente solicitante de patente diseñó una EOTF que es muy similar a Dolby PQ, o puede usar el Dolby PQ) se puede observar en la Figura 1. OETF 113 es el PQ EOTF (hemos mostrado solo la parte de hasta 1000 nits, porque si mostramos el gráfico de hasta 10.000 nits, las otras dos curvas se vuelven poco claras). BBC OETF 112 es una curva relativa, por lo que se puede debatir sobre qué luminancias absolutas debe codificar, pero asumimos que normalmente subirá a 500 nit (o tal vez a 1000 nit, pero luego puede comenzar a mostrar errores y volverse menos apropiada). La curva Rec. 709 solo puede codificar luminancias absolutas de hasta 100 nits, y debemos recordar que por varias razones en un futuro lejano todavía puede haber mucho contenido SDR (que, por ejemplo, no se convirtió fácilmente a alguna versión HDR). En el eje y hemos mostrado lumas relativas, porque queremos evitar la discusión de profundidad de bits, que no es tan relevante para esta solicitud (asumiremos que todas las codificaciones utilizarán 10 bits para los tres canales de color, por lo que la luma máxima 1023 se convierte en 1023/1023=1,0). Debería ser obvio que si obtenemos una luma de entrada de 0,5 (es decir, 512 o 128 en 8 bits) eso puede significar cualquier cosa como luminancia correspondiente, dependiendo del procedimiento de codificación utilizado (en algún lugar alrededor de 0,7 podríamos ser 10 veces diferentes, por lo que simplemente hacer un interruptor de reemplazo de luma de píxeles podría de repente producir un píxel reemplazado muy oscuro o muy brillante). En la Figura 1B mostramos cómo difieren las curvas si también las definimos en una luminancia de entrada relativa de 0-1,0. Debe quedar claro que si se comienza con los lumas de una imagen codificada, las luminancias a representar se pueden calcular a partir de las curvas inversas. The difference in behavior of Dolby EOTF vs BBC EOTF (the present patent applicant designed an EOTF that is very similar to Dolby PQ, or you can use Dolby PQ) can be seen in Figure 1. OETF 113 is the PQ EOTF (we've shown only the part up to 1000 nits, because if we show the graph up to 10,000 nits the other two curves become unclear). BBC OETF 112 is a relative curve, so there is some debate about what absolute luminances it should encode, but we assume it will typically go up to 500 nits (or maybe 1000 nits, but then it may start to show errors and become less appropriate). The Rec. 709 curve can only encode absolute luminances up to 100 nits, and we need to remember that for various reasons in the distant future there might still be a lot of SDR content (which for example was not easily converted to some HDR version). On the y-axis we have shown relative lumas, because we want to avoid the bit depth discussion, which is not that relevant for this application (we will assume that all encodes will use 10 bits for all three color channels, so the maximum luma 1023 becomes 1023/1023=1.0). It should be obvious that if we get an input luma of 0.5 (i.e. 512 or 128 in 8-bit) that can mean anything as a corresponding luminance, depending on the encoding procedure used (somewhere around 0.7 could be 10 times different, so just doing a pixel luma replacement switch might suddenly produce a very dark or very bright replaced pixel). In Figure 1B we show how the curves differ if we also define them at a relative input luminance of 0-1.0. It should be clear that if one starts with the lumas of an encoded image, the luminances to be represented can be calculated from the inverse curves.

Ahora, ignorando todos los problemas prácticos, como los errores de color después de varias calidades de codificación, los costos de rediseño de chips, etc., se puede decir que los tres mecanismos de codificación funcionan bien si solo se necesita comunicar un único conjunto de imágenes HDR, que es en lo que se centró en la primera fase de la investigación, el desarrollo y la estandarización. Now, ignoring all the practical issues such as color errors after various encoding qualities, chip redesign costs, etc., it can be said that all three encoding mechanisms work well if only a single set of HDR images need to be communicated, which is what the first phase of research, development and standardization focused on.

Pero los sistemas prácticos de manejo de HDR necesitan más, de lo contrario, los usuarios se quedan con cabos sueltos y preguntas, lo que uno no puede hacer como diseñador de sistemas. But practical HDR management systems need more, otherwise users are left with loose ends and questions, which you can't do as a systems designer.

El solicitante ha diseñado un sistema de codificación, que no solo puede manejar la comunicación (codificación) y el uso (representación adecuada en última instancia) de un único vídeo HDR estandarizado, para un único tipo típico de pantalla en el campo (todos los que necesitan tener una pantalla PB de 5000 nits, o tal vez todos los que todavía no tienen un televisor heredado de 100 nits pueden comprar solo un televisor PB de 1000 nits), pero cuyo sistema puede manejar varios tipos de pantalla posibles con varios PB_D en el campo, al poder calcular una imagen óptimamente (re)clasificada para cada pantalla en particular, que el solicitante de tecnología llama sintonización o sintonización de pantalla. Sus principales características, y particularmente el decodificador 251, se resumen en la Figura 2 (en la medida en que sea necesario para esta solicitud). Applicant has designed an encoding system, which can not only handle the communication (encoding) and use (ultimately proper rendering) of a single standardized HDR video, for a single typical type of display in the field (everyone who needs to have a 5000 nit PB display, or perhaps everyone who does not already have a legacy 100 nit TV can just buy a 1000 nit PB TV), but which system can handle multiple possible display types with multiple PB_Ds in the field, by being able to compute an optimally (re)sized image for each particular display, which Applicant calls tuning or display tuning. Its main features, and particularly the decoder 251, are summarized in Figure 2 (to the extent necessary for this application).

El solicitante tenía el enfoque de que cualquier optimización de aspecto final dependiendo del entorno de visualización podría realizarse en el lado de la pantalla, aunque no con una gamma final como propone la BBC, sino por un mecanismo que (aunque calculado por un receptor, por ejemplo, dentro de un televisor o reproductor BD) no está determinado únicamente por el televisor (es decir, su diseñador), y no solo en función de factores del lado del receptor como el brillo máximo de la pantalla real y el brillo envolvente de visualización, sino que también depende del contenido de la imagen en sí, ya que las imágenes son complejas, y también lo es su optimización a las peculiaridades del lado de representación. Esto cruza la antigua y difícil brecha entre la creación y el uso del contenido. El lado receptor puede ser el único lado que realmente sabe qué capacidad de visualización está realmente disponible, sin embargo, el lado de la creación es el único lado que todavía sabe definitivamente de qué se trata el contenido, como losdesiderataartísticos. Si no se puede vender al director de cine o DOP en su lugar todos los televisores para optimizar el aspecto del color en el lado receptor, al menos se puede dejar que el creador especifique las intenciones paramétricamente, al menos aproximadamente, con el creador de la imagen siendo capaz de especificar matemáticamente: "si tuviera una pantalla de este PB_D, al menos preferiría renderizar las diversas luminancias de píxeles como esta y esta". The applicant had the approach that any final appearance optimisation depending on the viewing environment could be done on the display side, though not with a final gamma as proposed by the BBC, but by a mechanism which (though calculated by a receiver, e.g. inside a TV or BD player) is not solely determined by the TV (i.e. its designer), and not only based on receiver-side factors such as actual display peak brightness and display surround brightness, but also depends on the picture content itself, as images are complex, and so is their optimisation to the peculiarities of the rendering side. This crosses the old and difficult gap between the creation and the use of content. The receiving side may be the only side which really knows what display capability is actually available, however the creation side is the only side which still definitively knows what the content is about, such as the artistic desiderata. If you can't sell the filmmaker or DOP on all the TVs to optimize the color look on the receiving side, you can at least let the creator specify the intentions parametrically, at least approximately, with the image creator being able to mathematically specify: "if I had a display of this PB_D, I would at least prefer to render the various pixel luminances like this and this."

Los ingenieros del solicitante argumentaron que la parte dependiente del contenido de la imagen podría manejarse permitiendo que un graduador de color del artista (aunque también podría usarse funciones automáticas de análisis de imágenes, es decir, determinar funciones de mapeo de luminancia basadas en propiedades de luminancia establecidas de las imágenes actuales) especifique las transformaciones de color óptimas según él que al menos cambiarían las luminancias de los píxeles del objeto para (simplemente) dos aspectos correspondientes a un intervalo dinámico diferente o, de hecho, PB_C, en dos extremos del intervalo de posibilidades (de los brillos máximos de la pantalla). Por lo tanto, la imagen de aspecto HDR debe corresponder a un PB_C bastante alto que el solicitante eligió de 5000 nits (aunque el solicitante puede usar otro PB_C igual de bien), y la imagen de DR baja también puede ser una calificación s Dr de 100 nits, ya que eso satisfaría, por ejemplo, el 90 % del mercado inicialmente existente de personas que usan pantallas SDR heredadas. Entonces, para una escena en particular, el graduador de color puede decir: "si solo tengo 100 nit PB, debo poner las lámparas en la imagen que preferiría ver renderizada a 4000 nit para tener objetos de lámpara que parezcan muy brillantes en la imagen renderizada, pero eso es imposible ahora, a 95 100 nit, cuando lo primero que deseo es que haya suficiente espacio de luminancia en el intervalo de luminancia de la pantalla para que los objetos de menor luminancia en la habitación sean lo suficientemente brillantes, es decir, entre, por ejemplo, 10 y 90 nit, así que tal vez ahora ponga todos los píxeles de la lámpara exactamente a 100 nit". Lo mismo se puede hacer, por ejemplo, para hacer que una escena nocturna sea apropiadamente oscura y que las luces de la calle sean lo suficientemente brillantes, tanto para una representación de pantalla de 5000 nits como de 100 nits. El lector debe detenerse por un momento para reflexionar que no es tan trivial hacer una clasificación nocturna que se vea apropiadamente nocturna, es decir, de la luminancia correcta para los objetos (por ejemplo, una persona negra sentada en un área sombreada y mal iluminada), y luego tanto en HDR como en SDR (especialmente con otras restricciones como, por ejemplo, la complejidad de IC), pero se puede hacer, al menos si no es perfeccionista, a continuación razonablemente (por supuesto, si la pantalla sigue aproximadamente las especificaciones, y no hace una imagen completamente diferente por sí misma). The applicant's engineers argued that the image content-dependent part could be handled by allowing an artist's color grader (although automatic image analysis functions, i.e. determining luminance mapping functions based on established luminance properties of current images, could also be used) to specify the optimal color transformations according to him that would at least shift the object pixel luminances to (simply) two aspects corresponding to a different dynamic range or in fact PB_C, at two extremes of the range of possibilities (of the maximum brightnesses of the display). Thus the HDR aspect image should correspond to a rather high PB_C that the applicant chose of 5000 nits (although the applicant can use another PB_C just as well), and the low DR image can also be a sDr rating of 100 nits, since that would satisfy for example 90% of the initially existing market of people using legacy SDR displays. So for a particular scene the color grader might say "if I only have 100 nit PB, I should set the lamps in the image that I'd prefer to see rendered to 4000 nit in order to have lamp objects appear very bright in the rendered image, but that's impossible now at 95-100 nit when the first thing I want is for there to be enough luminance headroom in the display's luminance range for lower luminance objects in the room to be bright enough, i.e. between say 10 and 90 nit, so maybe I'll now set all the lamp pixels to exactly 100 nit." The same can be done for example to make a night scene appropriately dark, and for street lights to be bright enough, for both a 5000 nit and a 100 nit display rendering. The reader should pause for a moment to reflect that it is not so trivial to do a night grading that looks appropriately night-like, i.e. of the correct luminance for objects (e.g. a black person sitting in a poorly lit, shadowed area), and then in both HDR and SDR (especially with other constraints such as e.g. IC complexity), but it can be done, at least if you are not a perfectionist, then reasonably well (of course, if the display roughly follows the specs, and does not render a completely different image by itself).

Habiendo obtenido estas dos imágenes graduadas (M_HDR y M_LDR, cuyo aspecto de distribución de luminancia suele ser determinado por un ser humano), una para la situación en la que uno tiene una pantalla HDR de alta calidad para renderizar las imágenes y otra para pantallas SDR heredadas de 100 nits, el solicitante quería evitar codificar y comunicar dos conjuntos completos de imágenes, es decir, una necesidad de codificación dual, que necesitaría dos canales, etc. Y el solicitante también quería que las dos imágenes graduadas de DR diferentes fueran codificables con codificaciones basadas en DCT de tipo MPEG existentes, por lo que decidimos que una de las dos secuencias de imágenes de vídeo se definiera paramétricamente con funciones de transformación de color (F_L), que se utilizaría para calcular las imágenes a partir del conjunto de imágenes que realmente se comunican (por ejemplo, aunque no necesariamente, la secuencia de imágenes SDR). Por lo tanto, podemos comunicarnos a través de algún sistema de comunicación de vídeo 250 (el lector experto entiende que nuestro sistema puede emplearse en muchos sistemas, por ejemplo, una transmisión de vías aéreas a un receptor que es un ordenador ya sea desde un servicio de suministro de vídeo profesional, o entre aparatos de consumo conectados en una red interna, o un sistema de comunicación basado en cable securitizado profesional, siendo el receptor un aparato profesional en un cine, o un sistema basado en Internet, etc.), por ejemplo, las imágenes HDR maestras M_HDR, como por ejemplo la señal de vídeo codificada HEVC S codificada por el codificador de vídeo 203. El codificador también añade todos los parámetros que definen las funciones de transformación de color F_L como metadatos, por ejemplo, mensajes SEI o similares. O viceversa, podemos transmitir la clasificación maestra de LDR M_LDR, junto con funciones que permiten volver a calcular en el lado receptor imágenes de mayor intervalo dinámico, como, por ejemplo, M_HDR. Having obtained these two graded images (M_HDR and M_LDR, whose luminance distribution appearance is usually determined by a human), one for the situation where one has a high quality HDR display to render the images, and one for legacy 100 nits SDR displays, the applicant wanted to avoid encoding and communicating two whole sets of images, i.e. a need for dual encoding, which would need two channels etc. And the applicant also wanted the two different DR graded images to be encodable with existing MPEG-like DCT-based encodings, so we decided to have one of the two video image sequences be parametrically defined with color transformation functions (F_L), which would be used to compute the images from the set of images actually being communicated (e.g. but not necessarily the SDR image sequence). Thus, we may communicate via some video communication system 250 (the skilled reader understands that our system may be employed in many systems, e.g., an over-the-air transmission to a receiver which is a computer either from a professional video delivery service, or between consumer appliances connected in an internal network, or a professional secured cable-based communication system, the receiver being a professional appliance in a cinema, or an Internet-based system, etc.), e.g., the master HDR images M_HDR, such as the HEVC S encoded video signal encoded by the video encoder 203. The encoder also adds all parameters defining the color transformation functions F_L as metadata, e.g., SEI messages or the like. Or vice versa, we may transmit the master LDR classification M_LDR, together with functions allowing higher dynamic range images, such as M_HDR, to be recalculated on the receiving side.

Por lo tanto, en el lado de creación (o transcodificación) habrá, por ejemplo, algún aparato de gradación de color 201, que contiene un conjunto de transformación de color 202, dispuesto para determinar y aplicar varias funciones de transformación de color F_L como se desee, para obtener una imagen de aspecto LDR maestra M_LDR a partir de la imagen HDR maestra creada previamente M_HDR, por ejemplo, 5000 nit PB_C típicamente (que se puede hacer en el mismo aparato de gradación de color al mismo tiempo, o se puede determinar de otra manera, previamente). Como ejemplo de procesamiento de imágenes, el lector puede consultar el documento WO2014/056679, cuyas enseñanzas de solicitud se incorporan a la presente en su totalidad para los países que lo permiten. Como ejemplo de una transformación, se puede obtener una imagen de una función que no afecta a las cromaticidades, sino solo a las luminancias de píxeles (todas las discusiones a continuación se centrarán, por simplicidad de comprensión, en las transformaciones de luminancia) que dobla las luminancias más altas un poco hacia abajo y aumenta los colores más oscuros en una entrada HDR relativa de 0-1.0 (eje x) a la gráfica de salida LDR de la función, de modo que se verán lo suficientemente brillantes en la pantalla de 100 nits relativamente más oscura (una curva en forma de r). Pero también son posibles funciones más complejas que personalizan y potencialmente solo ajustan localmente algunas luminancias de objetos, y también transforman aspectos de cromaticidad como la saturación, siempre que se puedan hacer dos apariencias óptimas relacionadas: una imagen LDR y una imagen HDR. Thus, on the creation (or transcoding) side there will be, for example, some color grading apparatus 201, containing a color transformation set 202, arranged to determine and apply various color transformation functions F_L as desired, to obtain a master LDR aspect image M_LDR from the previously created master HDR image M_HDR, e.g. 5000 nit PB_C typically (which may be done in the same color grading apparatus at the same time, or may be otherwise determined, beforehand). As an example of image processing, the reader may refer to WO2014/056679, the application teachings of which are incorporated herein in their entirety for countries which permit it. As an example of a transformation, one can get an image from a function that does not affect chromaticities, but only pixel luminances (all discussions below will, for simplicity of understanding, focus on luminance transformations) that bends higher luminances down a bit and boosts darker colors on a relative HDR input of 0-1.0 (x-axis) to the LDR output plot of the function, so that they will look bright enough on the relatively darker 100 nits display (an r-shaped curve). But more complex functions that customize and potentially only locally adjust some object luminances, and also transform chromaticity aspects like saturation, are also possible, as long as two related optimal looks can be made: an LDR image and an HDR image.

Ahora, lo siguiente que se puede hacer con esta tecnología de codificación es que si realmente no se necesita volver a calcular imagen(es) M_HDR de 5000 nits, porque se necesitan imágenes de intervalo dinámico medio M_MDR que tengan un aspecto correctamente graduado para una pantalla realmente conectada 280 de brillo máximo PB_D= 1500 nits, por ejemplo, con nuestros algoritmos de ajuste de pantalla se pueden obtener las imágenes M_MDR correctamente graduadas, a partir de las imágenes M_HDR (o M_LDR en otras realizaciones/aplicaciones) recibidas. El lado receptor tiene un decodificador HEVC clásico, por ejemplo, 260, que emite una imagen normal (por ejemplo, RGB lineal o YCbCr) M_HDR, y las funciones de transformación de color requeridas (F_L o su función de espejo de forma inversa) para cambiar M_HDR a M_LDR. Sobre la base de toda esta información, nuestro conjunto de sintonización de color 271 en un conjunto de procesamiento de color 270 (que asumimos para esta realización ilustrativa está separado de un televisor, por ejemplo, dentro de un decodificador, o un servidor de un proveedor de vídeo a pedido, etc., pero también puede residir dentro de un televisor) no solo puede determinar las funciones óptimas necesarias F*_L para determinar la(s) imagen(es) M_MDR requerida(s) a partir de la(s) imagen(es) recibida(s), sino también en última instancia, emitir la(s) imagen(es) de intervalo dinámico medio M_MDR. Los algoritmos de ajuste de visualización para obtener una función F*_L adecuada para la transformación de luminancia SDR a MDR en función de la función o funciones de transformación de luminancia F_L SDR a HDR pueden ser bastante complejos dependiendo de la variante de realización que se desee, por ejemplo, para tener en cuenta los detalles del entorno de visualización, pero para comprender las presentes aplicaciones, todos esos detalles están más allá de lo necesario, por lo que el lector puede simplemente tomar nota de que habrá alguna función de luminancia F*_L para aplicar para obtener de cualquier imagen codificada entrante e imagen MDR, por ejemplo, digamos una función gamma. Now the next thing that can be done with this encoding technology is that if one does not really need to recalculate 5000 nits M_HDR image(s), because one needs correctly graded medium dynamic range M_MDR images that have a correctly graded appearance for a actually connected display 280 of peak brightness PB_D= 1500 nits for example, then with our display tuning algorithms one can obtain the correctly graded M_MDR images, from the received M_HDR (or M_LDR in other embodiments/applications) images. The receiving side has a classical HEVC decoder e.g. 260, which outputs a normal (e.g. linear RGB or YCbCr) M_HDR image, and the required color transformation functions (F_L or its inverse shape mirror function) to change M_HDR to M_LDR. Based on all of this information, our color tuning assembly 271 in a color processing assembly 270 (which we assume for this illustrative embodiment is separate from a TV, e.g. within a set-top box, or a server of a video-on-demand provider, etc., but may also reside within a TV) can not only determine the necessary optimal functions F*_L to determine the required M_MDR picture(s) from the received picture(s), but also ultimately output the M_MDR medium dynamic range picture(s). The display adjustment algorithms to obtain a suitable F*_L function for SDR to MDR luminance transformation based on the SDR to HDR luminance transformation function(s) F_L can be quite complex depending on the desired embodiment variant, for example to take into account details of the viewing environment, but for the understanding of the present applications all such details are beyond what is necessary, so the reader may simply note that there will be some luminance function F*_L to apply to obtain from any incoming encoded image an MDR image, for example let's say a gamma function.

Aunque este mecanismo ahora permite tener una representación de imagen HDR óptima no solo para un único tipo posible de pantalla HDR (por ejemplo, todos los que necesitan comprar una pantalla PB_D de 1000 nits, y nadie puede comprar una pantalla PB_D de 3000 nits y aun así obtener una imagen agradable, al menos no si uno se preocupa por la precisión colorimétrica), pero para cualquier pantalla posible, esta experiencia técnica adicional aún no es suficiente para un ecosistema de manejo HDR totalmente flexible. Hasta ahora, la tecnología resumida todavía solo se centra en obtener un único conjunto HDR de imágenes de vídeo, desde una única escena HDR capturada, correctamente a los diversos sitios de consumo, y una manera de representarlo adecuadamente en un único televisor disponible. Esa ya era una tarea desalentadora para prepararse para la nueva tecnología de vídeo HDR, por lo que se retrasaron otros aspectos para tratarlos más adelante. While this mechanism now allows for optimal HDR image rendering not only for a single possible type of HDR display (e.g. everyone needs to buy a 1000 nits PB_D display, and no one can buy a 3000 nits PB_D display and still get a nice image, at least not if one cares about colorimetric accuracy), but for any possible display, this additional technical expertise is still not enough for a fully flexible HDR handling ecosystem. So far, the outlined technology still only focuses on getting a single HDR set of video images, from a single captured HDR scene, correctly to the various consumer sites, and a way to render it properly on a single available TV. That was already a daunting task to prepare for the new HDR video technology, so other aspects were delayed to be dealt with later.

Pero hoy en día la programación de vídeo es más compleja. Uno puede querer obtener feeds de todo tipo de sitios diferentes, y se ha vuelto fácil hacer contenido de vídeo (incluso para los consumidores), con dispositivos portátiles simples (incluso un feed de noticias de vida desde un helicóptero, o algún sporter filmando sus acciones con una GoPro atada a su casco), y comunicarlo fácilmente a través de varios medios de comunicación como, por ejemplo, Internet. Y, de hecho, al menos teóricamente, debido a que el gran despliegue por parte de los consumidores aún puede necesitar despegar, los televisores se están volviendo más como ordenadores, con conexiones a Internet, y capaces de usar o cosuministrar varias fuentes de datos, presentadas como información visual. Por ejemplo, esperamos varios usos del vídeo, p.ej., uno puede estar viendo un programa de noticias en la parte de atrás y al mismo tiempo jugando algún videojuego en algún área renderizada de la pantalla, ya sea un área de la misma pantalla o en una pantalla adyacente. But today video programming is more complex. One may want to get feeds from all sorts of different sites, and it has become easy to make video content (even for consumers), with simple handheld devices (even a life news feed from a helicopter, or some sporter filming his actions with a GoPro strapped to his helmet), and communicate it easily through various media such as, for example, the Internet. And, in fact, at least theoretically, because wide consumer deployment may still need to take off, televisions are becoming more like computers, with Internet connections, and capable of using or co-supplying various data sources, presented as visual information. For example, we expect various uses of video, e.g., one may be watching a news program in the back and at the same time playing some video game in some rendered area of the screen, whether it be an area of the same screen or on an adjacent screen.

Ese problema comenzó en el área de LDR, pero fue mucho menos difícil, porque todos los vídeos se definieron en la misma colorimetría Rec. 709, y más o menos similarmente iluminados y expuestos. E incluso los gráficos por ordenador de, por ejemplo, un juego se definieron de manera similar. Pero hoy en día el vídeo o las imágenes HDR pueden ser cualquier cosa, porque eso es lo que uno quisiera atender, por lo que si uno no encuentra una buena estrategia de marco para manejar y, en particular, combinar múltiples contribuciones de imágenes (parciales), uno podría esperar caos en el futuro. Como se dijo, en el pasado, todo el vídeo se definía en el mismo marco de LDR, es decir, todos los códigos de luma máximos correspondían a las mismas luminancias renderizadas de 100 nit, y las luminancias correspondientes a lumas por debajo del máximo, podían decodificarse por medio del único Rec existente. That problem started in the LDR area, but it was much less difficult, because all videos were defined in the same Rec. 709 colorimetry, and more or less similarly lit and exposed. And even computer graphics of, say, a game were defined similarly. But nowadays HDR video or images can be anything, because that is what one would like to cater to, so if one does not find a good frame strategy to handle and in particular combine multiple (partial) image contributions, one could expect chaos in the future. As said, in the past all video was defined in the same LDR frame, i.e. all peak luma codes corresponded to the same rendered luminances of 100 nit, and luminances corresponding to lumas below the peak could be decoded by means of the only existing Rec.

709 EOTF. 709 EOTF.

Todavía había cierta preocupación (especialmente en producciones complejas, o fuera de la radiodifusión y otras producciones de campo), y la necesidad de un manejo cuidadoso, porque las cámaras podrían tener algunos ajustes de configuración "menores". Los más importantes eran típicamente el balance de blancos (es decir, el aspecto cromático de los colores neutros y blancos, es decir, si los objetos blancos se veían demasiado azules o demasiado amarillentos, lo que podría hacerse evidente al cambiar entre diferentes alimentaciones de la cámara) y la configuración de exposición. Si uno bajara la exposición de una captura de la misma escena de una de las cámaras, esa cámara sería vista rápidamente como dando una imagen demasiado oscura. Especialmente para producciones profesionales de múltiples cámaras del mismo programa que era visible, como en un programa de noticias que corta a un reportaje en vivo, uno podría esperar una captura diferente (especialmente si se trata de un vídeo de teléfono móvil amateur), o al menos, eso fue una captura (ya sea temporalmente intercalado o Picture-in-picture) de una escena de aspecto totalmente diferente (por ejemplo, una escena nocturna de El Cairo, en lugar de un estudio bien iluminado en los EE. UU.). Ahora bien, hay dos situaciones que uno debe discriminar. Por supuesto, si uno cambia entre una escena nocturna y una escena del mediodía de un desierto, el espectador esperaría alguna diferencia en el brillo promedio de la escena, o de las luminancias de los objetos en la escena, aunque todavía debería ser una diferencia razonable, por ejemplo, la escena del desierto no sorprende al espectador, o lo hace entrecerrar los ojos. Pero, por otro lado, uno puede hacer que cualquier escena se vea nocturna o brillante, jugando con la combinación de la exposición de la cámara y el brillo final de la pantalla de renderizado. En la era SDR que a veces conducía a imágenes extrañas, si un hombre de la cámara tenía que hacer una elección de exposición inconveniente. Por ejemplo, alguien parado lejos de la ventana en una habitación profunda sería mucho más oscuro que los objetos cerca de la ventana. El camarógrafo quería exponer a la persona en el área más oscura, para que se viera bien colorida, lo que podría resultar en que el lado izquierdo de la imagen, y todos los objetos de la habitación de allí, estuvieran totalmente recortados en blanco, haciendo que el espectador tuviera que ver una fea "media imagen". Pero al menos la colorimetría estaba razonablemente definida. Uno sabía que los colores saldrían así, y eso sería lo mismo independientemente de si tales imágenes se mezclaban o se renderizaban únicamente. En la era HDR, uno quería resolver estos problemas haciendo que todas las regiones fueran codificables en lugar de recortadas a blanco, por ejemplo, reduciendo la exposición en función de cuánto más brillantes sean exactamente las partes brillantes de la sala que corresponden a la luminancia del actor o presentador en una escena en particular. Pero eso volvería desagradablemente como un problema, en caso de que uno quiera mezclar armoniosamente el contenido de vídeo, por lo tanto, existe la necesidad de la tecnología de las siguientes realizaciones. There was still some concern (especially on complex productions, or outside of broadcast and other field productions), and a need for careful handling, that cameras might have some "minor" setting adjustments. The most important were typically white balance (i.e. the chromatic appearance of neutral colours and whites, i.e. whether white objects looked too blue or too yellowish, which might become apparent when switching between different camera feeds) and exposure settings. If one were to lower the exposure of a capture of the same scene from one of the cameras, that camera would quickly be seen as giving an image that was too dark. Especially for professional multi-camera productions of the same program that was viewable, like in a news program that cuts to a live report, one might expect a different capture (especially if it's an amateur mobile phone video), or at least, that was a capture (either temporally intercut or picture-in-picture) of a totally different looking scene (e.g. a night scene of Cairo, instead of a well-lit studio in the US). Now, there are two situations one must discriminate. Of course, if one switches between a night scene and a midday scene of a desert, the viewer would expect some difference in the average brightness of the scene, or of the luminances of the objects in the scene, although it should still be a reasonable difference - e.g. the desert scene doesn't startle the viewer, or make him squint. But on the other hand, one can make any scene look nighttime, or bright, by playing with the combination of the camera exposure and the final brightness of the rendering screen. In the SDR era that sometimes led to strange images, if a camera man had to make an inconvenient exposure choice. For example, someone standing far from the window in a deep room would be much darker than the objects near the window. The cameraman wanted to expose the person in the darkest area, so that it would look nicely colorful, which could result in the left side of the image, and all the objects in the room there, being totally clipped to white, causing the viewer to have to see an ugly “half image.” But at least the colorimetry was reasonably defined. One knew that the colors would come out like that, and that would be the same regardless of whether such images were blended or rendered solely. In the HDR era, one wanted to solve these problems by making all regions encodeable instead of clipped to white, for example by reducing the exposure based on how much brighter exactly the bright parts of the room are that correspond to the luminance of the actor or presenter in a particular scene. But that would unpleasantly come back as a problem, in case one wants to harmoniously mix video content, therefore, there is a need for the technology of the following realizations.

Además, las cámaras más complejas y recientes obtuvieron configuraciones adicionales, como, por ejemplo, una gamma negra. Puede que no sea fácil combinar perfectamente dos cámaras diferentes (si son de la misma marca, al menos se podría, por ejemplo, apagar o establecer parámetros similares a todos los "exóticos"), pero al menos era tarea del sombreador de la cámara, que es un ingeniero con un ojo especial para las diferencias de color (o director técnico) para controlar de forma remota todas esas configuraciones colorimétricas. Eso libera al operador de cámara real para centrarse en el encuadre, que ya es una tarea bastante difícil, especialmente para algunas producciones con actores saltando por la escena, etc. En cualquier caso, en el marco SDR, incluso si uno hiciera las cosas un poco mal, el hecho de que el creador de contenido se asegurara de que al menos su tema principal estuviera razonablemente iluminado (es decir, al menos el 10 % del blanco, o aproximadamente 1 parada por debajo del gris medio como una luma o impresión de luminosidad visual), combinado con el intervalo limitado de 100:1 que corresponde aproximadamente a varias reflectancias difusivas, cualquier combinación incorrecta con alguna luminancia de objeto incorrectamente posicionada en comparación con otras luminancias de objeto normalmente no sería demasiado desarmónica (al menos, los espectadores críticos pueden percibir que algo está mal, por ejemplo, tal vez los negros se vuelvan un poco más gris lechoso, pero nada se vería realmente brillante, o destellaría con grandes diferencias de brillo, como algo que podría suceder en la producción HDR). Also, more complex and recent cameras got additional settings, such as, for example, a black gamma. It might not be easy to perfectly match two different cameras (if they are from the same brand, one could at least, for example, turn off or set similar parameters for all the "exotics"), but at least it was the job of the camera shader, who is an engineer with a special eye for color differences (or technical director) to remotely control all those colorimetric settings. That frees up the actual camera operator to focus on framing, which is already a difficult enough task, especially for some productions with actors jumping around the scene, etc. In any case, in the SDR framework, even if one did things a bit wrong, the fact that the content creator made sure that at least his main subject was reasonably lit (i.e. at least 10% white, or about 1 stop below middle gray as a luma or visual lightness impression), combined with the limited 100:1 range roughly corresponding to various diffusive reflectances, any incorrect combination with some object luminance incorrectly positioned compared to other object luminances would usually not be too disharmonious (at least critical viewers might perceive that something is wrong, e.g. maybe blacks would become a bit more milky gray, but nothing would look really bright, or it would flare with large brightness differences, as something that might happen in HDR production).

Pero ahora, en la era emergente del HDR, no existe un intervalo de referencia LDR de 0-100 nits, ni las cámaras (y otros sistemas) actúan de manera relativamente simple en ese intervalo (es decir, normalmente realizan transformaciones de color no extremas). Como se puede ver en la Figura 1, incluso si en el futuro elegimos usar solo uno de los posibles códecs HDR, lo cual no es obvio, todavía habrá algún contenido definido por el códec LDR. Y una diferencia entre 5000 nit y 100 nit es tan extrema que no se puede llamar un cambio de aspecto "menor" (a veces solo lo notan los profesionales), sino una variación muy notable y potencialmente incluso extremadamente irritante (y podemos esperar que si varios dispositivos como la televisión en el futuro quisieran actuar de acuerdo con las preferencias de su diseñador a lo largo de ese vasto intervalo de luminancia de ese vasto espacio de color, esa variabilidad puede volverse aún más extrema, y no como se desea). But now, in the emerging era of HDR, there is no such thing as a 0-100 nit LDR reference range, nor do cameras (and other systems) act relatively simply in that range (i.e. they typically perform non-extreme color transformations). As you can see in Figure 1, even if in the future we choose to use only one of the possible HDR codecs, which is not obvious, there will still be some content defined by the LDR codec. And a difference between 5000 nit and 100 nit is so extreme that it cannot be called a “minor” appearance change (sometimes only professionals notice it), but rather a very noticeable and potentially even extremely irritating variation (and we can expect that if various devices like TV in the future would want to act according to their designer’s preferences throughout that vast luminance range of that vast color space, that variability may become even more extreme, and not as desired).

El problema puede no ser tan evidente aún si uno está viendo un solo programa de una sola fuente. Por ejemplo, si alguien está viendo el contenido HDR de una pantalla PB_D alta en un entorno oscuro, los colores pueden ser demasiado brillantes, pero al menos sus ojos pueden adaptarse. Las diferencias siempre se vuelven muy claras si uno tiene alguna referencia para juzgar una imagen, por ejemplo, en una presentación de imagen en imagen (PIP) de dos vídeos. The problem may not be so obvious even if one is watching a single program from a single source. For example, if someone is watching HDR content from a tall PB_D display in a dark environment, the colors may be too bright, but at least their eyes can adjust. The differences always become very clear if one has some reference to judge an image, for example in a picture-in-picture (PIP) presentation of two videos.

Dado que las imágenes hoy en día pueden venir de todas partes, no necesariamente bajo el control de un director que decide sobre el aspecto de las imágenes ni se muestran por sí mismas en un marco controlado, sino que solo se unen potencialmente a veces por primera vez en el lado de la pantalla (por ejemplo, se inserta un comercial dedicado), se necesita urgentemente un buen marco para coordinar la combinación de varias imágenes HDR originales. Since images nowadays can come from everywhere, not necessarily under the control of a director who decides on the look of the images nor displayed by themselves in a controlled frame, but only potentially joined together sometimes for the first time on the screen side (e.g. a dedicated commercial is inserted), a good framework to coordinate the combining of several original HDR images is urgently needed.

Por lo tanto, como se ha dicho, la mayor parte de la (novedosa) tecnología HDR solo se centra en poder comunicar la información de la imagen HDR, al comunicar lumas de píxeles claramente definidos, que luego se pueden convertir en luminancias renderizadas. Si uno tiene una pantalla con un PB_D más bajo que el p B_C del contenido, tendría que hacer algo, ya que no se puede renderizar la luminancia hasta PB_C en esa pantalla. Se podría hacer una compresión lineal (mapeo de blanco a blanco relativamente, es decir, renderizar los píxeles en la imagen con luminancia codificada PB_C en realidad en la pantalla con luminancia PB_D), pero luego, con toda probabilidad, la imagen renderizada se verá subóptima (por ejemplo, algunas de las partes más oscuras de la imagen pueden verse demasiado oscuras, tal vez incluso con la acción siendo invisible). Por lo tanto, se podría intentar hacer un mapeo de luminancia más inteligente, que mantenga las luminancias más oscuras razonablemente visibles, por ejemplo, con una curva en forma de r. Las técnicas generales de mapeo de gama serían posibles, por ejemplo, dentro de un televisor, pero estas serían ciegas, es decir, no se adaptarían a los detalles de las imágenes HDR y, por lo tanto, serían muy subóptimas. So, as said, most of the (new) HDR technology is just focused on being able to communicate HDR image information, by communicating clearly defined pixel lumas, which can then be converted into rendered luminances. If one has a display with a PB_D lower than the pB_C of the content, one would have to do something, since one cannot render the luminance down to PB_C on that display. One could do linear compression (white-to-white mapping relatively, i.e. rendering the pixels in the image with PB_C encoded luminance actually on the display with PB_D luminance), but then in all likelihood the rendered image will look suboptimal (e.g. some of the darker parts of the image may look too dark, maybe even with the action being invisible). So one could try to do a smarter luminance mapping, which keeps the darker luminances reasonably visible, for example with an r-shaped curve. General gamma mapping techniques would be possible, for example inside a TV, but these would be blind, i.e. they would not adapt to the details of HDR images and would therefore be very suboptimal.

El documento US-20150245004 enseña que se pueden mezclar dos imágenes, de las cuales al menos una puede ser una imagen HDR y la otra puede ser una imagen SDR. La solicitud describe que puede haber un desajuste en el espacio de color (es decir, el ancho del triángulo RGB, porque se utilizan otros primarios aditivos en una definición de color DCI P3 que en una definición de vídeo habitual sRGB, pero ese aspecto cromático es irrelevante para la presente explicación de la solicitud, ya que se puede elegir además de lo que es de esencia primaria aquí, a saber, las luminancias de los píxeles de la imagen y el intervalo dinámico correspondiente de la codificación de la imagen), y un desajuste en el intervalo dinámico. Sin embargo, esa solicitud no es muy detallada sobre cómo debería o podría ocurrir la mezcla de vídeo. [0029] menciona que la mezcla puede ocurrir en el espacio de color del dispositivo de visualización, es decir, el intervalo dinámico que en la denominación de esta solicitud termina en PB_D. Además, el procesamiento parece estar relacionado con la conversión a una función de transferencia diferente TF, o corrección gamma [0027]. Por último, hay una enseñanza muy genérica [0036] sobre que el conjunto de composición puede evaluar el intervalo dinámico del contenido de vídeo, y presumiblemente eso se corresponde con la enseñanza no detallada de que se puede realizar un análisis estadístico de las imágenes de entrada [0028]. El experto en la materia interpretaría esto a la luz del conocimiento existente. De hecho, ha habido una enseñanza en la optimización de vídeo SDR, que analiza las propiedades estadísticas del vídeo de entrada, a saber, los puntos finales del histograma de luminancia, y optimiza ese histograma en particular para el intervalo de visualización disponible. Por ejemplo, debido a varias razones, no es raro que los píxeles negros u oscuros en una imagen capturada sean más brillantes de lo que podrían (o tal vez deberían) ser, por ejemplo, una luma de 30 en lugar de 0 (ignorando nuevamente por un momento detalles complejos sobre los intervalos de protección contra desbordamientos, fugas de luz de la pantalla, problemas de visibilidad dependientes de la iluminación, etc.). Luego, se podría estirar el histograma para que la luma de imagen más baja sea 0 en lugar de 30, lo que da como resultado imágenes más bonitas debido al mayor contraste de las estructuras de la imagen y mejores negros, lo que puede ser especialmente agradable para la visualización envolvente oscura. US-20150245004 teaches that two images may be mixed, of which at least one may be an HDR image and the other may be an SDR image. The application describes that there may be a mismatch in color space (i.e. the width of the RGB triangle, because other additive primaries are used in a DCI P3 color definition than in a usual sRGB video definition, but that chromatic aspect is irrelevant for the present explanation of the application, since it may be chosen in addition to what is of primary essence here, namely the luminances of the pixels of the image and the corresponding dynamic range of the image coding), and a mismatch in dynamic range. However, that application is not very detailed about how the video mixing should or could occur. [0029] mentions that the mixing may occur in the color space of the display device, i.e. the dynamic range which in the designation of this application ends in PB_D. Furthermore, the processing appears to be related to conversion to a different transfer function TF, or gamma correction [0027]. Finally, there is a very generic teaching [0036] that the compositing set can evaluate the dynamic range of the video content, and presumably that corresponds to the non-detailed teaching that statistical analysis of the input images can be performed [0028]. The person skilled in the art would interpret this in light of existing knowledge. In fact, there has been a teaching in SDR video optimization, which analyzes the statistical properties of the input video, namely the endpoints of the luminance histogram, and optimizes that particular histogram for the available display range. For example, due to various reasons it's not uncommon for black or dark pixels in a captured image to be brighter than they could (or perhaps should) be, say a luma of 30 instead of 0 (again ignoring for a moment complex details about overflow protection intervals, display light leaks, lighting-dependent visibility issues, etc.). One could then stretch the histogram so that the lowest image luma is 0 instead of 30, resulting in nicer looking images due to increased contrast of image structures and better blacks, which can be especially nice for dark surround viewing.

En realidad, cuando se necesita diseñarprima facieun mezclador de vídeo, sin haber inventado más detalles enseñados, el experto podría tener las siguientes dos opciones a considerar como se explica con la Figura 13 (aparte de mezclar códigos de luma, que como se explica con la Figura 1 es, aunque agradable y simple para la mezcla pura de imágenes SDR, no tan evidente o inteligente cuando se tienen imágenes definidas de manera diferente). Si una enseñanza dice que necesita convertir debido a diferentes funciones de transferencia, el experto pensaría en un sistema de mezcla de diseño natural como en la Figura 13A. En esta mezcla se tiene un intervalo de luminancias naturales (1301), por ejemplo, hasta 50.000 nit para ser lo suficientemente grandes y, de hecho, cualesquiera que sean las formas OETF de las definiciones de código, las convierte en luminancias. Ambas imágenes contenían luminancias (físicamente definidas de forma única), por supuesto, se podrían mezclar en principio, pero la pregunta es si eso sería suficiente, dadas las consideraciones prácticas psicovisuales y artísticas. En segundo lugar, si mapeamos a un intervalo dinámico de visualización preestablecido común (1302), con un PB_D de, por ejemplo, 700 nit [por lo que, por simplicidad, ahora omitimos la etapa de la OETF y razonamos puramente sobre las luminancias correspondientes], a continuación otro mapeo natural (el paradigma de mapeo relativo, por ejemplo) que se podría considerar es ajustar (en función de las "propiedades estadísticas de las imágenes") las imágenes hacia la capacidad de la visualización (es decir, el intervalo dinámico de la imagen hacia el intervalo dinámico de la visualización). La forma natural de hacerlo es estirar los intervalos (es decir, correspondientes a un mapeo de blanco a blanco), por ejemplo, linealmente. También se podría aplicar alguna función de mapeo en forma de gamma, pero la pregunta es a continuación cuál debería ser ese coeficiente gamma y por qué. Pero esto crea resultados que ya son exactamente lo que en varios casos nos gustaría evitar. Si se estira, por ejemplo, una imagen SDR de un paisaje con nieve a 700 nits, puede llegar a ser molestamente brillante. Actually, when one needs to prima facie design a video mixer, without having invented more taught details, the expert might have the following two options to consider as explained with Figure 13 (apart from mixing luma codes, which as explained with Figure 1 is, although nice and simple for pure mixing of SDR images, not so obvious or smart when you have differently defined images). If a teaching says you need to convert due to different transfer functions, the expert would think of a natural design mixing system as in Figure 13A. In this mix you have a range of natural luminances (1301), for example, up to 50,000 nit to be large enough and in fact, whatever the OETF forms of code definitions, it converts them to luminances. Both images contained luminances (physically uniquely defined), of course, they could be mixed in principle, but the question is whether that would be enough, given practical psychovisual and artistic considerations. Secondly, if we map to a common preset display dynamic range (1302), with a PB_D of say 700 nit [so for simplicity we now skip the OETF stage and reason purely about the corresponding luminances], then another natural mapping (the relative mapping paradigm for example) that one could consider is to scale (based on "statistical properties of images") the images towards the display's capacity (i.e. the image's dynamic range towards the display's dynamic range). The natural way to do this is to stretch the ranges (i.e. corresponding to a white-to-white mapping), for example linearly. Some mapping function in the form of gamma could also be applied, but the question then becomes what that gamma coefficient should be and why. But this creates results that are already exactly what in several cases we would like to avoid. If you stretch, for example, an SDR image of a snowy landscape to 700 nits, it can become annoyingly bright.

Además, aunque estos sistemas de mapeo natural ya no son perfectos solo por consideraciones sobre sus puntos finales, como dónde debería mapearse el color más brillante, tales técnicas ignoran por completo lo que, como se dijo, es probablemente el aspecto más importante del HDR, a saber, la distribución (controlada con precisión) de todas las luminancias de los objetos entre los puntos finales del intervalo dinámico (y en la actualidad eso todavía parece ser una falta de comprensión de muchos, si no de la mayoría de los expertos, que parecen insistir en que el h Dr se trata simplemente del valor de luminancia blanca dividido por el negro que cualquier tecnología puede alcanzar, aunque a menudo una imagen que se representa correctamente en una pantalla de intervalo dinámico más bajo puede verse mejor que una imagen mal controlada en una pantalla de DR más alta, por ejemplo, contraste y efecto HDR). Se puede entender fácilmente que el intervalo dinámico no se trata solo de puntos finales técnicos, centrándose en el ejemplo de tener nieve en una clasificación maestra HDR de PB_C=5000 nit. El graduador, por ejemplo, asignaría la parte más brillante de la nieve al sol a 800 nits, mientras que otro graduador puede ponerla a solo 550 nits, por lo que esencialmente esto parece una situación de intervalo dinámico más bajo, ya que la mayor parte de la capacidad del códec no se utiliza para esta imagen. En la nivelación SDR, se puede suponer que normalmente el graduador colocará el píxel más brillante de la nieve a 100 nits. Para imágenes graduadas MDR, se puede reflexionar sobre a qué luminancia debe caer el píxel más brillante, incluso cuando solo se renderiza una imagen en lugar de una mezcla posiblemente muy complicada de varios contenidos de imagen. Entonces, ¿cómo se sabe a qué luminancia final (mezcla) se debe representar en última instancia un píxel de nieve, ya sea que provenga de una imagen SDR, donde está relativamente codificada como máximo 1,0, o de "alguna" codificación de imagen HDR, en la que, incluso ignorando la forma OETF porque ese puede no ser el factor determinante más importante, el píxel de nieve tiene una luminancia relativa que parece algo arbitraria a primera vista de, por ejemplo, 0,126. Furthermore, while these natural mapping systems are no longer perfect just because of considerations about their endpoints, like where the brightest color should be mapped, such techniques completely ignore what, as said, is probably the most important aspect of HDR, namely the (precisely controlled) distribution of all objects luminances between the endpoints of the dynamic range (and at present that still seems to be a lack of understanding by many, if not most experts, who seem to insist that the hDr is simply about the white luminance value divided by black that any technology can achieve, even though often an image that is correctly rendered on a lower dynamic range display can look better than a poorly controlled image on a higher DR display, e.g. contrast and HDR effect). That dynamic range is not just about technical endpoints can be easily understood by focusing on the example of having snow on an HDR master rating of PB_C=5000 nit. The grader, for example, would assign the brightest part of the snow to the sun at 800 nits, while another grader may put it at only 550 nits, so essentially this looks like a lower dynamic range situation since most of the codec's capacity is not being used for this image. In SDR leveling, one can assume that typically the grader will put the brightest pixel of the snow at 100 nits. For MDR graded images, one can give some thought to what luminance the brightest pixel should fall at, even when only one image is being rendered rather than a possibly very complicated mix of multiple image contents. So how do you know what final (blend) luminance a snow pixel should ultimately be rendered at, whether it comes from an SDR image, where it is relatively encoded at most 1.0, or from "some" HDR image encoding, where, even ignoring the OETF shape because that may not be the most important determining factor, the snow pixel has a somewhat arbitrary-looking relative luminance at first glance of, say, 0.126.

La Figura 14 aclara otro punto importante que se pasa por alto con los procedimientos que simplemente se centran en el intervalo dinámico de cualquier sistema técnico, ya sea alguna codificación correspondiente a una pantalla de referencia teórica o una pantalla real, etc., como algo con una extensión definida principalmente por el punto final, como, por ejemplo, cómo funcionarían las transformaciones de luminancia ciega para el mapeo de gama. Especialmente en HDR, la iluminación de los objetos no necesita ser controlada estrictamente como, por ejemplo, en un estudio de noticias SDR, pero en principio puede ser cualquier cosa. Si uno camina al sol más allá de un lugar vacío en el bosque, por ejemplo, un área de hierba, uno puede percibir visualmente que el interior del bosque ya puede parecer negro. Eso, por supuesto, no es en absoluto porque sea negro, porque los árboles allí son de un color marrón como en cualquier otro lugar, y la maleza es igual de verde, sino porque la iluminación local es, por ejemplo, 1/20°, o incluso menos, que la iluminación local es el lugar libre sin árboles, que recibe la luz completa del sol y el cielo. Y el 1/20° comienza a parecerle a los humanos como el negro psicovisual, hasta que uno echa un vistazo más de cerca. Figure 14 makes clear another important point that is overlooked by procedures that simply focus on the dynamic range of any technical system, be it some encoding corresponding to a theoretical reference display or a real display, etc., as something with an extent defined primarily by the endpoint, such as, for example, how blind luminance transformations would work for gamut mapping. Especially in HDR, the illumination of objects does not need to be strictly controlled as, for example, in an SDR news studio, but can in principle be anything. If one walks in the sun past an empty spot in the forest, for example a grassy area, one can visually perceive that the interior of the forest may already appear black. That is of course not at all because it is black, because the trees there are a brown color like everywhere else, and the undergrowth is just as green, but because the local illumination is, for example, 1/20°, or even less, that the local illumination is the free spot without trees, which receives the full light from the sun and the sky. And 1/20th starts to look to humans like psychovisual black, until you take a closer look.

Un objeto como una camiseta, por lo tanto, puede tener diferentes luminancias, incluso en la misma película (en otras palabras, podría caer por todo el lugar en el intervalo de, por ejemplo, 1000 nit PB_C_HDR; tenga en cuenta que un graduador podría decidir restringir un poco la variación en su calificación maestra, pero explicamos con una relación natural casi de 1 a 1 con las luminancias relativas capturadas por la cámara de la escena original). En el sol, la camiseta será - 5 veces más brillante que en una media sombra inicial, donde la camiseta está principalmente iluminada por, un ángulo sólido considerable del cielo azul. De hecho, 100 nit también serían artísticamente lo que uno podría esperar para un "día opaco" en una buena pantalla HDR, mientras que los 500 nit podrían aparecer como si estuvieran realmente iluminados por el sol. Cuanto más se adentra la persona en el bosque, más área del cielo que podría iluminarlo está bloqueada por las hojas de los árboles, por lo que la luminancia del objeto en particular, en este caso la camiseta de la persona, sería, por ejemplo, 100 nit, ergo 50x más oscura que la camiseta brillante, ergo probablemente también se vea algo negruzca en una representación de esta escena HDR en particular. Tal vez en una clasificación HDR cinematográfica para la visualización en el hogar, las luminancias se pueden clasificar de forma más conservadora, por ejemplo, la mitad de los valores dados, pero la distribución de las diversas luminancias aún puede ser el mismo punto. Entonces, una pregunta ahora sería, si uno con cualquiera de las formas de mezcla relativamente estáticas anteriores intercalara estas diversas representaciones de camisetas en un vídeo en ejecución (con sus propios detalles de luminancia), ¿eso siempre sería "automáticamente" razonablemente bueno, y si no, ¿qué debería hacerse a continuación? An object like a t-shirt can therefore have different luminances, even on the same film (in other words, it could fall all over the place in the range of, say, 1000 nit PB_C_HDR; note that a grader might decide to restrict the variation in their master grade a bit, but we account for that with a natural almost 1-to-1 relationship with the relative luminances captured by the camera from the original scene). In the sun, the t-shirt will be -5x brighter than in an initial half-shade, where the t-shirt is mostly illuminated by, a considerable solid angle of the blue sky. In fact, 100 nit would also be artistically what one might expect for a "dull day" on a good HDR display, while 500 nit might appear as if it were actually illuminated by the sun. The further the person goes into the forest, the more area of the sky that could illuminate him is blocked by the leaves of the trees, so the luminance of the particular object, in this case the person's t-shirt, would be, say, 100 nit, ergo 50x darker than the bright t-shirt, ergo it would probably also look somewhat blackish in a rendering of this particular HDR scene. Perhaps in a cinematic HDR grading for home viewing, the luminances can be graded more conservatively, say half the given values, but the distribution of the various luminances can still be the same point. So a question now would be, if one with any of the above relatively static blending forms were to interleave these various renderings of t-shirts into a running video (with their own luminance details), would that always "automatically" do reasonably well, and if not, what should be done next?

Otra técnica anterior interesante es la siguiente: Another interesting previous technique is the following:

El documento US2015/0042890 enseña la ecualización de vídeo que incluye realizar la ecualización de modo que una secuencia de imágenes tenga un intervalo dinámico que sea constante en un grado predeterminado, donde el vídeo de entrada incluye vídeos e imágenes de intervalo dinámico alto y estándar de ambos. La ecualización se realiza con un punto de anclaje común (por ejemplo, nivel de gris del 20 % o media logarítmica de luminancia). El documento US2013/0328907 enseña un procedimiento para transformar datos de imagen para su visualización en una pantalla diana. Una función de transferencia sigmoidea proporciona un parámetro libre que controla el contraste de tono medio. La función de transferencia puede ajustarse dinámicamente para adaptarse a las condiciones cambiantes de iluminación ambiental. La transformación puede seleccionarse para adaptar automáticamente los datos de imagen para su visualización en una pantalla objetivo de una manera que preserve sustancialmente la intención creativa incorporada en los datos de imagen. US2015/0042890 teaches video equalization including performing equalization such that a sequence of images has a dynamic range that is constant to a predetermined degree, where the input video includes both standard and high dynamic range videos and images. The equalization is performed with a common anchor point (e.g., 20% gray level or log mean luminance). US2013/0328907 teaches a method of transforming image data for display on a target display. A sigmoid transfer function provides a free parameter that controls the mid-tone contrast. The transfer function may be dynamically adjusted to accommodate changing ambient lighting conditions. The transformation may be selected to automatically adapt the image data for display on a target display in a manner that substantially preserves the creative intent embodied in the image data.

El documento WO2014/130213 enseña sistemas y procedimientos para superponer una segunda imagen/datos de vídeo sobre una primera imagen/datos de vídeo que se describen en esta invención. Los primeros datos de imagen/vídeo pueden estar destinados a representarse en una pantalla con ciertas características, por ejemplo, capacidades HDR, EDR, VDR o UHD. Los segundos datos de imagen/vídeo pueden comprender gráficos, subtítulos, texto, publicidad o cualquier dato que se desee superponer y/o componer en los primeros datos de imagen/vídeo. Los segundos datos de imagen/vídeo pueden mapearse en apariencia de acuerdo con las estadísticas de imagen y/o características de los primeros datos de imagen/vídeo. Además, dicho mapeo de apariencia se puede hacer de acuerdo con las características de la pantalla que se van a representar los datos compuestos. Se desea que dicho mapeo de apariencia renderice datos compuestos que sean visualmente agradables para un espectador, renderizados en una pantalla deseada. El documento US2015/256860 enseña un procedimiento para fusionar gráficos y datos de vídeo de alto intervalo dinámico. En un receptor de vídeo, un procedimiento de gestión de visualización utiliza metadatos para mapear datos de vídeo de entrada desde un primer intervalo dinámico en el intervalo dinámico de datos gráficos disponibles. La señal de vídeo reasignada se mezcla con los datos gráficos para generar una señal compuesta de vídeo. Para aliviar los saltos de mapeo de tonos perceptuales durante los cambios de escena de vídeo, un transformador de metadatos transforma los metadatos en transformados para que en un receptor de televisión (TV) los valores de metadatos pasen sin problemas entre escenas consecutivas. WO2014/130213 teaches systems and methods for superimposing a second image/video data onto a first image/video data described herein. The first image/video data may be intended to be displayed on a display with certain characteristics, for example, HDR, EDR, VDR or UHD capabilities. The second image/video data may comprise graphics, subtitles, text, advertising or any data that is desired to be superimposed and/or composited onto the first image/video data. The second image/video data may be appearance mapped according to image statistics and/or characteristics of the first image/video data. Furthermore, such appearance mapping may be done according to characteristics of the display that the composite data is to be rendered. It is desired that such appearance mapping render composite data that is visually pleasing to a viewer, rendered on a desired display. US2015/256860 teaches a method for fusing high dynamic range video data and graphics. At a video receiver, a display management method uses metadata to map input video data from a first dynamic range into the dynamic range of available graphics data. The remapped video signal is mixed with the graphics data to generate a composite video signal. To alleviate perceptual tone mapping jumps during video scene changes, a metadata transformer transforms the metadata into transforms so that at a television (TV) receiver the metadata values pass seamlessly between consecutive scenes.

RESUMEN DE LA INVENCIÓN SUMMARY OF THE INVENTION

El problema anterior de necesitar un procedimiento para coordinar razonablemente la combinación de imágenes con un intervalo dinámico (potencialmente muy) diferente se puede resolver teniendo un aparato (301) para combinar dos imágenes o dos vídeos de imágenes (Im_HDR, Im_LDR) de diferentes fuentes y con diferente luminancia máxima, siendo una de ellas una imagen o vídeo de alto intervalo dinámico, comprendiendo el aparato: The above problem of needing a method to reasonably coordinate the combining of images with (potentially very) different dynamic range can be solved by having an apparatus (301) for combining two images or two videos of images (Im_HDR, Im_LDR) from different sources and with different maximum luminance, one of them being a high dynamic range image or video, the apparatus comprising:

- un conjunto de establecimiento de intervalo dinámico (302) dispuesto para establecer un intervalo dinámico de luminancia de combinación (CombRng), que se caracteriza por al menos una luminancia máxima (LMC) que se determina en función de las luminancias máximas de las dos imágenes o los dos vídeos de imágenes, - a dynamic range setting assembly (302) arranged to set a dynamic range of combination luminance (CombRng), which is characterized by at least one maximum luminance (LMC) that is determined based on the maximum luminances of the two images or the two image videos,

el conjunto de establecimiento de intervalo dinámico que comprende además un conjunto de determinación de anclaje de luminancia (303), dispuesto para determinar una luminancia de anclaje (anc) en el intervalo dinámico de luminancia de combinación (CombRng); the dynamic range setting assembly further comprising a luminance anchor determining assembly (303), arranged to determine an anchor luminance (anc) in the dynamic range of combination luminance (CombRng);

- un conjunto de transformación de color (310), dispuesto para realizar al menos una transformación de luminancia en al menos una de las dos imágenes o vídeos, donde el conjunto de transformación de color (310) comprende un conjunto de lectura de luminancia de anclaje de fuente (311) dispuesto para leer al menos una luminancia de anclaje de fuente (L_SA1) a partir de metadatos de una primera fuente (350) que proporciona una primera imagen o vídeo (Im1_LDR) de las dos imágenes o vídeos, - a colour transformation assembly (310), arranged to perform at least one luminance transformation on at least one of the two images or videos, wherein the colour transformation assembly (310) comprises a source anchor luminance readout assembly (311) arranged to read at least one source anchor luminance (L_SA1) from metadata of a first source (350) providing a first image or video (Im1_LDR) of the two images or videos,

y donde el conjunto de transformación de color está dispuesto para establecer una transformación de luminancia (FF_1) que se aplicará a la primera imagen o vídeo que produce una primera imagen de salida que tiene primeras luminancias de salida, cuya transformación de luminancia depende del valor de la luminancia de anclaje de fuente (L_SA1) al tener la propiedad de que la luminancia de anclaje de fuente (L_SA1) se mapea a una luminancia de salida en las proximidades de la luminancia de anclaje (anc); y and where the color transformation set is arranged to establish a luminance transformation (FF_1) to be applied to the first image or video that produces a first output image having first output luminances, which luminance transformation depends on the value of the source anchor luminance (L_SA1) by having the property that the source anchor luminance (L_SA1) is mapped to an output luminance in the vicinity of the anchor luminance (anc); and

- un conjunto de combinación de imágenes (320) dispuesto para combinar las luminancias de salida de la primera imagen de salida con luminancias de la otra de las dos imágenes o dos vídeos de imágenes para formar al menos una imagen de salida combinada (Im_o). - an image combining assembly (320) arranged to combine output luminances of the first output image with luminances of the other of the two images or two image videos to form at least one combined output image (Im_o).

En primer lugar, para evitar dudas, por combinación de imágenes nos referimos a varias opciones posibles para reunir espacialmente o, en caso de vídeo, posiblemente también temporalmente, el contenido de la imagen. La combinación debe entenderse en el sentido original latino amplio como "unir dos juntos", y no en el sentido más limitado de, por ejemplo, mezclar, que reservamos en este texto para la adición ponderada de dos fuentes por píxel. El experto entiende que las diversas realizaciones de esta invención resuelven la necesidad de una buena combinación (armoniosa de luminancia o coincidencia coordinada) de vídeo que se produce, entre otras cosas, en diversas combinaciones de imagen en imagen (y en general hoy en día esto incluye intercalar espacialmente al menos algunos píxeles de la primera imagen con parte de la segunda imagen, por ejemplo, en una cantidad que cambia temporalmente que corresponde a voltear la primera imagen como si fuera una página y mostrar píxeles de la imagen subyacente, pero esta invención se asegurará de que los colores de los píxeles, y en particular sus brillos percibidos, corresponderán correctamente), mezclar combinaciones tales como un desvanecimiento o intercalación temporal tal como, por ejemplo, un corte a un comercial en momentos regulares durante una película, etc. Tanto cuando se reemplaza una región espacial de una imagen por otra (entera o parte de una) segunda imagen, como cuando se muestran temporalmente imágenes de otra secuencia de vídeo entre o después de las imágenes de un primer vídeo, no se debe tener demasiada discordancia de brillo (es decir, una de las imágenes no debe verse excesivamente más brillante que la otra, por ejemplo, en lo que respecta a su lóbulo de histograma principal u objetos clave), especialmente cuando también hay contenido intermitente, etc. En cualquier escenario de este tipo, se puede establecer un intervalo dinámico de luminancia de combinación (CombRng), que es el intervalo dinámico de la imagen combinada (representación vacía), que se llenará con datos de imagen combinados (por ejemplo, se podría tomar para la intercalación o sucesión temporal el intervalo más grande de los dos). First of all, for the avoidance of doubt, by image blending we mean various possible options for bringing together spatially or, in case of video, possibly also temporally, image content. Blending should be understood in the original broad Latin sense as "joining two together", and not in the more limited sense of, for example, blending, which we reserve in this text for the weighted addition of two sources per pixel. The skilled artisan understands that the various embodiments of this invention address the need for good blending (harmonious luminance or coordinate matching) of video which occurs, inter alia, in various picture-in-picture combinations (and in general today this includes spatially interleaving at least some pixels of the first image with part of the second image, e.g., by a temporally changing amount corresponding to flipping the first image as if it were a page and displaying pixels of the underlying image, but this invention will ensure that the colors of the pixels, and in particular their perceived brightnesses, will correspond correctly), blending combinations such as a temporal fade or interleaving such as, for example, a cut to a commercial at regular times during a movie, etc. Whether when replacing a spatial region of one image by (all or part of) a second image, or when temporarily displaying images from another video sequence between or after images from a first video, one should not have too much brightness mismatch (i.e. one of the images should not appear excessively brighter than the other, e.g. with respect to its main histogram lobe or key objects), especially when there is also flashing content, etc. In any such scenario, one can set a combining luminance dynamic range (CombRng), which is the dynamic range of the combined image (empty representation), to be filled with combined image data (e.g. the larger of the two ranges could be taken for interleaving or time-sequence).

Debe quedar claro para el experto en la materia qué es una imagen de alto intervalo dinámico y por qué, a saber, una imagen que no es una imagen LDR heredada definida para un brillo máximo de 100 nits, es decir, que no se puede combinar de una manera LDR clásica (a primera vista, parece haber algún desajuste entre el objeto de la imagen o las luminancias de los píxeles definidas en los dos marcos de codificación de imágenes diferentes). Debe quedar claro para el lector experto que si el aparato obtiene solo 2 imágenes fijas (o, por ejemplo, 5), normalmente la imagen de salida (Im_o) será una imagen fija. En caso de que se combinen dos o más vídeos de imágenes sucesivas, se generará un vídeo de salida, es decir, una sucesión de esas imágenes de alguna forma, por ejemplo, en caso de que cada vídeo tenga una imagen para cada instante de tiempo, el vídeo resultante puede ser un vídeo de mezcla de mezcla alfa con exactamente la misma cantidad de imágenes para instantes de tiempo correspondientes que las dos secuencias de imágenes originales, o el vídeo resultante puede tener imágenes para diferentes instantes de tiempo, por ejemplo, tener una longitud del 100 % del primer vídeo, 50 % del segundo vídeo, con sus diversas imágenes asignadas en la mezcla a algunos de los instantes de tiempo. It should be clear to the skilled person what a high dynamic range image is and why, namely an image which is not a legacy LDR image defined for a peak brightness of 100 nits, i.e. which cannot be combined in a classical LDR manner (at first glance there seems to be some mismatch between the image object or pixel luminances defined in the two different image coding frames). It should be clear to the skilled reader that if the apparatus outputs only 2 (or for example 5) still images, then typically the output image (Im_o) will be a still image. In case two or more videos of successive images are combined, an output video will be generated, i.e. a succession of those images in some form, for example, in case each video has one image for each time instant, the resulting video may be an alpha-blended mixed video with exactly the same number of images for corresponding time instants as the two original image sequences, or the resulting video may have images for different time instants, for example having a length of 100% of the first video, 50% of the second video, with its various images assigned in the mix to some of the time instants.

Para mantener las enseñanzas de esta patente legibles y concisas, fingiremos que las realizaciones solo hacen transformaciones en luminancias (el lector puede, al leer, fingir que las imágenes son imágenes en escala de grises), ya que las enseñanzas son principalmente sobre cómo manejar las diferencias en el intervalo dinámico de luminancia y las impresiones de brillo que esto daría a un espectador. Sin embargo, por supuesto, el lector experto entiende que en realidad normalmente se realizarán transformaciones de color, por ejemplo, puede entender tanto cómo una luminancia corresponde a una definición de color lineal R,G, B, como cómo se puede crear un píxel con una luminancia deseada transformando su color, por ejemplo, en RGB lineal como en el documento WO2014/056679. En caso de que para mayor concisión digamos a continuación algo para vídeo, el experto entenderá que también puede aplicarse a imágenes fijas. En algunos casos, el vídeo puede, debido a los aspectos en tiempo real, desear formas más simples de manejo, por lo que se presentan elegantes soluciones rápidas para la mezcla. Algunas de nuestras realizaciones de mejor rendimiento funcionarán con la intervención de artistas humanos, ya que los humanos pueden juzgar mejor de qué se tratan exactamente las imágenes HDR y qué necesitan en varias presentaciones mixtas, pero otras realizaciones funcionarán con anotación automática mediante algoritmos de análisis de imágenes. In order to keep the teachings of this patent readable and concise, we will pretend that the embodiments only make transformations in luminances (the reader may, when reading, pretend that the images are grayscale images), as the teachings are mainly about how to handle differences in dynamic range of luminance and the brightness impressions this would give to a viewer. However, of course, the skilled reader understands that in reality color transformations will typically be performed, for example, he or she can understand both how a luminance corresponds to a linear R,G,B color definition, and how a pixel with a desired luminance can be created by transforming its color, for example, into linear RGB as in WO2014/056679. In case for the sake of conciseness we say below something for video, the skilled person will understand that it can also be applied to still images. In some cases, video may, due to real-time aspects, desire simpler ways of handling, so elegant quick solutions for mixing are presented. Some of our best performing implementations will work with human artists, as humans are better able to judge what exactly HDR images are about and what they need in various mixed presentations, but other implementations will work with automatic annotation using image analysis algorithms.

El aparato debe ser capaz de establecer un intervalo dinámico de luminancia de combinación más adecuado, que es un nuevo intervalo dinámico que es una parte de la razón por la que un problema de combinación muy complejo se convierte en uno más manejable. Como se explicará a continuación, este no necesita ser simplemente uno de los intervalos dinámicos que ya existen, es decir, donde ya se ha inventado y definido, a saber, ni el intervalo dinámico de cualquiera de las imágenes fuente necesariamente, ni el intervalo dinámico de la pantalla final en la que se debe representar el contenido (si incluso eso se conoce durante la combinación, que no es cierto para todas las realizaciones), la pantalla prevista (que puede no conocerse en algunas realizaciones, aunque algunos aparatos del lado de creación pueden tener una estimación razonable de lo que puede ser una buena pantalla de referencia, que es un representante típico de la pantalla típica que se espera en el campo, en las instalaciones del consumidor). Ese intervalo dinámico de luminancia de combinación debe ser tal que la presentación combinada tenga la mejor calidad visual o impacto en el espectador. Eso puede depender, por supuesto, de varios aspectos del contenido a definir. Si el contenido principal (que llamaremos la segunda imagen o vídeo, porque eso hace que la afirmación sea más fácil de leer) es, por ejemplo, una película, a continuación al creador de la película no le gustaría que su película se molestara demasiado. Por ejemplo, no debe ser para que después de un comercial brillante, el espectador ya no pueda ver bien lo que está sucediendo en una escena oscura de la película. En tal escenario, como normalmente habrá uno de los dos vídeos que está distorsionado en sus propiedades de luminancia para hacerlo más armonioso con el otro vídeo de entrada y, por lo tanto, el vídeo combinado, la película es el vídeo más importante (o principal), para el cual las luminancias deben dejarse en gran medida sin distorsionar (cuando sea posible). Pero también al productor o patrocinador comercial le gustaría que su comercial saliera en el renderizado final lo mejor posible. El conjunto de transformación de color (310) y/o el conjunto de combinación (320) pueden imponer una política de que el comercial no pueda sobrepasar la película. Aun así, p.ej., un comercial LDR tampoco debe oscurecerse innecesariamente. Por ejemplo, una cara puede no verse muy bonita si, al compararse con otro objeto relacionado en la película, se ve casi negra. Como dijimos anteriormente, el bosque puede parecer negro en comparación con las regiones iluminadas por el sol muy brillantes, si el sistema visual humano adapta su interpretación de los valores de gris en esa área brillante. Por lo tanto, si hay áreas importantes (grandes) en la película o transmisión HDR (o juego, etc.) que son muy brillantes, digamos 2000 nit, y especialmente cuando están estrechamente adyacentes a los píxeles SDR combinados, a continuación un objeto SDR de solo aproximadamente 20 nit podría parecer negruzco, por lo que se puede desear algo de brillo antes de combinar. Además, la visibilidad de, por ejemplo, las características faciales u otros detalles del objeto se reduce con la luminancia y el contraste promedio del objeto. Aunque experimentamos que incluso con imágenes individuales, algunas personas pueden quejarse de que en algunas situaciones la distribución del brillo del objeto (por ejemplo, el histograma de luminancia de píxeles de una representación HDR) no es completamente óptima, por ejemplo, demasiado brillante en algún escenario, la adaptación visual y el cerebro humano suelen ser relativamente indulgentes si se representa una sola imagen, ya que el cerebro puede determinar y ajustarse a lo que deberían ser todos los objetos en esa única imagen. Pero si un objeto ahora está compuesto espacialmente en otra imagen, el espectador está obligado a notar diferencias como serias, incluso si algún contenido está en un marco. Porque el cerebro juzga parte del contenido de las imágenes como referencia para la distribución del brillo de la escena, y normalmente las escenas no están tan desconectadas como un PIP, sino que tienen una variación de iluminación suave. Como se mostrará, no es tan fácil a primera vista saber cuál es una buena combinación de brillo. Al menos, eso no se puede hacer durante la creación de los vídeos separados, ya que, por ejemplo, el creador de la película no sabe qué comercial local se insertará (por ejemplo, por un operador de cable), o incluso, qué segunda imagen seleccionará el espectador de alguna fuente de imagen en, por ejemplo, un PIP mientras ve la película (tal vez transmitida por su ordenador doméstico, o aparato doméstico central de gestión de contenido). También téngase en cuenta que la importancia visual de algunos dicen que el objeto relativamente brillante depende, entre otras cosas, de su tamaño. Al tener las dos imágenes disponibles, el aparato puede tomar decisiones de combinación más inteligentes. Es posible que sea necesario que reduzca la luminancia máxima renderizable (LMC), por ejemplo, para que el contenido h Dr se parezca más a la primera imagen, si se trata de una imagen SDR. Eso puede depender de observar otras propiedades del píxel o luminancias de objeto (donde un objeto es un conjunto agrupado inteligentemente de píxeles semánticamente relacionados). Por ejemplo, si los objetos más brillantes son lámparas, se puede permitir reducir el brillo de esas lámparas en el intervalo dinámico de combinación (CombRng) durante algún tiempo. Ese no es el HDR más espectacular, pero la imagen HDR todavía se puede usar para renderizar lámparas muy brillantes, y especialmente para pantallas conectadas con un brillo máximo más bajo (LM_MDR) que el de la imagen combinada (LMC), las lámparas codificables más brillantes no se pueden renderizar exactamente, es decir, con la luminancia del códec, de todos modos. Entonces uno todavía tiene una película de alto intervalo dinámico, pero luego con un intervalo dinámico que es más apropiado para la situación de una combinación. The apparatus must be able to establish a more suitable blending luminance dynamic range, which is a new dynamic range that is part of the reason why a very complex blending problem becomes a more manageable one. As will be explained below, this need not simply be one of the dynamic ranges that already exist, i.e. where it has already been invented and defined, namely neither the dynamic range of any of the source images necessarily, nor the dynamic range of the final display on which the content is to be rendered (if even that is known during blending, which is not true for all embodiments), the intended display (which may not be known in some embodiments, although some apparatus on the creation side may have a reasonable estimate of what may be a good reference display, which is a typical representative of the typical display expected in the field, in consumer installations). That blending luminance dynamic range must be such that the blended presentation has the best visual quality or impact on the viewer. That may depend, of course, on various aspects of the content to be defined. If the main content (which we will call the second image or video, because that makes the statement easier to read) is for example a movie, then the movie creator would not like his movie to be disturbed too much. For example, it should not be so that after a bright commercial, the viewer can no longer see well what is happening in a dark scene of the movie. In such a scenario, as there will usually be one of the two videos which is distorted in its luminance properties to make it more harmonious with the other input video and thus the combined video, the movie is the most important (or main) video, for which the luminances should be left largely undistorted (where possible). But also the commercial producer or sponsor would like his commercial to come out in the final rendering as well as possible. The color transformation set (310) and/or the combination set (320) can enforce a policy that the commercial cannot overtake the movie. Still, e.g., an LDR commercial should not be unnecessarily darkened either. For example, a face may not look very pretty if, when compared to another related object in the movie, it looks almost black. As we said above, the forest may look black compared to very bright sunlit regions, if the human visual system adapts its interpretation of gray values in that bright area. So, if there are important (large) areas in the HDR movie or stream (or game, etc.) that are very bright, say 2000 nit, and especially when they are closely adjacent to the matched SDR pixels, then an SDR object of only about 20 nit might look blackish, so some brightening may be desired before matching. Also, the visibility of, for example, facial features or other object details is reduced with the average luminance and contrast of the object. Although we experience that even with single images some people may complain that in some situations the object brightness distribution (e.g. pixel luminance histogram of an HDR rendering) is not completely optimal, e.g. too bright in some scenario, visual adaptation and the human brain are usually relatively forgiving if a single image is rendered, as the brain can determine and adjust to what all objects in that single image should be. But if an object is now spatially composited into another image, the viewer is bound to notice differences as serious, even if some content is in one frame. Because the brain judges part of the images content as a reference for the scene brightness distribution, and usually scenes are not as disconnected as a PIP, but have a smooth lighting variation. As will be shown, it is not so easy at first glance to tell what a good brightness combination is. At least, that can't be done during the creation of the separate videos, since, for example, the movie creator doesn't know which local commercial will be inserted (say, by a cable operator), or even, which second image the viewer will select from some image source in, say, a PIP while watching the movie (perhaps streamed by his home computer, or central home content management appliance). Also note that the visual importance of some say the relatively bright object depends on, among other things, its size. By having both images available, the appliance can make smarter blending decisions. It may need to reduce the maximum renderable luminance (MRL), for example, to make the HDR content look more like the first image, if it's an SDR image. That may depend on looking at other pixel properties or object luminances (where an object is an intelligently grouped set of semantically related pixels). For example, if the brightest objects are lamps, one can allow reducing the brightness of those lamps in the combining dynamic range (CombRng) for some time. That is not the most spectacular HDR, but the HDR image can still be used to render very bright lamps, and especially for connected displays with a lower maximum brightness (LM_MDR) than that of the combined image (LMC), the brightest encodeable lamps cannot be rendered exactly, i.e. with the codec luminance, anyway. So one still has a high dynamic range movie, but then with a dynamic range that is more appropriate for the situation of a combination.

De hecho, uno puede pensar en dos escenarios alternativos típicos. Genéricamente, se puede afirmar que el intervalo dinámico de combinación, es decir, al menos su luminancia superior (LMC), está definido por el aparato que analiza las necesidades de, por un lado, la entrada de al menos dos imágenes y, por otro lado, si algo con respecto a eso ya se puede determinar, el intervalo dinámico (al menos el brillo máximo) de la pantalla prevista en la que se debe representar la combinación de imágenes (es decir, las necesidades de HDR del contenido de imagen presentado adecuadamente de una pantalla HDR típica). Por lo tanto, algunas realizaciones necesitarán determinar el CombRng basándose únicamente en las dos imágenes, si aún no se puede decir nada o no se puede decir mucho sobre cómo se deben ajustar para su uso (pero en algunas realizaciones ya puede haber un ajuste hacia algún uso típico esperado: por ejemplo, si las imágenes HDR maestras de, por ejemplo, PB_C=5000 nit se mostrarán principalmente en pantallas de intervalo dinámico más bajo, y luego se espera que se intercalen considerablemente con material de imagen SDR, se puede considerar crear ya, por ejemplo, para la compresión de vídeo para la comunicación, las imágenes combinadas o combinables (en el lado de recepción, lo que significa que es posible que alguna información de imagen aún necesite ser transformada por luminancia) en un intervalo dinámico más bajo que el PB_C=5000 nit, por ejemplo, 1.5x el brillo máximo esperado de la pantalla del lado del consumo de, por ejemplo, 1000 nit, ergo, el intervalo dinámico de combinación tendrá a continuación un PB_C de, por ejemplo, 1500 nit). Un primer ejemplo típico tendrá a continuación una película HDR, es decir, con el intervalo dinámico más grande de los dos vídeos de entrada de imágenes sucesivas, y el contenido SDR debe transformarse por luminancia, o al menos anotarse adecuadamente poniendo sus uno o más valores de anclaje de fuente en metadatos co-comunicados, de modo que armonice razonablemente (o pueda armonizarse en el sitio de presentación final) con la película HDR, siendo el contenido principal. Sin embargo, un escenario típico alternativo ya puede pretransformar el contenido HDR a un intervalo dinámico más bajo, que está más en línea con la representación de visualización típica prevista y/o la inserción de contenido SDR. Si se tiene una pantalla real para la representación de, por ejemplo, 750 nit PB_D, dicho sistema puede, por ejemplo, transformar (o anotar con luminancias de anclaje para determinar las transformaciones de luminancia) las luminancias de ambos vídeos (lo que puede ocurrir en sitios y tiempos de producción totalmente diferentes, que es el poder del anclaje consistente) para hacerlos armoniosos en una combinación DR de, por ejemplo, 1500 o 2000 nit PB_C, o tal vez incluso 1000 nit PB_C. Este contenido combinado o combinable se puede degradar fácilmente al intervalo dinámico de visualización definido PB_D = 750 nit necesario. In fact, one can think of two typical alternative scenarios. Generically, one can state that the dynamic range of the combination, i.e. at least its upper luminance (LMC), is defined by the device analyzing the needs of, on the one hand, the input of at least two images and, on the other hand, if something regarding that can already be determined, the dynamic range (at least the maximum brightness) of the intended display on which the combination of images is to be represented (i.e. the HDR needs of the properly presented image content of a typical HDR display). Therefore, some embodiments will need to determine the CombRng based on the two images alone, if nothing or not much can be said yet about how they should be adjusted for use (but in some embodiments there may already be an adjustment towards some expected typical use: for example, if the master HDR images of e.g. PB_C=5000 nit will be displayed primarily on lower dynamic range displays, and are then expected to be considerably interleaved with SDR image material, one may consider already creating, e.g. for video compression for communication, the combined or combinable images (on the receiving side, meaning some image information may still need to be luminance transformed) in a lower dynamic range than the PB_C=5000 nit, e.g. 1.5x the expected maximum brightness of the consumer side display of e.g. 1000 nit, ergo the combining dynamic range will then have a PB_C of e.g. (1500 nit). A typical first example will then have an HDR movie, i.e. with the largest dynamic range of the two successive frame input videos, and the SDR content needs to be luminance transformed, or at least appropriately annotated by putting its one or more source anchor values into co-communicated metadata, so that it reasonably harmonizes (or can be harmonized at the final presentation site) with the HDR movie, being the main content. However, an alternative typical scenario may already pre-transform the HDR content to a lower dynamic range, which is more in line with the intended typical display rendering and/or SDR content insertion. If one has a real display for rendering of say 750 nit PB_D, such a system can for example transform (or annotate with anchor luminances to determine the luminance transformations) the luminances of both videos (which can happen at totally different sites and production times - that's the power of consistent anchoring) to make them harmonious into a DR blend of say 1500 or 2000 nit PB_C, or maybe even 1000 nit PB_C. This blended or blendable content can then be easily degraded to the defined display dynamic range PB_D = 750 nit needed.

Especialmente porque el solicitante diseñó un marco en el que las (diversas) imágenes de aspecto de intervalo dinámico diferente último (reclasificado) se pueden comunicar no realmente como imágenes codificadas reales (es decir, con los colores de píxeles final y fijamente definidos en los componentes de color de las imágenes típicamente comprimidas por DCT), sino como funciones para calcular los diversos brillos de píxeles posibles de dicha imagen secundaria a partir de cualquier imagen primaria, esas funciones se pueden redefinir y, por lo tanto, se pueden comunicar definiciones más complejas (por ejemplo, las especificaciones de cómo se deben calcular las luminancias de imagen para al menos algunos objetos de imagen especiales en diversas situaciones, por ejemplo, varios intervalos dinámicos de combinación). La codificación clásica de imágenes o vídeos solo codifica y comunica "la" imagen que se utilizará, es decir, con sus luminancias de píxeles como deberían (!) ser renderizadas, pero el solicitante puede transmitir una imagen completamente diferente (es decir, con la estructura espacial y la textura necesarias de los objetos, pero no la colorimetría correcta, en particular, aún no las luminancias correctas de los objetos o píxeles de la imagen), y luego una prescripción de un procedimiento de cómo crear finalmente las luminancias correctas para la imagen final, que en esta solicitud será una imagen combinada, definida con todas sus luminancias de píxeles en el intervalo dinámico de luminancia combinado CombRng. Especially since the applicant designed a framework where the (various) ultimately (reclassified) different dynamic range appearance images can be communicated not actually as real coded images (i.e. with the final pixel colors fixedly defined in the color components of typically DCT-compressed images), but as functions for computing the various possible pixel luminances of such a secondary image from any primary image, those functions can be redefined and thus more complex definitions can be communicated (e.g. specifications of how image luminances should be computed for at least some special image objects in various situations, e.g. various combination dynamic ranges). Classical image or video coding only encodes and communicates "the" image to be used, i.e. with its pixel luminances as they should (!) be rendered, but the applicant may convey a completely different image (i.e. with the necessary spatial structure and texture of the objects, but not the correct colorimetry, in particular not yet the correct luminances of the objects or pixels in the image), and then a prescription of a procedure how to finally create the correct luminances for the final image, which in this application will be a combined image, defined with all its pixel luminances in the combined luminance dynamic range CombRng.

Del mismo modo, puede haber razones para, por ejemplo, aumentar el mínimo (LmiC) del intervalo de combinación en comparación con el mínimo (LmiH) de una de las imágenes que es una imagen de intervalo dinámico (con intervalo dinámico Im2_Rng), por ejemplo, porque con la combinación de una imagen LDR relativamente brillante (por ejemplo, si no se ha oscurecido con mucha precisión) el brillo global (o local para al menos algunas partes oscuras de la imagen HDR) de la imagen de salida combinada es tal que las partes más oscuras, que provienen exclusivamente de la imagen HDR, no se pueden ver muy bien. Es decir, al transformarlos en un CombRng con negros más brillantes, se pueden iluminar adecuadamente (eso sucederá debido a la elección del intervalo de combinación, y además no es necesario realizar un procesamiento inteligente de la imagen HDR per se, es decir, se iluminará adecuadamente incluso mediante una simple transformación de color al CombRng). Similarly, there may be reasons to for example increase the minimum (LmiC) of the combining interval compared to the minimum (LmiH) of one of the images which is a dynamic range image (with dynamic range Im2_Rng) - for example because with combining a relatively bright LDR image (e.g. if it has not been darkened very precisely) the overall (or local for at least some dark parts of the HDR image) brightness of the combined output image is such that the darkest parts, which come exclusively from the HDR image, cannot be seen very well. I.e. by transforming them into a CombRng with brighter blacks they can be adequately brightened (that will happen due to the choice of the combining interval, and also there is no need to perform any clever processing of the HDR image per se, i.e. it will be adequately brightened even by a simple color transformation to the CombRng).

Por lo tanto, el lector puede entender cómo en varios puntos de la cadena de manejo de imágenes, por ejemplo, todavía algún sitio de creación de contenido, donde se define el contenido final, por aparatos típicamente bajo el control de proveedores de contenido, antes de ingresar a la parte de la cadena de imágenes de consumo de imágenes, o algún sitio de consumo de imágenes (por ejemplo, mezcla de dos tipos de contenido únicamente bajo la responsabilidad del usuario final, por ejemplo, por el usuario final que usa su control remoto o control informático), se puede establecer un intervalo dinámico de combinación adecuado, ya sea por un humano, potencialmente de forma semiautomática o automática. En general, dicho aparato observará tanto el contenido de la imagen (es decir, la calidad HDR, es decir, qué PB_C tienen los diversos contenidos, pero también la distribución de las diversas luminancias de objetos o píxeles en ese intervalo dinámico que termina en PB_C, y qué tipo de objetos brillantes [por ejemplo, efectos HDR] existen, y si pueden distorsionarse fácilmente por luminancia sin crear modificaciones muy objetables en el aspecto), así como las necesidades del uso final de estas imágenes, es decir, típicamente la representación de la pantalla (si, por ejemplo, las imágenes se van a suministrar a una base instalada de consumidores de pantalla SDR, a continuación un CombRng más bajo puede estar en orden). Cuando se hace automáticamente, un algoritmo utilizará modelos heurísticos que imitan lo que los combinadores humanos (es decir, aquellos que hacen las imágenes combinadas y/o los metadatos para eso, por ejemplo, especificando el valor de LMC y al menos un punto de anclaje, que será un punto de anclaje de origen de al menos una de las dos imágenes o vídeos que se combinarán en última instancia) utilizarán como metodología. En el lado oscuro del CombRng, se juzgará qué colores más oscuros seguirán siendo relativamente visibles, modelando dicha visibilidad en función de aspectos como, por ejemplo, el deslumbramiento de las áreas más brillantes de los objetos de imagen más brillantes, la luz de fuga de la pantalla esperada y el enmascaramiento dependiente de la luz del entorno de los colores más oscuros debido a los reflejos típicos de la placa frontal de la pantalla, etc. El nuevo elemento en este modelo en comparación con la pantalla única y el entorno de visualización típico esperado (por ejemplo, cine en casa, con luces atenuadas) es la introducción del contenido de la imagen secundaria. Pero, en general, dado que este establecimiento del CombRng generalmente es lo primero (antes de la determinación de un anclaje adecuado), esta estimación puede ser aproximada (por ejemplo, no verificar con precisión dónde se introduce el contenido de SDR y si la parte más brillante de la imagen de SDR, incluso potencialmente iluminada , cae geométricamente junto a una parte oscura de la película, por lo tanto, potencialmente enmascaramiento considerable, aunque algunas realizaciones podrían tener en cuenta todo eso también al establecer la luminancia superior e inferior del CombRng, por ejemplo, en una determinación directa o iterativa, esta última verificando iterativamente cuál sería una buena luminancia de anclaje, y luego luminancias límite de CombRng correspondientemente adecuadas). Thus, the reader can understand how at various points in the image handling chain, for example still some content creation site, where the final content is defined, by devices typically under the control of content providers, before entering the image consumption part of the image chain, or some image consumption site (e.g. mixing of two types of content solely under the responsibility of the end user, e.g. by the end user using his remote control or computer control), a suitable dynamic blending range can be set, either by a human, potentially semi-automatically or automatically. In general, such an apparatus will look at both the content of the image (i.e. the HDR quality, i.e. what PB_Cs the various contents have, but also the distribution of the various luminances of objects or pixels in that dynamic range ending at PB_C, and what kind of bright objects [e.g. HDR effects] exist, and whether they can be easily distorted by luminance without creating very objectionable modifications in appearance), as well as the needs of the end use of these images, i.e. typically the display rendering (if, for example, the images are to be supplied to an installed base of SDR display consumers, then a lower CombRng may be in order). When done automatically, an algorithm will use heuristic models that mimic what human combiners (i.e. those doing the combined images and/or the metadata for that, e.g. specifying the LMC value and at least one anchor point, which will be a source anchor point of at least one of the two images or videos to be ultimately combined) will use as a methodology. On the dark side of CombRng, a judgement will be made as to which darker colours will still be relatively visible, modelling such visibility based on aspects such as e.g. glare from brighter areas of brighter image objects, expected screen leakage light, and ambient light-dependent masking of darker colours due to typical reflections from the display faceplate, etc. The new element in this model compared to the single screen and the typical expected viewing environment (e.g. home theatre, dimmed lights) is the introduction of secondary image content. But in general, since this setting of the CombRng usually comes first (before determination of a suitable anchor), this estimate can be rough (e.g. not checking precisely where the SDR content is introduced and whether the brightest part of the SDR image, even potentially illuminated, falls geometrically next to a dark part of the film, hence potentially considerable masking, although some embodiments might take all that into account also when setting the upper and lower luminance of the CombRng, e.g. in a direct or iterative determination, the latter by iteratively checking what a good anchor luminance would be, and then correspondingly suitable CombRng limit luminances).

Dado que en varias aplicaciones ya puede ser adecuada una combinación aproximada (por ejemplo, si el espectador de la película quiere disfrutar en última instancia de su película, no debe interrumpirla ni combinarla con ninguna imagen adicional, pero si lo hace, debe reconocer que siempre habrá alguna distorsión en la colorimetría de ese contenido de vídeo principal, incluso si es solo psicovisualmente en la apreciación de la impresión total de la imagen de la imagen combinada, y no realmente un cambio de las luminancias de la película, en comparación con cómo eran antes de la combinación), ya puede ser adecuado calcular rápidamente alguna luminancia heurística inferior LmiC, en función del contenido típico. Por ejemplo, si el histograma muestra que la mayor parte del contenido de SDR se encuentra entre 10 nit y 100 nit, con aproximadamente la mitad del área de visualización de la imagen combinada ocupada por píxeles s Dr con luminancia superior a 50 nit, el aparato puede establecer que no necesita negros más profundos que, por ejemplo, 0,01 o incluso 0,1 nit para esa combinación (porque el algoritmo heurístico típico de visualización juzga que las estructuras de imagen más oscuras no se verán bien en tales condiciones). Lo que hace que este establecimiento de un intervalo de combinación sea tan interesante es que (aunque el creador del contenido original de la película HDR puede haber hecho una película con ultra-negros definidos de hasta 0,0001 nit, para el caso en que la película se disfruta en una habitación oscura en, por ejemplo, una pantalla OLED que puede renderizar negros muy profundos), el aparato de combinación (por ejemplo, un STB, o incluso el propio televisor), ahora puede decidir aclarar un poco los colores más oscuros de la película HDR, determinando un mapeo de luminancia apropiado acondicionado entre la película HDR (o en general el contenido principal) DR y el intervalo dinámico de combinación, y en particular la parte inferior de esos intervalos dinámicos, antes de poner los píxeles de la película HDR en la imagen combinada. En el lado brillante del intervalo de luminancia, los algoritmos generalmente implicarán determinar cuánto recorte o compresión de contraste para una imagen HDR original sigue siendo adecuada (que será diferente, por ejemplo, para lámparas que no necesitan tener una estructura interna renderizada, en comparación con nubes iluminadas por el sol, donde idealmente se tendría suficiente contraste en la imagen renderizada final y, por lo tanto, cualquier codificación de imagen para eso [de modo que idealmente la determinación de la imagen final sea razonablemente simple en función de esa imagen recibida codificada que en sus luminancias codificadas ya especifica principalmente cuáles deberían ser las luminancias renderizadas finales de todos los píxeles], ergo menos compresión para los colores de imagen más brillantes, definiendo esas áreas brillantes con un subconjunto más grande de códigos de luma, ya sea en la imagen combinada o en la imagen HDR definida por precombinación antes de haberla transformado realmente en los píxeles de imagen combinados). Entonces, dependiendo de las necesidades, por ejemplo, un comercial insertado (para el creador de películas esperado, por ejemplo, cuando conoce en un canal en particular su película, por lo que esta definición potencialmente reclasificada de la vista de movimiento se ofrecerá junto con los comerciales) que no debería parecer molestamente oscuro, puede ser necesario exprimir las nubes en una región algo más pequeña de luminancias brillantes no muy por encima de las luminancias más brillantes de la imagen SDR, al menos cuando esa imagen SDR se transforma para combinación. Para poder seguir ajustando esta imagen de la manera más apropiada (y genéricamente, es decir, al menos alguna parte de la imagen SDR y alguna parte u objeto importante de la imagen HDR típicamente) y para varios anuncios introducidos, por ejemplo, SDR, idealmente la imagen HDR especifica una serie de luminancias importantes para esas nubes, por ejemplo, 3, entre las cuales el aparato de combinación puede cambiar, típicamente atenuar, las diversas áreas de nubes (reduciendo así también los contrastes de, por ejemplo, una parte gris oscura de una nube de truenos). Pero aquí es donde las luminancias de anclaje entrarán en juego como se enseña a continuación, con la presente parte de la enseñanza explicando que el intervalo de combinación, por supuesto, no debe terminar con un valor de LMC tan bajo que comience a destruir el aspecto de la imagen principal (por ejemplo, si la película se trata de nubes de tormenta, que típicamente tienen grises diferentes si algunas partes de las nubes están fuertemente iluminadas, por ejemplo, los bordes iluminados por el sol de las nubes, y los vientres de las nubes no están iluminados por el sol, sino solo por la luz ambiental, por lo que pueden ser mucho más oscuros, a continuación un aspecto central de esta película se perderá si el CombRng es tal que estas nubes deben comprimirse en un subintervalo superior del CombRng con solo, por ejemplo, 10 lumas, porque incluso con un fuerte estiramiento de luminancia funcional como un intento de corrección por una pantalla, esto nunca puede dar una buena representación HDR de esas nubes, como deberían merecer). Pero de lo contrario, el aparato de combinación puede decidir hacer una reducción de la calidad del brillo y los contrastes de la imagen HDR, para armonizar la imagen HDR (especialmente cuando se trata de escenas HDR menos exigentes, como, por ejemplo, un partido de fútbol con algo de contenido al sol y algo en la sombra) con imágenes típicas o reales de menor intervalo dinámico con las que se combinará. Since in several applications some approximate blending may already be suitable (e.g. if the movie viewer wants to ultimately enjoy his movie, he should not interrupt it or blend it with any additional images, but if he does, he should recognize that there will always be some distortion in the colorimetry of that main video content, even if it is only psychovisually in the appreciation of the total image impression of the blended picture, and not actually a change of the movie luminances, compared to how they were before blending), it may already be suitable to quickly calculate some heuristic lower luminance LmiC, based on the typical content. For example, if the histogram shows that most of the SDR content falls between 10 nit and 100 nit, with about half of the combined image display area occupied by SDR pixels with luminance higher than 50 nit, the set may determine that it does not need deeper blacks than, say, 0.01 or even 0.1 nit for that combination (because the typical display heuristic algorithm judges that darker image structures will not look good under such conditions). What makes this setting of a blending range so interesting is that (although the creator of the original HDR movie content may have made a movie with ultra-blacks as sharp as 0.0001 nit, for the case where the movie is enjoyed in a dark room on, say, an OLED display that can render very deep blacks), the blending apparatus (e.g. an STB, or even the TV itself), can now decide to lighten the darker colors of the HDR movie a bit, by determining an appropriate luminance mapping conditioned between the HDR movie (or more generally the main content) and the blending dynamic range, and in particular the lower part of those dynamic ranges, before putting the pixels of the HDR movie into the blended image. On the bright side of the luminance range, algorithms will typically involve determining how much contrast cropping or compression for an original HDR image is still appropriate (which will be different for example for lamps that don't need to have any internal structure rendered, compared to sunlit clouds, where ideally one would have enough contrast in the final rendered image and thus any image encoding for that [so that ideally determining the final image is reasonably simple based on that encoded received image which in its encoded luminances already mostly specifies what the final rendered luminances of all pixels should be], ergo less compression for the brighter image colours, by defining those bright areas with a larger subset of luma codes either in the merged image or in the pre-merge-defined HDR image before having actually transformed it into the merged image pixels). So depending on the needs, for example an inserted commercial (for the expected movie maker e.g. when he knows on a particular channel his movie, so this potentially reclassified definition of motion view will be offered together with the commercials) which should not appear annoyingly dark, it may be necessary to squeeze the clouds into a somewhat smaller region of bright luminances not far above the brightest luminances of the SDR image, at least when that SDR image is transformed for blending. In order to be able to further adjust this image in the most appropriate way (and generically, i.e. at least some part of the SDR image and some important part or object of the HDR image typically) and for various inserted e.g. SDR commercials, ideally the HDR image specifies a number of important luminances for those clouds, e.g. 3, between which the blending apparatus can shift, typically dimming, the various cloud areas (thus also reducing contrasts of e.g. a dark grey part of a thunder cloud). But this is where anchor luminances will come into play as taught below, with the present part of the teaching explaining that the combining interval should of course not end up with such a low LMC value that it starts to destroy the look of the main image (for example if the movie is about storm clouds, which typically have different greys if some parts of the clouds are strongly illuminated, e.g. the sunlit edges of the clouds, and the bellies of the clouds are not illuminated by the sun but only by ambient light, so they can be much darker, then a central aspect of this movie will be lost if the CombRng is such that these clouds have to be compressed into an upper sub-interval of the CombRng with only e.g. 10 lumas, because even with a strong functional luminance stretching as an attempt at correction by a display, this can never give a good HDR representation of those clouds, as they should deserve). But otherwise, the blending apparatus may decide to downgrade the brightness and contrast quality of the HDR image, in order to harmonize the HDR image (especially when dealing with less demanding HDR scenes, such as, for example, a football match with some content in the sun and some in the shade) with typical or real images of lower dynamic range with which it will be blended.

Por supuesto, aunque un intervalo dinámico (al menos un máximo, y posiblemente también un mínimo distinto de cero especificado con precisión) es una propiedad determinante muy importante (inicial) para el aspecto final de una imagen, pero esto aún no finaliza completamente cómo se ubicarán los brillos del objeto o píxel dentro de ese intervalo. Los procedimientos simples de manejo de imágenes pretenderán que todo lo que se necesita es un límite superior e inferior de algún intervalo dinámico, y luego hacer algún mapeo (que a menudo no es mucho más inteligente que la mera compresión lineal, es decir, mapear el contenido de entrada blanco al intervalo final blanco, y el contenido de entrada negro al intervalo final negro). Y eso incluso puede variar considerablemente también, especialmente cuando uno comienza a usar todo el potencial de los grandes intervalos dinámicos, con escenas muy críticas, tanto en cuanto a las luminancias necesarias para ser representables, por ejemplo, simultáneamente muchos negros profundos en una cueva, y muchos colores iluminados por el sol vistos a través de una pequeña grieta en el exterior, e incluso objetos que necesitan un control crítico de su contraste intra-objeto, como una persona condenada a través de la niebla. Pero como se dijo anteriormente, el inventor piensa que un buen control de la apariencia de la imagen HDR, y especialmente la apariencia de las imágenes combinadas, también es importante para un buen control de todas o al menos muchas, o al menos las más importantes, de las luminancias entre los límites del CombRng, por lo que también se necesita algo más para tener buenos sistemas de manejo de imágenes HDR, en particular, tales aparatos que pueden, sin una intervención humana más difícil, crear imágenes combinadas finalmente de aspecto apropiado, para cualquier situación que pueda ocurrir en la práctica (ya que no se puede vender el mismo director de Hollywood en cada STB o TV, para que determine las luminancias combinadas finales apropiadas para el espectador). Se necesita un mecanismo rápido, que aún pueda ser bien adaptado por los creadores de contenido, según sean críticas o complejas sus necesidades, para obtener un resultado de buena calidad razonable en al menos la mayoría de los casos prácticos de combinación de contenido de imágenes. Of course, although a dynamic range (at least a maximum, and possibly also a precisely specified non-zero minimum) is a very important (initial) determining property for the final look of an image, but this still does not fully finalize how object or pixel brightnesses will be located within that range. Simple image-handling procedures will pretend that all that is needed is an upper and lower bound of some dynamic range, and then do some mapping (which is often not much smarter than mere linear compression, i.e. mapping white input content to the white final range, and black input content to the black final range). And that can even vary considerably too, especially when one starts using the full potential of large dynamic ranges, with very critical scenes, both in terms of the luminances needed to be representable, for example, simultaneously many deep blacks in a cave, and many sunlit colors seen through a small crack outside, and even objects that need critical control of their intra-object contrast, such as a condemned person through fog. But as said above, the inventor thinks that a good control of the HDR image appearance, and especially the appearance of the combined images, is also important for a good control of all or at least many, or at least the most important, luminances between the CombRng boundaries, so something else is also needed to have good HDR image handling systems, in particular such apparatuses that can, without more difficult human intervention, create finally appropriate looking combined images, for any situation that may occur in practice (since you can't sell the same Hollywood director on every STB or TV, to determine the appropriate final combined luminances for the viewer). A fast mechanism is needed, that can still be well adapted by content creators, depending on how critical or complex their needs are, in order to obtain a reasonably good quality result in at least most practical cases of image content combining.

Por lo tanto, el segundo componente para controlar suficientemente la combinación, es que el aparato determina una luminancia de anclaje (anc). Eso puede ser varias cosas, pero generalmente es una luminancia semánticamente relevante, de un objeto semánticamente importante. Por ejemplo, puede ser un objeto importante particularmente típico iluminado de una manera particular, que proporciona luminancias en un subintervalo del intervalo total de imágenes HDR. Será una luminancia que se puede esperar que sea buena, en algún intervalo de combinación, para determinar otras luminancias a su alrededor (es decir, esta luminancia determina si la totalidad de las luminancias son de brillo apropiado, ni demasiado oscuras ni demasiado brillantes). En otras palabras, si se representa correctamente la luminancia del anclaje, cualquiera que sea el correcto para un intervalo de combinación particular, a continuación las otras luminancias tampoco serán malas (y con la Figura 16 ilustraremos cómo se puede controlar con más componentes técnicos para que sean cada vez mejores, según el deseo del artista creador). So, the second component to sufficiently control the blending, is that the apparatus determines an anchor luminance (anc). That can be several things, but it is usually a semantically relevant luminance, of a semantically important object. For example, it can be a particularly typical important object lit in a particular way, which gives luminances in a sub-interval of the total HDR image range. It will be a luminance that can be expected to be good, in some blending interval, to determine other luminances around it (i.e. this luminance determines whether the totality of luminances are of appropriate brightness, neither too dark nor too bright). In other words, if the anchor luminance is correctly represented, whatever is correct for a particular blending interval, then the other luminances will not be bad either (and with Figure 16 we will illustrate how this can be controlled with more technical components to be better and better, according to the desire of the creating artist).

La Figura 15 muestra una escena HDR típica, con dos regiones de iluminación considerablemente diferente, a saber, un granero (Ins) con iluminación tenue (véase la geometría de la escena en la Figura 15a) y una región exterior soleada (Outs) con iluminación considerablemente más brillante. Para que un graduador de contenido haga una imagen HDR de aspecto adecuado para la visualización típica de televisión (entorno tenue) a partir de las luminancias de la escena física, puede ser sensato graduar las luminancias interiores como en una imagen SDR, es decir, hasta 100 nits para el objeto más brillante en interiores. Las luminancias al aire libre en el mundo real serían aproximadamente 100 veces más brillantes, hasta 10.000 nits, pero eso se experimentaría como demasiado brillante para la representación de televisión (incluso si el espectador normalmente tuviera una pantalla de 10.000 nits PB_D de gama alta). Por lo tanto, el graduador puede, por ejemplo, optar por hacer esta escena con las luminancias exteriores HDR más brillantes (en el subintervalo de luminancia de píxeles exteriores SDROU) del intervalo HDR maestro (DRH) de hasta 1200 nit para el objeto más brillante (excepto tal vez algunas pequeñas reflexiones especulares en metal), y con una luminancia exterior promedio típica de 250 nit. Figure 15 shows a typical HDR scene, with two regions of considerably different illumination, namely a dimly lit barn (Ins) (see scene geometry in Figure 15a) and a sunny outdoor region (Outs) with considerably brighter illumination. For a content grader to make a suitable-looking HDR image for typical TV viewing (dim environment) from the physical scene luminances, it may be sensible to grade the indoor luminances as in an SDR image, i.e. down to 100 nits for the brightest indoor object. Real-world outdoor luminances would be roughly 100 times brighter, up to 10,000 nits, but that would be experienced as too bright for TV rendering (even if the viewer typically had a high-end 10,000-nit PB_D display). Therefore, the grader may, for example, choose to render this scene with the brightest HDR outdoor luminances (in the outdoor pixel luminance subrange SDROU) of the master HDR range (DRH) of up to 1200 nit for the brightest object (except perhaps some small specular reflections on metal), and with a typical average outdoor luminance of 250 nit.

El poder de tener una luminancia de anclaje se ilustra con la Figura 15C. En este ejemplo, lo hemos simplificado y asumimos que las luminancias más oscuras, del subintervalo de luminancia de píxeles internos SDRIN, se pueden representar con luminancias iguales en todas las situaciones (formarán un conjunto estable y sin cambios de luminancias en el intervalo de combinación, que por supuesto no siempre es el caso; por ejemplo, si el comercial SDR contiene muchos colores brillantes, el aparato puede utilizar el punto de anclaje inferior AncS_ins que caracteriza los píxeles internos del material de la imagen de la fuente maestra HDR, para elevar un poco los píxeles más oscuros, pero aclararemos los principios básicos de nuestras realizaciones con un escenario en el que solo se utilizará un punto de anclaje para posicionar correctamente la luminancia de las luminancias de píxeles de al menos esta primera imagen maestra HDR, en el intervalo de combinación (es decir, con el segundo punto de anclaje AncS_outs del conjunto de píxeles brillantes al aire libre). En primer lugar, aunque se puede usar cualquier luminancia de un objeto interesante, por ejemplo, con un espectro de reflexión de luz típico que conduce a una apariencia de valor de gris típica, generalmente no es malo usar alguna posición de anclaje de brillo promedio en un sublóbulo del histograma de todas las luminancias de imagen correspondientes a una región de iluminación razonablemente similar, cuando se desea determinar las luminancias de los píxeles alrededor de dicho valor. El lector puede imaginar que a continuación con la Figura 16, porque si por alguna razón el aparato desea "volver a iluminar" dicha región para, por ejemplo, más luz, a continuación las luminancias a su alrededor pueden iluminarse continuamente con el punto de anclaje, al igual que los objetos reflectantes reales se volverían más luminosos si la iluminación que cae sobre ellos aumentara. Téngase en cuenta que para las determinaciones automáticas al calcular un valor de ANC representativo, se debe tener cuidado de no hacer que, por ejemplo, las luminancias de borde iluminadas por el sol muy brillantes de las nubes se desvíen demasiado del resultado de un promedio razonable, por lo que, por lo general, si los humanos pueden determinar y comunicar una luminancia de anclaje junto con las imágenes codificadas, eso sería capaz de producir los mejores resultados. Por lo tanto, el lector debe entender que hay dos tipos de valor de ANC, a saber, en primer lugar, el resultado (es decir, una posición en el intervalo de combinación donde las luminancias de las imágenes que corresponden al mismo significado semántico de la definición de ANC, es decir, están cerca de dicho valor de luminancia de ANC, pero en el intervalo dinámico de la fuente (iluminado de manera diferente y codificado de manera diferente), deberían caer en última instancia cuando se renderizan o escriben en la imagen combinada), y en segundo lugar un valor de ANCS (correspondiente) para todas o al menos la mayoría de las imágenes de entrada (en caso de que a algunas imágenes les falte un ANC anotado, el aparato debe estimar algún valor, por ejemplo, un valor de SDR que no debería ser demasiado irrazonable para el contenido de SDR más típico). Si se define dicho valor anc (incluso uno que sea semánticamente diferente al de la combinación, pero que pueda relacionarse con el de la combinación, por ejemplo, multiplicándolo por un factor 4), a continuación se puede armonizar el contenido de entrada con el marco de combinación y, por lo tanto, con todo el resto del contenido de la imagen. The power of having an anchor luminance is illustrated in Figure 15C. In this example we have simplified it and assumed that the darkest luminances, from the SDRIN internal pixel luminance sub-interval, can be represented with equal luminances in all situations (they will form a stable and unchanged set of luminances in the blending interval, which of course is not always the case; for example, if the SDR commercial contains many bright colors, the apparatus can use the lower anchor point AncS_ins characterizing the internal pixels of the HDR master source image material, to raise the darkest pixels a little bit, but we will clarify the basic principles of our realizations with a scenario where only one anchor point will be used to correctly position the luminance of the pixel luminances of at least this first HDR master image, in the blending interval (i.e. with the second anchor point AncS_outs of the bright outdoor pixel set). First of all, although any luminance of an interesting object can be used, for example with a typical light reflection spectrum leading to a brighter appearance, the lower anchor point AncS_ins characterizing the internal pixels of the SDR master image, can be used to raise the darker pixels. For a typical gray value, it is usually not a bad idea to use some average brightness anchor position in a sub-lobe of the histogram of all image luminances corresponding to a reasonably similar illumination region, when one wishes to determine the luminances of pixels around such a value. The reader can imagine that below with Figure 16, because if for some reason the apparatus wishes to "re-light" such a region to, say, more light, then the luminances around it can be continuously illuminated by the anchor point, just as real reflective objects would become brighter if the illumination falling on them were increased. Note that for automatic determinations when calculating a representative ANC value, care must be taken not to cause, for example, very bright sunlit edge luminances of clouds to deviate too much from a reasonable average result, so typically if humans can determine and communicate an anchor luminance along with the encoded images, that would be able to produce the best results. Thus, the reader should understand that there are two types of ANC value, namely firstly the result (i.e. a position in the blending range where the luminances of images that correspond to the same semantic meaning of the ANC definition, i.e. are close to said ANC luminance value, but in the dynamic range of the source (differently illuminated and differently encoded), should ultimately fall when rendered or written to the blended image), and secondly a (corresponding) ANCS value for all or at least most of the input images (in case some images are missing an annotated ANC, the apparatus should estimate some value, e.g. an SDR value which should not be too unreasonable for most typical SDR content). If such an anc value is defined (even one that is semantically different from the blending one, but can be related to the blending one, for example by multiplying it by a factor of 4), then the input content can be harmonized with the blending frame and thus with all other image content.

El lector puede ver cómo el valor de ANC (es decir, el valor de ANC resultante de la combinación de imágenes y el intervalo que se está preparando antes de la mezcla real de las dos imágenes) se coordina con el intervalo dinámico de luminancia de combinación determinado, es decir, típicamente al menos su brillo máximo, por ejemplo, para una combinación de calidad HDR superior PB_CS= 2000 nit. Si el conjunto de establecimiento de intervalo dinámico (302) eligió el intervalo de combinación de calidad superior (CmbRngSup), tenemos disponible un intervalo dinámico de alta calidad que está cerca del intervalo dinámico del contenido HDR maestro. Por lo tanto, tiene sentido posicionar también el valor anc resultante (del tipo semántico: "posición donde, en promedio, los colores brillantes, del segundo sublóbulo y externos deben caer en la imagen combinada") a 250 nit (donde el aparato sigue las reglas típicas para la representación de regiones brillantes en películas de televisión, que también fue la base que llevó a la selección de 250 nit (aproximadamente) del graduador maestro para la imagen HDR maestra). Esta situación de combinación conducirá a que la mayoría de las luminancias HDR relevantes, también de los píxeles externos, se representarán bien según lo previsto por el creador de contenido, es decir, con las mismas luminancias que se codifican en la imagen de entrada<h>D<r>maestra, y solo, por ejemplo, las reflexiones especulares deben atenuarse un poco para caer por debajo de 2000 nit. Este es un ejemplo del primer tipo de escenario anterior: el intervalo de combinación sigue en gran medida el contenido de vídeo HDR maestro original, que es líder y se representa sustancialmente sin distorsiones de luminancia, y luego solo se necesita armonizar el contenido SDR (lo que se hará observando los correspondientes 1 o más valores anc para la imagen SDR). The reader can see how the ANC value (i.e. the ANC value resulting from the image blending and the range being prepared before the actual blending of the two images) is coordinated with the determined blending luminance dynamic range, i.e. typically at least its maximum brightness, e.g. for a top quality HDR blend PB_CS=2000 nit. If the dynamic range setting set (302) chose the top quality blending range (CmbRngSup), we have available a high quality dynamic range which is close to the dynamic range of the master HDR content. It therefore makes sense to also position the resulting anc value (of the semantic kind: "position where on average bright, second sublobe and outer colours should fall in the blended image") at 250 nit (where the apparatus follows the typical rules for the rendering of bright regions in TV films, which was also the basis that led to the selection of 250 nit (approximately) by the master grader for the master HDR image). This blending situation will lead to most of the relevant HDR luminances, also from outer pixels, being represented well as intended by the content creator, i.e. with the same luminances as are encoded in the master input image, and only for example specular reflections need to be toned down a bit to fall below 2000 nit. This is an example of the first type of scenario above: the blending range closely follows the original master HDR video content, which is leading and represented substantially without luminance distortions, and then only the SDR content needs to be harmonized (which will be done by looking at the corresponding 1 or more ANC values for the SDR image).

Para un intervalo de combinación de calidad inferior (Com-RngInf), el aparato ya puede tener en cuenta las reducciones de calidad necesarias, también para la imagen maestra HDR. Aquí, el aparato puede necesitar reducir la posición del valor Anc_Outs, lo que, por ejemplo, puede hacer típicamente con una estimación heurística de las necesidades de contrastes inter e intrarregionales (incluso sin mirar una imagen y escena en particular, ya se pueden determinar algunos valores globales para buenas posiciones de luminancias de anclaje, que deberían funcionar consistentemente para las próximas tomas HDR diferentes de la película). La segunda posición resultante Anc_Outs2, dependiendo de la cantidad de intervalo que quede por encima de 100 nit o, en otras palabras, por encima de las luminancias más bajas de SDRIN (por ejemplo, en paradas, siendo 10x 3 paradas para posicionar todos los efectos HDR, cualesquiera que sean, es decir, reflejando objetos en la iluminación brillante y soleada, pero también lámparas o reflejos especulares, y típicamente también teniendo en cuenta los valores que los clientes desearían ver para imágenes HDR de buena calidad, es decir, sin áreas de objetos grandes que sean demasiado brillantes, ni demasiado tenues) en una posición de luminancia en el CombRng de modo que la región brillante o partes de la misma tengan un contraste suficiente por encima de los 100 nit (para tener una apariencia realmente soleada, por ejemplo, un factor 5-10 puede ser un buen valor, y esto puede formularse como la división de los dos valores anc), sin embargo, también hay espacio suficiente para efectos HDR aún más brillantes, como pequeñas áreas de reflexión especular en objetos, llamas o explosiones, o rayos láser, y cualquiera que sea la película en realidad puede contener para ser calificado y renderizado cerca de ese límite superior de 1000 nit PB_C_Inf. Algunas realizaciones de procedimientos automáticos pueden funcionar mediante el cálculo de estimaciones de errores. Por ejemplo, se pueden analizar las texturas en las regiones, con una complejidad que indica la necesidad de un mayor o menor contraste intrarregional. For a lower quality blending interval (Com-RngInf), the apparatus can already take into account necessary quality reductions, also for the HDR master image. Here, the apparatus may need to reduce the position of the Anc_Outs value, which it can for example typically do with a heuristic estimation of inter- and intra-regional contrast needs (even without looking at a particular image and scene, some global values for good anchor luminance positions can already be determined, which should work consistently for the next different HDR shots of the film). The resulting second position Anc_Outs2, depending on how much of the span remains above 100 nit or in other words above the lowest luminances of SDRIN (e.g. in stops, 10x 3 stops being to position all HDR effects, whatever they may be, i.e. reflecting objects in bright sunny lighting, but also lamps or specular highlights, and typically also taking into account the values that customers would like to see for good quality HDR images, i.e. no large object areas that are too bright, nor too dim) at a luminance position in the CombRng such that the bright region or parts of it have sufficient contrast above 100 nit (to have a really sunny look for example, a factor 5-10 can be a good value, and this can be formulated as the division of the two anc values), however there is also enough room for even brighter HDR effects, such as small specular reflection areas in the bright sunny lighting. objects, flames or explosions, or laser beams, and whatever the movie may actually contain to be graded and rendered near that 1000 nit PB_C_Inf upper limit. Some automatic procedural embodiments may work by calculating error estimates. For example, textures in regions may be analyzed, with complexity indicating the need for greater or lesser intraregional contrast.

Por lo tanto, si solo se conocen las dos imágenes, por ejemplo, la película que está creando el cineasta (anotando con al menos un valor anc, y tal vez ya el mapeo de luminancia a un CombRng típicamente adecuado) y una variante promedio típica del contenido SDR esperado, a continuación el aparato puede calcular al menos un error para la compresión de distorsión de luminancia de la imagen HDR, y la distorsión o falta de armonía de la imagen SDR, en su rebrillantamiento antes de la combinación, como se ilustra con la Figura 17. Dichos errores de distorsión se pueden calcular tanto para escenarios promedio típicos, por ejemplo, con una probabilidad de luminancias de píxeles para una o más escenas HDR típicas, evaluando cómo sería necesario distorsionar dicha escena (principalmente en las áreas más brillantes de la imagen), cuando tiene que ocurrir una degradación a un CombRng con PB_col, PB_Co2, etc., y/o para imágenes reales, es decir, teniendo en cuenta el dolor restante si se aplica un mapeo de luminancia real (óptimo) para mapear todas las luminancias de objeto o región de la representación de imagen nativa y su intervalo dinámico, a la imagen recoloreada en el intervalo de combinación. En la Figura 17 vemos aclarado esquemáticamente cómo un error E_cmp puede asociarse a la compresión de al menos una parte u objeto de la imagen, por ejemplo, las estructuras de la nube. Varias realizaciones prácticas que imitan el comportamiento del graduador humano pueden, por ejemplo, extraer una textura, y al calcular las medidas de textura y otras medidas espaciales y/o estadísticas de la región local, estimar cuán problemática sería una degradación a un subintervalo más pequeño. Por ejemplo, para las nubes, el analizador de textura encontraría que no hay límites definidos, y que la apreciación de la nube ocurriría principalmente por la distribución (suave) de los (muchos) valores de gris, y no por los aspectos típicos de la forma geométrica (por ejemplo, el patrón lineal de una textura de falda escocesa permitiría más compresión o posterización en menos códigos de luma). Es decir, si los muchos valores de gris distribuidos suavemente graduados finos se asignan a un conjunto más limitado y de brillos incorrectos, se esperaría rápidamente que ocurriera algún error, lo que disuadiría al aparato de hacer esto en una medida demasiado grande, particularmente si la imagen principal es de importancia colorimétrica crítica, porque, por ejemplo, el consumidor debería poder disfrutar de la calidad de color artístico graduado fino de la película, que no debería reducirse a la clasificación aproximada a menudo extrema y llamativa de, por ejemplo, algunos comerciales (además del concepto principal de proporcionar luminancias de anclaje, algunas realizaciones permitirán al creador de contenido indicar con metadatos adicionales cuánta distorsión permitiría entre o alrededor de los anclajes, por ejemplo, que el intervalo entre AncS_outs/10 y AncS_outs*10 preferiblemente no debería comprimirse o estirarse en un factor de, por ejemplo, 2 o 3). Thus, if only the two images are known, for example the movie the filmmaker is creating (annotating with at least one anc value, and maybe already the luminance mapping to a typically suitable CombRng) and a typical average variant of the expected SDR content, then the apparatus can calculate at least one error for the luminance distortion compression of the HDR image, and the distortion or disharmony of the SDR image, in its rebrightening before the combination, as illustrated by Figure 17. Such distortion errors can be calculated both for typical average scenarios, for example with a probability of pixel luminances for one or more typical HDR scenes, evaluating how such a scene would need to be distorted (mainly in the brightest areas of the image), when a downgrade to a CombRng with PB_col, PB_Co2, etc. has to occur, and/or for real images, i.e. taking into account the remaining pain if a real (optimal) luminance mapping is applied to map all the images to the corresponding image. object or region luminances of the native image representation and their dynamic range, to the recolored image in the blending range. In Figure 17 we see schematically clarified how an E_cmp error can be associated with the compression of at least one part or object of the image, for example, cloud structures. Various practical implementations that mimic the behavior of the human grader can, for example, extract a texture, and by computing texture measures and other spatial and/or statistical measures of the local region, estimate how problematic a downgrade to a smaller sub-range would be. For example, for clouds, the texture analyzer would find that there are no sharp boundaries, and that cloud appreciation would occur mainly by the (smooth) distribution of the (many) gray values, and not by typical aspects of the geometric shape (e.g., the linear pattern of a kilt texture would allow more compression or posterization in fewer luma codes). That is, if the many fine smoothly graded distributed grey values are mapped to a more limited set of incorrect brightnesses, some error would quickly be expected to occur, which would deter the apparatus from doing this to too large an extent, particularly if the main picture is of critical colorimetric importance, because for example the consumer should be able to enjoy the fine graded artistic colour quality of the film, which should not be reduced to the often extreme and garish rough grading of for example some commercials (in addition to the main concept of providing anchor luminances, some embodiments will allow the content creator to indicate with additional metadata how much distortion he would allow between or around the anchors, for example that the interval between AncS_outs/10 and AncS_outs*10 should preferably not be compressed or stretched by a factor of for example 2 or 3).

La Figura 17 muestra un ejemplo más concretamente esclarecedor de cómo se pueden formular los errores, para llegar a una armonización de luminancia en una realización basada en tales ecuaciones de error. Se debe mezclar la imagen del granero HDR y un comercial SDR para un refresco, y además de sus intervalos mostramos los histogramas de las distribuciones de luminancia de las imágenes de la escena (hist_HDR respectivamente el histograma de la imagen comercial de bajo intervalo dinámico hist_SDR, con en la dirección horizontal los recuentos N(Li) del número de píxeles en el número total de píxeles de la imagen que tienen una luminancia igual a algún valor Li). La compresión de la imagen HDR en el subintervalo superior más pequeño del CombRng hasta PB_comb, por ejemplo, siendo 1000 nit, conduce a un error E_cmp. Este error se puede equilibrar con, por ejemplo, con un error para iluminar el contenido de SDR, o un error correspondiente a la incompatibilidad de este CombRng con los intervalos típicos de pantallas previstas. Por ejemplo, si se considera que todos en el mundo tendrían una pantalla PB_D de 1000 nits de todos modos, este error E-cmp se puede normalizar a cero, porque esa modificación del contenido maestro tendría que ocurrir de todos modos. Pero aun así, un CombRng de, por ejemplo, 1500 nit puede ser mejor, es decir, tener un error negativo, lo que indica que es de mayor calidad que una combinación de 1000 nit, si se pesa mucho la calidad visual del contenido de la película. Aparte de los errores que se pueden calcular para desviar los brillos del contenido SDR, que pueden ser menos importantes (porque, por un lado, en un paradigma SDR, se supone que los espectadores pueden adaptarse rápidamente a diferentes brillos, pero por otro lado, el brillo de la imagen SDR representada potencialmente "incorrectamente", por ejemplo, juzgada por muchos espectadores expertos o no expertos como demasiado brillante cuando se representa por sí sola en un monitor HDR con el píxel más brillante, por ejemplo, de 1000 nits, para esta imagen en particular, que ahora se juzga no por sí misma sino en relación con la imagen HDR maestra), se puede evaluar el siguiente error. Se puede determinar un error de desajuste de luminancia SDR (E_MM), y esto se puede hacer, por ejemplo, tan simple como la diferencia entre el valor Anc_HDR del CombRng, es decir, también donde idealmente se asigna el valor de la imagen de origen y el valor de la imagen HDR (AncS_outs), y el mapeado real a la luminancia (D AncSDR) de la luminancia de anclaje de origen SDR AncB_SDR. Es decir, la mejor armonización en este ejemplo de acuerdo con la heurística ocurriría si D_AncSDR es igual a Anc_HDR. La razón por la que esto funciona es porque este tipo de imagen HDR contiene un área suficientemente grande de píxeles exteriores brillantes (por lo que su creador de contenido definió una luminancia de anclaje superior, AncS_outs). Como el espectador cuando ve esta escena de película HDR ya está acostumbrado a las luminancias más brillantes, la introducción de píxeles aproximadamente igualmente brillantes para el comercial SDR (por ejemplo, PIP) es mucho menos objetable que cuando el usuario solo estaba viendo luminancias oscuras, por ejemplo, 5 minutos en una cueva o sótano (en cuyo caso, una introducción de un comercial tan brillante probablemente asustaría al espectador, o al menos estropearía significativamente su disfrute del resto de la escena de la película, al menos colorimétricamente). Este sistema funciona especialmente bien si el creador del contenido SDR utiliza un tipo particular de su anclaje, es decir, que puede ser tan simple que utiliza solo dos tipos: brillo superior a la media y brillo inferior a la media. Independientemente de cómo se distribuyan realmente las luminancias en el intervalo de 0,1-100 nits de luminancias SDR, el creador puede indicar qué tipo de imagen SDR es y, por lo tanto, cómo debe representarse, en particular según esta invención, cómo debe armonizarse con varios subintervalos posibles de una imagen HDR. Por ejemplo, la imagen SDR puede ser el contenido normal de una escena opaca u oscura ("brillo por debajo de la media"), o pueden ser lumas que se supone que representan una escena soleada. Suponemos que el creador del comercial quiere que se muestre como una escena "soleada", con colores para que se vea brillante y vívida, lo que es exactamente brillante y vívido en una combinación, por supuesto, también dependiendo de cuáles sean los colores de la otra imagen. Figure 17 shows a more concretely illuminating example of how errors can be formulated to arrive at luminance harmonization in a realization based on such error equations. The HDR barn image and an SDR commercial for a soft drink are to be mixed, and in addition to their ranges we show histograms of the luminance distributions of the scene images (hist_HDR respectively the histogram of the low dynamic range commercial image hist_SDR, with in the horizontal direction the counts N(Li) of the number of pixels in the total number of pixels in the image having a luminance equal to some Li value). Compression of the HDR image into the smallest upper subrange of the CombRng down to PB_comb, e.g. being 1000 nit, leads to an error E_cmp. This error can be balanced by, for example, an error for brightening the SDR content, or an error corresponding to the incompatibility of this CombRng with typical expected display ranges. For example, if everyone in the world is considered to have a 1000 nit PB_D display anyway, this E-cmp error can be normalized to zero, because that modification of the master content would have to happen anyway. But still, a CombRng of, say, 1500 nit can be better, i.e. have a negative error, indicating that it is of higher quality than a 1000 nit combi, if the visual quality of the film content is heavily weighted. Apart from the errors that can be calculated to bias the brightnesses of the SDR content, which may be less important (because on the one hand, in an SDR paradigm, viewers are assumed to be able to quickly adapt to different brightnesses, but on the other hand, the brightness of the potentially "incorrectly" rendered SDR image, e.g. judged by many expert or non-expert viewers as too bright when rendered on its own on an HDR monitor with the brightest pixel of, e.g. 1000 nits, for this particular image, which is now judged not by itself but in relation to the master HDR image), the following error can be assessed. An SDR luminance mismatch error (E_MM) can be determined, and this can be done for example as simple as the difference between the Anc_HDR value of the CombRng, i.e. also where the source image value and the HDR image value (AncS_outs) are ideally mapped to, and the actual mapping to luminance (D_AncSDR) of the SDR source anchor luminance AncB_SDR. That is, the best harmonization in this example according to the heuristic would occur if D_AncSDR is equal to Anc_HDR. The reason this works is because this type of HDR image contains a sufficiently large area of bright outer pixels (which is why your content creator defined a higher anchor luminance, AncS_outs). Since the viewer when viewing this HDR movie scene is already accustomed to brighter luminances, the introduction of approximately equally bright pixels for the SDR commercial (e.g. PIP) is much less objectionable than when the user was only viewing dark luminances, e.g. 5 minutes in a cave or basement (in which case such a bright commercial introduction would likely scare the viewer, or at least significantly spoil his enjoyment of the rest of the movie scene, at least colorimetrically). This system works especially well if the creator of the SDR content uses a particular type of its anchoring, i.e. it can be so simple that it uses only two types: above average brightness and below average brightness. Regardless of how the luminances are actually distributed in the range of 0.1-100 nits of SDR luminances, the creator can indicate what type of SDR image it is and thus how it should be represented, in particular according to this invention, how it should be harmonized with various possible sub-ranges of an HDR image. For example, the SDR image can be the normal content of a dull or dark scene ("below average brightness"), or it can be lumas that are supposed to represent a sunny scene. We assume that the creator of the commercial wants it to be shown as a "sunny" scene, with colors to make it look bright and vivid - what exactly bright and vivid is in a combination, of course also depending on what the colors of the other image are.

El lector ya puede comprender el poder de la luminancia de anclaje en la coordinación de las imágenes que se combinarán. Incluso en un sistema tan simple, y suponiendo que el creador de contenido comercial tiene interés en que su imagen se vuelva "suficientemente brillante" (pero probablemente nunca tenga interés en molestar al espectador con representaciones de su parte del contenido total de la imagen que son demasiado brillantes), pero por supuesto también hay un (más, igual o tal vez en algunos escenarios menos) desiderátum de calidad de imagen importante del creador de películas HDR también, la combinación ya puede funcionar razonablemente de inmediato en caso de que la película HDR solo tenga contenido "más oscuro" en caso de que el creador de contenido HDR solo incluya un AncS_ins más bajo. Entonces el aparato entiende que al menos esta escena en la película no tiene regiones brillantes (demasiadas, importantes) y, por lo tanto, el espectador se adaptará a un contenido más oscuro, por ejemplo, en este ejemplo de aclaración simple no limitativo solo en la SDRIN del subintervalo SDR. Por lo tanto, el aparato puede hacer una combinación armoniosa si en esa situación mapea el AncB_SDR (aunque se supone que es "contenido de SDR brillante") al Anc_ins inferior, o en sus proximidades. Con proximidad nos referimos a una fracción fija en el aparato o personalizable típicamente multiplicativa del valor de anc por encima o por debajo del valor de anc, por ejemplo, entre 1/3 o 1/2 y 2 o 3 veces respectivamente. La extensión de la proximidad se puede determinar (ya sea en tiempo de ejecución por el aparato de combinación, o en un lado de creación, por ejemplo, con límites de luminancia de proximidad comunicados explícitamente) sobre la base de en diversas realizaciones de aspectos tales como, por ejemplo, errores de luminancia permitidos de los objetos cuando se mapean, diferencia de tipo o variabilidad esperada de anclajes, etc. Pero claramente, si AncB_SDR es, por ejemplo, del 20 % de 100 nits, si incluso se mapea a 3x 25 nits (es decir, la posición límite superior de la vecindad de Anc_ins), a continuación la combinación es mucho más armoniosa (ya que el perfeccionismo generalmente no se necesita lograr, sino más bien un sistema de trabajo pragmáticamente razonable, equilibrado entre la precisión de la apariencia y la complejidad de realizar el sistema en la práctica) que con un estiramiento lineal en el que el contenido de SDR se mapea sin rodeos de blanco a blanco, es decir, de 100 nits a 1000 nits, lo que haría que el promedio de AncB_SDR sea de 200 nits (!), que es probable que todos los objetos de la imagen SDR se vean demasiado brillantes para ser agradables (tenga en cuenta que, en principio, un anc podría especificarse incluso por debajo de las luminancias reales del histograma, por ejemplo, el modo, es decir, el valor de luminancia más frecuente del histograma, pero en cualquier caso, las luminancias reales se volverán excesivamente brillantes de manera similar). The reader can already understand the power of anchor luminance in coordinating the images to be combined. Even in such a simple system, and assuming that the commercial content creator has an interest in his image becoming “bright enough” (but probably never has an interest in annoying the viewer with representations of his part of the total image content that are too bright), but of course there is also a (more, equal or maybe in some scenarios less) important image quality desideratum of the HDR movie creator as well, the combination can already work reasonably right out of the box in case the HDR movie only has “darker” content in case the HDR content creator only includes a lower AncS_ins. Then the apparatus understands that at least this scene in the movie has no (too many, important) bright regions and thus the viewer will adapt to darker content, for example in this simple non-limiting lightening example only in the SDRIN of the SDR sub-interval. Thus the apparatus can make a harmonious blend if in that situation it maps the AncB_SDR (although it is assumed to be "bright SDR content") to the lower Anc_ins, or in their vicinity. By proximity we mean a fixed in-apparatus or typically customizable multiplicative fraction of the anc value above or below the anc value, e.g. between 1/3 or 1/2 and 2 or 3 times respectively. The extent of proximity can be determined (either at runtime by the blending apparatus, or on an authoring side, e.g. with explicitly communicated proximity luminance limits) based on various embodiments of aspects such as e.g. allowed luminance errors of objects when mapped, expected type difference or variability of anchors, etc. But clearly, if AncB_SDR is for example 20% of 100 nits, then if even mapped to 3x 25 nits (i.e. the upper limit position of the Anc_ins neighborhood), then the match is much more harmonious (since perfectionism is usually not needed to be achieved, but rather a pragmatically reasonable working system, balanced between appearance accuracy and complexity of realizing the system in practice) than with a linear stretch where the SDR content is bluntly mapped from white to white, i.e. from 100 nits to 1000 nits, which would make the average of AncB_SDR 200 nits (!), which would likely make all objects in the SDR image look too bright to be pleasing (note that in principle anc could be specified even below the actual luminances of the histogram, e.g. the luminance of the SDR image). mode, i.e. the most frequent luminance value in the histogram, but in any case, actual luminances will become excessively bright in a similar manner).

Volviendo a la Figura 15B, mostramos allí de manera interesante cómo los anclajes, y su posicionamiento en diferentes posiciones relativas en cualquier CombRng, se relacionarán con los diversos mapeos de luminancia (influyen en ellos). La función TL_CS es el mapeo de luminancia para mapear las luminancias de la imagen HDR maestra original a luminancias en el CombRng (es decir, listo para hacer la combinación de imágenes, ya sea reemplazo de píxeles, mezcla alfa, etc.). El solicitante ha encontrado muy útil realizar transformaciones de luminancia en un sistema de ejes relativos, es decir, tanto las luminancias de entrada como las luminancias de salida o lumas que terminan en 1,0 (en caso de que las lumas se utilicen como coordenadas verticales, el mapeo se define teniendo en cuenta la OETF, por ejemplo, alguna definición fija de OETF como SMPTE 2084 o Rec. 709 para comunicaciones de imágenes compatibles con versiones anteriores). Para lumas, eso es muy útil, porque elude la discusión sobre cuántos bits se debe cuantificar el eje vertical (1.0 es solo el valor de código de luma más alto, es decir, el color codificable más brillante). Para (por ejemplo, los ejes de luminancia de entrada), aún se podría reflexionar sobre si esto es o no un remanente del manejo relativo de luminancias, pero en cualquier caso las curvas necesarias se pueden definir para cualquier transformación de imagen necesaria para cualquier intervalo dinámico (ya que esta versión siempre se puede equiparar matemáticamente con su marco de luminancia absoluta correspondiente). Vemos que si queremos mantener idénticas las luminancias absolutas de los píxeles más oscuros, en un sistema de ejes relativos con menor brillo máximo, esto corresponde a elevar esa parte de la función de mapeo de luminancia TL_CS por encima de la diagonal, y a continuación se puede ver claramente cómo el subintervalo superior restante del CombRng conduce a cierta compresión, que no es demasiado excesiva para el intervalo de combinación de calidad superior. Pero para el intervalo de combinación de calidad inferior, la compresión de los objetos HDR más brillantes debe ser más severa, como también se ve en la forma de la función de mapeo de luminancia correspondiente a ese intervalo de combinación inferior, a saber, TL_CI. En cualquier caso, esta situación de un brillo máximo de un intervalo de combinación, y un buen punto de anclaje, deja en claro que genéricamente, cualquiera que sea el disparo HDR, se necesitará hacer una cierta compresión de los brillos, que generalmente tendrán aproximadamente esta forma (las posibilidades precisas de las realizaciones se detallan a continuación). También se ve al combinar las dos funciones, que si se necesita transformar relativamente del superior al inferior CombRng, se necesitaría relativamente iluminar los píxeles más oscuros, pero que visualmente corresponden en primer lugar a una compresión de las regiones HDR más brillantes (el subintervalo porcentual relativo es, además del intervalo total disponible, una buena medida de la calidad de codificación o representación de una parte de una imagen). En cualquier caso, es la forma en que el solicitante define sus transformaciones de luminancia en sus realizaciones reales más típicas, y en particular la propiedad muy útil que dilucidaremos con la Figura 16. Coming back to Figure 15B, we interestingly show there how the anchors, and their positioning at different relative positions in any CombRng, will relate to (influence) the various luminance mappings. The TL_CS function is the luminance mapping to map luminances of the original master HDR image to luminances in the CombRng (i.e. ready to do image blending, be it pixel replacement, alpha blending, etc.). The applicant has found it very useful to perform luminance transformations on a relative axis system, i.e. both input luminances and output luminances or lumas ending in 1.0 (in case lumas are used as vertical coordinates, the mapping is defined taking into account the OETF, e.g. some fixed OETF definition like SMPTE 2084 or Rec. 709 for backwards compatible image communications). For lumas, that's very useful, because it bypasses the discussion about how many bits the vertical axis should be quantized (1.0 is just the highest luma code value, i.e. the brightest encodable color). For (e.g.) input luminance axes, one could still ponder whether or not this is a carryover from relative luminance handling, but in any case the necessary curves can be defined for any image transformation needed for any dynamic range (since this version can always be mathematically equated to its corresponding absolute luminance frame). We see that if we want to keep the absolute luminances of the darkest pixels identical, in a relative axis system with lower maximum brightness, this corresponds to raising that part of the TL_CS luminance mapping function above the diagonal, and below one can clearly see how the remaining upper subrange of the CombRng leads to some compression, which is not too excessive for the higher quality combining range. But for the lower quality blending range, the compression of the brighter HDR objects must be more severe, as also seen from the shape of the luminance mapping function corresponding to that lower blending range, namely TL_CI. In any case, this situation of a maximum brightness of a blending range, and a good anchor point, makes it clear that generically, whatever the HDR shot, some compression of the brightnesses will need to be done, which will generally have approximately this shape (the precise possibilities of the realizations are detailed below). It is also seen by combining the two functions, that if one needs to relatively transform from the upper to the lower CombRng, one would need to relatively brighten the darker pixels, but that visually they correspond first of all to a compression of the brighter HDR regions (the relative percentage subrange is, in addition to the total range available, a good measure of the encoding or rendering quality of a part of an image). In any case, it is the way the applicant defines his luminance transformations in his most typical real-life realizations, and in particular the very useful property that we will elucidate with Figure 16.

Los procedimientos de manejo de vídeo HDR (de hecho, simplemente codificación) como HDR10, que simplemente consideran la representación fija de imágenes HDR, ni siquiera necesitan comunicar una función de transformación de luminancia fija (ya que pueden poner toda la distribución de brillo del objeto HDR en las luminancias de la imagen, que no necesitaría comunicación de una OETF cuando se transmiten lumas, si se elige que la OETF sea fija). Las tecnologías que tienen una visión simplista de la distribución de luminancia del objeto HDR, es decir, su reclasificabilidad a otros intervalos dinámicos, como el Hybrid-loggamma de la BBC, pueden utilizar una función fija para comunicarse, por ejemplo, como una LUT. HDR video handling (in fact just encoding) methods like HDR10, which simply consider fixed representation of HDR images, do not even need to communicate a fixed luminance transformation function (since they can put the entire HDR object brightness distribution into the image luminances, which would not need communication of an OETF when transmitting lumas, if the OETF was chosen to be fixed). Technologies that take a simplistic view of the HDR object luminance distribution, i.e. its reclassifiability to other dynamic ranges, like the BBC's Hybrid-loggamma, can use a fixed function to communicate, e.g. as a LUT.

El solicitante quería que tanto el creador de contenido como el usuario (ya sea el fabricante de TV y/o el espectador final) pudieran liberar la calidad total del HDR (jerárquicamente), es decir, diseñar un sistema en el que el creador de contenido pueda indicar sus deseos sobre el contenido de la imagen HDR de forma incremental (de grueso a fino, dependiendo de cuán crítico sea, o cuánto tiempo y presupuesto quiera gastar), y el lado del consumo de vídeo también puede decidir hasta qué precisión desea seguir estas especificaciones, o si el sistema final quiere impartir algún micro sabor del manejo del color en las imágenes, por ejemplo, desviándose un poco de los contrastes del objeto como se especifica en la(s) función(es) de gradación fina. The applicant wanted both the content creator and the user (be it the TV manufacturer and/or the end viewer) to be able to unleash the full quality of HDR (hierarchically) - i.e. design a system where the content creator can indicate their wishes for the HDR image content incrementally (from coarse to fine, depending on how critical it is, or how much time and budget they want to spend), and the video consuming side can also decide up to what precision they want to follow these specifications, or if the end system wants to impart some micro flavor of color handling in the images, e.g. by deviating a bit from the object contrasts as specified by the fine grading function(s).

La Figura 16 muestra un ejemplo del poder de los anclajes, cuando se combina con uno de los sistemas preferenciales de los solicitantes para permitir, por ejemplo, que un graduador humano especifique jerárquicamente sus necesidades de reclasificación de luminancia, con un conjunto de funciones consecutivas. Figure 16 shows an example of the power of anchors, when combined with one of the requesters' preferred systems to allow, for example, a human grader to hierarchically specify their luminance reclassification needs, with a set of consecutive functions.

Considere que los intervalos de entrada y salida están cuantificados de manera perceptualmente uniforme (aproximadamente logarítmicamente). Esto crearía un conjunto de niveles de brillo visualmente equidistantes, por ejemplo, ultra-ulta-oscuro, ultra-oscuro, muy-oscuro, oscuro, etc., hasta extremadamente brillante. Entonces se puede imaginar que un graduador puede definir su aspecto de una imagen, al equiparar aproximadamente las luminancias del objeto con uno de estos niveles, por ejemplo, una imagen HDR de buena calidad debe tener la luminancia de la lámpara en el subintervalo de luminancias extremadamente brillantes, por ejemplo, entre el 90 % y el 100 % de PB_C. Por supuesto, un intervalo dinámico más bajo de la salida, aquí el intervalo de combinación de luminancias (L_Cmb_out) puede no extenderse hasta un nivel que aparezca como luminancias extremadamente brillantes, pero luego el graduador recurriría a mapear esas luminancias de píxeles de la lámpara al nivel más alto disponible, por ejemplo, muy brillante. Esto formaría parte de la forma de la función de mapeo de luminancia, y el lector puede entender cómo un graduador (o también un sistema automático que utiliza heurística de análisis de imágenes) podría llegar a una forma de función de mapeo de luminancia completa. Consider that the input and output ranges are perceptually uniformly (roughly logarithmically) quantized. This would create a set of visually equidistant brightness levels, e.g. ultra-ulta-dark, ultra-dark, very-dark, dark, etc., up to extremely bright. You can then imagine that a grader can define how an image looks, by roughly equating the object luminances to one of these levels, e.g. a good quality HDR image should have the lamp luminance in the extremely bright luminance subrange, e.g. between 90% and 100% of PB_C. Of course, a lower dynamic range of the output, here the luminance combining range (L_Cmb_out) may not extend to a level that appears as extremely bright luminances, but then the grader would resort to mapping those lamp pixel luminances to the highest available level, e.g. very bright. This would be part of the form of the luminance mapping function, and the reader can understand how a grader (or also an automatic system using image analysis heuristics) could arrive at a complete luminance mapping function form.

Ahora, solo definir dos de estos ejes sería una forma típicaprima facie(aunque bastante roma) de mapear luminancias definidas en un intervalo dinámico, para emitir luminancias en un segundo, por ejemplo, un intervalo dinámico de salida más pequeño (que equivaldría a una función que es la diagonal en este gráfico). De hecho, se formarían luminancias de salida "medio razonables", porque esta estrategia asignaría el blanco de cualquier imagen de origen al color más brillante posible (codificable o renderizable) del intervalo dinámico de salida, y el negro al negro, que debido a la definición logarítmica también distribuiría razonablemente los valores de gris entre negro y blanco de la imagen de entrada a la de salida. Now, just defining two such axes would be a prima facie typical (albeit rather blunt) way of mapping defined luminances over a dynamic range, to output luminances over say a second, smaller output dynamic range (which would amount to a function which is the diagonal in this graph). In fact, "half-reasonable" output luminances would be formed, because this strategy would map white from any source image to the brightest possible (codable or renderable) color of the output dynamic range, and black to black, which due to the logarithmic definition would also reasonably distribute gray values between black and white from the input to the output image.

Pero esto da imágenes bastante poco espectaculares con los brillos y contrastes incorrectos, y mucho menos que permite a un artista adaptar bien las necesidades artísticas a la composición de cualquier escena HDR en particular (aunque el píxel más brillante y más oscuro de nuestra escena de granero en, por ejemplo, una codificación PB_C=5000 nit puede tener el mismo valor que en una imagen de, por ejemplo, una lámpara de escritorio en una habitación oscura con pocos objetos en la parte posterior, por supuesto, la composición de la imagen y la semántica de estas dos imágenes serán muy diferentes, lo que dará como resultado necesidades muy diferentes con respecto a la clasificación y la reclasificación de los diversos objetos o luminancias de píxeles). But this gives rather unspectacular images with the wrong brightnesses and contrasts, let alone allowing an artist to well match the artistic needs to the composition of any particular HDR scene (although the brightest and darkest pixel in our barn scene at e.g. a PB_C=5000 nit encoding may have the same value as in an image of say a desk lamp in a dark room with few objects in the back, of course the image composition and semantics of these two images will be very different, resulting in very different needs regarding classification and reclassification of the various objects or pixel luminances).

Por lo tanto, el solicitante ya para el uso exclusivo de la imagen, es decir, la reconstrucción a una aproximación de la imagen HDR maestra original de digamos 5000 nits, o un ajuste óptimo de la pantalla para obtener una imagen MDR óptima para conducir, por ejemplo, una pantalla PB_D de 750 nits, inventó un sistema de definición de mapeo de luminancia que consiste en poder especificar al menos dos funciones consecutivas. En primer lugar, una función de reclasificación gruesa F_CRS_MDR reasigna globalmente los brillos de todos los subintervalos perceptuales, para tener una mejor apariencia inicial de la imagen HDR actual y sus detalles. Vemos una curva aproximadamente en forma de r, para la cual la mitad más brillante de las luminancias de píxeles de la escena HDR se comprimen en un subintervalo algo pequeño de luminancias de salida, por ejemplo, las luminancias de una imagen SDR para controlar una pantalla SDR, o para que coincida mejor con las enseñanzas de la combinación, una imagen MDR de 1000 nits, cuando la imagen HDR maestra tenía un PB_C de 5000 nits. Dependiendo de las necesidades de la escena, el graduador puede adaptar esa forma. Por ejemplo, si solo hay algunos puntos de reflexión especular de un par de píxeles, o bombillas en esa mitad superior de las luminancias, el graduador podría, en principio, incluso definir una función que recorta a 1.0 para la mitad superior de las luminancias de entrada, ya que eso no degradaría significativamente la calidad visual de esa escena en particular. Pero si la mitad superior contiene las nubes iluminadas por el sol, incluso bajar un poco la pendiente local de la curva podría conducir a errores de calidad significativos. El lector debe tener en cuenta que estamos hablando de ejes de luminancia relativos, por lo que si la salida es, por ejemplo, un intervalo SDR, es posible que no haya muchos códigos de luma y luminancias correspondientes disponibles para representar fielmente al mismo tiempo luminancias muy oscuras, luminancias medias y luminancias muy brillantes (considere, por ejemplo, una imagen de 3 regiones iluminadas de manera diferente, con, por ejemplo, una cocina oscura en las áreas en 3D más cercanas al espectador donde se esconde una persona negra, una habitación media que normalmente está iluminada y de nuevo objetos soleados vistos a través de las ventanas, como se muestra esquemáticamente en la Figura 16b; y otro ejemplo típico de 2 regiones se muestra en la Figura 16C, con un escaparate brillante en una calle por la noche, es decir, una semántica diferente que el ejemplo del granero, pero con subintervalos que podrían tratarse de manera similar, o no si el creador de contenido así lo decide). Thus, the applicant either for exclusive use of the image, i.e. reconstruction to an approximation of the original master HDR image of say 5000 nits, or for optimal display adjustment to obtain an optimal MDR image for driving e.g. a PB_D display of 750 nits, invented a luminance mapping definition system consisting in being able to specify at least two consecutive functions. First, a coarse reclassification function F_CRS_MDR globally remaps the luminances of all perceptual subintervals, in order to have a better initial appearance of the current HDR image and its details. We see a roughly r-shaped curve, for which the brighter half of the HDR scene pixel luminances are compressed into a somewhat small subrange of output luminances, e.g. the luminances of an SDR image to drive an SDR display, or to better match the teachings of blending, a 1000 nit MDR image, when the master HDR image had a PB_C of 5000 nits. Depending on the needs of the scene, the grader can adapt that shape. For example, if there are only a few specular reflection spots from a couple of pixels, or light bulbs in that upper half of luminances, the grader could in principle even define a function that clips to 1.0 for the upper half of input luminances, since that would not significantly degrade the visual quality of that particular scene. But if the upper half contains sunlit clouds, even slightly lowering the local slope of the curve could lead to significant quality errors. The reader should keep in mind that we are talking about relative luminance axes, so if the output is for example an SDR interval, there might not be many luma codes and corresponding luminances available to faithfully represent at the same time very dark luminances, medium luminances and very bright luminances (consider for example an image of 3 differently lit regions, with for example a dark kitchen in the 3D areas closest to the viewer where a black person is hiding, a medium room that is normally lit and again sunny objects seen through the windows, as schematically shown in Figure 16b; and another typical 2-region example is shown in Figure 16C, with a bright shop window on a street at night, i.e. different semantics than the barn example, but with subintervals that could be treated similarly, or not if the content creator so decides).

La Figura 16C puede ser lo suficientemente "simple" (HDR afecta a la complejidad), para poder gradar suficientemente, y ajustando las funciones de mapeo de luminancia, con solo una función de gradación gruesa especificada F_CRS_MDR. Figure 16C can be made "simple" enough (HDR affects complexity), to be sufficiently graded, and by fine-tuning the luminance mapping functions, with only a coarse grading function specified F_CRS_MDR.

Pero para una escena de 3 regiones más compleja (R1 indica la luz del día brillante al aire libre con objetos como casas que son visibles a través de las ventanas, la región media R2 normalmente está iluminada o débilmente, es decir, con luminancias SDR típicas, y R3 tiene las luces apagadas, es decir, con luminancias oscuras) puede ser más difícil mapear razonablemente todos los subintervalos de luminancia y los brillos de objetos correspondientes a los pequeños subintervalos de especialmente los intervalos dinámicos más bajos (como, por ejemplo, el intervalo SDR). En tal caso, el graduador puede considerar óptimo utilizar una curva adicional, a saber, una curva de gradación fina F_FINGR, que se aplicará a las luminancias relativas resultantes de la gradación gruesa, es decir, que en efecto se desvía de manera equivalente de esa forma de curva gruesa como se muestra. Pero tal estrategia también se puede aplicar a escenas h Dr "más simples" como el escaparate nocturno con iluminación interna de la Figura 16C. Para hacer que el escaparate y su objeto tengan un contraste y brillo lo suficientemente impresionantes como para que parezca realmente luminoso (de forma coordinada, pero al renderizar esta única imagen por sí sola, tanto en, por ejemplo, una pantalla HDR de 5000 nits, como en una pantalla HDR de 1000 nits, y aun así razonablemente aproximado y lo suficientemente agradable en la medida en que lo permita la capacidad limitada de la pantalla, en una pantalla SDR PB_D de 100 nits), y también para hacer que los píxeles de objetos urbanos nocturnos relativamente oscuros (al menos en la clasificación HDR maestra) sean lo suficientemente brillantes y visibles, el graduador puede crear una función F_CRS_MDR que es, por ejemplo, relativamente plana en el extremo superior. Esto puede proporcionar un aspecto general razonable tanto para el escaparate como para la calle oscura, es decir, un aspecto general razonable de la imagen. Pero el escaparate puede contener objetos específicos que no salen bien con respecto a un aspecto, ya sea su luminancia, contraste o color, por ejemplo, una llama en el escaparate, o tal vez alguna parte fuertemente iluminada del cuello blanco o la camisa del maniquí, etc. Por lo tanto, el graduador puede definir una curva de corrección (es decir, la curva de gradación fina F_FINGR), que en alguna parte del intervalo de luminancia, por ejemplo, correspondiente a las luminancias de esa camisa, por ejemplo, reduce los brillos, por ejemplo, para obtener más contraste intraobjeto, o colorido o lo que sea que la función realice como efecto (incluso puede haber varias asignaciones de luminancia localizadas espacialmente involucradas para evitar el cambio de otros objetos con luminancias similares en otras regiones de la escena, pero explicando que una mayor complejidad de nuestro sistema está más allá de las necesidades para comprender la presente solicitud). But for a more complex 3-region scene (R1 indicates bright outdoor daylight with objects like houses being visible through windows, the middle region R2 is normally or dimly lit, i.e. with typical SDR luminances, and R3 has the lights off, i.e. with dark luminances) it may be more difficult to reasonably map all luminance subintervals and the corresponding object brightnesses to the small subintervals of especially the lower dynamic ranges (like e.g. the SDR range). In such a case the grader may find it optimal to use an additional curve, namely a fine gradation curve F_FINGR, to be applied to the relative luminances resulting from the coarse gradation, i.e. which in effect deviates equivalently from that coarse curve shape as shown. But such a strategy can also be applied to "simpler" hdr scenes like the internally lit nighttime shop window in Figure 16C. In order to make the shop window and its object have impressive enough contrast and brightness to make it look really bright (in a coordinated way, but by rendering this single image alone, both on e.g. a 5000 nit HDR display, and on a 1000 nit HDR display, and still reasonably approximate and nice enough as far as the limited display capability allows, on a 100 nit SDR PB_D display), and also to make pixels of relatively dark nighttime urban objects (at least in the master HDR grading) bright enough and visible, the grader can create an F_CRS_MDR function that is e.g. relatively flat at the top end. This can provide a reasonable overall look for both the shop window and the dark street, i.e. a reasonable overall look for the image. But the shop window may contain specific objects which don't come out right with respect to one aspect, be it their luminance, contrast or color, e.g. a flame in the shop window, or maybe some strongly lit part of the mannequin's white collar or shirt, etc. Thus the grader may define a correction curve (i.e. the fine grading curve F_FINGR), which at some part of the luminance range, e.g. corresponding to the luminances of that shirt, for example, reduces the highlights, e.g. to get more intra-object contrast, or colorfulness or whatever the function performs as an effect (there may even be several spatially localized luminance mappings involved to avoid shifting other objects with similar luminances in other regions of the scene, but explaining that further complexity of our system is beyond the needs to understand the present application).

De manera interesante, la función gruesa pone rápidamente todas las luminancias de los objetos ya aproximadamente correctas, con una acción fácil del graduador (por ejemplo, en una de nuestras realizaciones solo necesita girar dos diales que determinan las pendientes de la parte superior de los brillos a partir de 1,0, y la parte inferior de la función a partir de 0,0, y nuestro codificador luego determina automáticamente una curva de gradación gruesa suave, que luego puede ser utilizada por los diversos aparatos de combinación de imágenes HDR de la presente invención y solicitud). Pero a continuación la "gradación real" puede comenzar, ajustando las luminancias de varios píxeles de objetos de imagen y, en consecuencia, los contrastes intra e interobjeto correspondientes, permitiendo que el graduador determine la forma de curva de gradación fina que desee. Interestingly, the coarse function quickly gets all object luminances already approximately correct, with an easy action of the grader (for example, in one of our embodiments you only need to turn two dials determining the slopes of the top of the luminances starting from 1.0, and the bottom of the function starting from 0.0, and our encoder then automatically determines a smooth coarse gradation curve, which can then be used by the various HDR image combining apparatus of the present invention and application). But then the "real gradation" can begin, by adjusting the luminances of various image object pixels, and consequently the corresponding intra- and inter-object contrasts, allowing the grader to determine the shape of the fine gradation curve as desired.

Un decodificador normal, o sintonizador de pantalla, solo usaría estas dos curvas tal como están. En la dirección de codificación (en caso de que utilicemos un sistema compatible con versiones anteriores que comunique la información de la imagen HDR en realidad como imágenes SDR renderizables en pantalla heredadas), primero se aplica la función de clasificación gruesa y luego la función de clasificación fina que crea la imagen SDR correspondiente de aspecto óptimo a esta imagen de clasificación maestra HDR de escena HDR en particular, que fue la entrada del codificador. En el lado de la decodificación, para reconstruir la aproximación de la imagen HDR maestra a partir de la(s) imagen(es) SDR recibida(s), se utilizan las funciones inversas de exactamente esta función de clasificación fina y gruesa, porque ese era en realidad el vínculo entre estas dos funciones óptimas, que se especificaron para ser óptimas en las situaciones de representación típicas dadas. Es decir, tener una pantalla HDR, luego renderizar la imagen HDR, y cuando se tiene una pantalla SDR vista en condiciones de visualización típicas, luego renderizar las imágenes SDR del par (y cuando se tiene una pantalla con PB_D que se desvía considerablemente de estas dos imágenes graduadas PB_C, luego usar nuestra sintonización de pantalla para crear la imagen de aspecto de intervalo dinámico intermedio, que corresponde adecuadamente a la imagen HDR maestra, es decir, que se aproxima lo suficiente a sus apariencias de luminancia de objeto, al menos en la medida en que las capacidades de visualización más bajas lo permitan). A normal decoder, or display tuner, would just use these two curves as is. On the encoding direction (in case we use a backwards compatible system that communicates the HDR image information actually as legacy display renderable SDR images), first the coarse grading function is applied, and then the fine grading function which creates the corresponding optimal looking SDR image to this particular HDR scene master grading image, which was the input to the encoder. On the decoding side, in order to reconstruct the approximation of the master HDR image from the received SDR image(s), the inverse functions of exactly this coarse and fine grading function are used, because that was actually the link between these two optimal functions, which were specified to be optimal under the given typical rendering situations. That is, have an HDR display, then render the HDR image, and when you have an SDR display viewed under typical viewing conditions, then render the SDR images of the pair (and when you have a display with PB_D that deviates considerably from these two PB_C graded images, then use our display tuning to create the intermediate dynamic range appearance image, which properly corresponds to the master HDR image, i.e. closely enough approximates its object luminance appearances, at least as far as lower display capabilities allow).

Pero ahora tenemos una situación en la que necesitamos combinar contenido, es decir, generalmente puede haber una necesidad de modificar nuevamente las luminancias de al menos una, y tal vez todas las imágenes, para que sean armoniosas. La división de las necesidades de clasificación en tales dos curvas es muy poderosa, porque permite separar las necesidades relacionadas con el objeto, como un contraste local suficiente, de la compresión general de los diversos subintervalos en el intervalo dinámico de salida disponible (incluso si está optimizado para la combinación). But now we have a situation where we need to merge content, i.e. there may generally be a need to modify the luminances of at least one, and perhaps all images, again, to make them harmonious. The division of the classification needs into such two curves is very powerful, because it allows to separate object-related needs, such as sufficient local contrast, from the overall compression of the various subranges in the available output dynamic range (even if optimized for merging).

Por lo tanto, la función gruesa definida por la luminancia de anclaje, incluso si solo consiste en segmentos lineales, ahora se puede usar como una asignación gruesa alternativa de los subintervalos, porque aparentemente esa fue una mejor gradación para la mezcla, que la función gruesa original F_CRS_MDR para la representación única de, por ejemplo, la película HDR, en un intervalo dinámico con sustancialmente el mismo brillo máximo que el intervalo de combinación seleccionado. Ahora, varias realizaciones podrían correlacionar las formas de varios subsegmentos de la curva F_CRS_MDR, pero generalmente eso no será tan necesario. Lo que es importante es que el aparato de combinación puede aplicar los detalles de gradación fina a los diversos niveles optimizados recién asignados (es decir, llevar diversas subregiones semánticas de la imagen HDR maestra, como nubes o interiores de cuevas, a los diversos subintervalos del CombRng), manteniendo esencialmente la forma de curva de gradación fina. Por lo tanto, se puede cambiar la curva de desviación a la nueva posición (a lo largo de la curva gruesa óptima para mapear la luminancia HDR de entrada al intervalo de combinación, que es F_Cmb), realizando una nueva curva de gradación fina ahora óptima para la combinación F_FINCMB. Esto se puede hacer, por ejemplo, simplemente igualando las luminancias maestras, es decir, desplazando en líneas verticales las cantidades de desviación multiplicativa. Thus, the coarse function defined by the anchor luminance, even if it only consists of linear segments, can now be used as an alternative coarse mapping of the subintervals, because apparently that was a better gradation for the blend, than the original coarse function F_CRS_MDR for the single representation of, say, the HDR movie, in a dynamic range with substantially the same maximum brightness as the selected blending range. Now, various embodiments could correlate the shapes of various subsegments of the F_CRS_MDR curve, but usually that will not be so necessary. What is important is that the blending apparatus can apply the fine gradation details to the various newly mapped optimized levels (i.e. bring various semantic subregions of the master HDR image, such as clouds or cave interiors, to the various subintervals of the CombRng), while essentially maintaining the fine gradation curve shape. The deviation curve can therefore be shifted to the new position (along the optimal coarse curve for mapping input HDR luminance to the blending interval, which is F_Cmb), by making a new, now optimal fine gradation curve for blending F_FINCMB. This can be done, for example, by simply equalizing the master luminances, i.e. by shifting in vertical lines the multiplicative deviation amounts.

A estas alturas, el lector debería comenzar a comprender que dichos sistemas basados en anclajes son muy potentes para armonizar diversos contenidos, incluso si son complejos en cuanto a los datos de degradación de luminancia, pero aun así de una manera relativamente simple y ergo factible. By now, the reader should begin to understand that such anchor-based systems are very powerful in harmonizing various contents, even if they are complex in terms of luminance degradation data, but still in a relatively simple and ergo-feasible way.

Ahora describiremos primero una realización más simple en la que el aparato puede determinar de forma autónoma dicha luminancia de anclaje en la imagen HDR, y de una manera relacionada en el intervalo de combinación. En última instancia, es importante tener la luminancia de anclaje en el CombRng, pero esto se puede equiparar fácilmente en algunas realizaciones con donde está en la imagen h Dr (y menos fácil en otras realizaciones, en cuyo caso el creador de contenido de la imagen HDR puede codificarla explícitamente, como L_S2A1). Por ejemplo, aclararemos los principios con un ejemplo importante de tener un rostro (por supuesto, los humanos son importantes, por lo que en muchas imágenes o vídeos habrá al menos un actor o presentador, etc., y generalmente pueden estar razonablemente bien iluminados por el creador de contenido, aunque, en el área de<l>D<r>nunca se especificó con precisión lo que razonablemente bien sería, ni era realmente necesario). Pero el lector experto debe entender que nuestras enseñanzas sobre la(s) luminancia(s) de anclaje son genéricas, por lo que es posible que haya otras luminancias de anclaje para otras imágenes, imágenes que ni siquiera pueden tener una cara, como, por ejemplo, una luminancia gris media. El lector debe entender que en la era de LDR un gris medio era una cosa única y muy precisa (el medio de la codificación, que normalmente se representaría como un gris de aspecto promedio, y se corresponde en la escena original con una reflectividad del objeto de aproximadamente el 18 % de la iluminación blanca o entrante, que también debido a la representación relativa de blanco sobre blanco correspondería a aproximadamente el 18 % de PB_D), pero no es totalmente único para HDR (porque puede haber un objeto reflectante gris medio en una imagen relativamente iluminada de manera oscura, o incluso una región oscura de una imagen, y el mismo objeto gris puede residir en una imagen o región relativamente iluminada de manera brillante, especialmente si uno no quiere forzar el uso del contenido HDR en la camisa de fuerza de LDR nuevamente, con una forma muy precisa de iluminación y captura, pero uno quiere escenas de luz liberalmente, contenido de grado artístico liberalmente, etc.). We will now first describe a simpler embodiment where the apparatus can autonomously determine said anchor luminance in the HDR image, and in a related manner in the combining range. Ultimately it is important to have the anchor luminance in the CombRng, but this can be easily equated in some embodiments to where it is in the HDR image (and less easily in other embodiments, in which case the HDR image content creator can explicitly code it, such as L_S2A1). For example, we will clarify the principles with an important example of having a face (of course humans are important, so in many images or videos there will be at least one actor or presenter etc., and they can usually be reasonably well lit by the content creator, although, in the area of <l>D<r> it was never precisely specified what reasonably well that would be, nor was it really necessary). But the skilled reader should understand that our teachings about anchor luminance(s) are generic, so there may be other anchor luminances for other images, images that may not even have a face, such as, for example, a medium gray luminance. The reader should understand that in the LDR era a middle gray was a unique and very precise thing (the middle of the encoding, which would normally be represented as an average looking gray, and corresponds in the original scene to an object reflectivity of about 18% of the incoming white or illumination, which also due to the relative white-on-white representation would correspond to about 18% of PB_D), but it is not totally unique to HDR (because there can be a middle gray reflective object in a relatively darkly lit image, or even a dark region of an image, and the same gray object can reside in a relatively brightly lit image or region, especially if one doesn't want to force HDR content into the LDR straitjacket again, with very precise way of lighting and capture, but one wants liberally light scenes, liberally art-grade content, etc.).

Es ventajoso si algunas de esas luminancias de anclaje están estandarizadas (de modo que cada aparato entienda rápidamente de qué se trata cada situación de luminancia específica de cualquier entrada de imagen), pero incluso si una primera imagen se especifica con otro tipo de anclaje que la segunda imagen, o el anclaje de una imagen es diferente de qué anclaje (si solo uno) el aparato decide que es óptimo especificar el CombRng, a continuación esas diversas especificaciones aún pueden estar relacionadas aproximadamente. Por ejemplo, si un negro no se especifica con precisión (y, por supuesto, al igual que en HDR puede haber varios blancos y brillos, puede haber varios negros), el aparato puede asumir, dependiendo de la situación (es decir, el PB_D u otras capacidades de la pantalla, y posiblemente el entorno de visualización), que se supone que se representa, por ejemplo, 2,5 paradas, o 4 paradas por debajo de lo que el aparato decidió que era su gris medio principal (ya sea que esa sea la primera luminancia de anclaje y, o una secundaria auxiliar). Los negros pueden describirse (es decir, codificarse en vídeo) y manejarse, por ejemplo, renderizarse, con una precisión menor o mayor. Si un creador de contenido se preocupa por lo que sucede en los negros, por ejemplo, porque hay alguna acción crítica de un criminal que se esconde en los arbustos, que debe ser "percibida a medias", es decir, ni ser demasiado conspicua ni pasada por alto por el espectador, a continuación debe anotar la imagen o vídeo con metadatos descriptivos adicionales para esa subgama o régimen de manejo de color. Y, en particular, el creador debe definir al menos una luminancia de anclaje para los negros. Si no le importa o menos, por ejemplo, porque en la presente escena HDR solo hay alguna textura de fondo como fotos en un sótano oscuro, que podría renderizar con una calidad semántica más o menos igual, ya sea que estén bien o menos bien vistas, a continuación el creador puede confiar en las optimizaciones típicas del lado de recepción o del lado intermedio de los negros, donde el aparato de renderización puede renderizarlos con varios niveles de luminancia, siempre que todavía se vea razonablemente negro (es decir, negro profundo, negro bueno o negro lechoso). It is advantageous if some of those anchor luminances are standardized (so that each device quickly understands what each specific luminance situation of any given image input is about), but even if a first image is specified with a different kind of anchor than the second image, or an image's anchor is different from which anchor (if only one) the device decides is optimal to specify in the CombRng, then those various specifications can still be roughly related. For example, if a black is not precisely specified (and of course, just as in HDR there can be multiple whites and brights, there can be multiple blacks), the device may assume, depending on the situation (i.e. the PB_D or other capabilities of the display, and possibly the viewing environment), that it is supposed to be rendered, say, 2.5 stops, or 4 stops below what the device decided was its primary middle gray (whether that is the first anchor luminance, and/or an auxiliary secondary). Blacks can be described (i.e., encoded into video) and manipulated, e.g., rendered, to a lesser or greater degree of accuracy. If a content creator cares about what is happening in the blacks—for example, because there is some critical action by a criminal hiding in the bushes that needs to be “half-perceived”—i.e., neither too conspicuous nor overlooked by the viewer—then the creator should annotate the image or video with additional descriptive metadata for that subgamut or color management regime. And in particular, the creator should define at least one anchor luminance for the blacks. If you don't care or care less, for example because in the present HDR scene there is only some background texture like photos in a dark basement, which could be rendered with more or less equal semantic quality whether they look good or not, then the creator can rely on typical receive-side or mid-side optimizations of blacks, where the rendering apparatus can render them with various luminance levels, as long as it still looks reasonably black (i.e. deep black, good black or milky black).

Por lo tanto, redactado con un ejemplo simple para hacer que el usuario comprenda fácilmente los puntos principales de nuestra invención, la luminancia de anclaje (anc) en el intervalo dinámico de luminancia combinada (CombRng) especifica qué luminancia facial debe haber en la imagen combinada (de salida), para que parezca apropiada. Eso, por supuesto, dependerá de si la cara está bien iluminada, fuertemente iluminada o en las sombras. Eso evita que el actor o la persona en, por ejemplo, el comercial, o el comentario de BD, o la conversación por videoteléfono, etc., no sea excesivamente más brillante que el de la película. Por supuesto, el aparato tiene medios para no necesariamente colocar exactamente las dos luminancias de cara, sino representar una en una luminancia de desplazamiento (por ejemplo, si el actor en la película HDR principal está en la oscuridad a propósito, pero el resto de la película HDR es (mucho) más brillante, el comercial no necesita atenuarse necesariamente a los detalles de luminancia de ese actor de película; tenga en cuenta que algunas realizaciones del aparato de combinación podrían decidir adicionalmente mediante el uso de heurísticas, como, por ejemplo, cuánto tiempo ya ha tenido lugar la escena oscura de la película, por ejemplo, manteniendo el tiempo transcurrido desde la luminancia anterior considerablemente diferente o el tipo de, por ejemplo, una escena de luz diurna, y algunas realizaciones podrían incluso anotar las luminancias de la película con metadatos adicionales, por ejemplo, el anc al comienzo de una escena de película que tiene un segundo elemento de datos que indica cuánto durará la escena oscura, pero describiremos los elementos esenciales de las realizaciones aquí suponiendo que algunos creadores de contenido no querrán pasar por el problema de haciendo muchas anotaciones, y solo hará el simple acto de hacer clic en algún lugar de la imagen, u otra representación de la misma como un histograma, con un puntero, para definir el valor actual de anc, que por supuesto en las interfaces de usuario puede mostrarse, por ejemplo, mostrando todas las luminancias en la imagen en un intervalo o vecindad alrededor del valor de anc en un pseudocolor rojo, como una verificación de la selección humana del valor de anc). So, written with a simple example to make the user easily understand the main points of our invention, the anchor luminance (anc) in the combined luminance dynamic range (CombRng) specifies what facial luminance should be in the combined (output) image, in order for it to look appropriate. That will of course depend on whether the face is well lit, strongly lit, or in the shadows. That prevents the actor or person in, say, the commercial, or the BD commentary, or the videophone conversation, etc., from being excessively brighter than the one in the movie. Of course, the apparatus has means to not necessarily exactly place the two face luminances, but instead represent one in an offset luminance (e.g. if the actor in the main HDR movie is in the dark on purpose, but the rest of the HDR movie is (much) brighter, the commercial need not necessarily dim to the luminance details of that movie actor; note that some embodiments of the combination apparatus could additionally decide by using heuristics, such as, for example, how long the dark movie scene has already taken place, e.g. by keeping the elapsed time since the previous luminance considerably different or the type of, e.g., a daylight scene, and some embodiments could even annotate the movie luminances with additional metadata, e.g. the anc at the beginning of a movie scene having a second data element indicating how long the dark scene will last, but we will describe the essential elements of the embodiments here assuming that some content creators will not want to go through the trouble of making many metadata. annotations, and will just do the simple act of clicking somewhere on the image, or other representation of it such as a histogram, with a pointer, to set the current anc value, which of course in user interfaces can be displayed, for example, by showing all luminances in the image in a range or neighborhood around the anc value in a red pseudo-color, as a check on human selection of the anc value).

Por lo tanto, el aparato sabe dónde debería estar realmente una buena luminancia de representación facial (el anc de este ejemplo de aclaración), dependiendo de los detalles de la situación (suponemos por el momento una cara caucásica con una reflectividad espectral promediada en las longitudes de onda de aproximadamente 36 %, y por supuesto otros tipos de piel de, por ejemplo, 5 % de reflectividad caerá, bajo esa iluminación local, en posiciones de luminancia CombRng relacionadas). El lector puede no molestarse con más detalles y comprender más fácilmente los diversos aspectos clave suponiendo que el CombRng está en la presente explicación solo el intervalo dinámico de la imagen HDR (Im2_Rng en la Figura 4), y el aparato sabe dónde está la luminancia facial más importante, a lo largo de ese intervalo. Como se explicó anteriormente, pueden ocurrir varias determinaciones alternativas del CombRng óptimo en varias realizaciones del aparato, que dependen de al menos algunas de, por un lado, las características de luminancia (intervalo de luminancia codificable, contenido realmente en el intervalo, etc.) de las imágenes de entrada, en la medida en que ya se conozcan o puedan estimarse, o, por otro lado, el uso real establecido o esperado del contenido de la imagen, por ejemplo, las capacidades de luminancia de una pantalla en la que se va a representar el contenido en un entorno de visualización (es decir, de hecho, la apariencia típica de imágenes genéricas, promedio o de prueba, y las imágenes presentes particulares). Esto ya es complicado, porque las caras tienden a no tener solo un color o luminancia (y mucho menos que en algunas películas las caras puedan estar pintadas de azul, etc.). Si se estudian varios rostros incluso en imágenes LDR, se ve que pueden contener lumas de píxeles incluso hasta los límites del intervalo LDR en principio (es decir, en una captura o clasificación muy contrastada, al menos algunos píxeles de la parte más oscura del rostro son casi cero, por ejemplo, en una captura retroiluminada, y los reflejos se recortan a 255; a veces, por ejemplo, con el contenido del consumidor, incluso se ve que la mitad del rostro se consume como blanco recortado), aunque muchos rostros tienen menos contrastes entre la región normalmente iluminada y la región de sombra, es decir, son más normales. Aquí podemos dividir el contenido en imágenes bien iluminadas frente a imágenes especialmente iluminadas, por ejemplo, en producciones de campo de la vida real (hoy en día incluso se incorporan imágenes hechas por no profesionales, por ejemplo, en un programa de noticias, y si se trata de una escena nocturna, las caras pueden estar mal iluminadas). Se podría decir que en situaciones tan complejas también se podría renunciar a una representación o combinación precisa, pero por otro lado también se podría decir que cuanto más anormalmente (desviándose de la buena práctica de captura) se dispara algún contenido de imagen en primer lugar, más se puede beneficiar de regularizarlo más adelante, por ejemplo, mediante el uso de un valor Anc apropiado (por ejemplo, si un camarógrafo en el campo se encuentra en una situación desfavorable, por ejemplo, cuando no puede iluminar a la persona que por alguna razón necesita estar en una parte más oscura de la escena, y solo tiene una cámara con menor capacidad de DR, puede necesitar optimizar de manera no perfecta sus imágenes de disparo, pero al menos con el mecanismo Anc puede anotar rápidamente los detalles (exóticos) de esta imagen, por ejemplo, tan simple como con un estilo en la pantalla de su cámara, o en su dispositivo informático portátil antes de comunicar el contenido a, por ejemplo, la casa de producción, etc.). Se espera que con la aparición de mejores cámaras y otros aparatos de manejo de imágenes, por ejemplo, cámaras que puedan capturar escenas nocturnas oscuras como si fueran escenas diurnas, que muchos años en el futuro la complejidad del manejo de imágenes (HDR) solo aumentará, ya sea porque habrá varios estándares y niveles de producción, por ejemplo, también algunas personas todavía suministran contenido de noticias con un viejo teléfono móvil de mala calidad. Entonces, la mejor solución sería hacer una tecnología que pueda manejar bien todas esas situaciones. Por ejemplo, una película de gángsters puede tener una iluminación dura, por ejemplo, cinenoir,con caras contrastantes y reflejos fuertes, por ejemplo, en el cabello o en una cara calva. Los programas de entrevistas pueden iluminarse de una manera menos contrastante, ya que a veces para el lego las sombras son casi imperceptibles, y uno puede iluminar a las mujeres con una iluminación más agradable y uniforme. También debe tenerse en cuenta que no es la relación de iluminación original 4:1 (la mitad facial más brillante frente a la más oscura) de la cara en la escena cuando se captura lo que es importante, sino más bien lo que está en la imagen codificada (cómo se gradúa el contraste). Este contraste generalmente puede haber experimentado cierta luminancia en BRUTO en la cámara para el mapeo de luma, y si la imagen es un escaneo de una imagen o película de celuloide, los contrastes finales pueden depender de aspectos tales como el desarrollo, el empuje, etc. Thus, the apparatus knows where a good facial rendering luminance (the anc of this clarification example) should actually be, depending on the details of the situation (we assume for the moment a Caucasian face with a wavelength-averaged spectral reflectivity of about 36%, and of course other skin types of, say, 5% reflectivity will, under that local illumination, fall into related CombRng luminance positions). The reader may not bother with further details and more easily understand the various key aspects by assuming that the CombRng is in the present explanation only the dynamic range of the HDR image (Im2_Rng in Figure 4), and the apparatus knows where the most important facial luminance is, along that range. As explained above, various alternative determinations of the optimal CombRng may occur in various embodiments of the apparatus, depending on at least some of, on the one hand, the luminance characteristics (encodable luminance range, content actually in the range, etc.) of the input images, insofar as these are already known or can be estimated, or, on the other hand, the actual stated or expected use of the image content, e.g. the luminance capabilities of a display on which the content is to be rendered in a viewing environment (i.e. in fact the typical appearance of generic, average or test images, and the particular present images). This is already complicated, because faces tend not to have just one color or luminance (let alone that in some movies faces may be painted blue, etc.). If you study various faces even in LDR images, you see that they can contain pixel lumas even up to the limits of the LDR range in principle (i.e. in a highly contrasty capture or classification at least some pixels of the darkest part of the face are close to zero, e.g. in a backlit capture, and highlights are clipped to 255; sometimes, e.g. with consumer content, you even see half of the face being consumed as clipped white), although many faces have less contrasts between the normally illuminated region and the shadow region, i.e. they are more normal. Here we can divide the content into well-lit vs. specially-lit images, e.g. in real-life field productions (nowadays even images made by non-professionals are incorporated, e.g. in a news show, and if it is a night scene, faces can be poorly lit). One could say that in such complex situations one could also forego an accurate rendering or blending, but on the other hand one could also say that the more abnormally (deviating from good shooting practice) some image content is shot in the first place, the more one can benefit from regularizing it later on, e.g. by using an appropriate Anc value (e.g. if a cameraman in the field is in an unfavorable situation, e.g. when he cannot illuminate the person who for some reason needs to be in a darker part of the scene, and he only has a camera with lower DR capability, he may need to non-perfectly optimize his shooting images, but at least with the Anc mechanism he can quickly annotate (exotic) details of this image, e.g. as simple as with a style on his camera screen, or on his portable computing device before communicating the content to e.g. the production house, etc.). It is expected that with the emergence of better cameras and other image handling devices, for example cameras that can capture dark night scenes as if they were daytime scenes, that many years into the future the complexity of image handling (HDR) will only increase, either because there will be various standards and levels of production, for example also some people still supply news content with an old poor quality mobile phone. So the best solution would be to make a technology that can handle all such situations well. For example a gangster movie can have harsh lighting, for example cinenoir, with contrasting faces and strong highlights, for example in the hair or on a bald face. Talk shows can be lit in a less contrasting way, as sometimes for the layman the shadows are almost imperceptible, and one can light the women with a more pleasant and even lighting. It should also be noted that it is not the original 4:1 illumination ratio (brighter facial half vs. darker) of the face in the scene when captured that is important, but rather what is in the encoded image (how the contrast is graded). This contrast may usually have undergone some RAW luminance in-camera for luma mapping, and if the image is a scan of a celluloid image or film, the final contrasts may depend on such things as development, push, etc.

Hemos identificado este aspecto como que hay una gama de colores faciales, por ejemplo, en el ejemplo aclaratorio de la Figura 4, los colores de la cara en la imagen LDR están iluminados suavemente (por lo tanto, una pequeña gama de luminancias R_f), y la cara en la imagen HDR estaba más iluminada porque era, por ejemplo, una película de terror, lo que lleva a un intervalo más grande R_f2; por ejemplo, una persona podría estar caminando por un pasillo iluminado con poca frecuencia con focos, haciendo que su cara se vuelva más oscura y brillante con el tiempo, alrededor de un valor promedio). Lo relevante es también cómo, geométricamente, se ilumina el rostro. Si hay, por ejemplo, una pequeña mancha blanca en una cabeza calva, y esta imagen se mezcla de manera inapropiada, demasiado brillante, con la otra película HDR en el CombRng, se podría escuchar un comentario de que parece que tiene una lámpara que sobresale de su cabeza (y el espectador puede hacer tales reconocimientos confusos cuando tal persona parpadea rápidamente a través de la imagen, y potencialmente pierde parte de la historia, o al menos se distrae en la parte incorrecta de la imagen). Pero un pequeño punto de un par de píxeles no es necesariamente un problema importante todavía. Eso se puede ignorar generalmente para la determinación del color típico de la cara. Cuando se representa en pantallas HDR, puede parecer que esa persona está iluminada por una lámpara extremadamente brillante, pero al menos el punto es pequeño (digamos un par de píxeles). Si lo mismo le sucede a toda su nariz, sus ojos o toda la mitad de su cara, a continuación eso podría ser más desconcertante. We have identified this aspect as there being a range of facial colours, for example in the clarifying example in Figure 4 the colours of the face in the LDR image are softly lit (hence a small range of luminances R_f), and the face in the HDR image was more brightly lit because it was, say, a horror movie, leading to a larger range R_f2; for example a person might be walking down a dimly lit hallway with spotlights, causing their face to become darker and brighter over time, around an average value). What is relevant is also how, geometrically, the face is lit. If there is, for example, a small white spot on a bald head, and this image is inappropriately, too brightly, blended with the other HDR movie in the CombRng, one might hear a comment that it looks like he has a lamp sticking out of his head (and the viewer can make such confusing recognitions when such a person blinks rapidly across the image, and potentially misses part of the story, or at least gets distracted by the wrong part of the image). But a small dot of a couple of pixels is not necessarily a major problem yet. That can usually be ignored for typical face color determination. When rendered on HDR displays, it may look like that person is illuminated by an extremely bright lamp, but at least the dot is small (say a couple of pixels). If the same thing happens to his entire nose, or his eyes, or the entire half of his face, then that might be more disconcerting.

Por lo tanto, al poder indicar una luminancia facial (por ejemplo, L_SA1 en la primera imagen, digamos LDR) en el contenido, el creador también puede indicar fácil y rápidamente no solo dónde hay una luminancia facial, sino también potencialmente qué tipo de distribución de luminancia es. Por ejemplo, si solo hay una pequeña luz en su cabello, puede usar el promedio de los píxeles más oscuros de la cara real como L_SA1, y algunos píxeles que se vuelven más brillantes se verán bien. Si, por otro lado, la mitad (o más de la mitad) de la cara está fuertemente iluminada, puede usar ese valor de luminancia promedio u otro valor de luminancia característico como L_SA1, y luego el resto se oscurecerá, y esa será una forma típicamente mejor de fusionar, sea cual sea el contenido con el que se fusionará esta cara. En este caso, el creador aún puede indicar con metadatos adicionales que la cara es en realidad una cara atípicamente iluminada, por ejemplo, X se detiene por encima de la iluminación normal. Dicha información puede ser utilizada ventajosamente por el aparato de combinación para juzgar a qué luminancia (por encima o por debajo de la posición anterior en el CombRng) debe representarse esta cara (aproximadamente). La iluminación normal de una cara caucásica (blanca) se puede tomar del espectro de reflexión, que en promedio a lo largo de las longitudes de onda da una reflectividad del 36 %. Entonces, eso está a una parada por encima del 18 % del gris medio (lo que hace que estos dos valores sean identificables). Como se dijo anteriormente, en el marco clásico de LDR, también se representaría este gris medio a aproximadamente el 18 % del brillo máximo de la pantalla, por ejemplo, el 12 %. Por supuesto, otras razas deberían ser un poco más oscuras dependiendo de su tipo de piel, porque de lo contrario puede ser difícil detectar realmente el tipo de piel del actor en la película para aquellos que lo deseen, y eso podría llevar a confusión. Por ejemplo, una piel negra puede reflejar tan solo un 5 %, es decir, 3 puntos más oscura que la típica caucásica. En cuanto a la representación, se puede hacer que la cara sea algo más brillante en el intervalo LDR que el 36 % del brillo máximo de 100 nits, para tener caras muy "soleadas". Por ejemplo, el creador de imágenes puede indicar en un primer campo de los metadatos el código de luminancia de la luminancia "promedio" o de referencia (a través de la EOTF las lumas se pueden calcular en luminancias absolutas) de este objeto de cara, por ejemplo, 853, o el 80 % en una codificación normalizada de las lumas, y puede indicar en un segundo campo que esta es una luminancia de cara de tipo "2SB", lo que significa que se ilumina dos paradas más brillante que el resto de esa localidad en la escena y su imagen, etc. El lector entiende que lo mismo se puede lograr mediante diferentes mecanismos de codificación, por ejemplo, también se puede codificar un segundo punto de anclaje L_S2A1pkS que es una luminancia k parada más brillante que aún contiene un color de cara (por ejemplo, el más brillante, o el percentil 95, o el más brillante todavía en la cara y no un resalte de cabello), y un tercer punto de anclaje L_S2A1mkS que especifica algún extremo más oscuro de esta cara en esta imagen HDR o toma de imágenes de vídeo. Por lo tanto, se pueden indicar puntos de anclaje de varios tipos de una manera comprensible estándar (a ser acordada por varios estándares que implementan el sistema), por ejemplo, ya sea con un conjunto de tipos enumerados como "Face36", "Facet8", "Face72", "Face5", "MiddleDimGrey", "MiddleBlack", "MiddleDeepBlack", o se puede usar una anotación jerárquica y secuencial de datos, por ejemplo, "Cara” "1 parada arriba" "Dim" (en el que, entonces, "cara" significa el 36 % de reflexión de la cantidad promedio de luz que reside en esa parte de la imagen con un tipo particular de iluminación, y lo que es más importante, un subintervalo particular del intervalo dinámico de la pantalla que se utilizará para renderizar esos píxeles, para dar la apariencia correcta de la escena renderizada: "Dim" serían los colores brillantes medios, que, por ejemplo, se representan típicamente, en la mayoría o en todas las pantallas, en el intervalo de 10-100 nits, por debajo de los cuales debería haber al menos una región de negros, y preferiblemente una región de "Negros" que están ligeramente peor iluminados, es decir, el valor de iluminación tenue dividido por hasta 10 (o 1-10 luminancias de nits típicamente), y una región de negros profundos, hasta1/100° de la iluminación tenue normal (es decir, 0.x hasta 1 luminancias de nits), que en la representación de escenas artísticas HDR típicamente se usaría, por ejemplo, para el paisaje sombrío profundo que se ve en un castillo cuando el héroe camina a través de él simplemente con una vela. Por encima de la iluminación tenue, uno ya debería poder obtener excelentes resultados, crear un paisaje HDR de alta calidad bien controlado, si se agrega una región para los "Brillos" (donde se representaría el exterior soleado, por ejemplo, aproximadamente 10x para ver televisión, donde en escenas reales sería 100x más iluminado, es decir, luminancias de 100-1000 nit), y uno para los "Ultrabrillos", donde se podrían representar, por ejemplo, lámparas, explosiones, etc., es decir, los efectos que aún hacen interesante tener pantallas HDR de alta gama, con un subintervalo superior de, por ejemplo, 1000-10,000 nit. Debe ser suficiente un control, ya sea para la sintonización de la pantalla (para cerrar finalmente la brecha entre la codificación de imágenes referidas a la escena y referidas a la pantalla, después de la codificación absoluta de la estructura de la imagen reintroduciendo nuevamente algún nivel correcto de relación de visualización), o como en esta solicitud para la combinación correcta de imágenes, que permite un control diferenciado preciso en 5 escenas. En realidad, si se hace un estudio de los tipos de escena HDR, que existen en la vida real o que los artistas podrían hacer, a menudo se ven dos imágenes de región, como, por ejemplo, la tienda por la noche en la Figura 16C (una imagen de región uniformemente iluminada, por supuesto, normalmente es codificable por SDR), y ya es algo menos probable encontrar imágenes de tres regiones como la Figura 16b, y cuando se necesita toda la potencia de los 5 regímenes de iluminación diferentes, se está haciendo una escena HDR realmente compleja (tal vez en algunas películas solo aparece al principio como un comercial que muestra las últimas posibilidades de HDR). Pero el lector comprenderá ahora que nuestros principios no se limitan a realizaciones más pequeñas o más complejas. Si el graduador de contenido especifica solo un valor anc, ya es posible la armonización de varios contenidos de imagen con ese valor anc. Esto normalmente sucedería si solo hay un objeto crítico en la imagen, por ejemplo, el único actor o presentador (pero como se dijo, aunque este actor, incluso cuando se ilumina con mucho contraste, solo tendrá una iluminación y luminancia típicas, en teoría puede ser cualquier cosa entre 0 nit y PB_C). Si no se necesita nada específicamente para el tipo de anclaje, se supone que el aparato de combinación funcionará con un anclaje normal relacionado con un valor de gris medio, y de una luminancia de renderización normal, típicamente "Dim". Por lo tanto, los creadores de contenido que anotan solo 1 valor anc, generalmente deben usar un valor representativo para una posición gris media (en la iluminación local de esa área de la escena y su imagen) de su actor, por ejemplo, en un histograma bimodal que reside en el sol, y luego anotar el tipo como, por ejemplo, "Brillante", de modo que incluso con esta pequeña cantidad simple de información, el aparato de combinación puede juzgar muy bien qué hacer (por ejemplo, en caso de que la película no se moleste demasiado, puede decidir renderizar el "De todos modos, el actor" brillante "en el comercial como un PIP tenue dentro de la película, o para permitir una impresión de brillo, puede representar al actor brillante algo por encima del nivel de atenuación, por ejemplo, a (brillante+tenue)/2, por ejemplo, a (30+300)/2 nit; si el estándar permite la comunicación de metadatos adicionales, y estos metadatos se completan, los creadores de contenido como, por ejemplo, el comercial pueden indicar que no quieren desviarse de su representación" brillante "preferida demasiado, pero por otro lado, por diversas razones, los aparatos podrían ignorarlo, por ejemplo, porque el espectador final ha indicado con la interfaz de usuario que quiere disfrutar de la película, es decir, se debe dar preferencia a los errores de perturbación más bajos del contenido insertado brillante en el histograma de la película). So by being able to indicate a facial luminance (e.g. L_SA1 in the first image, let's say LDR) in the content, the creator can also easily and quickly indicate not only where there is a facial luminance, but also potentially what kind of luminance distribution it is. For example, if there is only a small light in her hair, she can use the average of the darkest pixels of the actual face as L_SA1, and some pixels that get brighter will look fine. If on the other hand half (or more than half) of the face is strongly illuminated, she can use that average luminance value or another characteristic luminance value as L_SA1, and then the rest will be darkened, and that will be a typically better way to blend, whatever the content this face will be blended with. In this case, the creator can still indicate with additional metadata that the face is actually an atypically lit face, e.g. X stops above the normal lighting. Such information can be advantageously used by the combining apparatus to judge at what luminance (above or below the previous position in the CombRng) this face should be represented (approximately). The normal illumination of a Caucasian (white) face can be taken from the reflection spectrum, which averaged over the wavelengths gives a reflectivity of 36%. So that is one stop above 18% of middle grey (which makes these two values identifiable). As stated above, in the classical LDR framework one would also represent this middle grey at about 18% of the maximum brightness of the screen, e.g. 12%. Of course, other races should be a bit darker depending on their skin type, because otherwise it can be difficult to actually detect the actor's skin type on film for those who want to, and that could lead to confusion. For example, a black skin may reflect as little as 5%, i.e. 3 stops darker than the typical Caucasian one. As for rendering, the face can be made to be slightly brighter in the LDR range than 36% of the maximum brightness of 100 nits, to have very "sunny" faces. For example, the imager can indicate in a first field of the metadata the luminance code of the "average" or reference luminance (via EOTF lumas can be calculated in absolute luminances) of this face object, e.g. 853, or 80% in a normalized luma encoding, and can indicate in a second field that this is a "2SB" type face luminance, meaning it is illuminated two stops brighter than the rest of that locale in the scene and its image, etc. The reader understands that the same thing can be achieved by different encoding mechanisms, for example one can also encode a second anchor point L_S2A1pkS which is a luminance k stop brighter still containing a face color (e.g. the brightest, or 95th percentile, or the brightest still in the face and not a hair highlight), and a third anchor point L_S2A1mkS which specifies some darker extreme of this face in this HDR image or video shot. Anchor points of various types can therefore be indicated in a standard understandable way (to be agreed upon by various standards implementing the system), for example either with a set of enumerated types such as “Face36”, “Facet8”, “Face72”, “Face5”, “MiddleDimGrey”, “MiddleBlack”, “MiddleDeepBlack”, or a hierarchical, sequential annotation of data can be used, e.g. “Face” “1 stop up” “Dim” (where, then, “face” means the 36% reflectance of the average amount of light residing in that part of the image under a particular type of illumination, and more importantly, a particular subrange of the display’s dynamic range to be used to render those pixels, to give the correct appearance of the rendered scene – “Dim” would be the middle bright colours, which are, for example, typically rendered, on most or all displays, in the range of 10-100 cd/m2). nits, below which there should be at least one region of blacks, and preferably a region of "Blacks" that are slightly worse lit, i.e. the dim illumination value divided by up to 10 (or 1-10 nit luminances typically), and a region of deep blacks, up to 1/100th of the normal dim illumination (i.e. 0.x up to 1 nit luminances), which in HDR artistic scene rendering would typically be used for example for the deep gloomy landscape seen in a castle when the hero walks through it simply with a candle. Above dim lighting, one should already be able to get excellent results, creating a well controlled high quality HDR landscape, if one adds a region for the "Brights" (where sunny outside would be rendered, say, about 10x for TV watching, where in real scenes it would be 100x brighter, i.e. luminances of 100-1000 nit), and one for the "Ultra-Brights", where one could render, say, lamps, explosions, etc., i.e. the effects that still make it interesting to have high-end HDR displays, with an upper subrange of say 1000-10,000 nit. One control should be enough, either for display tuning (to finally close the gap between scene-referred and screen-referred image encoding, after absolute encoding of the image structure by reintroducing again some correct level of display ratio), or as in this application for correct image blending, allowing for precise differentiated control across 5 scenes. Actually, if you do a study of HDR scene types, that exist in real life or that artists might make, you often see two region images, like for example the shop at night in Figure 16C (a uniformly lit region image is of course normally SDR-encodable), and you are already somewhat less likely to find three region images like Figure 16b, and when you need the full power of the 5 different lighting regimes, you are making a really complex HDR scene (maybe in some movies it only appears at the beginning like a commercial showing the latest HDR possibilities). But the reader will now understand that our principles are not limited to smaller or more complex realizations. If the content grader specifies only one anc value, then harmonization of several image contents with that anc value is already possible. This would normally happen if there is only one critical object in the image, for example the only actor or presenter (but as said, although this actor, even when highly contrast-lit, will only have a typical illumination and luminance, it can theoretically be anything between 0 nit and PB_C). If nothing is specifically needed for the anchor type, then the blending apparatus is supposed to work with a normal anchor related to a middle gray value, and of a normal rendering luminance, typically "Dim". Therefore, content creators who annotate only 1 anc value, should generally use a representative value for a mid-gray position (in the local illumination of that area of the scene and their image) of their actor, e.g. in a bimodal histogram residing in the sun, and then annotate the type as e.g. “Bright”, so that even with this simple small amount of information, the blending apparatus can very well judge what to do (e.g. in case the movie doesn’t bother too much, it may decide to render the “anyway” bright actor in the commercial as a dim PIP within the movie, or to allow for an impression of brightness, it may render the bright actor somewhat above the dim level, e.g. at (bright+dim)/2, e.g. at (30+300)/2 nit; if the standard allows for additional metadata to be communicated, and this metadata is populated, content creators such as e.g. the commercial may indicate that they do not want to deviate from this). its preferred "bright" representation too, but on the other hand, for various reasons, the devices could ignore it, for example, because the end viewer has indicated with the user interface that he wants to enjoy the film, i.e. the lowest disturbance errors of the bright inserted content should be given preference in the film histogram).

Por supuesto, si el graduador anota más valores, puede, por ejemplo, especificar sus "Oscuridades profundas", y luego el aparato de combinación puede tener eso en cuenta en su combinación final, ya sea que ya esté preparado para negros malos finalmente renderizables en un entorno de visualización brillante, o no (es decir, con la combinación que aún se realiza en un marco teóricamente perfecto de un sistema de renderizado ideal antes de la sintonización de la pantalla a un sistema real). Of course, if the grader notes further values, he can, for example, specify his "Deep Darks", and then the blending apparatus can take that into account in its final blend, whether already prepared for eventually renderable bad blacks in a bright viewing environment, or not (i.e. with the blending still being done in a theoretically perfect frame of an ideal rendering system before tuning the display to a real system).

Por lo tanto, teniendo tanto la luminancia de anclaje (anc) que indica dónde colocar aproximadamente el color de la cara (asumimos por simplicidad de explicación para esta realización que los colores de la cara HDR ya estaban en ese nivel de luminancia, por lo que obtener los colores de la cara de la imagen HDR es a continuación trivial, sin necesidad de consideraciones complejas de mapeo de luminancia), y una forma de identificar dónde está al menos el color de la cara principal en la imagen LDR (luminancia de anclaje de fuente L_SA1), el aparato puede poner de manera relativamente simple todos los colores de la cara de ambas imágenes combinadas correctamente en la imagen de combinación como imagen de salida. E incluso para las realizaciones más simples, los colores circundantes (de la cara para empezar) y todos los demás colores de la imagen caerán relativamente bien automáticamente alrededor de esa luminancia de anclaje (anc). La filosofía para los otros colores también era relativamente simple, ya que no era necesario elaborarla con más detalle para esos escenarios de representación técnica. Si todos los demás colores cayeran en un intervalo de aproximadamente 2-2,5 paradas alrededor del gris medio (por ejemplo, el blanco suele ser 90 % o 5 veces más brillante en luminancia lineal), eso daría una buena imagen. Las impresiones a menudo no podían obtener negros muy profundos, y también la práctica televisión LDR se limitaba a típicamente 32:1 (el blanco máximo frente a los negros más profundos todavía razonablemente bien discriminables), en vista de la luz que se reflejaba en el vidrio frontal del televisor. Al ser 5 paradas del contenido del objeto de imagen, significaba que si uno se aseguraba de que los colores más oscuros y, en particular, los negros importantes estuvieran a 2-2,5 paradas del gris medio, uno también estaría razonablemente bien en el lado más oscuro de una escena LDR bien iluminada. Todo esto, en principio, ya no significa nada en el manejo de imágenes HDR, en particular para la composición y el renderizado, por lo que se necesita un mecanismo mejorado, y en particular en vista de la complejidad (las imágenes pueden contener casi cualquier cosa), alguna guía humana de lo que es semánticamente relevante, y por lo tanto, lo que sería una buena combinación. Las realizaciones más complejas pueden tomar decisiones coordinadas más inteligentes de cómo se pueden colocar inteligentemente otras luminancias de objetos alrededor del objeto principal tal como lo coloca la luminancia de anclaje, que en este ejemplo simple de entender es una cara. Se podría anotar, por ejemplo, un punto de anclaje que es un límite de un intervalo, etc. Para evitar dudas, cuando nos referimos al vídeo, nos referimos solo a una sucesión temporal de imágenes, y no nos limitamos a que una estrategia en particular deba aplicarse de manera similar para una película completa, sino que puede aplicarse solo a una parte de esa película, por ejemplo, una toma de imágenes de una misma escena (es decir, por ejemplo, el CombRng puede ser diferente en diferentes momentos de tiempo, ciertamente si más adelante se combina un nuevo comercial con diferentes características de luminancia del objeto). Dado que la mayoría de las características de las realizaciones de nuestra invención serán similares al menos para las combinaciones espaciales, ya sea que se utilicen imágenes fijas o vídeos, para evitar formulaciones tediosas menos legibles, podemos usar en los casos en que no es necesaria la distinción de una de las dos realizaciones, vídeo o imagen, en la aclaración, y el lector debe entender que también puede leer la otra. La determinación de una función que mapea una primera luminancia (anclaje de fuente) a una segunda luminancia (anclaje de intervalo de combinación y), debe ser lo suficientemente clara para el lector para varias realizaciones. Como se dijo, se podría, por ejemplo, construir el conjunto de transformación de color del aparato de combinación para que sea tan simple como hacer una función lineal de dos partes que eleve la luminancia de entrada particular (imagen fuente) desde la diagonal hasta donde debe estar, y luego conectar las líneas al máximo y mínimo del intervalo de entrada y salida (0, y [PB_C_image_1; LMC]), pero si uno tiene una función particularmente conformada para reprocesar luminancias de imagen para hacerlas más apropiadas para diferentes intervalos dinámicos o brillos, etc., también se puede, por ejemplo, escalar linealmente esa función para que el punto en él para ancS caiga en el valor de salida de anc en el eje Y. También debe quedar claro cómo se podrían construir sistemas similares que no necesitan usar la colocación exacta del anclaje, pero que funcionan con una vecindad (no demasiado grande) alrededor de ese valor anterior. La proximidad utilizable puede establecerse como cualquier combinación entre lo que el creador de contenido puede haber indicado en los metadatos de origen (por ejemplo, este anclaje puede representarse con una desviación del 20 % de su valor exacto) y lo que el aparato de combinación puede decidir dependiendo de la situación (como se dijo, aunque, por ejemplo, una cara en el cálculo comercial puede salir del cálculo que se representará, por ejemplo, a 150 nits, el aparato de combinación puede, de acuerdo con varias reglas de programa, decidir desviarse un poco de eso, por ejemplo, puede decidir que los PIP que desean colocarse en la posición central muy importante de la imagen se iluminarán un poco, y, por ejemplo, en la medida en que el aparato de combinación, que puede ser el único aparato que tiene toda la información de todas las partes de la imagen que se combinarán, y tal vez incluso el sistema de representación y el entorno en el que se mostrará la imagen combinada, juzgue que es óptimo o razonable para la presentación total actual del contenido de la imagen combinada). Si no se especifica nada más, un factor 2x por debajo o por encima de la posición de anclaje ideal puede ser una proximidad pragmáticamente razonable. Thus, having both the anchor luminance (anc) indicating where to roughly place the face color (we assume for simplicity of explanation for this embodiment that the HDR face colors were already at that luminance level, so getting the face colors from the HDR image is then trivial, with no need for complex luminance mapping considerations), and a way to identify where at least the main face color is in the LDR image (source anchor luminance L_SA1), the apparatus can relatively simply put all face colors from both correctly combined images into the combination image as output image. And even for the simplest embodiments, the surrounding colors (of the face to begin with) and all other colors in the image will relatively nicely automatically fall around that anchor luminance (anc). The philosophy for the other colors was also relatively simple, as it was not necessary to elaborate it in further detail for those technical rendering scenarios. If all other colours fell within a range of about 2-2.5 stops around mid-grey (e.g. white is typically 90% or 5 times brighter in linear luminance) that would give a good picture. Prints often couldn't get very deep blacks, and also practical LDR television was limited to typically 32:1 (peak white vs. still reasonably well discriminable deepest blacks), in view of the light reflecting off the front glass of the TV. Being 5 stops from the image object content meant that if one made sure that the darkest colours and in particular the important blacks were 2-2.5 stops from mid-grey, one would also be reasonably well off the darker side of a well-lit LDR scene. All of this in principle means nothing anymore in handling HDR images, in particular for compositing and rendering, so an improved mechanism is needed, and in particular in view of the complexity (images can contain almost anything), some human guidance of what is semantically relevant, and therefore what would be a good match. More complex implementations can make more intelligent coordinated decisions of how other object luminances can be intelligently placed around the main object as placed by the anchor luminance, which in this simple to understand example is a face. One could annotate for example an anchor point which is a boundary of an interval, etc. For the avoidance of doubt, when we refer to video, we refer only to a temporal succession of images, and we do not limit ourselves to the fact that a particular strategy must be applied in a similar way for a whole movie, but may be applied only to a part of that movie, for example a shot of images of a same scene (i.e. for example the CombRng may be different at different moments of time, certainly if a new commercial with different object luminance characteristics is later combined). Since most of the features of the embodiments of our invention will be similar at least for spatial combinations, whether still images or videos are used, to avoid tedious less readable formulations, we can use in cases where the distinction of one of the two embodiments, video or image, is not necessary in the clarification, and the reader should understand that he can read the other as well. The determination of a function mapping a first luminance (source anchor) to a second luminance (combination interval anchor and), should be sufficiently clear to the reader for several embodiments. As said, one could, for example, construct the color transformation set of the combining apparatus to be as simple as making a two-part linear function that raises the particular input luminance (source image) from the diagonal to where it needs to be, and then connecting lines to the maximum and minimum of the input and output range (0, and [PB_C_image_1; LMC]), but if one has a particularly shaped function for reprocessing image luminances to make them more appropriate for different dynamic ranges or brightnesses, etc., one could also, for example, linearly scale that function so that the point on it for ancS falls on the output value of anc on the Y axis. It should also be clear how one could construct similar systems that do not need to use exact anchor placement, but work with a (not too large) neighborhood around that prior value. Usable proximity may be set as any combination between what the content creator may have indicated in the source metadata (e.g. this anchor may be rendered with a 20% deviation from its exact value) and what the blending apparatus may decide depending on the situation (as said, although for example a face in the business calculation may come out of the calculation to be rendered at, say, 150 nits, the blending apparatus may, according to various program rules, decide to deviate from that a bit - e.g. it may decide that PIPs that want to be placed in the very important center position of the image will be brightened a bit, and for example to the extent that the blending apparatus, which may be the only apparatus that has all the information of all the parts of the image to be blended, and perhaps even the rendering system and environment in which the blended image will be displayed, judges to be optimal or reasonable for the current total presentation of the content of the blended image). Unless otherwise specified, a factor of 2x below or above the ideal anchor position may be a pragmatically reasonable proximity.

Por último, también nos gustaría mencionar que debido a que las realizaciones del solicitante pueden funcionar con funciones que especifican el aspecto final de las imágenes, en diversas realizaciones no es necesario que un aparato real (por ejemplo, el aparato de combinación) haga realmente la imagen combinada. Por ejemplo, si el aparato de combinación es un s Tb , podría enviar una imagen combinada de manera totalmente óptima a un televisor, por ejemplo, HDR10 codificada a través de HDMI si ese estándar es suficiente para lo que se necesita para esa imagen, y luego el televisor la representa directamente como una pantalla tonta. Pero el STB también podría juzgar y preparar la situación, y luego enviar todos los datos necesarios: al menos algunos datos de imagen y algunas transformaciones (que cuando se han convertido en las transformaciones óptimas FF para calcular la imagen combinada deberían ser suficientes, pero algunas otras realizaciones también podrían enviar valores de anclaje, tal vez incluso más valores de luminancia de anclaje determinados por el STB al televisor). En ese caso, el televisor tiene toda la información para realizar la combinación de manera única, es decir, en una combinación PIP no solo hará la selección de píxeles, sino que aplicará FF_1 a los píxeles de imagen SDR correspondientes recibidos antes de almacenarlos en el búfer de imagen combinada, y FF_2 a las luminancias de los píxeles de imagen HDR, para obtener las luminancias correctas de esos píxeles en la imagen combinada. Las realizaciones más simples de un aparato de combinación pueden determinar solo una buena posición de anclaje. Por ejemplo, dependiendo de lo que muestre el televisor, cómo se configura (por ejemplo, mediante un control de brillo del usuario), etc., solo puede determinar un valor de anclaje gris promedio de luz tenue, que en las condiciones actuales debería representar imágenes de buen aspecto, por ejemplo, anc_1D = 30 nit. Por supuesto, esto no producirá el mejor control sobre la combinación de imágenes, pero si un primer contenido indica con su anclaje (por ejemplo, un valor de luminancia promedio negro) que la acción está sucediendo en una noche oscura, y el segundo contenido indica que es un comercial brillante y llamativo, esta realización de aparato de combinación simple ya debería ser capaz de armonizar razonablemente ambas imágenes en torno a su valor anc_1D. Por supuesto, las realizaciones de aparatos de combinación mejores y más complejas habrán juzgado cuál sería una buena situación de combinación para varios tipos de contenido, y habrán especificado valores óptimos de anc para el valor de anc del tipo de brillo anterior (negro profundo a ultrabrillante). El aparato podrá a continuación armonizar poderosamente cualquier contenido entrante, observando su tipo de situación o efectos HDR indicados examinando sus valores de origen (y potencialmente metadatos adicionales como funciones de reclasificación, por ejemplo, indicando cómo los negros pueden hacerse grises si es necesario), a esos diferentes subintervalos de iluminación del CombRng, cualquiera que sea la situación (por ejemplo, si la combinación se realiza o prepara para un manejo adicional esperado, por ejemplo, sistema de renderizado que tiene brillos bajos, por ejemplo, no hay suficiente brillo máximo de visualización para renderizar espectacularmente los ultrabrillos lo suficientemente más brillantes que los brillos, en cuyo caso la combinación puede oscilar hacia alguna forma de posterización para los píxeles de imagen más brillantes; esa no sería la mejor combinación teórica de los colores de píxeles de imagenper se,pero una buena combinación para tales sistemas de menor calidad). Por lo tanto, la luminancia de anclaje en el intervalo de combinación se determina típicamente como al menos una buena luminancia para determinar las otras luminancias a su alrededor, y se determina por el aparato de combinación (en función de las necesidades genéricas de renderización de imágenes de buena calidad y/o especificaciones de contenido real o previsto y/o capacidades de visualización), y los anclajes de fuente hacen una cosa similar en el intervalo dinámico de la imagen de fuente, y se determinan típicamente de acuerdo con lo que el creador cree que es importante para sus imágenes, es decir, al menos qué objetos y regiones de píxeles importantes específicos a su alrededor (al menos en cuanto a luminancia) deben renderizarse y usarse bien controlados, en los diversos escenarios de uso posibles, en combinaciones de imágenes particulares. Se puede entender cómo definir una luminancia de anclaje adecuada para un objeto específico, es decir, una subparte espacial y temporal de imágenes, y debe quedar claro que los anclajes pueden necesitar redefinirse cuando la película cambia a una nueva (toma de) imagen(es), de una escena diferente, por ejemplo, la primera escena que ocurre en la sala de estar de una casa con luz natural en un día lluvioso, y la siguiente escena en el sótano iluminada por una única práctica, a saber, una bombilla en el medio del sótano (ambas escenas tendrán objetos similares que pueden indicarse con un anclaje, por ejemplo, la camisa del actor, pero, por supuesto, tendrán diferentes luminancias graduadas en las imágenes maestras, y deben representarse de manera diferente en las imágenes MDR definitivas para pantallas variables). Finally, we would also like to mention that because Applicant's embodiments may operate with functions that specify the final look of the images, in various embodiments it is not necessary for an actual apparatus (e.g. the combining apparatus) to actually make the combined image. For example, if the combining apparatus is an STB, it could send a fully optimally combined image to a TV, e.g. HDR10 encoded over HDMI if that standard is sufficient for what is needed for that image, and then the TV directly renders it as a dumb display. But the STB could also judge and prepare the situation, and then send all the necessary data: at least some image data, and some transformations (which when converted to the optimal transformations FF to calculate the combined image should be sufficient, but some other embodiments could also send anchor values, maybe even more anchor luminance values determined by the STB to the TV). In that case the TV has all the information to perform the blending uniquely, i.e. in a PIP blending it will not only do pixel selection, but apply FF_1 to the corresponding received SDR image pixels before storing them in the blended image buffer, and FF_2 to the luminances of the HDR image pixels, to get the correct luminances of those pixels in the blended image. The simplest embodiments of a blending apparatus may determine only a good anchor position. For example, depending on what the TV is displaying, how it is configured (e.g. via a user brightness control), etc., it may only determine a dim-light average gray anchor value, which under current conditions should render good looking images, e.g. anc_1D = 30 nit. Of course, this won't produce the best control over image blending, but if a first piece of content indicates with its anchor (e.g. a black average luminance value) that the action is happening on a dark night, and the second piece of content indicates that it's a bright, flashy commercial, then this simple blending apparatus implementation should already be able to reasonably harmonize both images around its anc_1D value. Of course, better, more complex blending apparatus implementations will have judged what a good blending situation would be for various types of content, and will have specified optimal anc values for the preceding brightness type's anc value (deep black to ultra-bright). The device will then be able to powerfully match any incoming content, noting its situation type or HDR effects indicated by examining its source values (and potentially additional metadata such as regrading functions, e.g. indicating how blacks can be made grey if necessary), to those different lighting subranges of the CombRng, whatever the situation (e.g. if the matching is done or prepared for expected additional handling, e.g. a rendering system that has low brights, e.g. there is not enough peak display brightness to dramatically render the ultra-highlights sufficiently brighter than the brights, in which case the matching may swing towards some form of posterization for the brightest image pixels - that would not be the theoretical best matching of image pixel colours per se, but a good matching for such lower quality systems). So the anchor luminance in the blending range is typically determined to be at least a good luminance to determine the other luminances around it, and is determined by the blending apparatus (based on generic needs for good quality image rendering and/or actual or intended content specifications and/or display capabilities), and the source anchors do a similar thing in the dynamic range of the source image, and are typically determined according to what the creator thinks is important for their images, i.e. at least what specific important pixel regions and objects around them (at least luminance-wise) should be rendered and used well controlled, in the various possible usage scenarios, in particular image blends. One can understand how to define a suitable anchor luminance for a specific object, i.e. a spatial and temporal subpart of images, and it should be clear that anchors may need to be redefined when the film switches to a new (take of) image(s), of a different scene, e.g. the first scene taking place in the living room of a naturally lit house on a rainy day, and the next scene in the basement lit by a single practical light, namely a light bulb in the middle of the basement (both scenes will have similar objects which can be indicated by an anchor, e.g. the actor's shirt, but of course they will have different graded luminances in the master images, and need to be represented differently in the final MDR images for variable displays).

Es ventajoso cuando el conjunto de transformación de color (310) está dispuesto para determinar la transformación de color (específicamente la transformación de luminancia) (FF_1) de modo que una luminancia de salida (LF 1 _o), que se determina como resultado de aplicar la transformación de color (FF_1) a una luminancia de entrada de un color de píxel de la primera imagen o vídeo (Im1_LDR) que es igual a la al menos una luminancia de anclaje de fuente (L_SA1), es igual a la luminancia de anclaje (anc). Por lo tanto, una forma de coordinar las luminancias de las al menos dos imágenes (o vídeos) que se combinarán es diseñar la estrategia de combinación para que las luminancias de anclaje elegidas para todas las imágenes sean las mismas y se establezcan en el valor de la luminancia de anclaje apropiada (anc) en el intervalo dinámico de combinación de la imagen de salida (Im_o) en la que se producirá la combinación de imágenes final (por ejemplo, un PIP o una mezcla alfa). El experto entiende cómo el aparato puede calcular una función que tiene como propiedad: FF_1(L_i=L_SA1)=anc, y luego un mapeo para todas las luminancias alrededor de anc respectivamente L_<s>A 1. En particular, dado que podemos estar trabajando en el espacio de color de luminancia lineal (y las opciones inteligentes con respecto a la colocación de la luminancia del objeto a lo largo del eje de luminancia ya se han realizado en gran medida por el decodificador 251 que trabaja en al menos una de las imágenes, debido a que el creador de contenido creó los detalles de las diferentes imágenes graduadas para su intervalo dinámico de imagen, y las funciones de transformación de luminancia de reclasificación correspondientes si se comunican), a menudo se puede usar un mapeo lineal (o a veces una simple no linealidad para contrastes de distribución desigual, como una función gamma). Como se aclaró con la Figura 18a, se puede entender cómo uno (con un factor de atenuación lineal) tiene que atenuar las luminancias según lo determinado por la codificación de la imagen de entrada mediante algún factor para las imágenes más oscuras, y ocurre un mapeo similar algo diferente para las luminancias de la imagen de entrada más brillantes que el anclaje de fuente L_SA1. It is advantageous when the color transformation assembly (310) is arranged to determine the color transformation (specifically the luminance transformation) (FF_1) such that an output luminance (LF_1_o), which is determined as a result of applying the color transformation (FF_1) to an input luminance of a pixel color of the first image or video (Im1_LDR) that is equal to the at least one source anchor luminance (L_SA1), is equal to the anchor luminance (anc). Therefore, one way to coordinate the luminances of the at least two images (or videos) to be combined is to design the combining strategy so that the anchor luminances chosen for all images are the same and are set to the appropriate anchor luminance (anc) value in the dynamic blending range of the output image (Im_o) in which the final image blending (e.g., a PIP or an alpha blend) will occur. The skilled artisan understands how the apparatus can compute a function having as property: FF_1(L_i=L_SA1)=anc, and then a mapping for all luminances around anc respectively L_<s>A 1. In particular, since we may be working in linear luminance color space (and the intelligent choices regarding placement of the object luminance along the luminance axis have already been largely made by the decoder 251 working on at least one of the images, because the content creator created the details of the different graded images for their image dynamic range, and the corresponding regrading luminance transform functions if communicated), a linear mapping (or sometimes a simple non-linearity for unevenly distributed contrasts, such as a gamma function) may often be used. As clarified by Figure 18a, one can understand how one (with a linear attenuation factor) has to attenuate the luminances as determined by the input image encoding by some factor for darker images, and a somewhat different similar mapping occurs for input image luminances brighter than the source anchor L_SA1.

En el caso de una función lineal, se puede entender fácilmente que la función se puede determinar (por ejemplo, en un sistema normalizado a 1.0 ejes con eje x = luminancia de entrada lineal de la imagen LDR, y el eje y es luminancia normalizada en CombRng), a saber, como L_out=FF_1(L_in)=C*(L- L_SA1)+anc. C es una constante de contraste, que el aparato puede optimizar aún más para hacer que las dos imágenes sean más armoniosas. Se podría determinar mirando la semántica de las dos imágenes, por ejemplo, el histograma y la distribución de la luminancia espacial (por ejemplo, pequeñas formas en la parte superior de la imagen siendo lámparas, etc.), las relaciones de brillo promedio de las imágenes, etc. Por ejemplo, si la película HDR consiste principalmente en un sótano oscuro, en el que una persona camina en las sombras, con la parte de alto brillo que consiste solo en una sola lámpara, a continuación los contrastes relevantes (de la mayoría de la imagen HDR) no serán muy altos. Entonces, si uno tiene que combinar con un comercial de LDR muy contrastante, es posible que desee disminuir un poco el contraste de ese comercial, para estar más en línea con los contrastes más bajos que el sistema visual percibe, por lo tanto, espera en entornos oscuros (por ejemplo, uno podría restringir la parte más brillante del comercial de LDR, aplicando una parte suavemente inclinada de FF_1 para esos colores relativos más brillantes, cualquiera que sea el contenido semántico, ya sea objetos al aire libre iluminados por el sol o píxeles de bombillas, como en la Figura 18C. Por otro lado, aumentar C algo por encima de 1 puede ayudar a aumentar la intensidad de un comercial, incluso si no se muestra al máximo o el brillo promedio HDR en una película HDR que es muy contrastante (es decir, se pueden controlar los contrastes en el subintervalo local del h Dr CombRng al que se asignarán todas las luminancias de imagen SDR posibles, etc.). Por supuesto, el lector entiende que el aparato también puede realizar otras transformaciones de luminancia (color) FF, por ejemplo, una función que tiene un contraste relativamente alto justo debajo del punto (L_SA1, anc), pero luego comienza a disminuir su pendiente, nivelando en algunos negros de umbral L_out=L_b, etc. De hecho, en principio, cualquier función puede ser determinada por el aparato de combinación, siempre que mapee aproximadamente la luminancia de anclaje de la fuente a la luminancia de anclaje, pero típicamente las funciones resultantes serán relativamente simples (y, por ejemplo, una función de segmento multilineal generalmente ya dará buenos resultados, al menos en imágenes de escena HDR menos críticas), a menos que el lado de creación haya comunicado detalles específicos para el aparato de combinación a seguir, como las funciones de mapeo de luminancia parcial para reclasificar varios subintervalos de luminancia, o la realización del aparato de combinación tiene conjuntos de análisis de imagen internas significativas, que le permiten proponer combinaciones de aspecto más bello (identificando y optimizando varios contrastes entre píxeles o entre regiones, calidad de representación de textura, etc.). In case of a linear function, one can easily understand that the function can be determined (e.g. in a 1.0-axis normalized system with x-axis = linear input luminance of the LDR image, and y-axis is normalized luminance in CombRng), namely as L_out=FF_1(L_in)=C*(L- L_SA1)+anc. C is a contrast constant, which the apparatus can further optimize to make the two images more harmonious. It could be determined by looking at the semantics of the two images, e.g. the histogram and spatial luminance distribution (e.g. small shapes at the top of the image being lamps, etc.), average brightness ratios of the images, etc. For example, if the HDR movie consists mostly of a dark basement, in which a person walks in the shadows, with the high brightness part consisting only of a single lamp, then the relevant contrasts (of the majority of the HDR image) will not be very high. So if one has to match a very contrasty LDR commercial, one might want to lower the contrast of that commercial a bit, to be more in line with the lower contrasts that the visual system perceives, hence expects in dark environments (e.g. one could restrict the brightest part of the LDR commercial, by applying a gently sloping part of FF_1 for those brighter relative colors, whatever the semantic content is, be it sunlit outdoor objects or light bulb pixels, as in Figure 18C. On the other hand, increasing C somewhat above 1 can help increase the vividness of a commercial, even if it is not displayed at its maximum or average HDR brightness in an HDR movie that is very contrasty (i.e. one can control the contrasts in the local subrange of the hdr combrng to which all possible SDR image luminances will be assigned, etc.). Of course, the reader understands that the apparatus can also perform other FF luminance (color) transformations, e.g. a function which has relatively high contrast just below the (L_SA1,anc) point, but then starts to decrease its slope, leveling out at some threshold blacks L_out=L_b etc. In fact, in principle any function can be determined by the blending apparatus, as long as it roughly maps the source anchor luminance to the anchor luminance, but typically the resulting functions will be relatively simple (and for example a multi-linear segment function will usually already give good results, at least on less critical HDR scene images), unless the authoring side has communicated specific details for the blending apparatus to follow, such as partial luminance mapping functions to reclassify various luminance sub-intervals, or the realization of the blending apparatus has significant internal image analysis sets, which allow it to propose more beautiful looking blends (by identifying and optimizing various inter-pixel or inter-region contrasts, texture rendering quality, etc.).

De manera ventajosa, el conjunto de transformación de color (310) está dispuesto para determinar la transformación de color (FF_1) de modo que una relación de luminancia de una segunda luminancia de salida (LT2_o), que se determina como resultado de aplicar la transformación de color (FF_1) a una segunda luminancia de entrada (LT1_i), dividida por la luminancia de salida (LF1_o) es una constante multiplicativa (C) por una relación de la segunda luminancia de entrada (LT1_i) dividida por la luminancia de anclaje de fuente (L_SA1). Como se mencionó anteriormente, las realizaciones más simples pueden determinar un valor fijo de C para todo el intervalo de luminancia (parcial) (la luminancia de entrada de la imagen a procesar), pero también se puede hacer que C sea una función variable de la luminancia de entrada L_i (C=CF(L_i)). Los intervalos de luminancia parciales se pueden definir por el aparato de combinación (de nuevo, ya sea guiado por prescripciones de metadatos adicionales recibidas, o por sí mismo) de varias maneras, por ejemplo, se puede determinar la extensión de un lóbulo de histograma principal, o se puede determinar un intervalo para luminancias en la imagen LDR entre ancS/k y k* ancS, con k, por ejemplo, igual a 4, y el resto de las luminancias LDR se mapean con las dos funciones parciales discontinuas de la Figura 18C, etc. Como ejemplo de funciones más variables FF, se puede aumentar el contraste de las partes más brillantes de la imagen LDR (por encima de la constante L_it, por ejemplo, como un percentil de histograma, etc.), en caso de que haya información importante (por ejemplo, caras fuertemente iluminadas), pero alternativamente también se puede disminuir el contraste para esa región brillante en caso de que solo sea información menos relevante por encima de la acción principal, de modo que, por ejemplo, el aparato puede aumentar un poco la luminancia promedio de la primera imagen LDR mixta, por ejemplo, (por ejemplo, mapeando a anc+d_anc), pero no exagerar la película HDR con reflejos demasiado brillantes en la imagen LDR mapeada por luminancia en CombRng. Esto permite, entre otras cosas, hacer que las luminancias correspondan más a una distribución de brillo calculada en el cerebro humano esperada. Por lo tanto, LT2_o se puede seleccionar, por ejemplo, como un cierto porcentaje por encima de LF1_o (por ejemplo, igual a anc), por ejemplo, 150 % de LF1_o, o k paradas por encima de LF1_o, y luego especificar C1 para ese intervalo de luminancia, etc. La adaptación inteligente de dicha (al menos una o más) subregión de la que suele ser la menos importante de las imágenes (por ejemplo, un comercial de SDR) puede mejorar en gran medida el aspecto armonioso de la combinación total. Advantageously, the colour transformation assembly (310) is arranged to determine the colour transformation (FF_1) such that a luminance ratio of a second output luminance (LT2_o), which is determined as a result of applying the colour transformation (FF_1) to a second input luminance (LT1_i), divided by the output luminance (LF1_o) is a multiplicative constant (C) times a ratio of the second input luminance (LT1_i) divided by the source anchor luminance (L_SA1). As mentioned above, simpler embodiments may determine a fixed value of C for the entire (partial) luminance range (the input luminance of the image to be processed), but C may also be made to be a varying function of the input luminance L_i (C=CF(L_i)). Partial luminance ranges may be defined by the combining apparatus (again, either guided by additional metadata prescriptions received, or by itself) in various ways, for example, the extent of a main histogram lobe may be determined, or a range for luminances in the LDR image between ancS/k and k*ancS may be determined, with k, for example, equal to 4, and the remaining LDR luminances mapped to the two discontinuous partial functions of Figure 18C, etc. As an example of more variable FF functions, one can increase the contrast for brighter parts of the LDR image (above the constant L_it, e.g. as a histogram percentile etc.), in case there is important information (e.g. strongly illuminated faces), but alternatively one can also decrease the contrast for that bright region in case it is only less relevant information above the main action, so that for example the apparatus can slightly increase the average luminance of the first mixed LDR image, e.g. (e.g. by mapping to anc+d_anc), but not overemphasize the HDR movie with too bright highlights in the luminance-mapped LDR image in CombRng. This allows, among other things, to make the luminances correspond more to an expected brightness distribution calculated in the human brain. Thus, LT2_o can be selected, for example, as some percentage above LF1_o (e.g. equal to anc), e.g. 150% of LF1_o, or k stops above LF1_o, and then C1 specified for that luminance range, etc. Intelligent adaptation of such (at least one or more) subregions of what is usually the least important of the images (e.g. an SDR commercial) can greatly improve the harmonious look of the total combination.

Ventajosamente, el conjunto de transformación de color (310) comprende un conjunto de determinación de desviación (312) dispuesto para determinar sobre la base de la al menos una luminancia de anclaje de fuente (L_SA1) un desplazamiento de luminancia (d_anc), y donde el conjunto de transformación de color está dispuesto para determinar la transformación de color (FF_1) de modo que una luminancia de salida (LF1_o), que se determina como resultado de aplicar la transformación de color (FF_1) a una luminancia de entrada de un color de píxel de la primera imagen o vídeo (Im1_LDR) que es igual a la al menos una luminancia de anclaje de fuente (L_SA1), es igual a la luminancia de anclaje (anc) más el desplazamiento de luminancia (d_anc). Como se dijo, puede haber diferencias considerables entre dichos aspectos de luminancia relacionados con el objeto como, por ejemplo, la iluminación de una cara (por ejemplo, mucho contraste) y la relación de la luminancia de la cara con el resto de la imagen. Por lo tanto, el aparato puede decidir que es más apropiado no renderizar la cara LDR (o cualquier objeto de anclaje de primera imagen de intervalo dinámico, o región y subintervalo correspondiente de luminancias) exactamente a la luminancia de salida, sino más bien, por ejemplo, 2 veces más brillante. Esto puede determinarse, entre otras cosas, en función de un tipo de iluminación facial (que, por ejemplo, puede indicarse típicamente con una codificación de tipo de anclaje), por ejemplo, si la luminancia de anclaje de fuente (L_SA1) se determina como la luminancia promedio de una media cara muy brillantemente iluminada, y la cara debe representarse en la imagen final con un tamaño grande, a continuación el aparato puede decidir determinar una d_anc negativa de, por ejemplo, el 50 %. Las consideraciones heurísticas detrás de estas reglas y matemáticas del programa pueden considerar, por ejemplo, que las regiones brillantes pueden irradiar demasiado las regiones más oscuras circundantes, o ser demasiado llamativas y conspicuas, o simplemente irritantemente brillantes en comparación con el resto de la imagen, que puede ser lo principal que el espectador estaba viendo, como una película, etc. Las consideraciones también pueden evaluar la composición de brillo de la imagen de película HDR. Por ejemplo, esa imagen puede consistir en una región interior oscura y una región exterior más brillante vista a través de una puerta de garaje abierta. Si se supone que el PIP del anuncio de LDR relativamente mucho más brillante se coloca en la parte oscura, debe oscurecerse (es decir, un d_anc relativamente grande, por ejemplo, para llevar la luminancia promedio de la cara en el LDR, o luminancias de anclaje adicionales que caracterizan la imagen de LDR, siendo pesado en una sola luminancia representativa para la imagen de LDR, a medio camino entre el ANC y la luminancia promedio local de esa región oscura de la segunda imagen de película HDR), para que el contraste entre las dos imágenes, y los contrastes locales vistos desde allí por el cerebro en objetos adyacentes de esas dos imágenes, no sean demasiado excesivos. Pero si el PIP brillante se va a presentar cerca de la parte soleada al aire libre de la película HDR, es posible que incluso deba iluminarse con un d_anc positivo. Por lo tanto, en general, estas desviaciones d_anc se calcularán en función de cuál sería una combinación ideal (de, por ejemplo, dos caras) en una situación ideal (por ejemplo, si las caras estuvieran rodeadas en ambas imágenes por un fondo gris medio), y cuál es la situación real de al menos la imagen principal (es decir, en este ejemplo, la película HDR, en la que pegamos el comercial de LDR), tanto a nivel mundial (es decir, qué tipo de objetos comprende, con luminancia y tamaño promedio, y caracterizadores potencialmente más semánticos, como la complejidad interna con una medida de textura, etc.), como localmente alrededor de donde ocurriría la composición (por ejemplo, en un PIP de tamaño pequeño X,Y). Por lo tanto, los desplazamientos se determinarán en general en función de lo que sea armonioso para las dos imágenes, y en varias realizaciones que dependerán de los detalles de las imágenes por sí mismas (contrastes, tipo de posición de anclaje de la fuente y contenido del objeto en esa vecindad, y contenido fuera de esa vecindad, tamaño geométrico, etc.), y la combinación (si el PIP está, por ejemplo, colocado en un lugar pequeño menos crítico en la parte inferior derecha de la imagen, o cómo la mezcla brillará a través de la información parcial en una mezcla de mezcla, etc.). Las realizaciones más simples solo usarán una estructura de armonización relativamente simple, lo que no es tan maloper se(especialmente si el valor anc+d_anc se puede optimizar para mitigar, por ejemplo, un riesgo de contraste excesivo, si eso se juzga por el comercial), pero las combinaciones más avanzadas pueden ver con mayor precisión dónde y cómo se coloca exactamente la segunda información de imagen, o incluso propiedades adicionales de la combinación. Advantageously, the colour transformation assembly (310) comprises an offset determining assembly (312) arranged to determine on the basis of the at least one source anchor luminance (L_SA1) a luminance offset (d_anc), and wherein the colour transformation assembly is arranged to determine the colour transformation (FF_1) such that an output luminance (LF1_o), which is determined as a result of applying the colour transformation (FF_1) to an input luminance of a pixel colour of the first image or video (Im1_LDR) which is equal to the at least one source anchor luminance (L_SA1), is equal to the anchor luminance (anc) plus the luminance offset (d_anc). As stated, there may be considerable differences between such object-related luminance aspects as for example the illumination of a face (e.g. high contrast) and the relationship of the face's luminance to the rest of the image. Therefore, the apparatus may decide that it is more appropriate not to render the LDR face (or any first dynamic range image anchor object, or corresponding region and subrange of luminances) exactly at the output luminance, but rather, for example, 2 times brighter. This may be determined, inter alia, based on a type of facial illumination (which may for example typically be indicated with an anchor type encoding), for example, if the source anchor luminance (L_SA1) is determined as the average luminance of a very brightly illuminated half face, and the face is to be rendered in the final image at a large size, then the apparatus may decide to determine a negative d_anc of, for example, 50%. The heuristic considerations behind these program rules and mathematics might consider, for example, that bright regions might over-irradiate surrounding darker regions, or be too flashy and conspicuous, or just irritatingly bright compared to the rest of the image, which might be the main thing the viewer was watching, such as a movie, etc. Considerations might also evaluate the brightness composition of the HDR movie image. For example, that image might consist of a dark interior region and a brighter exterior region as viewed through an open garage door. If the PIP of the relatively much brighter LDR ad is supposed to be placed in the dark part, it should be darkened (i.e. a relatively large d_anc, say, to carry the average luminance of the face in the LDR, or additional anchor luminances characterizing the LDR image, being weighted to a single representative luminance for the LDR image, halfway between the ANC and the local average luminance of that dark region of the second HDR movie image), so that the contrast between the two images, and the local contrasts seen from there by the brain in adjacent objects in those two images, are not too excessive. But if the bright PIP is to be presented near the sunny, outdoor part of the HDR movie, it may even need to be brightened with a positive d_anc. So in general these d_anc deviations will be calculated based on what an ideal composite (of say two faces) would be in an ideal situation (e.g. if the faces were surrounded in both images by a medium grey background), and what the actual situation is for at least the main image (i.e. in this example the HDR movie, on which we pasted the LDR commercial), both globally (i.e. what kind of objects it comprises, with average luminance and size, and potentially more semantic characterizers such as internal complexity with a texture measure etc.), and locally around where compositing would occur (e.g. in a small PIP of size X,Y). So the offsets will in general be determined based on what is harmonious for the two images, and in various embodiments that will depend on the details of the images themselves (contrasts, type of source anchor position and object content in that neighborhood, and content outside that neighborhood, geometric size, etc.), and the blend (whether the PIP is for example placed in a less critical small spot at the bottom right of the image, or how the blend will shine through partial information in a blend mix, etc.). Simpler embodiments will just use a relatively simple harmonization structure, which is not so bad per se (especially if the anc+d_anc value can be optimized to mitigate for example a risk of excessive contrast, if that's judging by the commercial), but more advanced blends can more precisely see where and how exactly the second image information is placed, or even additional properties of the blend.

De manera ventajosa, el conjunto de transformación de color (310) está dispuesto para leer al menos una segunda luminancia de anclaje de fuente (L_S2A1) obtenida de una segunda fuente (351) que entrega una segunda imagen o vídeo (Im1_HDR) de las dos imágenes o vídeos, y en la que el conjunto de determinación de desviación (312) está dispuesto para determinar el desplazamiento de luminancia (d_anc) también en función de la al menos una segunda luminancia de anclaje de fuente (L_S2A1). Hemos descrito anteriormente una realización simple, en la que la estructura de luminancia de la imagen principal (a la que llamamos imagen 2 en nuestra formulación de reivindicación) tiene una estructura de luminancia conocida y, por lo tanto, se puede transformar fácilmente y formar la referencia básica en el CombRng. Es una forma útil de combinación en caso de que la imagen HDR sea una imagen principal, que debe distorsionarse mínimamente, por lo que es principalmente el contenido secundario el que se transforma hacia ella. Esto puede suceder, por ejemplo, si se sabe que la imagen HDR es de un tipo producido para garantizar que todos los objetos reflectantes Lambertianos (por ejemplo, de un programa de entrevistas de estudio) reciban una luminancia que siempre caiga dentro del intervalo de 0-400 nits del intervalo dinámico de Im HDR Im2_Rng (y eso corresponderá, por ejemplo, a un intervalo de 0-300 nits en CombRng, o el mismo intervalo de 0-400 en CombRng), y todo lo anterior es en su mayoría destacado, como, por ejemplo, pequeñas reflexiones especulares sobre metales. En ese escenario, se tiene un tipo específico de escena HDR, en la que la parte inferior se produce de una manera que es en gran medida similar a la producción de televisión LDR, y los efectos HDR son en su mayoría luces, para las cuales no se es demasiado crítico sobre su luminancia exacta (y no, por ejemplo, objetos a través de una ventana, que no solo deben verse claramente, sino que los objetos exteriores tal vez incluso deberían tener luminancias particulares para transmitir algún estado de ánimo artístico). En este caso, el problema se trata principalmente de coordinar el anuncio de LDR con la situación de iluminación del programa de entrevistas HDR, principalmente la parte de hasta 400 nits, y también se coordina en cierta medida con lo que exactamente hay en las regiones brillantes (por ejemplo, se podría usar el mecanismo de contraste anterior con constantes multiplicativas C, o cualquier determinación general y aplicación de una función de mapeo de luminancia, para iluminar pequeñas regiones destacadas (identificadas o supuestas) en el anuncio de LDR para que se correspondan más con las luminancias de estos aspectos destacados realmente presentes en el programa de entrevistas HDR). Advantageously, the colour transformation assembly (310) is arranged to read at least one second source anchor luminance (L_S2A1) obtained from a second source (351) delivering a second image or video (Im1_HDR) of the two images or videos, and wherein the offset determining assembly (312) is arranged to determine the luminance shift (d_anc) also as a function of the at least one second source anchor luminance (L_S2A1). We have described above a simple embodiment, wherein the luminance structure of the main image (which we call image 2 in our claim formulation) has a known luminance structure and can therefore be easily transformed and form the basic reference in the CombRng. It is a useful way of combining in case the HDR image is a main image, which should be minimally distorted, whereby it is mainly the secondary content that is transformed to it. This can happen, for example, if the HDR image is known to be of a type produced to ensure that all Lambertian reflective objects (e.g. from a studio talk show) are given a luminance that always falls within the 0-400 nits range of the Im HDR Im2_Rng dynamic range (and that will correspond to, say, a 0-300 nits range in CombRng, or the same 0-400 range in CombRng), and everything above is mostly highlights, such as, e.g. small specular reflections on metals. In that scenario, one has a specific type of HDR scene, where the low-light part is produced in a way that is largely similar to LDR TV production, and the HDR effects are mostly highlights, for which one is not too critical about their exact luminance (and not, for example, objects through a window, which should not only be seen clearly, but outside objects should perhaps even have particular luminances in order to convey some artistic mood). In this case, the problem is mostly about coordinating the LDR spot with the lighting situation of the HDR talk show, mostly the part up to 400 nits, and also coordinating to some extent with what exactly is in the bright regions (for example, one could use the above contrast mechanism with multiplicative constants C, or any general determination and application of a luminance mapping function, to brighten small (identified or assumed) highlight regions in the LDR spot to make them correspond more closely to the luminances of these highlights actually present in the HDR talk show).

Pero, en general, el contenido HDR puede ser cualquier cosa. Por ejemplo, es posible que sus caras no se iluminen a aproximadamente el 25 % de 400 nits firmemente, sino que caigan por todo el eje de luminancia si un actor está corriendo, por ejemplo, a través de un pasillo oscuro de la mina con lámparas escasamente colocadas. Por lo tanto, es ventajoso que todos los que hacen cualquier contenido anoten su contenido, de modo que también la imagen HDR indicará dónde caen una o más de sus caras en su eje de luminancia, con al menos una segunda luminancia de anclaje de fuente (L_S2A1). Entonces es más seguro que ambas imágenes armonizarán en su combinación final, porque el aparato puede, mediante la lectura de L_S2A1, verificar dónde están las luminancias de la cara en la segunda imagen HDR (véase el ejemplo de aclaración correspondiente en la Figura 4). La imagen HDR se puede transformar de manera óptima para cualquiera que sea la mejor situación de combinación final (en particular, el CombRng), por ejemplo, teniendo en cuenta que lo más probable es que la película se muestre al aire libre en lugar de en un entorno oscuro, etc. Por ejemplo, la función FF puede modular la diferente iluminación facial en menor grado, en particular si, por ejemplo, la situación de visualización será tal que la representación de la textura del objeto oscuro se deteriorará en comparación con la visualización cinematográfica óptima de la película. But in general, HDR content can be anything. For example, your faces may not be lit to about 25% of 400 nits steadily, but instead fall all over the luminance axis if an actor is running, for example, through a dark mine corridor with sparsely placed lamps. It is therefore advantageous for everyone making any content to annotate their content, so that also the HDR image will indicate where one or more of your faces fall on its luminance axis, with at least a second source anchor luminance (L_S2A1). It is then more certain that both images will harmonize in their final combination, because the apparatus can, by reading out L_S2A1, check where the face luminances are in the second HDR image (see corresponding clarification example in Figure 4). The HDR image can be optimally transformed for whatever the best final combing situation (in particular the CombRng) is, for example taking into account that the film will most likely be shown outdoors rather than in a dark environment etc. For example, the FF function can modulate different facial illumination to a lesser degree, in particular if for example the viewing situation will be such that the representation of dark object texture will deteriorate compared to the optimal cinematic display of the film.

También es ventajoso si el conjunto de transformación de color está dispuesto para establecer una transformación de color (FF_1) que se aplicará a la primera imagen o vídeo también en función de las primeras funciones de remapeo de color (F1_L) que especifican un cambio en la distribución de luminancia de los objetos en la primera imagen o vídeo (Im1_LDR) para mapear esa primera imagen o vídeo desde el intervalo dinámico asociado con la codificación de la primera imagen o vídeo, a un intervalo dinámico con un brillo máximo que difiere al menos de un factor multiplicativo 2, o en el que el conjunto de transformación de color está dispuesto para establecer una transformación de color (FF_2) que se aplicará a la segunda imagen o vídeo también en función de las segundas funciones de remapeo de color (F2_L) que especifican un cambio en la distribución de luminancia de los objetos en la segunda imagen o vídeo (Im2_HDR) para mapear esa segunda imagen o vídeo desde el intervalo dinámico asociado con la codificación de la segunda imagen o vídeo, a un intervalo dinámico con un brillo máximo que difiere al menos en un factor multiplicativo 2. Como se explicó anteriormente, en nuestro marco básico de codificación de vídeo o imagen HDR indicamos con funciones de transformación de color comunicadas (al menos definiendo una transformación de luminancia, pero a veces también una transformación de saturación necesaria, por ejemplo, para aumentar la saturación de objetos que debían oscurecerse en el aspecto LDR, para mantenerlos lo suficientemente vivos; las funciones que especifican el aspecto de los intervalos dinámicos que difieren típicamente al menos un factor 2 en PB_C, por ejemplo, cómo transformar un grado extremo o medio, por ejemplo, 5000 nit PB_C en el otro, por ejemplo, 100 nit PB_C) cómo debe cambiar una distribución de luminancia de los objetos (que es en general una optimización compleja hacia las capacidades más bajas de una pantalla o códec PB menor, teniendo en cuenta los detalles semánticos de la escena HDR) cuando se pasa de un intervalo dinámico más alto a uno más bajo (o viceversa). Es decir, cuando se transforma de una imagen maestra graduada HDR de 5000 nits, a, por ejemplo, una imagen de 100 nits, o alguna imagen de intervalo dinámico medio, por ejemplo, óptima para controlar una pantalla de 1200 nits. Por lo general, el creador puede determinar cómo le gustaría que cambiara el aspecto, por ejemplo, oscurecer progresivamente los reflejos y las regiones oscuras. It is also advantageous if the colour transformation set is arranged to establish a colour transformation (FF_1) to be applied to the first image or video also based on first colour remapping functions (F1_L) specifying a change in the luminance distribution of objects in the first image or video (Im1_LDR) to map that first image or video from the dynamic range associated with the encoding of the first image or video, to a dynamic range with a maximum brightness differing by at least a multiplicative factor 2, or wherein the colour transformation set is arranged to establish a colour transformation (FF_2) to be applied to the second image or video also based on second colour remapping functions (F2_L) specifying a change in the luminance distribution of objects in the second image or video (Im2_HDR) to map that second image or video from the dynamic range associated with the encoding of the second image or video, to a dynamic range with a maximum brightness differing by at least a multiplicative factor 2. multiplicative factor 2. As explained above, in our basic HDR video or image coding framework we indicate with communicated color transformation functions (at least defining a luminance transformation, but sometimes also a necessary saturation transformation, e.g. to increase the saturation of objects that needed to be darkened in the LDR look, in order to keep them vivid enough; functions specifying the look of dynamic ranges that typically differ by at least a factor 2 in PB_C, e.g. how to transform one extreme or medium degree, e.g. 5000 nit PB_C into the other, e.g. 100 nit PB_C) how a luminance distribution of objects should change (which is in general a complex optimization towards the lower capabilities of a lower PB display or codec, taking into account the semantic details of the HDR scene) when moving from a higher to a lower dynamic range (or vice versa). That is, when transforming from a 5000 nit HDR graded master image, to, say, a 100 nit image, or some mid-dynamic range image, for example, optimal for driving a 1200 nit display. Typically, the creator can determine how they would like the look to change, for example, progressively darkening highlights and dark regions.

El poder del marco de combinación es que puede decidir cómo formular el nuevo tipo de funciones, que no se asignan a un (único) intervalo dinámico de representación óptimo diferente, sino a un intervalo dinámico de combinación, dependiendo, entre otras cosas, de la precisión con la que se quiera controlar la colorimetría de la combinación (que por sí misma puede depender de varios ajustes de parámetros externos, con parámetros que cuantifican, entre otros, el deseo de un creador, propietario o distribuidor de contenido, un espectador -está tratando de disfrutar atentamente de la película, por ejemplo-, o incluso el fabricante de la pantalla). Por supuesto, el aspecto total de la combinación puede variar dependiendo de la combinación particular y de lo que contiene, pero eso no significa que las funciones de reclasificación per se no contengan necesidades o deseos de reclasificación interesantes (ya sea en el subintervalo más brillante, digamos el 20 % superior de las lumas, hay nubes que desean una reclasificación cuidadosa, u objetos menos importantes), que también el aparato de combinación puede querer seguir hasta cierto punto. The power of the blending framework is that it can decide how to formulate the new kind of functions, which do not map to a different (single) optimal rendering dynamic range, but to a blending dynamic range, depending on, among other things, how precisely one wants to control the colorimetry of the blend (which itself can depend on various external parameter settings, with parameters quantifying, among others, the desire of a content creator, owner, or distributor, a viewer - are you trying to attentively enjoy the movie, for example - or even the display manufacturer). Of course, the overall look of the blend may vary depending on the particular blend and what it contains, but that doesn't mean that the regrading functions per se don't contain interesting regrading needs or desires (whether in the brightest subrange, say the top 20% of lumas, there are clouds that want careful regrading, or less important objects), which also the blending apparatus may want to track to some extent.

Ahora, si las funciones lineales simples FF mencionadas anteriormente se utilizan para mapear luminancias de entrada de imágenes alrededor de la luminancia de anclaje ANC, es posible que no se necesiten los detalles de F_L. Pero las asignaciones más sofisticadas pueden variar en la estrategia lineal, y en particular deben hacerlo de acuerdo con lo que se dice implícitamente que necesita el creador de contenido en las funciones F_L para esa imagen particular de esa escena<h>D<r>en particular, en ese subintervalo de luminancias. Por ejemplo, si al creador le gusta hacer que las luminancias más oscuras desaparezcan rápidamente en negro, el conjunto de transformación de color (310) puede tenerlo en cuenta al determinar una función óptima FF, por ejemplo, puede estirar parte del contraste para regiones más brillantes (alrededor del color de la cara y, por ejemplo) recortando más rápidamente a negro un porcentaje mayor de las luminancias LDR de lo que haría la función lineal. Por lo tanto, el aparato puede evaluar la forma funcional de al menos una función de transformación de luminancia del conjunto de funciones F_L (que, por simplicidad de comprensión, el lector puede suponer que es solo una asignación de función de forma arbitraria normalizada a 1.0 luminancias de entrada a normalizada a 1.0 luminancias de salida), y usar una parte de esa forma para diseñar la forma de la función final para asignar a CombRng. Cabe señalar que en tales funciones se pueden dar varios deseos para reclasificar partes de una imagen, ya sea por sí misma o en relación con otras luminancias posibles en otras partes de otras imágenes, etc. Por ejemplo, se podría especificar para una región geométrica de una imagen que las luminancias presentes allí, por ejemplo, no se deben aumentar demasiado, incluso si, por ejemplo, en el resto de esa imagen hay píxeles con la misma luminancia que se pueden aumentar en gran medida. En principio, se puede indicar cualquier forma de función parcial de este tipo (por ejemplo, las realizaciones anteriores que el solicitante ha desarrollado permiten la especificación de un subconjunto de píxeles en una imagen que cumple con la propiedad de caer en una región geométrica particular como un rectángulo, y tiene luminancias entre L_min y L_max, y luego se podría definir una función parcial de comportamiento de mapeo deseada, por ejemplo, para luminancias en esa región de, por ejemplo, la imagen HDR que cae entre L_min+k y L_max-l, con k y 1 constantes. Por ejemplo, se podría dar una función de refuerzo única o parametrizada para aquellas luminancias L_out=B*L_in+O, donde B y O podrían ser función de varias propiedades, como LMC, o un promedio de las luminancias de la imagen de salida combinada que rodea el rectángulo en el que se colocan los datos de la imagen HDR, etc. Cualquier comportamiento de reclasificación dividido puede indicarse en las especificaciones funcionales antes de la combinación final, o incluso deconstruirse después de que se haya creado una imagen combinada (para que al menos parte del contenido total sea combinado). Now, if the simple linear functions FF mentioned above are used to map image input luminances around the anchor luminance ANC, the details of F_L may not be needed. But more sophisticated mappings can vary in linear strategy, and in particular need to do so according to what the content creator is implicitly said to need in the F_L functions for that particular image of that particular scene<h>D<r>, in that subrange of luminances. For example, if the creator likes to have the darkest luminances quickly fade to black, the color transformation suite (310) can take that into account when determining an optimal FF function - e.g. it can stretch out some of the contrast for brighter regions (around face color, for example) by more quickly clipping to black a larger percentage of the LDR luminances than the linear function would do. Thus, the apparatus may evaluate the functional form of at least one luminance transformation function from the set of functions F_L (which, for simplicity of understanding, the reader may assume to be just a function mapping from arbitrarily shaped function normalized to 1.0 input luminances to normalized to 1.0 output luminances), and use a portion of that form to design the final function form to map to CombRng. It should be noted that various desires may be given in such functions for reclassifying parts of an image, either by itself or relative to other possible luminances in other parts of other images, etc. For example, one could specify for a geometric region of an image that the luminances present there, for example, should not be increased too much, even if, for example, in the rest of that image there are pixels with the same luminance that can be greatly increased. In principle, any form of such partial function can be indicated (e.g., previous embodiments that the applicant has developed allow the specification of a subset of pixels in an image that meets the property of falling in a particular geometric region such as a rectangle, and has luminances between L_min and L_max, and then a desired mapping behavior partial function could be defined, e.g., for luminances in that region of, say, the HDR image that falls between L_min+k and L_max-l, with k and 1 constants. For example, a single or parameterized boosting function could be given for those luminances L_out=B*L_in+O, where B and O could be a function of various properties, such as LMC, or an average of the luminances of the combined output image surrounding the rectangle in which the HDR image data is placed, etc. Any split reclassification behavior can be indicated in the functional specifications before final combining, or even deconstructed after an image has been created. combined (so that at least part of the total content is combined).

Es ventajoso si el conjunto de establecimiento de intervalo dinámico (302) está dispuesto para establecer el intervalo dinámico de luminancia de combinación (CombRng) dependiendo de las luminancias en al menos una de las dos imágenes o vídeos. No todas las realizaciones necesitan o pueden tener en cuenta los detalles del entorno de visualización final. Por ejemplo, la imagen de salida se puede mezclar en alguna sala de control principal para su transmisión a varios usuarios. La situación final puede no conocerse, y podría variar considerablemente (si un espectador está mirando, por ejemplo, en el tren, y otro en la sala de cine que ha hecho en su ático). En ese caso, es ventajoso que la combinación se optimice en función de las características de ambas (o de todas si se mezclan más de 2) imágenes, porque eso siempre será relevante. Por supuesto, el lector entenderá que si se aplica bien, el paradigma de combinación es aún más escalable. Por ejemplo, un primer creador de contenido puede haber mezclado dos fuentes de imágenes, pero eso no significa que en el futuro no se pueda mezclar más contenido. Y eso podría suceder tantopost factum,como con el primer creador ya anticipando, y al menos algunas de las realizaciones del aparato de combinación deberían atender a todas estas situaciones. Por ejemplo, el primer creador de contenido puede tener la primera palabra sobre lo que debería suceder, por lo que podría determinar un CombRng (y/o anc) que sea óptimo para su contenido, pero tal vez ya anticipando que alguna entidad más adelante añadirá algún contenido de imagen que algunas características adicionales típicas (por ejemplo, una cinta de teletipo con información de noticias en la parte inferior, o en una sala de cine o tienda o situación de museo, un proyector secundario que proyecta alguna información de imagen secundaria además o parcialmente a través del contenido de imagen renderizado primario, etc., cuyo contenido secundario tendrá un intervalo dinámico, brillo promedio, dinámica como la evolución temporal del brillo promedio, etc.). El mezclador de contenido secundario aún puede decidir si es mejor seguir la indicación del primer creador de contenido, por ejemplo, mantener el CombRng, o tal vez ajustarlo mejor, dado que ahora hay información adicional con respecto a la imagen combinada final o su presentación. Son posibles dos clases de realizaciones. En una clase más simple, las dos imágenes ya están en esta etapa mezcladas inseparablemente (por ejemplo, composición PIP final), y el lado de recepción final solo puede optimizar esta imagen total de acuerdo con sus detalles de renderización (pantalla PB de la pantalla a renderizar, brillo envolvente promedio, etc.). Es decir, para simplificar la comprensión, digamos que toma esta imagen combinada y se aplica como función de raíz cuadrada a sus luminancias, para obtener las luminancias de salida finales que se renderizarán. Esto puede ser suficiente para muchos escenarios, porque la imagen de mezcla ya puede tener brillos armonizados y el entorno de visualización puede no diferir demasiado del previsto. It is advantageous if the dynamic range setting assembly (302) is arranged to set the dynamic range of combining luminance (CombRng) depending on the luminances in at least one of the two images or videos. Not all embodiments need or can take into account the details of the final viewing environment. For example, the output image may be mixed in some main control room for transmission to several users. The final situation may not be known, and could vary considerably (if one viewer is watching, for example, on the train, and another in the movie theater he has made in his attic). In that case, it is advantageous if the combination is optimized based on the characteristics of both (or all if more than 2) images are mixed, because that will always be relevant. Of course, the reader will understand that if well applied, the combination paradigm is even more scalable. For example, a first content creator may have mixed two image sources, but that does not mean that more content cannot be mixed in the future. And that could happen both post factum, and with the first creator already anticipating, and at least some of the blending apparatus's embodiments should cater for all of these situations. For example, the first content creator may have the first say on what should happen, so he might determine a CombRng (and/or anc) that is optimal for his content, but perhaps already anticipating that some entity later will add some image content that has some typical additional features (e.g. a ticker tape with news information at the bottom, or in a movie theater or store or museum situation, a secondary projector projecting some secondary image information in addition to or partially through the primary rendered image content, etc., which secondary content will have a dynamic range, average brightness, dynamics such as time evolution of average brightness, etc.). The secondary content blender may still decide whether it is better to follow the first content creator's cue, e.g. keep the CombRng, or perhaps fine-tune it, given that there is now additional information regarding the final blended image or its presentation. Two kinds of embodiments are possible. In a simpler class, the two images are already at this stage inseparably mixed (e.g. final PIP compositing), and the final receiving side can only optimize this total image according to its rendering details (PB screen of the display to be rendered, average surround brightness, etc.). That is, for simplicity of understanding, let's say you take this combined image and apply it as a square root function to its luminances, to get the final output luminances to be rendered. This may be sufficient for many scenarios, because the blended image may already have harmonized luminances and the viewing environment may not differ too much from the intended one.

Las realizaciones más avanzadas permitirán la redeterminación de las distribuciones de luminancia de objeto/píxel de las dos imágenes en el lado receptor, y en algunas realizaciones pueden comprender la redeterminación de las imágenes originales, al menos en cierta medida (por ejemplo, su codificación básica, o al menos la gradación de luminancia original; que es la deconstructibilidad mencionada anteriormente). Por ejemplo, algunas realizaciones podrían especificar la combinación PIP de alguna manera de distribución de luminancia, pero codificar conjuntamente los detalles específicos de CombRng y las funciones FF para llevar al menos una de las dos imágenes a luminancias correctamente armonizadas dentro de CombRng. Por ejemplo, uno puede imaginar que uno solo pone el PIP LDR en la imagen envolvente HDR con luminancias escaladas linealmente a 5000 nit PB, que sin el procesamiento correcto en el extremo receptor, por supuesto, daría una combinación de aspecto horrible. Pero el lado receptor obtiene toda la información necesaria para hacer que el renderizado combinado sea correcto, a su lado, es decir, con una imagen PIP armonizada. Puede hacerlo cambiando adecuadamente las luminancias de píxel en ese rectángulo, teniendo en cuenta todo lo que sabe (es decir, por ejemplo, funciones de mapeo de luminancia parcial recibidas para esa región, o valores de ANC adicionales especiales para esa región rectangular, etc.; o lo que puede determinar en su propio extremo, por ejemplo, que dicha región parece considerablemente brillante en comparación con los píxeles circundantes, etc.). El experto en la materia habrá entendido ahora que estas funciones<f>F no son las funciones F_L para reclasificar para un intervalo dinámico diferente per se, por ejemplo, no simplemente las funciones para mapear razonablemente una única imagen LDR de manera apropiada a un intervalo dinámico de visualización MDR de PB, por ejemplo, 1500, sino más bien funciones con las que el lado de creación especifica (o el aparato de combinación en cualquier ubicación que se establezca) que esto daría una buena mezcla para la imagen LDR armonizada con la imagen HDR, es decir, teniendo en cuenta los detalles de las dos imágenes juntas. More advanced embodiments will allow redetermination of the object/pixel luminance distributions of the two images at the receiving end, and in some embodiments may comprise redetermination of the original images, at least to some extent (e.g. their basic encoding, or at least the original luminance gradation; that is the deconstructibility mentioned above). For example, some embodiments could specify the PIP combination in some way of luminance distribution, but jointly encode the specific details of CombRng and FF functions to bring at least one of the two images to correctly harmonized luminances within CombRng. For example, one can imagine that one just puts the LDR PIP on the HDR surround image with linearly scaled luminances to 5000 nit PB, which without correct processing at the receiving end would of course give a horrible looking combination. But the receiving end gets all the information needed to make the combined rendering correct, at its side, i.e. with a harmonized PIP image. It can do this by appropriately changing the pixel luminances in that rectangle, taking into account everything it knows (i.e. for example received partial luminance mapping functions for that region, or special additional ANC values for that rectangular region, etc.; or what it can determine on its own end, e.g. that said region appears considerably bright compared to surrounding pixels, etc.). The skilled person will now have understood that these <f>F functions are not the F_L functions for reclassifying for a different dynamic range per se, e.g. not simply the functions for reasonably mapping a single LDR image appropriately to an MDR display dynamic range of e.g. 1500 PB, but rather functions with which the authoring side (or the blending apparatus at whatever location it is set) specifies that this would give a good blend for the LDR image harmonized with the HDR image, i.e. taking into account the details of the two images together.

Ventajosamente, el conjunto de establecimiento de intervalo dinámico (302) está dispuesto para establecer el intervalo dinámico de luminancia de combinación (CombRng) dependiendo de un brillo máximo de una pantalla en la que se va a representar la al menos una imagen de salida (Im_o), y preferiblemente también de una característica de brillo de un entorno de visualización. Si una realización de nuestro aparato se incorpora en un aparato o sistema de sitio de renderización final, por ejemplo, un televisor u ordenador, a continuación puede ser apropiado especificar aún más la combinación de acuerdo con los detalles de visualización. Si una imagen LDR se viera excesivamente brillante cuando se ve por sí sola en un entorno oscuro, es probable que sea demasiado brillante para ese entorno de visualización oscuro cuando se combina con una película, en particular porque esa película ya puede haber sido optimizada para esa situación de visualización en particular (consulte en la Figura 3 la imagen de aspecto reajustada MDR Im2_MDR apropiada que se calcula para una pantalla PB de, por ejemplo, 1200 nit vista en un entorno tenue, a partir de un Im_HDR de 5000 nit que todos los espectadores que tienen la misma suscripción de contenido o ven el mismo programa transmitido reciben). Las imágenes parciales se pueden mezclar en su intervalo dinámico MDR apropiado (Im1_LM e Im2_HM). Esto será particularmente importante cuando, por ejemplo, los píxeles más oscuros de alguna imagen sean difíciles de ver en entornos de visualización más brillantes, en particular si el espectador se distrae con (tal vez incluso espacialmente vecino) contenido brillante de las otras imágenes combinadas, y luego tener, por ejemplo, un valor anc adicional para los píxeles más oscuros en al menos una de las imágenes (por ejemplo, la imagen principal) puede mejorar significativamente la optimización de la combinación final. El lector experto entenderá que, por supuesto, con la presentación combinada de las dos imágenes, la optimización generalmente debe ser diferente de las optimizaciones de imagen únicas, y dependiendo de la totalidad de la situación, ya que eso es lo que el espectador llega a percibir (por supuesto, pragmáticamente uno construirá aparatos que hagan la optimización con mayor o menor precisión en función de la complejidad que uno puede permitirse en vista del precio de mercado posicionado del aparato; algunas de las realizaciones más simples ya pueden hacer un trabajo bastante razonable). Al ver un único comercial de LDR que es demasiado brillante, incluso en un entorno de visualización oscuro, el espectador adaptará en gran medida su visión a lo que se ve en la pantalla. Pero al tener dos imágenes combinadas, no es trivial a priori a qué se adaptará exactamente la visión humana y, en consecuencia, qué luminosidades y brillos verá el cerebro para la combinación de luminancias de píxeles renderizados (no es poco probable que comience a ver mal la película principal), de ahí el deseo de tener un sistema donde el creador de contenido pueda al menos indicar la información y la orientación mínimamente necesarias (los sistemas técnicos prácticos siempre son un equilibrio entre la complejidad, por ejemplo, la cantidad de esfuerzo invertido por un creador de contenido y el costo de los circuitos integrados que necesitan hacer los cálculos, frente a la necesidad de poder manejar al menos algunas transformaciones de color mínimamente necesarias para que el sistema se comporte al menos la mitad de lo razonable, en lugar de solo mal; y varias realizaciones, típicamente estandarizadas, decidirán cuán lejos irán con las funciones de control específicas adicionales en qué escenarios). Por lo tanto, el lector experto entiende que es ventajoso determinar el CombRng (y también la luminancia de anclaje típicamente, y también las formas específicas de las funciones FF si no son lineales, o el multiplicador de contraste C si es lineal) dependiendo de al menos las capacidades de la pantalla (su PB puede ser suficiente en la mayoría de las situaciones, pero se pueden incorporar características adicionales, por ejemplo, si no se utiliza completamente en vista del ahorro de energía, etc.). Y si se conectan aparatos para evaluar el brillo del entorno envolvente del espectador, es posible que se desee hacer más. Por ejemplo, se puede usar un medidor de iluminancia, pero puede ser mejor usar una cámara en algún lugar de la sala del lado receptor, por ejemplo, conectada a la pantalla, que se puede calibrar en un medidor de luminancia para varias regiones del entorno de visualización de imágenes, y ya está en algunos televisores. A partir de esto, se puede estimar aproximadamente cómo experimentará el espectador las imágenes. Se pueden usar versiones más simples o más avanzadas, por ejemplo, una cámara que verifica las diversas luminancias en una región detrás (ver alrededor) del televisor hasta 1 ancho de televisor en cada lado. Advantageously, the dynamic range setting assembly (302) is arranged to set the dynamic range of combination luminance (CombRng) in dependence on a maximum brightness of a display on which the at least one output image (Im_o) is to be represented, and preferably also on a brightness characteristic of a display environment. If an embodiment of our apparatus is incorporated into a final rendering site apparatus or system, for example a television or computer, then it may be appropriate to further specify the combination according to the display details. If an LDR image would appear excessively bright when viewed on its own in a dark environment, it is likely too bright for that dark viewing environment when paired with a movie, particularly since that movie may already have been optimized for that particular viewing situation (see Figure 3 for the appropriate MDR rescaled aspect image Im2_MDR that is calculated for an e.g. 1200 nit PB display viewed in a dim environment, from a 5000 nit Im_HDR that all viewers having the same content subscription or watching the same streamed program receive). The partial images can then be blended together at their appropriate MDR dynamic range (Im1_LM and Im2_HM). This will be particularly important when, for example, the darkest pixels of some image are difficult to see in brighter viewing environments, in particular if the viewer is distracted by (perhaps even spatially neighboring) bright content of the other combined images, and then having, for example, an additional anc value for the darkest pixels in at least one of the images (e.g. the main image) can significantly improve the optimization of the final combination. The skilled reader will understand that of course with the combined presentation of the two images the optimization generally needs to be different from single image optimizations, and depending on the totality of the situation, since that is what the viewer comes to perceive (of course, pragmatically one will build apparatuses that do the optimization more or less accurately based on how complex one can afford in view of the apparatus's positioned market price; some of the simpler realizations can already do a quite reasonable job). When watching a single LDR commercial that is too bright, even in a dark viewing environment, the viewer will largely adapt his vision to what is seen on the screen. But when having two combined images, it is not trivial a priori what exactly human vision will adapt to, and consequently what luminances and brightnesses the brain will see for the combination of rendered pixel luminances (it is not unlikely to start seeing the main movie poorly), hence the desire to have a system where the content creator can at least indicate the minimally necessary information and guidance (practical technical systems are always a trade-off between complexity - e.g. the amount of effort invested by a content creator and the cost of the integrated circuits that need to do the calculations - versus the need to be able to handle at least some minimally necessary color transformations so that the system behaves at least half-reasonably, rather than just poorly; and various, typically standardized, realizations will decide how far they will go with additional specific control functions in which scenarios). Thus, the skilled reader understands that it is advantageous to determine the CombRng (and also the anchor luminance typically, and also the specific forms of the FF functions if they are non-linear, or the contrast multiplier C if linear) depending on at least the capabilities of the display (its PB may be sufficient in most situations, but additional features may be incorporated, e.g. if it is not fully utilized in view of energy saving, etc.). And if apparatuses are connected to assess the brightness of the viewer's surround environment, then one may want to do more. For example, an illuminance meter can be used, but it may be better to use a camera somewhere in the room on the receiving side, e.g. connected to the display, which can be calibrated on a luminance meter for various regions of the image viewing environment, and is already in some TVs. From this, one can roughly estimate how the viewer will experience the images. Simpler or more advanced versions can be used, for example a camera that checks the various luminances in a region behind (see around) the TV up to 1 TV width on each side.

Es ventajoso si el conjunto de determinación de anclaje de luminancia (303) está dispuesto para determinar la luminancia de anclaje (anc) dependiendo de al menos uno de: el intervalo dinámico de luminancia de combinación (CombRng), las luminancias en al menos una de las dos imágenes o vídeos, un brillo máximo de una pantalla en la que se va a renderizar la al menos una imagen de salida (Im_o), y una característica de brillo de un entorno de visualización. También debe establecerse al menos una luminancia de anclaje y, a partir de la cual, las distribuciones de las luminancias de ambas imágenes pueden distribuirse de manera armonizada. El lector debe entender que varias realizaciones pueden hacer la determinación de CombRng y anc en cualquier orden. Por ejemplo, algunas realizaciones pueden establecer primero, por ejemplo, dependiendo de las capacidades de la pantalla (real o esperada) y las características de brillo del entorno de visualización, lo que sería un buen CombRng, por ejemplo, típicamente para la situación de la película actual, o incluso por toma de imágenes, etc. It is advantageous if the luminance anchor determination assembly (303) is arranged to determine the anchor luminance (anc) depending on at least one of: the dynamic range of combination luminance (CombRng), the luminances in at least one of the two images or videos, a maximum brightness of a display on which the at least one output image is to be rendered (Im_o), and a brightness characteristic of a viewing environment. At least one anchor luminance should also be established and, from which, the distributions of the luminances of both images can be distributed in a harmonized manner. The reader should understand that various embodiments may make the determination of CombRng and anc in any order. For example, some embodiments may first establish, e.g., depending on the capabilities of the display (actual or expected) and the brightness characteristics of the viewing environment, what would be a good CombRng, e.g., typically for the current movie situation, or even per image shooting, etc.

Por ejemplo, algunas realizaciones pueden, antes de comenzar una película, analizar las primeras imágenes de la película, o un conjunto característico de imágenes muestreadas a lo largo de la película. O la película puede tener metadatos codificados conjuntamente, a partir de los cuales el aparato puede establecer, incluso antes de decodificar la primera imagen, cuál sería un CombRng al menos inicial razonable. Por ejemplo, los metadatos pueden especificar que el brillo promedio de la película es de 200 nits en un intervalo inferior de hasta 400 nits, y con una secuencia más extrema, digamos un disparo en un desierto, que cae hasta (es decir, que debe representarse preferiblemente en cualquier pantalla MDR que tenga capacidad suficiente para hacerlo) luminancias de objetos difusos como del cielo o arena de hasta 900 nits (y un promedio de 600 nits). La realización del aparato de combinación de imágenes puede decidir a continuación que debe reservar en el CombRng (especialmente si se trata de pantallas de servicio de varios PB) un área fija de exceso de brillo, por ejemplo, hasta el 200 % de esa 900 nit que sería el requisito más excesivo para esa película, de modo que el 100 % superior de luminancias se puede usar para todos los reflejos (ya sean pequeños puntos de reflexión especular, lámpara o incluso regiones por encima del brillo que contienen detalles de imagen, como una parte muy iluminada de una escena). Por supuesto, las especificaciones más avanzadas pueden ayudar a determinar cuál debería ser exactamente la región de luminancias más brillantes en CombRng, codificando también qué tipo de efectos HDR son típicos en el programa o película, o parte de los mismos. Trabajar con un par de subintervalos de este tipo es potente y versátil (ya sea que indiquen principalmente las necesidades del contenido, o las capacidades de representación previstas, o ambas), especialmente si se complementa con un par de buenas luminancias de anclaje para esos intervalos. For example, some embodiments may, before starting a movie, analyze the first few frames of the movie, or a characteristic set of frames sampled throughout the movie. Or the movie may have jointly encoded metadata, from which the apparatus can establish, even before decoding the first frame, what a reasonable at least initial CombRng would be. For example, the metadata may specify that the average brightness of the movie is 200 nits with a lower range down to 400 nits, and with a more extreme sequence, say a shot in a desert, dropping down to (i.e., which should preferably be rendered on any MDR display that has sufficient capability to do so) luminances of diffuse objects such as sky or sand of up to 900 nits (and an average of 600 nits). The image-combining apparatus implementation may then decide that it should reserve in the CombRng (especially if dealing with multi-PB service displays) a fixed area of excess brightness, say up to 200% of that 900 nit that would be the most excessive requirement for that movie, so that the top 100% of luminances can be used for all highlights (whether small specular reflection spots, lamp, or even regions above the brightness that contain image detail, such as a brightly lit part of a scene). Of course, more advanced specifications can help determine what exactly the brightest luminance region in CombRng should be, also encoding what kind of HDR effects are typical in the program or movie, or part thereof. Working with such a pair of subranges is powerful and versatile (whether they primarily indicate content needs, or intended rendering capabilities, or both), especially if supplemented by a pair of good anchor luminances for those ranges.

Después de haber decidido un CombRng óptimo, el aparato puede a continuación basarse en él para determinar dónde debe estar la luminancia de anclaje de, por ejemplo, un color de cara. Por ejemplo, si la mitad del intervalo es para los objetos Lambertianos bien iluminados, a continuación puede decidir usar el 40 % de ese 50 % de luminancia máxima como punto de luminancia frontal. Sin embargo, algunas realizaciones pueden funcionar al revés. Teniendo en cuenta todas las características de representación, el aparato puede determinar una luminancia anc adecuada para las caras o la región principal de los objetos Lambertianos de color gris medio, de modo que se vea apropiadamente brillante para el espectador. A continuación, puede construir un CombRng adecuado en torno a eso. Por ejemplo, se ve en la imagen HDR más exigente y ve objetos brillantes (ver lámparas) hasta 20 veces la luminancia de la cara. Luego puede decidir poner el máximo del intervalo en ese valor de luminancia, o considerar, por ejemplo, que el 80 % de ese valor debería ser suficiente para una representación combinada de dos conjuntos de imágenes, y luego los valores más altos en Im_HDR respectivamente Im2_MDR (cualquiera que se use en la combinación en la realización particular) normalmente se recortará al LMC máximo del intervalo dinámico de la combinación. Esto puede ser muy útil en caso de que se quiera armonizar el contenido con, por ejemplo, capacidades de menor intervalo dinámico, especialmente si, por ejemplo, la película HDR no es el contenido principal, sino, por ejemplo, un PIP en una pantalla de ordenador que muestra principalmente otras regiones de imagen con, por ejemplo, información, etc. Por lo tanto, las realizaciones simples harán que un objeto sea 2 veces más brillante que el color de la cara o, en general, cualquier luminancia de anclaje en cualquier imagen (es decir, la primera y la segunda imagen HDR, o la imagen LDR en caso de que se use una imagen LDR en la combinación) dos veces más brillante también en los píxeles de imagen respectivos cuando esté listo para agregarse a la imagen de combinación, o imágenes (Im_o). O las transformaciones de color más avanzadas (o combinaciones, algunas de las cuales también pueden pesar o cambiar las luminancias de los píxeles en sus combinaciones matemáticas) pueden hacer que algunas luminancias sean más oscuras o más brillantes. Y el aparato puede hacer consideraciones similares para llegar a la luminancia límite inferior LmiC del CombRng, por ejemplo, algo más brillante que en al menos una de las imágenes fuente, de modo que la imagen combinada (que ahora puede tener objetos mucho más brillantes que al menos uno de los originales) no tenga un aspecto demasiado oscuro o demasiado contrastante, etc. Having decided on an optimal CombRng, the apparatus can then build on it to determine where the anchor luminance of, say, a face color should be. For example, if half the range is for well-lit Lambertian objects, it can then decide to use 40% of that 50% peak luminance as the front luminance point. However, some implementations can work the other way around. Taking into account all the rendering characteristics, the apparatus can determine an appropriate anchor luminance for faces or the main region of mid-gray Lambertian objects, so that it looks appropriately bright to the viewer. It can then build an appropriate CombRng around that. For example, it looks at the most demanding HDR image and sees bright objects (see lamps) up to 20 times the luminance of the face. You can then decide to set the maximum of the range to that luminance value, or consider for example that 80% of that value should be sufficient for a combined representation of two sets of images, and then the higher values in Im_HDR respectively Im2_MDR (whichever is used in the combination in the particular realization) will typically be clipped to the maximum LMC of the dynamic range of the combination. This can be very useful in case you want to harmonize content with for example lower dynamic range capabilities, especially if for example the HDR movie is not the main content, but for example a PIP on a computer screen which mainly shows other image regions with for example information etc. So simple embodiments will make an object 2x brighter than the face color, or generally any anchor luminance in any image (i.e. the first and second HDR images, or the LDR image in case an LDR image is used in the combination) twice as bright also in the respective image pixels when it is ready to be added to the combination image, or images (Im_o). Or more advanced color transformations (or combinations, some of which may also weight or change pixel luminances in their mathematical combinations) may make some luminances darker or brighter. And the apparatus may make similar considerations to arrive at the lower bound luminance LmiC of the CombRng, e.g. somewhat brighter than in at least one of the source images, so that the combined image (which may now have much brighter objects than at least one of the originals) does not look too dark or too contrasty, etc.

Otras realizaciones pueden realizarse como aparatos correspondientes (ya sean pequeños como parte de un IC, o tan grandes como un sistema profesional o de consumidor completo) o procedimientos, por ejemplo: Other embodiments may be realized as corresponding apparatuses (either as small as part of an IC, or as large as a complete professional or consumer system) or methods, for example:

Un procedimiento de combinación de dos imágenes o dos vídeos de imágenes (I m_HDR, I m_LDR) de diferentes fuentes y con diferente luminancia máxima, siendo una de ellas una imagen o vídeo de alto intervalo dinámico, comprendiendo el procedimiento: A method of combining two images or two videos of images (I m_HDR, I m_LDR) from different sources and with different maximum luminance, one of them being a high dynamic range image or video, the method comprising:

- establecer un intervalo dinámico de luminancia de combinación (CombRng), que se caracteriza por al menos una luminancia máxima (LMC) que se determina en función de las luminancias máximas de las dos imágenes o los dos vídeos de imágenes, - establish a dynamic range of combination luminance (CombRng), which is characterized by at least one maximum luminance (LMC) that is determined based on the maximum luminances of the two images or the two image videos,

el establecimiento comprende además determinar una luminancia de anclaje (anc) en el intervalo dinámico de luminancia de combinación (CombRng); The establishment further comprises determining an anchor luminance (anc) in the dynamic range of combining luminance (CombRng);

- aplicar una transformación de luminancia (FF_1) en al menos una de las dos imágenes o vídeos que producen una primera imagen de salida que tiene primeras luminancias de salida, cuya transformación de luminancia se establece en función de un valor de una luminancia de anclaje de fuente (L_SA1) que se lee a partir de metadatos de una primera fuente (350) que entrega una primera imagen o vídeo (Im1_LDR) de las dos imágenes o vídeos, la transformación de luminancia tiene la propiedad de que la luminancia de anclaje de fuente (L_SA1) se mapea a una luminancia de salida en las proximidades de la luminancia de anclaje (anc); y - applying a luminance transformation (FF_1) on at least one of the two images or videos producing a first output image having first output luminances, which luminance transformation is set based on a value of a source anchor luminance (L_SA1) read from metadata of a first source (350) delivering a first image or video (Im1_LDR) of the two images or videos, the luminance transformation having the property that the source anchor luminance (L_SA1) is mapped to an output luminance in the vicinity of the anchor luminance (anc); and

- combinar las luminancias de salida de la primera imagen de salida con luminancias de la otra de las dos imágenes o dos vídeos de imágenes para formar al menos una imagen de salida combinada (Im_o). - combine the output luminances of the first output image with luminances of the other of the two images or two image videos to form at least one combined output image (Im_o).

Un procedimiento para combinar dos imágenes como las anteriores, en el que la transformación de color (FF_1) se determina de modo que una luminancia de salida (LF1_o), que se determina como resultado de aplicar la transformación de color (FF_1) a una luminancia de entrada de un color de píxel de la primera imagen o vídeo (Im1_LDR) que es igual a la al menos una luminancia de anclaje de fuente (L_SA1), es igual a la luminancia de anclaje (Anc), o un desplazamiento de luminancia de la luminancia de anclaje (Anc) por una diferencia determinada (d_Anc). A method for combining two images as above, wherein the color transformation (FF_1) is determined such that an output luminance (LF1_o), which is determined as a result of applying the color transformation (FF_1) to an input luminance of a pixel color of the first image or video (Im1_LDR) that is equal to the at least one source anchor luminance (L_SA1), is equal to the anchor luminance (Anc), or a luminance shift from the anchor luminance (Anc) by a given difference (d_Anc).

Un procedimiento de combinación de dos imágenes en el que la transformación de color (FF_1) se determina de modo que una relación de luminancia de una segunda luminancia de salida (LT2_o), que se determina como resultado de aplicar la transformación de color (FF_1) a una segunda luminancia de entrada (LT1_i), dividida por la luminancia de salida (LF1_o) es una constante multiplicativa (C) por una relación de la segunda luminancia de entrada (LT1_i) dividida por la luminancia de anclaje de fuente (L_SA1). Como se explicó anteriormente, las otras luminancias que se producen en las imágenes alrededor de la luminancia de anclaje se pueden mapear simplemente alrededor de la luminancia de anclaje, o de una manera determinada con mayor precisión. A method of combining two images in which the color transformation (FF_1) is determined such that a luminance ratio of a second output luminance (LT2_o), which is determined as a result of applying the color transformation (FF_1) to a second input luminance (LT1_i), divided by the output luminance (LF1_o) is a multiplicative constant (C) times a ratio of the second input luminance (LT1_i) divided by the source anchor luminance (L_SA1). As explained above, the other luminances occurring in the images around the anchor luminance can be simply mapped around the anchor luminance, or in a more precisely determined manner.

Un procedimiento para combinar dos imágenes en el que se determina una transformación de color (FF_2) de la segunda imagen o vídeo de imágenes en función de al menos una segunda luminancia de anclaje de fuente (L_S2A1) obtenida de una segunda fuente (351) que entrega una segunda imagen o vídeo (Im1_HDR) de las dos imágenes o vídeos. Se pueden determinar varias luminancias de anclaje no solo de la primera sino también de la segunda imagen, de modo que sus diversos intervalos de brillo (por ejemplo, bien iluminados, sombras claras, sombras profundas, lámparas, etc.) se pueden coordinar de manera óptima entre sí en el intervalo de salida de la imagen de salida CombRng. A method for combining two images in which a color transformation (FF_2) of the second image or video of images is determined based on at least one second source anchor luminance (L_S2A1) obtained from a second source (351) outputting a second image or video (Im1_HDR) of the two images or videos. Several anchor luminances may be determined not only of the first but also of the second image, so that their various brightness ranges (e.g., well-lit, light shadows, deep shadows, lamps, etc.) may be optimally coordinated with each other in the output range of the output image CombRng.

Un procedimiento para combinar dos imágenes en el que al menos una de las transformaciones de color (FF_1, FF_2) que se aplicarán a la respectiva de las al menos dos imágenes o vídeos se determina al menos en parte en función de al menos una función recibida (F1_L, F2_L) que indica cómo se va a transformar la imagen respectiva desde el intervalo dinámico correspondiente al que está codificada, a un intervalo dinámico que es al menos dos veces mayor o menor. Como se dijo, estas funciones determinan cómo deben verse exactamente los brillos de todos los objetos en su escena en cualquier intervalo dinámico (al menos 2 veces diferente de su intervalo dinámico nativo, es decir, el PB de la pantalla de referencia que corresponde a la EOTF que define los códigos de luma Y' de la imagen de entrada recibida). Por lo tanto, esa información también se puede utilizar si se necesita volver a calificar, por ejemplo, a un intervalo dinámico algo más bajo (por ejemplo, CombRng es un poco más bajo que el intervalo MDR de Im_MDR). Esto hará la mayor parte de la inteligencia para llegar a luminancias coordinadas al menos para una imagen o vídeo que se utiliza por sí solo, pero puede ser un buen punto de partida para determinar aproximadamente un conjunto inicial de luminancias de píxeles de la imagen mapeada a CombRng también para presentaciones combinadas de contenido de imagen. Pueden ocurrir ajustes finos adicionales, ya sea algo simplistas, por ejemplo, un estiramiento lineal heurístico determinado por el aparato o procedimiento de combinación, o más avanzados teniendo en cuenta las coordinaciones de luminancia requeridas específicas en las imágenes en sus objetos o subintervalos de luminancia (ya sea determinado inteligentemente de acuerdo con, por ejemplo, algoritmos de segmentación de objetos y los intervalos de luminancia correspondientes, o más aproximadamente, por ejemplo, dividiendo el CombRng en 5 subintervalos iguales o no iguales, y lo mismo para los dos intervalos de luminancia de imagen de entrada, y sus subintervalos correspondientes), ya que son especificados por el creador del contenido en las características de forma de las funciones F1_L respectivamente F2_L, lo que se esté examinando y utilizando en cualquier realización. A method for combining two images where at least one of the color transformations (FF_1, FF_2) to be applied to the respective one of the at least two images or videos is determined at least in part based on at least one received function (F1_L, F2_L) indicating how the respective image is to be transformed from the dynamic range corresponding to the one it is encoded in, to a dynamic range which is at least 2 times larger or smaller. As said, these functions determine how exactly the brightnesses of all objects in their scene should look like at any dynamic range (at least 2 times different from their native dynamic range, i.e. the PB of the reference display corresponding to the EOTF defining the Y' luma codes of the received input image). That information can therefore also be used if re-grading is needed, for example, to a somewhat lower dynamic range (e.g. CombRng is a bit lower than the MDR range of Im_MDR). This will do most of the cleverness in arriving at coordinated luminances at least for an image or video used on its own, but can be a good starting point for roughly determining an initial set of image pixel luminances mapped to CombRng for combined presentations of image content as well. Additional fine-tuning may occur, either somewhat simplistic, e.g. a heuristic linear stretching determined by the combining apparatus or procedure, or more advanced taking into account the specific required luminance coordinations in the images at their objects or luminance sub-intervals (either intelligently determined according to, e.g., object segmentation algorithms and the corresponding luminance intervals, or more approximately, e.g. by dividing the CombRng into 5 equal or non-equal sub-intervals, and likewise for the two input image luminance intervals, and their corresponding sub-intervals), as they are specified by the content creator in the shape characteristics of the functions F1_L respectively F2_L, whichever is being examined and used in any embodiment.

Un procedimiento para combinar dos imágenes como las anteriores, en el que al menos uno del intervalo dinámico de luminancia de combinación (CombRng) y la luminancia de anclaje (anc) se determina en función de al menos un factor del conjunto: una propiedad dependiente de la distribución de luminancia de los objetos en al menos una de las dos imágenes, información que resume las características de luminancia de al menos una de las dos imágenes, el intervalo dinámico de una pantalla en la que se va a representar al menos una imagen de salida combinada (Im_o) y una medida de brillo para un entorno de visualización en el que se va a ver la imagen de salida. A method for combining two images as above, wherein at least one of the combination luminance dynamic range (CombRng) and the anchor luminance (anc) is determined based on at least one factor from the set: a property dependent on the luminance distribution of objects in at least one of the two images, information summarizing the luminance characteristics of at least one of the two images, the dynamic range of a display on which the at least one combined output image is to be rendered (Im_o), and a brightness measure for a viewing environment in which the output image is to be viewed.

Todo lo anterior puede incorporarse en varios sistemas y formas, ya sean aparatos de consumo o sistemas profesionales, de los cuales algunos componentes pueden residir en servidores en otros países conectados a través de Internet, etc. All of the above can be incorporated into various systems and forms, whether consumer appliances or professional systems, some components of which may reside on servers in other countries connected via the Internet, etc.

Puede ser ventajoso si una imagen se complementa con metadatos, tales como una especificación de un CombRng (por ejemplo, su luminancia superior LMC y su luminancia límite inferior LmiC), y/o una luminancia de anclaje típica, por ejemplo, de una cara, y posiblemente también al menos una función de transformación de color que indique cómo mapear las luminancias de píxeles de la imagen al CombRng. It may be advantageous if an image is supplemented with metadata, such as a specification of a CombRng (e.g. its upper luminance LMC and its lower bound luminance LmiC), and/or an anchor luminance typical of, e.g., a face, and possibly also at least one color transformation function indicating how to map pixel luminances of the image to the CombRng.

También es ventajoso si el creador de contenido anota sus imágenes con al menos una luminancia de anclaje semánticamente relevante (y preferiblemente de un tipo acordado previamente), de modo que cuando se reciben, las opciones de iluminación de la imagen pueden ser entendidas por un aparato que desea combinar varias imágenes. It is also advantageous if the content creator annotates his images with at least one semantically relevant anchor luminance (and preferably of a pre-agreed type), so that when received, the image lighting options can be understood by an apparatus wishing to combine multiple images.

Ventajosamente, cada uno de los procedimientos puede realizarse como un programa informático que puede comunicarse a través de algún soporte físico, por ejemplo, un producto de programa informático que comprende código de software que permite que un procesador ejecute el código, de modo que cuando se ejecuta el código se realizan todas las etapas de cualquiera de las realizaciones de procedimiento anteriores. Advantageously, each of the methods may be embodied as a computer program capable of communicating via some physical medium, for example, a computer program product comprising software code enabling a processor to execute the code such that when the code is executed all steps of any of the above method embodiments are performed.

BREVE DESCRIPCIÓN DE LOS DIBUJOS BRIEF DESCRIPTION OF THE DRAWINGS

Estos y otros aspectos del procedimiento y aparato según la invención resultarán evidentes a partir de y con referencia a las realizaciones y realizaciones descritas en lo sucesivo, y con referencia a los dibujos adjuntos, que sirven meramente como ilustraciones específicas no limitantes que ejemplifican los conceptos más generales, y en los que los guiones se utilizan para indicar que un componente es opcional, los componentes no discontinuos no son necesariamente esenciales. Los guiones también se pueden usar para indicar que elementos, que se explican como esenciales, pero ocultos en el interior de un objeto, o para cosas intangibles como, por ejemplo, selecciones de objetos/regiones (y cómo se pueden mostrar en una pantalla). These and other aspects of the method and apparatus according to the invention will become apparent from and with reference to the embodiments and embodiments described hereinafter, and with reference to the accompanying drawings, which serve merely as specific, non-limiting illustrations exemplifying the more general concepts, and where dashes are used to indicate that a component is optional, non-discontinuous components are not necessarily essential. Dashes may also be used to indicate elements, which are explained as essential, but hidden within an object, or for intangible things such as, for example, object/region selections (and how they may be displayed on a screen).

En los dibujos: In the drawings:

La Figura 1 ilustra esquemáticamente cómo en la era HDR (recientemente iniciada) se han propuesto varias formas diferentes de codificar vídeos (en 2015), lo que conducirá a imágenes con características de luminancia muy diferentes, que no son fáciles de relacionar; Figure 1 schematically illustrates how in the (recently started) HDR era several different ways of encoding videos have been proposed (in 2015), which will lead to images with very different luminance characteristics, which are not easy to relate;

La Figura 2 ilustra esquemáticamente los componentes básicos de cómo la tecnología de codificación HDR del solicitante puede codificar una imagen HDR, junto con un aspecto (o gradación de color) diferente de luminancia LDR de los brillos de los objetos de la misma escena HDR de la imagen, y cómo esta información es suficiente para calcular un aspecto apropiado con los brillos correctos de los objetos de la imagen en cualquier pantalla HDR disponible con cualquier brillo máximo (PB_MDR); Figure 2 schematically illustrates the basic components of how Applicant's HDR encoding technology can encode an HDR image, together with a different LDR luminance appearance (or color gradation) of the brightnesses of objects in the same HDR scene of the image, and how this information is sufficient to calculate an appropriate appearance with the correct brightnesses of the objects in the image on any available HDR display at any maximum brightness (PB_MDR);

La Figura 3 ilustra esquemáticamente una realización básica del presente aparato de combinación de imagen o vídeo con capacidad HDR, que muestra los conjuntos principales; Figure 3 schematically illustrates a basic embodiment of the present HDR-capable image or video combining apparatus, showing the main assemblies;

La Figura 4 ilustra esquemáticamente cómo ocurre la transformación de color apropiada al intervalo dinámico de combinación óptimamente elegido antes de la combinación de vídeo o imagen; Figure 4 schematically illustrates how the color transformation appropriate to the optimally chosen dynamic blending range occurs prior to video or image blending;

La Figura 5 ilustra esquemáticamente qué problemas pueden ocurrir si uno no prepara cuidadosamente las luminancias de píxeles (o en colores generales) de las dos imágenes, sino que las combina de una manera simplista, para que una de las posibles combinaciones sea una composición de imagen en imagen; Figure 5 schematically illustrates what problems can occur if one does not carefully prepare the pixel luminances (or overall colors) of the two images, but instead combines them in a simplistic way, so that one of the possible combinations is a picture-in-picture composite;

La Figura 6 ilustra esquemáticamente cómo el aparato puede determinar alguna función o funciones de transformación (FF) de color, o al menos luminancia, apropiadas a modo de ejemplo, para al menos una de las al menos dos imágenes que se van a combinar; Figure 6 schematically illustrates how the apparatus may determine some appropriate color, or at least luminance, transformation function(s) (FF) by way of example for at least one of the at least two images to be combined;

La Figura 7 ilustra esquemáticamente qué algoritmos se pueden usar, según lo desarrollado por los inventores del presente solicitante, para volver a calificar artísticamente de manera óptima automáticamente, según lo desee un creador de contenido, una imagen de un primer intervalo dinámico a una segunda imagen diferente, de la cual el intervalo dinámico (al menos su brillo máximo) puede diferir en varios factores de dos; Figure 7 schematically illustrates what algorithms may be used, as developed by the present applicant's inventors, to automatically optimally artistically regrade, as desired by a content creator, an image from a first dynamic range to a different second image, of which the dynamic range (at least its maximum brightness) may differ by several factors of two;

La Figura 8 ilustra esquemáticamente algunos ejemplos más avanzados de cómo el aparato puede ajustar las funciones (FF) para transformar en color las imágenes que se combinarán en el intervalo de combinación (CombRng), en función de los detalles semánticos de la distribución de luminancia del objeto en la escena HDR como se muestra; Figure 8 schematically illustrates some more advanced examples of how the apparatus can adjust the functions (FF) to color transform the images to be combined in the combining interval (CombRng), based on the semantic details of the object luminance distribution in the HDR scene as shown;

La Figura 9 ilustra esquemáticamente un ejemplo de una aplicación de una realización del aparato y procedimiento descritos en la presente, a saber, en una producción original multivídeo, tal como, por ejemplo, un programa de entrevistas para televisión; Figure 9 schematically illustrates an example of an application of an embodiment of the apparatus and method described herein, namely, in an original multi-video production, such as, for example, a television talk show;

La Figura 10 ilustra esquemáticamente un segundo ejemplo en el que se utiliza una realización del aparato y el procedimiento en un sistema en un nodo intermedio de una red de comunicación de vídeo, tal como, por ejemplo, una sala de control de transmisión para dar servicio a un área local (el lector debe entender que otras realizaciones de aparato de combinación pueden residir en otros lugares de la cadena de gestión de vídeo o imagen, por ejemplo, en las instalaciones del usuario final del vídeo); Figure 10 schematically illustrates a second example where one embodiment of the apparatus and method is used in a system at an intermediate node of a video communication network, such as, for example, a transmission control room to serve a local area (the reader should understand that other embodiments of combining apparatus may reside elsewhere in the video or image management chain, for example, at the premises of the video end user);

La Figura 11 muestra esquemáticamente cómo las realizaciones del aparato pueden determinar un CombRng y asignar luminancias de imagen de fuente en el mismo, a partir de una buena posición de un valor de luminancia de una luminancia de anclaje; Figure 11 schematically shows how embodiments of the apparatus may determine a CombRng and assign source image luminances thereto, from a good position of a luminance value of an anchor luminance;

La Figura 12 muestra esquemáticamente ejemplos aclaratorios adicionales de cómo las realizaciones del aparato pueden determinar un CombRng y asignar luminancias de imagen de fuente en el mismo, a partir de una buena posición de un valor de luminancia de una luminancia de anclaje; Figure 12 schematically shows further explanatory examples of how embodiments of the apparatus may determine a CombRng and assign source image luminances thereto, from a good position of a luminance value of an anchor luminance;

La Figura 13 muestra esquemáticamente cómo se podrían combinar simplísticamente píxeles de dos imágenes si no se utilizan los aspectos técnicos de la presente invención, pero que podrían conducir a imágenes combinadas de mala calidad; Figure 13 schematically shows how pixels from two images could be simplistically combined if the technical aspects of the present invention are not used, but which could lead to poor quality combined images;

La Figura 14 muestra esquemáticamente cómo incluso en un procedimiento de captura de imágenes, en particular codificado con un procedimiento técnico de codificación de vídeo HDR, se podrían tener luminancias muy variables para el mismo objeto, en particular si se desea utilizar más libremente el potencial de la formación de imágenes HDR; Figure 14 schematically shows how even in an image capture procedure, in particular encoded with an HDR video encoding technical procedure, one could have very variable luminances for the same object, in particular if one wishes to use more freely the potential of HDR imaging;

La Figura 15 aclara además esquemáticamente cómo se podrían determinar varios intervalos de combinación, y lo que eso podría significar en la práctica, en particular para el establecimiento de la(s) luminancia(s) de anclaje sensible(s) relacionada(s) (anc), y a partir de ella las funciones típicas de mapeo de luminancia para armonizar el contenido parcial de las al menos dos imágenes o vídeos; Figure 15 further clarifies schematically how various combining intervals could be determined, and what that could mean in practice, in particular for the establishment of the related sensitive anchor luminance(s) (anc), and from it the typical luminance mapping functions for harmonizing the partial content of the at least two images or videos;

La Figura 16 muestra esquemáticamente en particular cómo se puede lograr una armonización muy potente en caso de que se haya especificado la parte anterior de la cadena de manejo de vídeo, la codificación de vídeo per se, de una manera particular de reclasificación gruesa y fina de las diversas luminancias de imagen; Figure 16 shows schematically in particular how a very powerful harmonization can be achieved in case the upstream part of the video handling chain, the video coding per se, has been specified in a particular way of coarse and fine reclassification of the various image luminances;

La Figura 17 muestra esquemáticamente cómo las versiones automáticas pueden formular la determinación de las diversas variables en función de diversos algoritmos que determinan factores tales como errores, tanto de distorsión del contenido de la imagen como de desarmonía del contenido, que en el caso de la clasificación humana y la anotación de imágenes pueden ser determinados por el creador de contenido humano; y Figure 17 schematically shows how automatic versions can formulate the determination of the various variables based on various algorithms that determine factors such as errors, both distortion of the image content and disharmony of the content, which in the case of human classification and image annotation can be determined by the human content creator; and

La Figura 18 muestra esquemáticamente algunos ejemplos adicionales de realizaciones de funciones de transformación de luminancias útiles para determinar luminancias armonizadas para la combinación de imágenes. Figure 18 schematically shows some additional examples of luminance transformation function realizations useful for determining harmonized luminances for image combining.

DESCRIPCIÓN DETALLADA DE LOS DIBUJOS DETAILED DESCRIPTION OF THE DRAWINGS

Las Figuras 1 y 2 ya se han explicado anteriormente, y la Figura 2 muestra cómo codificamos preferiblemente un vídeo HDR, o más precisamente una imagen graduada LDR y una imagen graduada HDR (típicamente 5000 nit PB) de la misma escena, que puede decodificarse (aplicando una o más funciones de transformación de luminancia a la o las imágenes LDR recibidas) para producir una imagen reclasificada óptimamente para un brillo máximo de visualización en cualquier lugar dentro o incluso fuera del intervalo de intervalos dinámicos abarcados por la clasificación LDR y HDR como extremidades. Figures 1 and 2 have already been explained above, and Figure 2 shows how we preferably encode an HDR video, or more precisely an LDR graded image and an HDR graded image (typically 5000 nit PB) of the same scene, which can be decoded (by applying one or more luminance transformation functions to the received LDR image(s)) to produce an optimally regraded image for peak display brightness anywhere within or even outside the range of dynamic ranges spanned by the LDR and HDR grading as extremities.

La Figura 3 aclara en un nivel superior algunos componentes básicos subyacentes a la mayoría de las realizaciones de nuestra imagen HDR, o vídeo, aparato o procedimiento de combinación armónica. A continuación, describiremos la situación con un ejemplo de PIP, aunque también se pueden utilizar las mismas técnicas, por ejemplo, para atenuar el brillo de una clasificación de forma coordinada en una sucesión temporal de vídeo intercalado de diferentes fuentes. Por ejemplo, se puede establecer un buen nivel de CombRng para el comercial de LDR y adaptar las luminancias en las imágenes h Dr de manera gradual hacia él (se podrían enviar varios metadatos adicionales con respecto a la evolución temporal de los diversos vídeos). El lector experto entenderá que una vez que la situación de luminancias muy diferentes y definidas de manera diferente (y mucho menos códigos de luma) de las dos imágenes se ha convertido en luminancias similares relacionadas correspondientes (a combinar), también se puede comenzar a mezclar el contenido de manera más compleja, por ejemplo, mezcla alfa, o reemplazar parte de una cara con alguna estructura de cara generada por ordenador con luminancias coordinadas adecuadamente, etc. Por ejemplo, si las luminancias de la cara (por ejemplo, a cada lado de la cara iluminada de manera diferente) mapeadas al CombRng de la primera imagen son x e y, y de la segunda imagen x+e1 e y+e2, con desviaciones suficientemente pequeñas de e1 y e2, a continuación se pueden aplicar ecuaciones de mezcla como L_out_comb = alfa*L_im1_comb+(1-alfa)*L_Im2_comb, en la que L_im1_comb y L_Im2_comb son respectivamente las luminancias de píxeles de la primera y segunda imagen después de haber sido transformadas en color (con la función FF respectiva a usar) al CombRng, y alfa es un número real entre 0,0 y 1,0, y L_out_comb es la luminancia final para ese píxel mezclado en la imagen de salida Im_o, es decir, la imagen combinada que tiene CombRng como intervalo dinámico. Figure 3 clarifies at a high level some basic components underlying most of our HDR image, or video, harmonic combining apparatus or method implementations. We will now describe the situation with a PIP example, although the same techniques can also be used, for example, to attenuate the brightness of a classification in a coordinated manner in a temporal succession of interleaved video from different sources. For example, one can set a good CombRng level for the LDR commercial and adapt the luminances in the HDR images gradually towards it (various additional metadata could be sent regarding the temporal evolution of the various videos). The skilled reader will understand that once the situation of very different and differently defined luminances (let alone luma codes) of the two images has been converted into corresponding related similar luminances (to be combined), one can also start to blend the content in more complex ways, e.g. alpha blending, or replacing part of a face with some computer generated face structure with appropriately coordinated luminances, etc. For example, if the luminances of the face (e.g. each side of the differently lit face) mapped to the CombRng of the first image are x and y, and of the second image x+e1 and y+e2, with sufficiently small deviations from e1 and e2, then one can apply blending equations like L_out_comb = alpha*L_im1_comb+(1-alpha)*L_Im2_comb, where L_im1_comb and L_Im2_comb are respectively the pixel luminances of the first and second images after they have been color transformed (with the respective FF function to be used) to the CombRng, and alpha is a real number between 0.0 and 1.0, and L_out_comb is the final luminance for that blended pixel in the output image Im_o, i.e. the blended image having CombRng as dynamic range.

El lector puede entender que si un creador tiene el mayor control posible sobre las imágenes originales (en particular, puede incluso necesitar conocer los detalles del entorno de renderizado previsto), por supuesto, podría ajustar una imagen combinada con cualquier medio hasta que sea completamente satisfactoria según sus deseos. Pero las presentes realizaciones satisfacen las muchas situaciones en las que eso no es tan simple o posible, por ejemplo, porque no hay tiempo para hacer toda esa cantidad de ajustes manualmente, o algunas entradas o variables que definen el aspecto óptimo aún no son controlables, o ni siquiera se conocen. Algo siempre puede cambiar en la situación del manejo de imágenes, así que eso es lo que la tecnología de manejo HDR más avanzada debe atender. O al menos nuestras realizaciones permiten aplicaciones más versátiles, en las que en varios momentos se puede realizar un ajuste fino colorimétrico, por ejemplo, de acuerdo con nuevos deseos, y se puede retener parte de la información de aspecto de la imagen original. Eso es importante, que uno retenga algo de al menos los aspectos más importantes de las imágenes en cada etapa. Por supuesto, el usuario final podría decidir volver a colorear totalmente el vídeo, pero a continuación todos los esfuerzos del creador de contenido se han omitido y perdido, y eso de hecho no es útil para nadie (incluso si, por ejemplo, un fabricante de televisores quiere agregar algo de su propio gusto particular a la representación de imágenes, no necesariamente debe hacerlo ignorando todo lo que trata la imagen, en particular lo que el creador de contenido especificó sobre la imagen; pero por otro lado, el lado receptor no debe sentir que no tiene absolutamente nada que decir sobre la colorimetría de la imagen, incluso si claramente parece ser inapropiado para la situación). The reader can understand that if a creator has as much control as possible over the original images (in particular, he may even need to know the details of the intended rendering environment), he could of course fine-tune a combined image by any means until it is completely satisfactory according to his wishes. But the present embodiments cater for the many situations where that is not so simple or possible, for example because there is no time to do all that amount of fine-tuning manually, or some inputs or variables defining the optimal look are not yet controllable, or not even known. Something can always change in the image handling situation, so that is what more advanced HDR handling technology must cater for. Or at least our embodiments allow for more versatile applications, where at various times colorimetric fine-tuning can be done, for example according to new wishes, and some aspect information of the original image can be retained. That is important, that one retains something of at least the most important aspects of the images at each stage. Of course, the end-user could decide to totally recolor the video, but then all the content creator's efforts have been bypassed and lost, and that's actually of no use to anyone (even if, for example, a TV manufacturer wants to add some of his own particular taste to the image rendering, he shouldn't necessarily do so by ignoring everything the image is about, in particular what the content creator specified about the image; but on the other hand, the receiving side shouldn't feel like he has absolutely no say in the colorimetry of the image, even if it clearly seems to be inappropriate for the situation).

El decodificador 251 es de nuevo similar a lo que aclaramos en la Figura 2, es decir, puede manejar gradaciones de imágenes (HDR, LDR) de acuerdo con nuestro procedimiento de codificación HDR explicado (extraer funciones de mapeo de luminancia, determinar nuevas imágenes recalificadas MDR a partir de las mismas, etc., de acuerdo con las diversas realizaciones posibles de imágenes globales o locales). Por supuesto, el lector entiende que esto es simplemente dilucidar una de las posibles realizaciones, y el aparato normalmente sería capaz de manejar (es decir, decodificar y combinar) todo tipo de vídeo o imágenes HDR o LDR, es decir, Im_HDR también podría definirse de acuerdo con la PQ EOTF, o el procedimiento BBC-HLG, etc. En este ejemplo, sin embargo, suponemos que a partir de alguna (segunda) fuente de imágenes 351 (por ejemplo, un canal de transmisión por satélite, o una conexión a un almacenamiento de vídeo a través de Internet, o incluso una cámara conectada, etc.), se obtiene la segunda de las dos imágenes a mezclar (por ejemplo, el programa principal, más importante (conductor) es una película HDR que se gradúa artísticamente con precisión en color), y por ejemplo, es una gradación PB HDR de 5000 nits cuyas imágenes se transforman con un EOTF PQ, y luego se codifican por DCT, y se codifican de acuerdo con algún perfil y nivel de HEVC. También se comunican metadatos que comprenden las funciones F2_L para degradar esta imagen HDR a una imagen LDR de 100 nits. El decodificador puede crear una imagen óptima para una pantalla conectada, por ejemplo, una imagen MDR de 2500 nits, Im2_MDR. Esta sería la calificación correcta en esta película que se está viendo por sí sola, sin combinación con ningún otro (primer) dato de imagen, ya sea espacial o temporalmente intercalado. The decoder 251 is again similar to what we elucidated in Figure 2, i.e. it can handle image gradations (HDR, LDR) according to our explained HDR encoding procedure (extracting luminance mapping features, determining new MDR regraded images therefrom, etc., according to the various possible embodiments of global or local images). Of course, the reader understands that this is simply elucidating one of the possible embodiments, and the apparatus would normally be able to handle (i.e. decode and combine) all types of HDR or LDR video or images, i.e. Im_HDR could also be defined according to the PQ EOTF, or the BBC-HLG procedure, etc. In this example, however, we assume that from some (second) image source 351 (e.g. a satellite broadcast channel, or a connection to a video storage via the Internet, or even a connected camera, etc.), the second of the two images to be mixed is obtained (e.g. the main, more important program (driver) is an HDR movie that is artistically graded with color accuracy), and for example it is a 5000 nits PB HDR gradation whose images are transformed with a PQ EOTF, and then encoded by DCT, and encoded according to some HEVC profile and level. Metadata comprising F2_L functions is also communicated to downgrade this HDR image to a 100 nits LDR image. The decoder can create an optimal image for a connected display, for example a 2500 nits MDR image, Im2_MDR. This would be the correct rating for this film being viewed on its own, without combination with any other (first) image data, whether spatially or temporally interspersed.

En la Figura 7 resumimos cómo, según una de nuestras realizaciones, se puede hacer dicha reclasificación de un primer aspecto de intervalo dinámico a un segundo. Supongamos que L_in están normalizadas [0.0-1.0] luminancias de entrada HDR, que corresponden a luminancias reales (que se renderizarán en una pantalla al renderizar la imagen HDR) de 0-5000 nit. L_out es una luminancia LDR, normalizada, pero correspondiente a un PB=100 nit (es decir, una luminancia SDR). La función 702 que asigna este HDR a esta imagen LDR es un ejemplo de un color F2_L en particular transformación de luminancia (se puede suponer para una comprensión simple que uno simplemente tiene una imagen en escala de grises, pero hemos demostrado que se puede aplicar la transformación de color requerida en colores RGB de esta manera también). Supongamos que queremos derivar la función de reclasificación óptima 703, que corresponde a la PB_MDR de una pantalla MDR de, por ejemplo, 3400 nit. La línea diagonal 701 sería el mapeo de luminancia requerido si quisiéramos mapear la imagen de entrada de 5000 nits en una imagen óptima para una pantalla de PB= 5000 nits, porque la imagen HDR ya está graduada de manera óptima para esa pantalla (es decir, está transformada simbólicamente por una transformada de identidad). Establecemos una dirección de derivación DIR, por ejemplo, vertical. La función escalada para una pantalla PB de 3400 nit, debe dar un valor F*(Ls) para cualquier luminancia de entrada Ls que esté entre F(Ls), es decir, cualquiera que sea la función de degradación óptimamente determinada F (F2_L) que se encuentre en ese punto de luminancia, y Ls. Podemos determinar que este punto es Ls+FI(PB_MDR, Ls)*(F(Ls) -Ls), siendo FI alguna función que da valores entre 0 y 1, y en escenarios más simples siendo solo función de PB_MDR, que también se puede escribir de manera multiplicativa como k(PB_MDR)*Ls. Qué función se utiliza exactamente depende de la filosofía de reclasificación de la realización utilizada, y el lector puede imaginar que puede haber varias realizaciones más o menos complejas dependiendo de si, por ejemplo, se tienen en cuenta las características específicas del entorno de visualización (o incluso las preferencias del espectador), pero los detalles de eso están más allá de lo que esta solicitud necesita como explicación, que ya es lo suficientemente compleja (el lector debe entender que se puede establecer alguna función de reclasificación, y aplicar a la imagen de entrada, para obtener la imagen reclasificada correctamente con las luminancias correctas de los objetos de imagen para una pantalla MDR). In Figure 7 we summarize how, according to one of our embodiments, such a reclassification from a first dynamic range aspect to a second one can be done. Suppose L_in are normalized [0.0-1.0] HDR input luminances, corresponding to real luminances (to be rendered on a display when rendering the HDR image) of 0-5000 nit. L_out is an LDR luminance, normalized, but corresponding to a PB=100 nit (i.e. an SDR luminance). The function 702 that maps this HDR to this LDR image is an example of a particular F2_L color luminance transformation (one can assume for simple understanding that one simply has a grayscale image, but we have shown that one can apply the required color transformation on RGB colors this way as well). Suppose we want to derive the optimal rescaling function 703, which corresponds to the PB_MDR of an MDR display of, say, 3400 nits. The diagonal line 701 would be the required luminance mapping if we wanted to map the 5000 nits input image into an optimal image for a PB=5000 nits display, because the HDR image is already optimally scaled for that display (i.e., symbolically transformed by an identity transform). We set a derivation direction DIR, say, vertical. The scaled function for a 3400 nit PB display, should give a value F*(Ls) for any input luminance Ls that lies between F(Ls), i.e., whatever the optimally determined degradation function F(F2_L) lies at that luminance point, and Ls. We can determine this point to be Ls+FI(PB_MDR, Ls)*(F(Ls) - Ls), where FI is some function giving values between 0 and 1, and in simpler scenarios being just a function of PB_MDR, which can also be written multiplicatively as k(PB_MDR)*Ls. What function exactly is used depends on the reclassification philosophy of the implementation used, and the reader can imagine that there can be several more or less complex implementations depending on whether for example specific features of the viewing environment (or even viewer preferences) are taken into account, but the details of that are beyond what this application needs as an explanation, which is already complex enough (the reader should understand that some reclassification function can be set, and applied to the input image, to obtain the correctly reclassified image with the correct luminances of the image objects for an MDR display).

Como se dijo, la primera imagen puede ser cualquier cosa, pero aclararemos los principios con un comercial de LDR, siendo los principios de nuestras realizaciones similares para otros contenidos. Este 2500 MDR puede no ser la clasificación apropiada (es decir, 2500 puede no ser el PB apropiado) cuando se mezcla con un anuncio de LDR de 100 nits, al menos debido a la enorme diferencia en el intervalo dinámico de las dos imágenes, pero también debido a la distribución posiblemente extrema de las luminancias de los objetos en el anuncio de LDR (es decir, 2500 nits pueden no ser el mejor valor de LMC para el CombRng, pero luego se puede elegir otro valor). Se debe entender el alto intervalo dinámico no solo como "alto", es decir, brillante, sino también en términos de "dinámico", es decir, donde en el eje de luminancia el creador ha asignado los diversos objetos y/o regiones semánticas en la(s) imagen(es). Contrariamente a los conceptos erróneos populares, mostrar una imagen simplemente con un alto brillo aún puede dar como resultado una apariencia bastante plana de LDR, e incluso una irritantemente brillante, por lo que se desea un control más estricto sobre todos o muchos valores de gris. Por ejemplo, el creador del anuncio puede haber hecho que el anuncio de LDR sea extra brillante y llamativo, para darle un alto impacto visual en pantallas LDR de 100 nits. Pero este impacto puede ser demasiado alto incluso en el intervalo dinámico de 2500 nits (y mucho menos en una pantalla PB_D de 5000 nits para un espectador que haya comprado dicha pantalla), por lo que, por ejemplo, CombRng teniendo en cuenta tanto la necesidad de mostrar lámparas muy brillantes en la película como la extremidad de la clasificación LDR, puede que para ese caso sea necesario que sea, por ejemplo, 1500 nits LMC. El aparato puede usar procedimientos tales como medir el contraste global de la imagen LDR, por ejemplo, contar cuán grande es la cantidad de píxeles por encima de k % = por ejemplo, 80 % de luminancia en la imagen LDR, cuán a menudo alta y extrema es la luminancia promedio, o cómo varía la cantidad de píxeles por encima de k %, etc., y a partir de ahí determinar una medida de extremidad, y a partir de ahí determinar, por ejemplo, cuán brillantes pueden llegar a ser las partes más brillantes de este comercial LDR cuando se mapea al CombRng, y, por ejemplo, determinar qué LMC debe ser (por ejemplo, el píxel más brillante de los píxeles LDR puede convertirse en 300 nit, dependiendo de la no linealidad que se use, o dependiendo de la cantidad de brillo que se necesite para colocar las luminancias de la cara, y los píxeles Lambertianos más brillantes de la película HDR (es decir, identificados en el intervalo inferior de esa película, por ejemplo, como 5x el gris medio codificado de esa región principal para la película HDR) pueden, por ejemplo, convertirse en k veces más o menos, es decir, 200 o 450, y el brillo de las lámparas pueden llegar a ser 5 veces 300 nits, dando un LMC=1500 nits). As stated, the first image can be anything, but we will clarify the principles with an LDR commercial, the principles of our realizations being similar for other content. This 2500 MDR may not be the appropriate rating (i.e. 2500 may not be the appropriate PB) when mixed with a 100 nits LDR ad, at least because of the huge difference in dynamic range of the two images, but also because of the possibly extreme distribution of object luminances in the LDR ad (i.e. 2500 nits may not be the best LMC value for the CombRng, but then another value can be chosen). High dynamic range should be understood not only as “high”, i.e. bright, but also in terms of “dynamic”, i.e. where on the luminance axis the creator has assigned the various objects and/or semantic regions in the image(s). Contrary to popular misconceptions, displaying an image at simply high brightness can still result in a rather flat LDR appearance, and even an irritatingly bright one, so tighter control over all or many grey values is desired. For example, the ad creator may have made the LDR ad extra bright and eye-catching, to give it a high visual impact on 100 nit LDR displays. But this impact may be too high even in the 2500 nit dynamic range (let alone on a 5000 nit PB_D display for a viewer who has purchased such a display), so for example CombRng taking into account both the need to display very bright lamps in the film and the extremity of the LDR rating, may for that case need to be, say, 1500 nits LMC. The apparatus may use methods such as measuring the overall contrast of the LDR image, e.g., counting how large the number of pixels above k% = say, 80% luminance in the LDR image is, how often high and extreme the average luminance is, or how the number of pixels above k% varies, etc., and from that determine a measure of extremity, and from that determine, for example, how bright the brightest parts of this LDR commercial might become when mapped to the CombRng, and, for example, determine what LMC should be (e.g., the brightest of the LDR pixels might become 300 nits, depending on the nonlinearity being used, or depending on how much brightness is needed to match the luminances of the face, and the brightest Lambertian pixels in the HDR film (i.e., identified in the lower range of that film, e.g., as 5x the coded middle gray of that main region for the HDR film) might, for example, become k times more or less, i.e. 200 or 450, and the brightness of the lamps can become 5 times 300 nits, giving a LMC=1500 nits).

El lector experto entiende que hay varias maneras de llegar al CombRng (o anc), por ejemplo, se puede determinar principalmente por la película HDR, y luego una determinación de cómo coordinar la imagen LDR con la película HDR asignada a ese CombRng (como se enseñó en los primeros ejemplos descritos anteriormente), o como se ejemplifica aquí, se puede determinar principalmente o en gran medida por las características de la imagen LDR, mientras se protege la calidad suficiente de las imágenes HDR al determinar hasta qué punto los objetos HDR más brillantes pueden extenderse por encima de los colores más brillantes o promedio en la imagen LDR, o iterativamente hasta que se encuentre un óptimo razonable para los dos, etc. Todo eso depende de las necesidades de la situación particular y del comportamiento de la realización del aparato de combinación particular. Cuál de las dos imágenes tiene la mayor importancia se puede preestablecer de varias maneras, por ejemplo, el espectador puede en algunas realizaciones con su control remoto indicar que quiere una perturbación mínima de su película por cualquier imagen que se combine, o los creadores de contenido pueden dar indicaciones sobre su contenido, que el aparato de combinación finalmente decide, etc. The skilled reader understands that there are several ways to arrive at the CombRng (or anc), for example it may be determined primarily by the HDR movie, and then a determination of how to coordinate the LDR image with the HDR movie assigned to that CombRng (as taught in the first examples described above), or as exemplified here it may be determined primarily or largely by the characteristics of the LDR image, while protecting sufficient quality of the HDR images by determining how far the brightest HDR objects may extend above the brightest or average colors in the LDR image, or iteratively until a reasonable optimum is found for the two, etc. That all depends on the needs of the particular situation and the behavior of the particular combining apparatus embodiment. Which of the two images is of the greatest importance may be preset in various ways, for example the viewer may in some embodiments with his remote control indicate that he wants minimal disturbance of his movie by any image being combined, or content creators may give direction about their content, which the combining apparatus ultimately decides, etc.

Volviendo a la Figura 3, una primera fuente de imágenes 350 proporciona la(s) primera(s) imagen(es), que suponemos que es una imagen LDR Im1_LDR, es decir, codificada de manera estándar, por ejemplo, de acuerdo con Rec. 709 (por supuesto, puede haber un conjunto decodificador, que no se muestra para esto). Es posible que, en caso de que sea un vídeo reciente, se haya anotado con sus propias funciones F1_L para convertirlo a HDR, o que no se haya anotado, en caso de que sea un vídeo SDR antiguo. Es decir, puede tener funciones F1_L asociadas en sus metadatos, lo que permite la conversión artísticamente óptima a otros intervalos dinámicos distintos de su DR nativo de 100 nits. En caso de que falten funciones, el aparato de combinación siempre puede aplicar funciones y estimaciones que funcionen razonablemente bien en promedio. De nuevo, la fuente de imágenes 350 puede ser varias fuentes, por ejemplo, una cámara de seguridad en la puerta principal de la casa del espectador puede reproducir una imagen cuando alguien toca el timbre, etc. Returning to Figure 3, a first image source 350 provides the first image(s), which we assume to be an LDR image Im1_LDR, i.e. encoded in a standard manner, e.g. according to Rec. 709 (of course, there may be a decoder assembly, not shown for this). It is possible that, in case it is a recent video, it has been annotated with its own F1_L functions to convert it to HDR, or that it has not been annotated, in case it is an old SDR video. That is, it may have associated F1_L functions in its metadata, allowing artistically optimal conversion to other dynamic ranges than its native DR of 100 nits. In case there are missing features, the combining apparatus can always apply functions and estimates that work reasonably well on average. Again, the image source 350 may be multiple sources, for example, a security camera at the front door of the viewer's home may play an image when someone rings the doorbell, etc.

Como se explicó, de acuerdo con uno de los diversos algoritmos posibles, un conjunto de establecimiento de intervalo dinámico (302) analiza la situación, por ejemplo, las características de luminancia de la primera y segunda imágenes, y establece un intervalo dinámico de luminancia de combinación adecuado (CombRng), en el ejemplo anterior con LmiC =0 nit, y LMC= 1500 nit. Un conjunto de determinación de anclaje de luminancia (303) determinará una luminancia de anclaje (ANC). Por ejemplo, lee de la primera fuente de imagen en los metadatos asociados con la primera imagen una luminancia de anclaje de fuente (L_SA1) del tipo "luminancia de cara", siendo este valor, por ejemplo, 45 nit. Sabiendo que para al menos una de las caras de las imágenes parece ser importante, a continuación debe establecer cuál sería un buen color de cara y en el CombRng (por supuesto, otras realizaciones pueden decidir primero un anc, incluso sin mirar qué luminancias de anclaje de fuente donde se especifica, o cuando se ve que la luminancia de anclaje fue, por ejemplo, un gris promedio en una subregión exterior brillante, puede determinar para el CombRng un gris promedio general y una posición d_anc en la que posicionar luminancias exteriores brillantes en comparación con una representación neutra general de colores en el CombRng. Dependiendo de la complejidad de la realización, una realización típica puede querer verificar cuál es el valor de una segunda luminancia de anclaje de fuente L_S2A1 del color de cara de tipo que indica cómo están actualmente los colores de cara en esta toma de la película. En un eje de luminancia normalizado, por supuesto, este será un valor más bajo, porque el intervalo superior se utiliza para efectos HDR como objetos o regiones iluminados, o lámparas. Aun así, si un valor razonable en un intervalo de objetos difusos de hasta, por ejemplo, 400 nit sería 180 nit, y encontramos un valor de solo 30 nit, sabemos que tenemos una cara oscura por naturaleza o una cara poco iluminada, o ambas cosas. En cualquier caso, incluso si esa cara se viera más oscura que la del comercial, será mucho más oscura si decidimos colocar nuestro valor anc en, por ejemplo, 180*1500/2500. Por lo tanto, es posible que deseemos calcular un valor de anc que esté algo más cerca de los 30 nits, colocar la luminancia de la cara LDR en o alrededor de ese valor de nits, por ejemplo, 0,8* 180* 1500/2500, y tener los colores de la cara HDR mapeados más cerca de ese valor de anc también, por ejemplo, 0,3*180*1500/2500. Esto garantiza que tengamos rostros adecuadamente atenuados para la imagen lDr , y rostros apropiadamente oscuros, como deberían ser según la historia, para la película HDR, y ambos coordinados según el valor óptimo de anc. Por supuesto, lo mismo se puede hacer teniendo en cuenta otras luminancias de anclaje o luminancias adicionales, tales como, por ejemplo, un gris medio para una región específicamente iluminada por HDR. As explained, according to one of several possible algorithms, a dynamic range setting set (302) analyses the situation, for example the luminance characteristics of the first and second images, and sets an appropriate combination luminance dynamic range (CombRng), in the above example with LmiC=0 nit, and LMC=1500 nit. A luminance anchor determination set (303) will determine an anchor luminance (ANC). For example, it reads from the first image source in the metadata associated with the first image a source anchor luminance (L_SA1) of the type "face luminance", this value being for example 45 nit. Knowing that for at least one of the faces in the images it seems to be important, you then need to establish what a good face color would be and in the CombRng (of course other embodiments may first decide on an anc even without looking at what source anchor luminances where specified, or when you see that the anchor luminance was for example an average gray in a bright outer subregion, you may determine for the CombRng an overall average gray and a d_anc position at which to position bright outer luminances compared to an overall neutral representation of colors in the CombRng. Depending on the complexity of the embodiment, a typical embodiment may want to check what the value of a second source anchor luminance L_S2A1 of type face color is that indicates how the face colors are currently in this shot of the movie. On a normalized luminance axis this will of course be a lower value, because the upper range is used for HDR effects like illuminated objects or regions, or lamps. Still, if a reasonable value in a diffuse object range up to, say, 400 nit would be 180 nit, and we find a value of only 30 nit, we know we have either a naturally dark face or a dimly lit face, or both. In either case, even if that face were to look darker than the commercial's, it will be much darker if we choose to put our anc value at, say, 180*1500/2500. So we might want to calculate an anc value that is somewhat closer to 30 nits, put the LDR face luminance at or around that nit value, say, 0.8*180*1500/2500, and have the HDR face colors mapped closer to that anc value as well, say, 0.3*180*1500/2500. This ensures that we have appropriately dimmed faces for the lDr image, and appropriately dark faces, as they should be according to history, for the HDR movie, and both coordinated to the optimal anchor value. Of course, the same can be done by taking into account other anchor luminances or additional luminances, such as, for example, a mid-gray for a specifically HDR-lit region.

Habiendo establecido un CombRng con una luminancia de anclaje anc, lo único que queda por hacer genéricamente es mapear de manera óptima las dos imágenes en ese intervalo dinámico de acuerdo con un valor de luminancia específico que se determina porque debe caer en o alrededor del valor anc. Una forma de hacerlo es con una asignación lineal de las luminancias, con un valor de contraste C determinado de manera óptima, que es la pendiente de la línea de la función de mapeo de luminancia, y luego asignar luminancias calculando la ecuación lineal hasta que se produzca el recorte (y la cantidad de recorte se puede controlar junto con el valor C; tenga en cuenta que se puede recortar a algún valor dentro del CombRng, es decir, por debajo del valor máximo LMC). El mapeo descendente al CombRng en este ejemplo también se puede hacer teniendo en cuenta la misma matemática que utiliza el decodificador 251, a saber, utilizando al menos un mapeo de luminancia (F2_L) con una forma que codifica el comportamiento necesario para las partes más brillantes y más oscuras de la imagen, según lo determinado típicamente por un graduador humano. Por ejemplo, una vez que se conoce el CombRng, se podrían tener los píxeles correspondientes a la segunda imagen mapeados por el decodificador 251 inmediatamente a partir de la imagen HDR de 5000 nits Im2_HDR. El conjunto de transformación de color (310) está dispuesto para realizar todas las transformaciones de color de píxeles necesarias, en particular al menos los ajustes de luminancia apropiados, de modo que el conjunto de combinación (320) puede aplicar algoritmos simples (por ejemplo, ser una simple conjunto de ponderación aditiva o reemplazo o conmutación de píxeles, porque toda la optimización colorimétrica ya se ha realizado). Un conjunto de lectura de luminancia de anclaje de fuente (311) leerá al menos una luminancia de anclaje de fuente asociada con una de las dos imágenes, por ejemplo, una luminancia de cara de la imagen LDR, o un buen valor promedio para los negros en la escena de imagen, etc. Como se muestra anteriormente, en algunas realizaciones también puede leer una serie de luminancias de anclaje de fuente, que son características de regiones de luminancia especiales en las imágenes (por ejemplo, un valor de gris especial, o un valor de gris asociado con un objeto semánticamente importante común, tal como una luminancia promedio de cielo brillante u oscuro, etc.), de ambas o, en general, de todas las imágenes. Dado que en algunos escenarios menos simples no se desea mapear las luminancias de las dos imágenes en función de la equiparación de solo una luminancia de anclaje similar (anclada a anc), sino que se desea posicionar de manera inteligente la luminancia de salida en comparación con anc, un conjunto de determinación de desviación (312) está dispuesto para determinar un desplazamiento de luminancia apropiado (d anc). Como se ejemplifica, esto puede ser, por ejemplo, porque el anuncio contiene una cara muy iluminada y contrastada, y la película de terror comprende una cara oscura fangosa, y, por ejemplo, si se determina que la anc está cerca de la luminancia de la cara oscura de la película, a continuación se quiere un desplazamiento positivo suficientemente grande d_anc para dónde mapear los colores de la cara de la cara comercial de LDR. Las imágenes mapeadas de luminancia correctamente intermedias Im2_HM e Im1_LM irán a continuación al conjunto de combinación (320), que puede ser a continuación, por ejemplo, tan simple como un conmutador de píxeles, que dependiendo de la posición (x,y) del píxel pone el color HDR mapeado (es decir, Im2_HM) en la imagen de salida Im_o, o el color LDR Im1_LM, ya sea como RGB lineal, o recalculado en un Y'CbCr, etc. Having set a CombRng with an anchor luminance anc, the only thing left to do generically is to optimally map the two images across that dynamic range according to a specific luminance value that is determined because it must fall at or around the anc value. One way to do this is with a linear mapping of the luminances, with an optimally determined contrast value C being the slope of the line of the luminance mapping function, and then mapping luminances by computing the linear equation until clipping occurs (and the amount of clipping can be controlled along with the C value - note that clipping can be done to some value within the CombRng, i.e. below the maximum LMC value). The down mapping to the CombRng in this example can also be done by taking into account the same mathematics that the decoder 251 uses, namely, by using at least one luminance mapping (F2_L) with a shape that encodes the behavior needed for the brightest and darkest parts of the image, as typically determined by a human grader. For example, once the CombRng is known, one could have the pixels corresponding to the second image mapped by the decoder 251 immediately from the 5000 nit HDR image Im2_HDR. The color transformation set (310) is arranged to perform all necessary pixel color transformations, in particular at least the appropriate luminance adjustments, such that the combining set (320) can apply simple algorithms (e.g., be a simple additive weighting set or pixel replacement or switching, because all colorimetric optimization has already been performed). A source anchor luminance readout assembly (311) will read at least one source anchor luminance associated with one of the two images, for example, a face luminance from the LDR image, or a good average value for blacks in the image scene, etc. As shown above, in some embodiments it may also read a number of source anchor luminances, which are characteristics of special luminance regions in the images (e.g., a special gray value, or a gray value associated with a common semantically important object, such as an average bright or dark sky luminance, etc.), from both or, in general, from all of the images. Since in some less simple scenarios it is not desired to map the luminances of the two images based on matching just a similar anchor luminance (anchored to anc), but rather it is desired to intelligently position the output luminance in comparison to anc, an offset determination set (312) is arranged to determine an appropriate luminance offset (d_anc). As exemplified, this may be, for example, because the advertisement contains a highly contrasted, brightly lit face, and the horror film comprises a muddy dark face, and, for example, if anc is determined to be close to the luminance of the dark face of the film, then a sufficiently large positive offset d_anc is desired for where to map the face colors of the LDR commercial face. The correctly intermediated luminance mapped images Im2_HM and Im1_LM will then go to the combining set (320), which can then be, for example, as simple as a pixel switch, which depending on the (x,y) position of the pixel puts the mapped HDR color (i.e. Im2_HM) into the output image Im_o, or the LDR color Im1_LM, either as linear RGB, or recalculated into a Y'CbCr, etc.

La Figura 4 aclara todo más para el ejemplo elegido, mostrando los mapeos en los intervalos dinámicos de luminancia. Im1_Rng es el intervalo dinámico LDR 0-100 nits de la primera imagen LDR, es decir, que tiene luminancias codificadas que deben estar entre la luminancia mínima Lmi_L= 0 nits y la luminancia máxima LM_L= 100 nits. Im2_Rng es, por ejemplo, el intervalo dinámico de la imagen HDR con LMH=5000 nits (o podría ser la imagen MDR optimizada para la visualización, en cuyo caso LMH sería de 2500 nits en el ejemplo anterior). De esto ya se puede ver que no hay necesidad de que el CombRng sea de ninguna manera el mismo o cercano ni al Im2_Rng ni al intervalo de la pantalla Di_Rng. Este intervalo de visualización se muestra para comparación, pero en algunas realizaciones ni siquiera se puede usar en la combinación, sino que en su lugar Im_o irá a un conjunto de transformación de color de sintonización de visualización para mapear la imagen de salida combinada Im_o definida hasta, por ejemplo, 3000 nits en un intervalo dinámico de visualización de, por ejemplo, 1400 nits, o cualesquiera que sean los valores (el experto entiende que puede haber escenarios donde LMC es mayor que LM_MDR, por ejemplo, si la combinación se realizó en otro aparato, por ejemplo, en una cabecera de cable, y un usuario particular tiene una pantalla HDR con PB limitado, por ejemplo, 950 nits; o, en caso de que la mezcla ocurra toda en la ubicación del espectador, y el espectador tiene una pantalla con PB alta, por ejemplo, 7000 nits, pero actualmente recibe contenido de un programa HDR como un programa de noticias con Pb = 1200 nits, o menos, y una imagen LDR, a continuación se puede determinar que LMC es mucho menor que LM_MDR=7000 nits). Las funciones de sintonización pueden ser, por ejemplo, las del contenido de la película HDR (es decir, F2_L), ya que el anuncio LDR ya habrá sido suficientemente armonizado con él. Por supuesto, las realizaciones más complejas pueden optimizar directamente ambas imágenes al intervalo dinámico de visualización. El lector comprenderá que hay situaciones en las que el CombRng ni siquiera puede ser, por ejemplo, el intervalo dinámico de la pantalla, por ejemplo, en un sitio de producción o transmisión de vídeo, donde aún no se conocen los detalles específicos del televisor del espectador. Esa es una de las complejidades que ha creado el mercado de HDR, y que deberá ser atendida. En la era LDR, todos los televisores eran aproximadamente iguales (con PB de alrededor de 100 nits), por lo que el manejo de vídeo era simple, pero ahora algunos espectadores pueden tener un televisor HDR de 1000 nits, otros un televisor HDR de 7000 nits, otros un televisor SDR de 100 nits heredado, mientras que a otros les gusta ver las imágenes en su I-pad o teléfono móvil, con un PB de, por ejemplo, 500 nits (que aún no comienza a divulgar todos los detalles del contenido de las diversas imágenes). Debe entenderse que solo por su gran varianza, esos intervalos dinámicos de visualización no siempre pueden ser trivialmente el CombRng más apropiado para combinar las dos imágenes y representar ambas de manera óptima. Pero también, especialmente si tenemos que renderizar en última instancia en, por ejemplo, un televisor o monitor de 1000 nits, ¿sería lo más óptimo si tuviéramos que actualizar y combinar un LDR hasta 5000 nits de intervalo dinámico HDR de imagen 2, si posteriormente tenemos que reducir significativamente de nuevo, y arriesgarnos, especialmente cuando usamos las funciones F2_L, ¿a perder una parte importante de los colores LDR más brillantes? Figure 4 makes things clearer for the chosen example by showing the mappings into the dynamic luminance ranges. Im1_Rng is the 0-100 nits LDR dynamic range of the first LDR image, i.e. it has encoded luminances that must lie between the minimum luminance Lmi_L= 0 nits and the maximum luminance LM_L= 100 nits. Im2_Rng is for example the dynamic range of the HDR image with LMH=5000 nits (or it could be the MDR image optimized for display, in which case LMH would be 2500 nits in the example above). From this it can already be seen that there is no need for the CombRng to be in any way the same or close to either the Im2_Rng or the display range Di_Rng. This display range is shown for comparison, but in some embodiments it may not even be used in the blending, but instead Im_o will go to a display tuning color transform set to map the blended output image Im_o defined up to, say, 3000 nits into a dynamic display range of, say, 1400 nits, or whatever the values are (the skilled artisan understands that there may be scenarios where LMC is greater than LM_MDR, for example if the blending was performed on another set, say, a cable headend, and a particular user has an HDR display with limited PB, say, 950 nits; or, in case the blending occurs all at the viewer's location, and the viewer has a high PB display, say, 7000 nits, but is currently receiving HDR program content such as a news program with Pb = 1200 nits, or less, and an LDR image, then it may be determined that LMC is much lower than LM_MDR=7000 nits). Tuning functions can be, for example, those of the HDR movie content (i.e. F2_L), as the LDR ad will already have been sufficiently harmonized to it. Of course, more complex implementations can directly optimize both images to the dynamic range of the display. The reader will understand that there are situations where the CombRng may not even be, for example, the dynamic range of the display, for example at a video production or streaming site, where the specific details of the viewer's TV are not yet known. That is one of the complexities that the HDR market has created, and which will need to be addressed. In the LDR era all TVs were roughly the same (with PBs of around 100 nits) so video handling was simple, but now some viewers might have a 1000 nit HDR TV, others a 7000 nit HDR TV, others a legacy 100 nit SDR TV, while others like to view pictures on their I-pad or mobile phone, with a PB of say 500 nits (which still doesn't begin to divulge all the details of the content of the various pictures). It should be understood that because of their large variance alone, those display dynamic ranges may not always trivially be the most appropriate CombRng to combine the two images and render both optimally. But also, especially if we ultimately have to render on, say, a 1000 nit TV or monitor, would it be optimal if we were to upgrade and match an LDR up to 5000 nits of HDR image dynamic range 2, if we subsequently have to significantly reduce it again, and risk, especially when using the F2_L functions, losing a significant portion of the brightest LDR colors?

Explicamos eso un poco más con la Figura 5, que utiliza un ejemplo de PIP 501 (pero ocurren problemas similares, por ejemplo, con el enmascaramiento y la adaptación temporal, etc.) en una región principal 500 de una película HDR. We explain that a bit further with Figure 5, which uses an example of PIP 501 (but similar issues occur, e.g. with masking and temporal adaptation, etc.) in a main 500 region of an HDR movie.

Los combinadores LDR clásicos pueden hacer su combinación en Y'CbCr (es decir, luma 2 coordenadas de crominancia), R'G'B' no lineal, RGB lineal o, en principio, cualquier espacio de color (aunque eso puede ser menos típico para sistemas que necesitan trabajar en velocidad de vídeo, pero también quieren ahorrar en recursos de cálculo). Supongamos que tenemos una imagen en valor de grises. Classical LDR combiners can do their combining in Y'CbCr (i.e. luma 2 chrominance coordinates), non-linear R'G'B', linear RGB or in principle any color space (although that may be less typical for systems that need to work at video rate but also want to save on computing resources). Suppose we have a gray value image.

En caso de que uno cambie de manera simplista por píxel los códigos de luma Y' de los píxeles, eso conduciría a resultados muy malos, porque se determinan de manera muy diferente para las imágenes HDR y LDR (básicamente se convierte en un problema importante de malentendido del aparato de manejo). Por ejemplo, todo lo que se ve a través de la ventana 510 en el PIP de LDR (digamos que es un comentario del director) puede haber sido recortado al código máximo de luma, Y'=255, o 1,0 normalizado, porque es demasiado brillante para LDR y no es interesante en ese único vídeo de todos modos. Al renderizar la imagen combinada Im_o en una codificación de luma, donde algunos de los lumas de píxeles normalizados de la película HDR original (por ejemplo, una escena de noche oscura) los píxeles han sido reemplazados por los lumas normalizados de la imagen LDR, decodificándola con, por ejemplo, PQ HDR EOTF, el PIP se verá excesivamente brillante (los colores de la ventana se renderizarían como, por ejemplo, PB_D=4000 nit, donde, alternativamente, en principio, se podrían haber armonizado bien los colores del objeto exterior, o al menos colores recortados menos irritantemente brillantes). Esto conducirá a una sobreirradiación 502, también llamada hemorragia o propagación de la luz. Si esto no se debe a la física de la pantalla (por ejemplo, baja cantidad de LED de retroiluminación, interreflexiones en la placa frontal de la pantalla), a menudo el deslumbramiento en el ojo humano también puede hacer que las regiones muy brillantes en una pantalla HDR sean difíciles de ver sin usar la mano para bloquear el área brillante. En resumen, al espectador no le gusta, y prefiere lo contrario, si la tecnología lo hiciera posible. Al menos, debe quedar claro que esas luminancias del PIP de LDR y las regiones oscuras de la escena nocturna en la película HDR no están bien armonizadas. Pero también puede suceder lo contrario. Si el PIP está al lado de un sol en la película HDR, u otra parte muy brillante, podría ser demasiado tenue. Lo que también puede ser feo es, por ejemplo, que los colores que claramente se supone que son blancos, se vean demasiado grisáceos. Si, como se muestra a la derecha, disminuimos la luminancia de la cara PIP acercándola a la luminancia de la cara HDR oscura, por el hecho de que las luminancias de los otros objetos en la imagen LDR están relacionadas con el color de la cara (en relación de contraste), también se atenuarán más adecuadamente. Por lo tanto, todos los colores deben verse relativamente bien coordinados. In case one simplistically changes per pixel the Y' luma codes of the pixels, that would lead to very bad results, because they are determined very differently for HDR and LDR images (basically it becomes a major problem of misunderstanding of the drive unit). For example, everything seen through the 510 window in the LDR PIP (say it's a director's commentary) may have been clipped to the maximum luma code, Y'=255, or 1.0 normalized, because it's too bright for LDR and not interesting in that single video anyway. By rendering the combined image Im_o in a luma encoding, where some of the normalized pixel lumas of the original HDR movie (e.g. a dark night scene) pixels have been replaced by the normalized lumas of the LDR image, by decoding it with e.g. PQ HDR EOTF, the PIP will look excessively bright (window colors would be rendered as e.g. PB_D=4000 nit, where alternatively in principle the outside object colors could have been well harmonized, or at least less irritatingly bright clipped colors). This will lead to 502 over-irradiation, also called light bleeding or light spreading. If this is not due to the physics of the display (e.g. low amount of backlight LEDs, interreflections on the display front plate), often glare on the human eye can also make very bright regions on an HDR display hard to see without using your hand to block the bright area. In short, the viewer doesn't like it, and would prefer the opposite, if technology made it possible. At least it should be clear that those luminances of the LDR PIP and the dark regions of the night scene in the HDR movie are not well harmonized. But the opposite can also happen. If the PIP is next to a sun in the HDR movie, or another very bright part, it might be too dim. What can also be ugly is, for example, that colors that are clearly supposed to be white, look too greyish. If, as shown on the right, we decrease the luminance of the PIP face closer to the luminance of the dark HDR face, because the luminances of the other objects in the LDR image are related to the color of the face (in contrast ratio), they will also be dimmed more appropriately. Thus, all colors should look relatively well coordinated.

Uno puede pensar ingenuamente que todos los problemas se pueden resolver asignando el subintervalo LDR adecuado a la imagen PIP (es decir, el subintervalo de luminancias de 0-100 nits, ya que caería en el HDR CombRng, cualquiera que sea), lo que corresponde a decodificarlo correctamente con el Rec 709 maximizado a un PB LDR de 100 nits, en lugar del PB de pantalla (relativo) de, por ejemplo, 3000 nits, y luego hacer que esos píxeles LDR tengan luminancias de hasta un máximo de 100 nits en el intervalo dinámico de la pantalla (suponiendo que el CombRng se toma como igual al DR de la pantalla disponible). Pero como se ha dicho, aunque en algunas situaciones puede ser una buena opción, eso hace que la decisión dependa de lo que realmente es el intervalo dinámico de visualización (visto relativamente, se convierte en una relación aleatoria). Para una escena iluminada por el sol muy brillante, podría suceder que junto al PIP LDR máximo de 100 nits, en una pantalla de 3000 nits haya objetos adyacentes con, por ejemplo, una luminancia de 1500 nits. Esto hace que el PIP sea bastante decepcionantemente oscuro, y sus colores se verán fangosos en lugar de vividos, que no es lo que esperaría la persona que pagó por el comercial. Lo mismo podría suceder cuando se combina en el intervalo dinámico de la imagen HDR (Im2_Rng). Por lo tanto, se entenderá que la mezcla adecuada no es algo trivial, es decir, se necesita un buen marco como en la presente invención. Además, al tener dos imágenes HDR, incluso si las EOTF no fueran tan diferentes, uno todavía no estaría seguro de cómo el creador de contenido usó ese intervalo disponible, es decir, diseñó colorimétricamente su sistema total (reglas de producción de contenido, etc.). Incluso si el P<b>de las dos codificaciones no difiriera demasiado, por ejemplo, 5000 vs. One might naively think that all problems can be solved by assigning the proper LDR subrange to the PIP image (i.e. the 0-100 nits luminance subrange, as it would fall into the HDR CombRng, whatever that is), which corresponds to properly decoding it with Rec 709 maxed out at a 100 nits LDR PB, instead of the (relative) display PB of say 3000 nits, and then making those LDR pixels have luminances up to a maximum of 100 nits at the display dynamic range (assuming the CombRng is taken as equal to the available display DR). But as said, while in some situations that may be a good choice, that makes the decision dependent on what the display dynamic range actually is (viewed relatively, it becomes a random relationship). For a very bright sunlit scene, it might happen that next to the maximum LDR PIP of 100 nits, on a 3000 nits display there are adjacent objects with, for example, a luminance of 1500 nits. This makes the PIP rather disappointingly dark, and its colors will look muddy instead of vivid, which is not what the person who paid for the commercial would expect. The same might happen when blending in the dynamic range of the HDR image (Im2_Rng). It will therefore be understood that proper blending is not a trivial thing, i.e. a good framework is needed as in the present invention. Furthermore, having two HDR images, even if the EOTFs were not that different, one would still be unsure how the content creator used that available range, i.e. colorimetrically designed his total system (content production rules, etc.). Even if the P<b>of the two encodings did not differ too much, e.g. 5000 vs.

4000 nit, el creador aún podría haber tomado decisiones significativamente diferentes (por buenas razones, por ejemplo, para hacer que su historia particular con escenas HDR bien diseñadas se vea espectacular, frente a otro creador que hace que un programa de noticias sea fácilmente convertible a otros intervalos dinámicos, por ejemplo, para ver en pantallas portátiles, aunque las imágenes aún deberían tener algo de HDR) sobre, por ejemplo, el intervalo inferior en el que caen los objetos reflectantes de Lambertian, por ejemplo, una escena en interiores. El primer creador puede haber definido los de hasta 300 nits (en el sistema de 4000 nits), mientras que el creador de la segunda imagen puede haber decidido por su escena, por ejemplo, el interior es una estación espacial, que sube a 900 nits (en el sistema de 5000 nits). A veces puede ser tan simple como si te gustan las estaciones espaciales brillantes o inquietantemente oscuras. Incluso si siguieran reglas muy estrictas con respecto a la iluminación o al menos a la representación de las luminancias de las caras, por ejemplo, el 50 % del blanco difusivo (es decir, los 300 o 900 nits), sin las caras de armonización adecuadas en la combinación podrían verse considerablemente, incluso extrañamente, diferentes, posiblemente incluso brillantes. Y lo mismo podría suceder con los muchos otros objetos colorimétricamente críticos que pueden contener las imágenes HDR, por ejemplo, si una piscina parece algo brillante e iluminada desde dentro, o simplemente agua embotada, o cuán oscura debería ser una escena nocturna, o cuán brumoso es un día, o alguien puede incluso preocuparse por las luminancias en un cartel iluminado en la parte delantera de una máquina expendedora de bebidas, especialmente si eso se relaciona con otros objetos en la escena, y la historia y el estado de ánimo comunicados, etc. 4000 nit, the creator might still have made significantly different decisions (for good reasons - e.g. to make their particular story with well-designed HDR scenes look spectacular, versus another creator making a news programme easily convertible to other dynamic ranges - e.g. for viewing on portable displays, though the images would still need to have some HDR) about, say, the lower range that Lambertian reflective objects fall into, e.g. an indoor scene. The first creator might have set those to as low as 300 nits (on the 4000 nit system), while the creator of the second image might have decided for their scene, e.g. the interior is a space station, that it goes up to 900 nits (on the 5000 nit system). Sometimes it can be as simple as whether you like your space stations bright or eerily dark. Even if they followed very strict rules regarding lighting or at least the rendering of face luminances, say 50% diffusive white (i.e. 300 or 900 nits), without the proper harmonizing faces in the mix could look considerably, even oddly, different, possibly even bright. And the same could happen with the many other colorimetrically critical objects that HDR images can contain, say whether a swimming pool looks somewhat bright and lit from within, or just dull water, or how dark a night scene should be, or how foggy a day is, or someone might even care about the luminances on an illuminated sign on the front of a drinks vending machine, especially if that relates to other objects in the scene, and the story and mood communicated, etc.

La Figura 6 ilustra dos posibles ejemplos de la transformación de color al CombRng. Tenemos como imagen de entrada una de las imágenes a combinar, con luminancias de entrada relativas L_in. Como se explicó, el aparato necesita determinar una función de transformación de color (FF_1), que asigna una luminancia de salida L_out_comb en el CombRng a todas las luminancias de entrada posibles. Con esta función, por ejemplo, cargada en una LUT, se puede comenzar a procesar los colores de píxeles entrantes para las imágenes sucesivas. Una primera determinación lineal simple produce la función lineal 601, determinada por los dos parámetros anc_Fc para la luminancia del color de la cara L_SA1Fc en la imagen de entrada, y la constante de contraste multiplicativa C. Esta función puede recortar en el blanco o negro, lo que puede o no ser deseable (de nuevo, dependiendo de cuán simple lo desee la parte decisora, ya sea en última instancia el creador del contenido o el fabricante del aparato). En realizaciones más complejas, podemos mejorar eso. La función de mapeo de luminancia 602 muestra cómo podemos configurar bien los mapeos deseados en función de solo un par de luminancias de anclaje importantes. Eso, en general, aunque no sería mucho más difícil de usar, produciría resultados mucho mejores. Tal vez esta imagen LDR comercial tenía demasiados píxeles brillantes, por ejemplo, en el fondo. Al aplicar reglas de composición fotográfica particulares, se puede optar por fotografiar a la persona principal sobre un fondo más oscuro o más claro, por ejemplo, un fondo gris promedio, o un fondo muy claro o blanco, o potencialmente incluso un fondo oscuro. A menudo, en un vídeo que dependerá de cuál sea el fondo real (por ejemplo, si el vídeo es un reportaje sobre un fotógrafo de moda que va a fotografiar a su modelo contra un fondo blanco, el vídeo lo mostrará hablando delante de las paredes blancas o el fondo que se fotografiará). En los estudios, el fondo puede haber sido diseñado. En un anuncio meteorológico, el meteorólogo puede estar de pie frente a una representación (normalmente virtual, por pantalla verde) de una foto que ha sido enviada por un espectador, un no profesional. O en una película, alguien puede estar sentado frente a una pantalla publicitaria brillante, por ejemplo, una pantalla LED, por alguna razón, etc. Este es otro ejemplo de la necesidad de coordinar, en algún lugar, porque en el pasado se mostraba una foto LDR bien coordinada en un programa meteorológico LDR, pero pronto los espectadores pueden enviar fotos HDR para programas que todavía se producen de manera LDR, o dentro de un par de años alguien puede enviar una foto LDR de muy baja calidad para que se muestre, por lo tanto, mezclada en un programa HDR. En cualquier caso, para la curva 602 supusimos que habría muchos píxeles demasiado brillantes en la imagen LDR para ser PIP-ed. Es posible que no solo necesitemos reducir los valores de salida de la función 602 para algunos blancos, sino también, por ejemplo, comenzar a hacer clips suaves para las luminancias de entrada más brillantes. Entonces, la curva 601 produciría resultados que son demasiado brillantes. El aparato (301) ha hecho esto leyendo tres tipos de luminancia de anclaje de fuente en la imagen de entrada y asignándolos a las luminancias de anclaje respectivas en la imagen de salida de CombRng. A saber, el creador de contenido también ha especificado un buen nivel de referencia para el blanco difusivo, es decir, qué luminancias en su imagen corresponden a objetos reflectantes Lambertianos que son blancos (es decir, con una reflectividad de, por ejemplo, el 90 %) y que están iluminados de manera promedio. El aparato asignará para esta imagen LDR una luminancia anc_DW para los blancos difusivos de la imagen LDR en el CombRng, que es explícitamente inferior a lo que produciría la curva de transformación de luminancia lineal 601. Por lo tanto, el aparato de combinación ahora puede decidir inteligentemente cómo transformar por luminancia dichos píxeles de imagen brillantes, dado lo que haya determinado como necesidades particulares para esos píxeles más brillantes en la imagen de combinación. Se puede especificar un comportamiento apropiado similar en el extremo oscuro, por ejemplo, en este caso para evitar el recorte, especificando a priori en el contenido una luminancia de anclaje negro L_SA1RBk, y determinando en el momento de la combinación una luminancia de anclaje negro adecuada anc_RBk. El aparato puede a continuación, por ejemplo, decidir continuar la función linealmente al negro absoluto (es decir, 0,0) desde este punto anc_RBk, y hacer que ascienda con una pendiente muy pequeña por encima de anc_DW. O puede optimizar los negros para una situación de renderización específica, con el conocimiento de la luminancia de anclaje negro de la fuente L_SA1RBk. Figure 6 illustrates two possible examples of the color transformation to the CombRng. We have as input image one of the images to be combined, with relative input luminances L_in. As explained, the apparatus needs to determine a color transformation function (FF_1), which maps an output luminance L_out_comb in the CombRng to all possible input luminances. With this function, for example, loaded into a LUT, one can start processing the incoming pixel colors for successive images. A first simple linear determination yields the linear function 601, determined by the two parameters anc_Fc for the luminance of the face color L_SA1Fc in the input image, and the multiplicative contrast constant C. This function may clip to black or white, which may or may not be desirable (again, depending on how simple the deciding party, whether ultimately the content creator or the apparatus manufacturer, wants it to be). In more complex embodiments, we can improve on that. The luminance mapping feature 602 shows how we can nicely set up the desired mappings based on just a couple of important anchor luminances. That, in general, while not much harder to use, would produce much better results. Maybe this commercial LDR image had too many bright pixels, for example in the background. By applying particular photographic composition rules, one might choose to photograph the main person against a darker or lighter background, for example an average grey background, or a very light or white background, or potentially even a dark background. Often in a video that will depend on what the actual background is (for example, if the video is a report about a fashion photographer who is going to photograph his model against a white background, the video will show him speaking in front of the white walls or background to be photographed). In studios, the background may have been designed. In a weather announcement, the meteorologist may be standing in front of a representation (usually virtual, by green screen) of a photo that has been sent in by a viewer, a non-professional. Or in a movie someone might be sitting in front of a bright advertising display, e.g. an LED display, for some reason etc. This is another example of the need to coordinate, somewhere, because in the past a well coordinated LDR photo was shown in an LDR weather show, but soon viewers might send in HDR photos for shows that are still produced in an LDR manner, or within a couple of years someone might send in a very low quality LDR photo to be shown, thus, mixed in an HDR show. In any case, for curve 602 we assumed that there would be many pixels that were too bright in the LDR image to be PIP-ed. We might not only need to reduce the output values of function 602 for some whites, but also, for example, start making soft clips for the brightest input luminances. Then curve 601 would produce results that are too bright. The apparatus (301) has done this by reading three types of source anchor luminances in the input image and mapping them to the respective anchor luminances in the CombRng output image. Namely, the content creator has also specified a good reference level for diffusive white, i.e., what luminances in his image correspond to Lambertian reflective objects that are white (i.e., with a reflectivity of, say, 90%) and are averagely illuminated. The apparatus will assign for this LDR image an anc_DW luminance for the diffusive whites of the LDR image in the CombRng, which is explicitly lower than what the linear luminance transformation curve 601 would produce. Thus, the combining apparatus can now intelligently decide how to luminance transform such bright image pixels, given what it has determined to be particular needs for those brighter pixels in the combining image. Similar appropriate behavior can be specified at the dark end, e.g. in this case to avoid clipping, by specifying a priori in the content a black anchor luminance L_SA1RBk, and determining at blending time an appropriate black anchor luminance anc_RBk. The renderer may then, for example, decide to continue the function linearly to absolute black (i.e. 0.0) from this point anc_RBk, and have it rise with a very slight slope above anc_DW. Or it may optimize blacks for a specific rendering situation, with knowledge of the source black anchor luminance L_SA1RBk.

Aclaramos un par de posibles ejemplos más complejos con la Figura 8, a saber, cómo algunos de nuestros aparatos y realizaciones de procedimiento no solo pueden diseñar funciones de múltiples segmentos en función de varias luminancias de anclaje, sino que también determinan la forma de partes de la curva de transformación de luminancia (FF) en función del comportamiento de reclasificación como se especifica en las funciones de transformaciones de color (F2_L y, si están disponibles, F1_L) según se comunican conjuntamente con la imagen desde el lado de creación en metadatos. We clarify a couple of more complex possible examples with Figure 8, namely how some of our apparatus and method embodiments can not only design multi-segment functions based on various anchor luminances, but also determine the shape of portions of the luminance transformation (FF) curve based on the reclassification behavior as specified in the color transformation functions (F2_L and, if available, F1_L) as jointly communicated to the image from the authoring side in metadata.

Podemos suponer que la función (FF) que determina entre las tres luminancias de anclaje ocurre de nuevo como antes (por interpolación lineal o no lineal), pero que el aparato va a determinar el comportamiento de transformación de luminancia de la función de transformación de luminancia avanzada 810 en la Figura 8B en función del conocimiento obtenido sobre la gradación por el creador de contenido a partir de los metadatos recibidos (F2_L). F2_L es ahora la transformación de luminancia (para la segunda imagen, pero lo mismo puede entenderse para todas las demás imágenes que se combinarán en la imagen de salida de combinación) de la segunda imagen, desde su intervalo dinámico nativo (DR1) a otro intervalo dinámico preespecificado (DR2), es decir, las luminancias de entrada L_DR1_im2 están relacionadas con las luminancias de salida L_DR2_im2, que es otro aspecto de intervalo dinámico para esa misma escena HDR fotografiada). Podemos ver en el gráfico que hay una parte principal (entre anc_DW y anc_RBk), que está bien representada (se representará) con luminancias suficientemente brillantes y contrastantes (para la situación de combinación), pero que los negros (por debajo de L_SA1RBk) se pueden descartar fácilmente al menos para algunos aspectos correspondientes a algunos intervalos dinámicos, porque la función cae rápidamente a cero, y clips. Es decir, en este ejemplo no habrá objetos muy importantes en este subintervalo de las luminancias más oscuras. El aparato puede usar esto para determinar su función apropiada 810, por ejemplo, eliminando rápidamente la función para estos negros oscuros, y puede decidir esto en función de la oscuridad o el contraste que desea que sea la combinación, o al menos la segunda parte de la imagen en esa imagen de combinación (por ejemplo, en función de la cantidad de píxeles con luminancia por debajo de L_SA1RBk que hay en esa segunda imagen, o después de la combinación apropiada, por ejemplo, escalado, en la imagen de salida Im_o, etc.). Es decir, el aparato de combinación analiza el comportamiento de reclasificación de la codificación de dos imágenes clasificadas recibidas (es decir, cómo se manejan las luminancias de píxeles más oscuras cuando se reclasifica de una imagen clasificada PB_C maestra, por ejemplo, de 5000 nits, a una clasificación de SDR de 100 nits, en esa parte de la forma de la función de mapeo de luminancia recibida), y determina una forma parcial que es similar en cierto grado. We can assume that the function (FF) determining between the three anchor luminances happens again as before (by linear or non-linear interpolation), but that the apparatus is going to determine the luminance transformation behavior of the advanced luminance transformation function 810 in Figure 8B based on the knowledge obtained about the gradation by the content creator from the received metadata (F2_L). F2_L is now the luminance transformation (for the second image, but the same can be understood for all other images to be combined into the combination output image) of the second image, from its native dynamic range (DR1) to another pre-specified dynamic range (DR2), i.e. the input luminances L_DR1_im2 are related to the output luminances L_DR2_im2, which is another dynamic range aspect for that same photographed HDR scene. We can see from the graph that there is a main part (between anc_DW and anc_RBk), which is well represented (will be represented) with sufficiently bright and contrasty luminances (for the blending situation), but that blacks (below L_SA1RBk) can be easily discarded at least for some aspects corresponding to some dynamic ranges, because the function quickly drops to zero, and clips. That is, in this example there will be no very important objects in this sub-range of the darkest luminances. The apparatus can use this to determine its appropriate function 810, e.g. by quickly dropping the function for these dark blacks, and it can decide this based on how dark or contrasty you want the blend, or at least the second part of the image in that blending image to be (e.g. based on how many pixels with luminance below L_SA1RBk there are in that second image, or after appropriate blending, e.g. scaling, in the output image Im_o, etc.). That is, the combining apparatus analyzes the reclassification behavior of two received classified images' encoding (i.e., how darker pixel luminances are handled when reclassifying from a master PB_C classified image of, say, 5000 nits, to a SDR classified of 100 nits, in that part of the received luminance mapping function shape), and determines a partial shape that is similar to some degree.

También hemos ilustrado una posibilidad para los píxeles más brillantes. La discontinuidad en la curva F2_E indica que claramente hay dos regiones, por ejemplo, los objetos Lambertianos en la escena interior y los colores brillantes que representan lámparas (o situaciones similares). Especialmente si tenemos lámparas, eso significa que podemos asignar más libremente sus luminancias finales, dependiendo, entre otras cosas, del intervalo dinámico que tengamos disponible en la pantalla MDR y/o el CombRng. Por lo tanto, el aparato puede determinar un nivel promedio apropiado L_RefB para esas luminancias de píxeles y finalizar la forma de curva 810 como tal. La Figura 8<a>muestra cómo la función de mapeo de luminancia recibida F2_L para mapear entre las gradaciones HDR y SDR maestras como se ve recibida, con la forma y el comportamiento de la función parcial brillante (802) y parcial oscura (801) correspondientes. We have also illustrated a possibility for the brightest pixels. The discontinuity in the F2_E curve indicates that there are clearly two regions, e.g. the Lambertian objects in the indoor scene and the bright colors representing lamps (or similar situations). Especially if we have lamps, that means we can more freely assign their final luminances, depending among other things on the dynamic range we have available in the MDR display and/or the CombRng. Thus, the apparatus can determine an appropriate average level L_RefB for those pixel luminances and finalize the curve shape 810 as such. Figure 8<a>shows how the received luminance mapping function F2_L is used to map between the master HDR and SDR gradations as seen received, with the corresponding partial bright (802) and partial dark (801) function shape and behavior.

El lector experto entiende que las diversas realizaciones de la presente serán aplicables en muchos sistemas y a muchos escenarios de combinación, y con los diversos componentes en diversas combinaciones, pero aclaramos algunas posibilidades adicionales ejemplares con dos Figuras. The skilled reader understands that the various embodiments herein will be applicable in many systems and to many combination scenarios, and with the various components in various combinations, but we clarify some additional exemplary possibilities with two Figures.

La Figura 9 muestra un ejemplo de un sistema de producción de televisión. Esta puede ser una producción de estudio multicámara (primera cámara 901 y segunda cámara 902), y parte del contenido en vivo puede venir de la ubicación, etc. También puede ser una producción de campo, con una furgoneta OB, etc. El director técnico debe mezclar las transmisiones de la cámara y otros vídeos, algunos de los cuales pueden ser HDR y algunos LDR, por ejemplo, y los vídeos HDR pueden, por supuesto, contrastar con los vídeos LDR que son de un solo tipo (el estándar único universal Rec. 709 que existía), o pueden ser de varios tipos y características. Quiere determinar la combinación óptima, en un aparato de determinación de combinación 903, que puede residir en una sala de control de producción. Aunque determina una combinación, mostramos en este ejemplo que esta combinación no necesariamente debe dar como resultado una Im_o definida de manera fija (más bien, el director técnico solo necesita determinar una combinación adecuada, pero los detalles de esa combinación pueden comunicarse de varias maneras a varios sitios receptores más adelante en la tubería de comunicación de vídeo, con los receptores incluso pueden querer volver a determinar la combinación en una diferente, por ejemplo, ligeramente diferente de la preferida por el director técnico; es decir, la combinación puede comunicarse como imagen y función aproximadas y otros metadatos, antes de la combinación). En ese caso, se puede comunicar una señal de imagen 910 con metadatos, que comprende las dos imágenes (por ejemplo, con funciones de escala para determinar la combinación PIP decidida), y con las transformaciones de color CombRng, anc y posiblemente también FF_1 y FF_2 determinadas para mapear las imágenes al CombRng, de modo que cualquier receptor (por ejemplo, un receptor de transmisión 904, en algún nodo intermedio, tal como, por ejemplo, en una sala de control de transmisión) pueda aplicar realmente la combinación final. Para permitir la posible redeterminación (de al menos uno de CombRng, anc, FF_1 o FF_2), el lado de producción también puede transmitir metadatos adicionales en el vídeo, por ejemplo, si contiene muchas escenas brillantes, que necesitan un brillo adicional de 3x por encima del brillo promedio de la película (es decir, así es como desean que este contenido se mapee por luminancia en el CombRng final), detalles con respecto a las luminancias de objetos o regiones, o información semántica, como, por ejemplo, el intervalo de luminancia y/o la ubicación del cielo, etc. Figure 9 shows an example of a television production system. This may be a multi-camera studio production (first camera 901 and second camera 902), and some of the live content may come from location, etc. It may also be a field production, with an OB van, etc. The technical director must mix the camera feeds and other video, some of which may be HDR and some LDR, for example, and the HDR videos may of course be contrasted with the LDR videos which are of only one type (the single universal Rec. 709 standard that existed), or they may be of various types and characteristics. He wants to determine the optimal mix, in a mix determining apparatus 903, which may reside in a production control room. Although it determines a combination, we show in this example that this combination need not necessarily result in a fixedly defined Im_o (rather, the technical director need only determine a suitable combination, but the details of that combination may be communicated in various ways to various receiver sites further down the video communication pipeline, with the receivers even wanting to re-determine the combination into a different one, e.g. slightly different from the one preferred by the technical director; i.e., the combination may be communicated as approximate image and function and other metadata, prior to the combination). In that case, an image signal 910 may be communicated with metadata, comprising the two images (e.g., with scaling functions to determine the decided PIP combination), and with the color transformations CombRng, anc, and possibly also FF_1 and FF_2 determined to map the images to the CombRng, so that any receiver (e.g., a broadcast receiver 904, at some intermediate node, such as, for example, in a broadcast control room) may actually apply the final combination. To allow for possible redetermination (of at least one of CombRng, anc, FF_1 or FF_2), the production side may also pass along additional metadata in the video, for example if it contains a lot of bright scenes, which need an additional 3x brightness above the average brightness of the film (i.e. this is how they want this content to be luminance mapped in the final CombRng), details regarding the luminances of objects or regions, or semantic information such as e.g. the luminance range and/or sky location, etc.

La Figura 10 muestra otra posible realización, a saber, un aparato de combinación intermedio (1001). Esto puede ser, por ejemplo, en una sala de control de transmisión de un proveedor por cable o similar. Puede obtener la(s) imagen(es) de la producción principal (como se crea en la Figura 9 y se comunica(n) como imágenes finales o imágenes iniciales con metadatos suficientes para combinarlas adecuadamente según el director), es decir, Im_Prod y, por ejemplo, un feed comercial local ImLocComm. El aparato de combinación intermedio (1001) también puede realizar potencialmente una transformación de intervalo dinámico, por ejemplo, para convertir un Im_Prod de 5000 nits en imágenes de salida codificadas con PB=3000 nits, que pueden ser más adecuadas para el propósito, por ejemplo, la distribución adicional sobre algún sistema de comunicación de vídeo preestablecido. Esto último es, por supuesto, más interesante si el aparato 1001 emite dos flujos de imágenes separados para mezclarse más tarde, pero en este ejemplo, donde asumimos que se genera un flujo de imágenes adecuado final (solo para ser sintonizado por los receptores finales), que normalmente ya tendrá un LMC diferente de 5000 nit. Figure 10 shows another possible embodiment, namely an intermediate combining apparatus (1001). This may be, for example, in a broadcast control room of a cable provider or the like. It may obtain the main production image(s) (as created in Figure 9 and communicated as final images or initial images with sufficient metadata to combine them appropriately according to the director), i.e. Im_Prod and, for example, a local commercial feed ImLocComm. The intermediate combining apparatus (1001) may also potentially perform a dynamic range transformation, for example, to convert a 5000 nit Im_Prod into output images encoded with PB=3000 nits, which may be more suitable for the purpose, for example, further distribution over some pre-established video communication system. The latter is of course more interesting if the 1001 apparatus outputs two separate image streams to be mixed later, but in this example, where we assume that a final suitable image stream is generated (only to be tuned by the final receivers), which will typically already have a different LMC of 5000 nit.

El lector también puede entender cómo de similarmente un sistema del lado del consumidor puede combinar imágenes o vídeos HDR, por ejemplo, una película junto con imágenes recibidas a través de un ordenador, y combinadas en un IC de un decodificador, ordenador personal, etc., o cómo se puede usar el mismo en salas de videoconferencia, etc. La imagen de la Figura 3 puede ir a un televisor, una de las imágenes puede recibirse en un disco Blu-Ray a través de un reproductor BD, etc. The reader can also understand how similarly a consumer-side system can combine HDR images or videos, for example a movie together with images received via a computer, and combined in an IC of a set-top box, personal computer, etc., or how the same can be used in video conferencing rooms, etc. The image in Figure 3 can go to a TV, one of the images can be received on a Blu-Ray disc via a BD player, etc.

Las Figuras 11y12 ofrecen un par de posibilidades para determinar el CombRng. El eje de luminancia se ha dado en conjuntos Log _base2, porque esto da una mejor correlación con la luminosidad visual humana y las impresiones de brillo de las imágenes si se renderizan. Los algoritmos para determinar las diversas luminancias de píxeles también pueden formularse ventajosamente en dicha representación logarítmica, en realidad algunas de nuestras realizaciones de codificación de vídeo preferidas también funcionan en dichas representaciones de luminancia perceptualmente uniformadas. En estas realizaciones, el aparato ya ha determinado un buen valor para anc_FC. Por ejemplo, el aparato supone que el valor LDR de aproximadamente 30 nits será un buen valor, también para representaciones<h>D<r>. El aparato analizará ahora la situación de distribución de luminancia de las dos imágenes, combinada con los detalles de la combinación, para llegar a buenas opciones para LMC y LmiC. El aparato tendrá reglas para esto, que pueden seleccionarse y variarse, por ejemplo, mediante la configuración de control del espectador. Los dos primeros ejemplos son donde una imagen de intervalo dinámico más alto (I m2, mostrada con la línea más gruesa) es la imagen principal, y una imagen de intervalo dinámico más bajo (no necesariamente SDR) Im1 es un PIP, por ejemplo, ocupando U del área (que es uno de los parámetros de control que puede indicar el dominio visual de objetos o regiones del Im1 en comparación con los objetos en la escena de Im2. En estos ejemplos, el aparato querrá que domine el aspecto del HDR Im2, por lo que determinará el CombRng y la colocación de Im2 en él primero, y como guía, y luego colocará Im1 de manera armonizada en él. En estas realizaciones, los colores de cara ya se han asignado al color de cara final óptimo anc_FC, por lo que la pregunta restante es sobre la asignación del resto de las luminancias. Esto estará influenciado tanto por las extremidades de CombRng como por las funciones de transformación de color que surgen de las mismas para ajustar de manera coordinada la luminancia en las otras luminancias, y la variabilidad permitida para cambiar la forma de esas funciones según lo requiera el impacto del brillo. En la Figura 11A, el HDR I m2 tiene un histograma que ya se ajusta bien a una escena típica con una cara cuando se representa alrededor de anc_FC, es decir, la cara en Im2 normalmente está iluminada. Vemos desde la larga cola hasta los negros que hay áreas oscuras en la escena, por ejemplo, esta puede ser una habitación sin luz en algún lugar detrás del actor. Podría ser que algunos de los colores de los píxeles no fueran visibles en algunas representaciones porque son indiscriminadamente oscuros, pero al menos están codificados y calculados por el aparato, de modo que cualquier aparato de representación final (por ejemplo, un televisor que sintoniza su intervalo MDR y el procesamiento de brillo específico del proveedor de las regiones más oscuras) puede usar estos datos de manera apropiada. Vemos además que hay un modo de luminancia brillante HiLaIm2, que puede corresponder, por ejemplo, a una lámpara, en la que nos gustaría ver alguna estructura idealmente (por ejemplo, cómo se refleja la lámpara en su luminaria de metal). La imagen a ser PIP-ed, Im1, tiene una característica con un pico de alto conteo de píxeles HiModIm1 cerca del blanco (las luminancias más brillantes en ese código). Esto puede deberse a que la persona (que también tiene un área razonablemente grande, como se puede ver en el modo cerca de anc_FC, donde un color de cara típico debería estar en imágenes típicamente iluminadas) está de pie frente a una pantalla grande y brillante, por ejemplo, una caja de luz, que está cerca del blanco o incluso recortada al máximo de blanco potencialmente. Este pico tiene una gran probabilidad de ser demasiado brillante e inquietante en la combinación. Sin embargo, en este primer ejemplo, debido a que los colores de la cara están en ambas imágenes en posiciones normales, y ya hay una cantidad razonablemente grande de colores más brillantes en la imagen HDR (tanto el modo de objetos iluminados de forma difusa, por ejemplo, debajo del conjunto principal de lámparas, como algunos resaltados HLaIm2 que son 100 veces más brillantes que la cara), se puede poner el HiModIm1 en su posición normal (es decir, el mismo número de paradas por encima del anclaje en el CombRng que se codifica en el Im1 cuando se decodifica en una representación de luminancia lineal, que también es en este ejemplo un valor decodificado normal de alrededor de 100 nit porque la luminancia de la cara está en su posición LDR normal), porque habrá una luminancia normal que también se podría ver en Im2, es decir, no será demasiado inarmónica. Esto también significa que los reflejos de Im2 se pueden mantener en sus posiciones normales (porque no se necesita volver a emparejar o volver a coordinar, ya que todos los colores emparejados encajan en el perfil de distribución de luminancia de la imagen HDR actual, que tiene sus reflejos donde están para esta imagen), es decir, el aparato puede seleccionar LMC para que sea el límite superior del modo de luminancia HiLaIm2, o el brillo máximo del intervalo HDR Im2 en caso de que no tenga luminancias de hasta PB. Eso no es necesariamente así, pero puede ser una opción razonable si no se conocen más detalles, por ejemplo, con respecto al uso típico más adelante en la línea de la cadena de manejo de imágenes HDR). En la Figura 11B tenemos una situación similar (la misma Im1 es PIP-ed), pero ahora la Im2 tiene un histograma diferente (por ejemplo, una toma posterior de la película). Aquí las caras deben representarse (es decir, si se representaron por sí solas sin ninguna combinación con otro contenido de imagen) relativamente oscuras, por ejemplo, a 4 nit. Podría ser, por ejemplo, que una persona esté de pie en las sombras. En este ejemplo, el aparato no quiere hacer que las caras en el PIP sean tan oscuras, pero aun así quiere una oscuridad más coordinada para las caras de Im1 también. El aparato decidió tomar una configuración de Anc_FC una parada por encima de la luminancia de las caras de la imagen HDR, es decir, 8 nits, y renderizar las caras Im2 una parada por debajo de Anc_FC (ya que deberían conservar su aspecto oscuro, para mantener la intención artística de esta escena de la película), y (dependiendo, entre otras cosas, del tamaño del PIP) renderizar en CombRng las caras de la parada Im1 1 comercial de LDR por encima de Anc_FC (todavía claramente una parte de la imagen más brillante, pero no demasiado brillante). Al mantener las relaciones de todas las luminancias de los objetos en Im1 (el mapeo lineal a través de la luminancia de anclaje anc_FC), esto ya reduciría la luminancia de la región grande HiModIm1 a menos de 60 nit en lugar de alrededor de 100. Aun así, cuando el aparato juzga el impacto del brillo (que puede juzgar puramente sobre las luminancias, por ejemplo, calculando un contraste CHL entre algún color de referencia de una parte u objeto importante de Im2, por ejemplo, el color de la cara Anc_FC, y esta luminancia HiModIm1, o también mediante análisis espacial, por ejemplo, pesando un área resaltada más grande y más cercana de Im1 como un contraste más serio con el importante, por ejemplo, área central de Im2), aún puede considerar que el área brillante grande de Im1 es demasiado brillante en comparación con el aspecto bastante oscuro de la mayoría de Im2. Por lo tanto, puede decidir reducir la luminancia de este modo HiModIm1 en 1 parada, llevándolo a 30 nits, lo que no debería distraer demasiado para un pequeño PIP en la esquina superior derecha. Como se muestra anteriormente, el aparato puede hacerlo de varias maneras, por ejemplo, reduciendo el factor de contraste C para la transformación de luminancia a CombRng por encima de anc_FC, o alguna función no lineal que se puede calcular en función de alguna posición máxima deseada LAMX para los píxeles más brillantes posibles en Im1, potencialmente determinada además por el posicionamiento de alguna luminancia de anclaje blanco difuso, etc. Téngase en cuenta también que el aparato en esta realización también ha realizado algún procesamiento de armonización en el subintervalo de luminancia negra. Debido a que los negros de la imagen HDR son muy profundos (y se puede suponer que varias pantallas pueden renderizar esto, al menos cuando el algoritmo se aplica antes de la optimización de la pantalla, si se ejecuta con una pantalla conectada, o incluso en la pantalla, por supuesto, el aparato puede tener en cuenta lo que la pantalla puede renderizar realmente con suficiente calidad visual, es decir, visibilidad), el aparato también puede profundizar los negros de Im1, para hacer que ambos conjuntos de negros sean más armoniosos. Puede hacerlo extendiendo, por ejemplo, todas las luminancias por debajo de lo que se codificó para Im1 como LA_Bk (algún delimitador negro), por ejemplo, estirando el contraste local en 2x. Se puede ver en la Figura 11B que en este ejemplo el mantenimiento de las regiones más brillantes de la imagen HDR aún puede ser útil, es decir, la LMC se determina nuevamente al valor máximo necesario para la representación fiel de Im2 en pantallas que pueden hacerlo, porque el problema estaba principalmente en la coordinación de Im1 en una subregión de luminancia que es mucho más profunda. Téngase en cuenta que el aparato ha elegido en este ejemplo limitar LmiC algo por encima de los colores más oscuros en Im2, por ejemplo, X se detiene por debajo de anc_FC, porque juzga que los colores que son demasiado oscuros serán ignorados por el espectador en la combinación de todos modos. El mapeo de transformaciones de color a CombRng puede tener esto en cuenta y aclarar los colores más oscuros para llevarlos dentro de CombRng. Figures 11 and 12 offer a couple of possibilities for determining the CombRng. The luminance axis has been given in Log_base2 sets, because this gives a better correlation with human visual luminance and brightness impressions of the images if rendered. The algorithms for determining the various pixel luminances can also advantageously be formulated in such a logarithmic representation, indeed some of our preferred video coding embodiments also work on such perceptually uniform luminance representations. In these embodiments, the apparatus has already determined a good value for anc_FC. For example, the apparatus assumes that the LDR value of about 30 nits will be a good value, also for <h>D<r> representations. The apparatus will now analyze the luminance distribution situation of the two images, combined with the details of the combination, to arrive at good choices for LMC and LmiC. The device will have rules for this, which can be selected and varied, for example, by the viewer control settings. The first two examples are where a higher dynamic range image (Im2, shown with the thicker line) is the main image, and a lower dynamic range image (not necessarily SDR) Im1 is a PIP, for example, occupying U of area (which is one of the control parameters that can indicate the visual dominance of objects or regions of the Im1 compared to the objects in the scene of Im2. In these examples, the apparatus will want the HDR aspect of Im2 to dominate, so it will determine the CombRng and the placement of Im2 on it first, and as a guide, and then place Im1 in a harmonized manner on it. In these embodiments, the face colors have already been assigned to the optimal final face color anc_FC, so the remaining question is about the assignment of the rest of the luminances. This will be influenced by both the extremities of CombRng and the color transformation functions arising from them to coordinately adjust the luminance on the other luminances, and the variability allowed to change the shape of those functions as required by the impact of brightness. In Figure 11A, the HDR I m2 has a histogram that already fits well to a typical scene with a face when rendered around anc_FC, i.e. the face in Im2 is normally illuminated. We see from the long tail to the blacks that there are dark areas in the scene, for example this may be an unlit room somewhere behind the actor. It could be that some of the pixel colors were not visible in some renderings because they are indiscriminately dark, but at least they are encoded and calculated by the apparatus, so that any final rendering apparatus (e.g. a TV tuning its MDR interval and vendor-specific brightness processing of the darkest regions) can use this data appropriately. We further see that there is a bright luminance mode HiLaIm2, which may correspond to for example a lamp, in which we would ideally like to see some structure (e.g. how the lamp is reflected in its metal fixture). The image to be PIP-ed, Im1, has a feature with a high pixel count peak HiModIm1 near white (the brightest luminances in that code). This may be because the person (who also has a reasonably large area, as can be seen from the near mode anc_FC, where a typical face color should be in typically brightly lit images) is standing in front of a large, bright screen, e.g. a light box, which is near white or even clipped to maximum white potentially. This peak has a high chance of being too bright and disturbing in the combination. However, in this first example, because the face colors are in both images in normal positions, and there is already a reasonably large amount of brighter colors in the HDR image (both the diffusely lit object mode, e.g. below the main set of lamps, and some HLaIm2 highlights which are 100x brighter than the face), one can put the HiModIm1 in its normal position (i.e. the same number of stops above the anchor in the CombRng as is encoded in the Im1 when decoded to a linear luminance representation, which is also in this example a normal decoded value of around 100 nit because the face luminance is in its normal LDR position), because there will be some normal luminance which could also be seen in Im2, i.e. it will not be too inharmonious. This also means that the Im2 highlights can be kept in their normal positions (because no re-matching or re-coordinating is needed, as all matched colors fit the luminance distribution profile of the current HDR image, which has its highlights where they are for this image), i.e. the set can select LMC to be the upper limit of the HiLaIm2 luminance mode, or the maximum brightness of the HDR Im2 range in case it has no luminances up to PB. That is not necessarily so, but it can be a reasonable choice if no further details are known, e.g. regarding typical usage further down the line in the HDR image handling chain). In Figure 11B we have a similar situation (the same Im1 is PIP-ed), but now the Im2 has a different histogram (e.g. a later shot from the movie). Here faces should be rendered (i.e. if they were rendered on their own without any combination with other image content) relatively dark, e.g. at 4 nit. It could be for example that a person is standing in the shadows. In this example the fixture doesn't want to make the faces in the PIP that dark, but still wants a more coordinated darkness for the faces in Im1 as well. The fixture decided to take an Anc_FC setting one stop above the luminance of the faces in the HDR image, i.e. 8 nits, and render the Im2 faces one stop below Anc_FC (since they should retain their dark look, to maintain the artistic intent of this movie scene), and (depending on among other things the size of the PIP) render in CombRng the faces in the LDR commercial Im1 1 stop above Anc_FC (still clearly a brighter part of the image, but not too bright). By keeping the ratios of all object luminances in Im1 (the linear mapping via the anchor luminance anc_FC) this would already reduce the luminance of the large region HiModIm1 to less than 60 nit instead of around 100. Still, when the apparatus judges the impact of brightness (which it can judge purely on luminances, e.g. by calculating a CHL contrast between some reference color of an important part or object of Im2, e.g. the face color Anc_FC, and this HiModIm1 luminance, or also by spatial analysis, e.g. by weighing a larger, closer highlighted area of Im1 as a more serious contrast to the important, e.g. central area of Im2), it may still consider the large bright area of Im1 to be too bright compared to the rather dark look of most of Im2. So you might decide to reduce the luminance in this HiModIm1 mode by 1 stop, bringing it to 30 nits, which shouldn't be too distracting for a small PIP in the top right corner. As shown above, the apparatus can do this in a number of ways, for example by reducing the contrast factor C for the luminance transformation to CombRng above anc_FC, or some non-linear function that can be calculated based on some desired maximum LAMX position for the brightest possible pixels in Im1, potentially further determined by the positioning of some diffuse white anchor luminance, etc. Note also that the apparatus in this embodiment has also performed some harmonization processing on the black luminance subrange. Because the blacks of the HDR image are very deep (and one can assume that several displays can render this, at least when the algorithm is applied before display optimization - if running with a display connected, or even on-screen of course the apparatus can take into account what the display can actually render with sufficient visual quality, i.e. visibility), the apparatus can also deepen the blacks of Im1, to make both sets of blacks more harmonious. It can do this by stretching for example all luminances below what was encoded for Im1 as LA_Bk (some black delimiter), e.g. by stretching the local contrast by 2x. It can be seen in Figure 11B that in this example keeping the brightest regions of the HDR image can still be useful, i.e. the LMC is again determined to the maximum value needed for faithful rendering of Im2 on displays that can do so, because the problem was mainly in coordinating Im1 in a luminance subregion that is much deeper. Note that the apparatus has chosen in this example to limit LmiC somewhat above the darkest colors in Im2, i.e. X stops below anc_FC, because it judges that colors that are too dark will be ignored by the viewer in the blend anyway. Mapping color transformations to CombRng can take this into account and lighten the darker colors to bring them into CombRng.

La Figura 12A da un ejemplo en el que Im1 (es decir, en nuestra simple aclaración, el comercial) se convierte en la imagen dominante. Tal vez los espectadores no quieran que su película se vuelva pequeña cuando comiencen los comerciales, pero el PIP podría ser, por ejemplo, un segundo canal para ver, o incluso contener los cambios de película Im2 inicialmente vistos a un PIP pequeño si algo importante comienza en un segundo canal que el espectador también le gustaría ver (por ejemplo, esta imagen de Im1 corresponde al inicio de las noticias que el espectador no quiere perderse porque se espera una noticia importante). Ahora supongamos que Im1 es una imagen SDR, pero alguien (por ejemplo, el creador del contenido, digamos un comercial, puede haber especificado el siguiente desiderátum en los metadatos "renderizar la luminancia más brillante a 500 nit, en pantallas de PB de al menos 1000 nit", o el espectador puede haber elegido alguna configuración de usuario, que indica cuán dinámico o conservador quiere ver los brillos de su contenido, incluso si SDR) lo ha especificado para que se renderice en intervalos dinámicos más altos como muy brillante, ya que hay espacio para eso en pantallas más brillantes. Entonces, si se decodifica normalmente según Rec. 709 obtendríamos el histograma Im1Nat, pero en realidad, obtendremos en el CombRng que se renderizará el histograma Imladj con valores para Im1 en la combinación de hasta 500 nit (al menos cuando el desiderátum del creador de contenido SDR sea seguido completamente por el aparato de combinación, porque, por ejemplo, se establece en un modo de visualización de contenido gratuito, pagado por los propietarios comerciales). La Figura 12A proporciona a continuación una realización de cálculo en la que, por ejemplo, un espectador más joven ha configurado su sistema en modo dinámico. Para poder contrastar espectacularmente con la gran área brillante proveniente de Im1, el aparato necesita establecer (al menos en este intermedio que especifica CombRng, cualquier ajuste de visualización que le pueda suceder) las lámparas brillantes a, por ejemplo, 8000 nit, es decir, necesita establecer LMC a 8000 nit (incluso cuando era, por ejemplo, 4000 nit en la decodificación Im2 original). La Figura 12b es una realización que contrasta con la primera posibilidad porque el espectador ha configurado su sistema como conservador (porque no le gusta ver imágenes demasiado brillantes). Ahora bien, esa es otra consideración de armonización, donde el brillo del contenido de SDR es principal, y lo suficientemente brillante, por lo que el lector ve que este es un resultado muy diferente de la derivación del LMC del CombRng. Debido a que ya hay tantos píxeles de Im1 que son muy brillantes, lo que contribuye a un alto brillo general juzgado o experimentado de la imagen combinada Im_o, el aparato puede desear reducir las luminancias del modo HDR brillante HiLaIm2 y, en consecuencia, LMC a 2000 nit solamente (a pesar de que la película fue, por ejemplo, de clasificación maestra en una pantalla de clasificación PB_D de 10,000, y se comunicó como imágenes HDR<p>B_C de 5000 nit, por ejemplo, con una asignación de luma EOTF SMPTE 2084). Aunque ahora hay menos contraste entre las lámparas más brillantes de la imagen HDR y la gran región brillante de la Im1 (2 paradas en lugar de 5 o más), es decir, la película HDR perderá parte de su impacto cuando aparezca el PIP, al menos la imagen general no es demasiado brillante. El espectador puede desear esta forma de combinación. Figure 12A gives an example where Im1 (i.e. in our simple clarification, the commercial) becomes the dominant image. Perhaps viewers do not want their movie to become small when the commercials start, but the PIP could be, for example, a second channel to watch, or even containing the initially watched movie Im2 changes to a small PIP if something important starts on a second channel that the viewer would also like to watch (e.g. this image of Im1 corresponds to the start of the news that the viewer does not want to miss because an important news item is expected). Now suppose Im1 is an SDR image, but someone (e.g. the content creator, say a commercial, may have specified the following desideratum in the metadata "render brightest luminance at 500 nit, on PB displays of at least 1000 nit", or the viewer may have chosen some user setting, indicating how dynamic or conservative they want to view the brightnesses of their content, even if SDR) has specified it to be rendered at higher dynamic ranges like very bright, since there is room for that on brighter displays. So if decoded normally according to Rec. 709 we would get the histogram Im1Nat, but in reality, we will get in the CombRng to be rendered the histogram Imladj with values for Im1 in the combination up to 500 nit (at least when the desideratum of the SDR content creator is fully followed by the combination apparatus, because for example it is set to a display mode for free content, paid for by commercial owners). Figure 12A below provides a calculation realization where for example a younger viewer has set his system to dynamic mode. In order to be able to contrast spectacularly with the large bright area coming from Im1, the apparatus needs to set (at least in this interim specifying CombRng, whatever display setting may happen to it) the bright lamps to for example 8000 nit, i.e. it needs to set LMC to 8000 nit (even when it was for example 4000 nit in the original Im2 decoding). Figure 12b is a contrasting realization to the first possibility because the viewer has set his system to conservative (because he doesn't like to see overly bright images). Now that's another harmonization consideration, where the brightness of the SDR content is primary, and bright enough, so the reader sees that this is a very different result from the CombRng's LMC derivation. Because there are already so many pixels of Im1 that are very bright, contributing to the overall high judged or experienced brightness of the combined image Im_o, the set may wish to reduce the luminances of the HiLaIm2 bright HDR mode and consequently LMC to 2000 nit only (even though the movie was, say, master-rated on a 10,000 PB_D rated screen, and communicated as 5000 nit HDR<p>B_C images, say, with an SMPTE EOTF 2084 luma assignment). Although there is now less contrast between the brightest lamps in the HDR image and the large bright region of the Im1 (2 stops instead of 5 or more), meaning the HDR movie will lose some of its impact when the PIP appears, at least the overall image is not too bright. The viewer may wish for this form of blending.

Además, si el intervalo CombRng se especifica antes de anc_FC, el aparato puede observar diversos aspectos de las luminancias de los píxeles y objetos en ambas imágenes, por ejemplo, especificar una o más luminancias típicas correspondientes. Por ejemplo, puede observar un porcentaje de píxeles en ambas imágenes k veces por encima del gris medio, o por encima de 1 vez por debajo de la luminancia máxima de las imágenes decodificadas, y decidir a partir de estos valores en ambas imágenes cuáles serían los buenos valores para varias luminancias típicas, la luminancia máxima posible en la combinación LMC al menos para empezar. Si una realización del aparato utiliza un valor típico de las luminancias de objeto más brillantes para cada imagen, puede determinar cómo se relacionarían cuando se mapean en CombRng, es decir, por ejemplo, qué contraste de luminancia tendrían, y proponer un contraste más armonizado. Por supuesto, otros valores, como los valores representativos del gris medio de la mayoría de los colores de la escena (el gris medio puede tener una reflectancia real del 10 % en alguna iluminación típica de la escena, pero también se puede usar para indicar, por ejemplo, un modo, valor mayoritario o promedio, etc. de los píxeles en la imagen), puede ayudar a determinar cuáles serán los diversos contrastes interregionales en la imagen combinada, por ejemplo, las partes más brillantes de Im2 frente a la parte gris media de Im1, etc., y eligió relaciones armoniosas entre ellas. Por ejemplo, algunas realizaciones de aparatos pueden configurarse para elegir siempre algunos valores de contraste típicos, con las regiones brillantes, oscuras y promedio asignadas a algunas subregiones de luminancia típicas de CombRng (que por supuesto pueden diferir dependiendo de si LMC es de 1000 nits, 2000 nits, 5000 nits o 10000 nits aproximadamente), y esos valores pueden desviarse (por ejemplo, mapear k paradas más altas en CombRng) cuando se detecta algún tipo de imagen característica, por ejemplo, escena nocturna, programa de noticias bien iluminado, noche en la naturaleza, etc. Al determinar un buen valor de ANC para, por ejemplo, una buena cara o brillo gris (o regiones de luz brillante), el aparato puede medir en qué entorno de visualización está sentado el espectador. Por ejemplo, la cámara orientada hacia adelante en un televisor puede resumir las características de brillo del entorno en uno o más valores de caracterización, que se pueden usar en ecuaciones para escalar el valor de anc_FC, etc. (por ejemplo, 1 o más paradas hacia arriba o hacia abajo), y los contrastes necesarios para otras luminancias en comparación con la(s) luminancia(s) de anclaje, etc. Por ejemplo, la cámara puede ver que el espectador (por detección de rostros) está sentado en un autobús bajo cierta iluminación local, y puede determinar una segunda región que son las paredes y otros objetos detrás, generalmente peor iluminados. Si un solo valor de brillo del entorno caracterizador tiene que ser derivado por una realización, el brillo de las paredes circundantes se valorará más alto en el cálculo (por ejemplo, a *surround_average_L+b*local_spot_average_L), porque la iluminación local generalmente vendrá desde arriba e influirá en menos experiencia del entorno en el que se encuentra el espectador (por ejemplo, lo que el cerebro establece como un negro profundo en ese entorno, del que la pantalla solo forma parte). A partir de estas diversas aclaraciones, ahora debe quedar claro para el lector que en las diversas realizaciones, puede haber diversas formas de llegar a la totalidad de CombRng, una o más luminancias y formas de función de mapeo de luminancia, y de hecho, al final, una imagen de salida armoniosa para cada situación. Furthermore, if the CombRng range is specified before anc_FC, the apparatus can look at various aspects of the pixel and object luminances in both images, e.g. specify one or more corresponding typical luminances. For example, it can look at a percentage of pixels in both images k times above middle gray, or above 1 times below the maximum luminance of the decoded images, and decide from these values in both images what would be good values for various typical luminances, the maximum possible luminance in the LMC combination at least to begin with. If an embodiment of the apparatus uses a typical value of the brightest object luminances for each image, it can determine how they would relate when mapped to CombRng, i.e. for example what luminance contrast they would have, and propose a more harmonized contrast. Of course, other values, such as representative middle gray values of most of the colors in the scene (middle gray may have a true reflectance of 10% in some typical scene illumination, but can also be used to indicate, for example, a mode, majority or average value, etc. of the pixels in the image), can help determine what the various interregional contrasts will be in the combined image, e.g. the brightest parts of Im2 versus the middle gray part of Im1, etc., and choose harmonious relationships between them. For example, some apparatus embodiments may be configured to always choose some typical contrast values, with the bright, dark, and average regions mapped to some typical luminance subregions of CombRng (which may of course differ depending on whether LMC is 1000 nits, 2000 nits, 5000 nits, or 10000 nits or so), and those values may be biased (e.g., mapped k stops higher in CombRng) when some kind of characteristic image is detected, e.g., night scene, well-lit news show, night in nature, etc. By determining a good ANC value for, say, a good face or gray brightness (or bright light regions), the apparatus may measure what viewing environment the viewer is sitting in. For example, the forward-facing camera in a TV may summarize the brightness characteristics of the environment into one or more characterization values, which may be used in equations to scale the anc_FC value, etc. (e.g. 1 or more stops up or down), and the contrasts needed for other luminances compared to the anchor luminance(s), etc. For example, the camera may see that the viewer (by face detection) is sitting on a bus under some local illumination, and may determine a second region to be the walls and other objects behind, generally worse illuminated. If a single brightness value of the characterizing environment has to be derived by a realization, the brightness of the surrounding walls will be valued higher in the calculation (e.g. a*surround_average_L+b*local_spot_average_L), because the local illumination will generally come from above, and will influence less of the viewer's experience of the environment (e.g. what the brain establishes as deep black in that environment, which the screen is only a part of). From these various clarifications, it should now be clear to the reader that in the various embodiments, there may be various ways of arriving at the totality of CombRng, one or more luminances and forms of luminance mapping function, and indeed, in the end, a harmonious output image for each situation.

La Figura 18 muestra simplemente algunas posibilidades típicas genéricas de elucidación de determinadas funciones de transformación de color FF que se aplicarán a las luminancias de al menos una de las imágenes o partes de la imagen que se mezclarán (o algunas o todas ellas tienen sus respectivas funciones FF_x), y a partir de estos ejemplos el lector puede imaginar otras posibilidades siguiendo los conceptos generales de nuestras invenciones y sus diversas realizaciones. Por ejemplo, la Figura 18a muestra dos maneras simples de determinar una función FF_1 compuesta de dos partes (en este ejemplo, que termina en los puntos finales exactos del intervalo, que se pueden desviar en otros escenarios). En caso de que la luminancia del resultado de salida (LF1_o) de aplicar la función a una luminancia de la imagen de entrada que es igual al anclaje de fuente (L_SA1) tenga que ser exactamente igual a anc, obtenemos de este programa interno del aparato la función dibujada. En caso de que la luminancia de salida LT2_v pueda caer en una vecindad, se puede determinar una función de dos segmentos algo diferente similar FF que atraviesa el punto con el valor Y anc/k, donde k es, por ejemplo, 1.5, 2, 3 o 4. Figure 18 simply shows some typical generic possibilities of elucidating certain color transformation functions FF to be applied to the luminances of at least one of the images or parts of the image to be blended (or some or all of them having their respective FF_x functions), and from these examples the reader can imagine other possibilities following the general concepts of our inventions and their various embodiments. For example, Figure 18a shows two simple ways of determining a function FF_1 composed of two parts (in this example, ending at the exact endpoints of the interval, which can be deviated in other scenarios). In case the luminance of the output result (LF1_o) of applying the function to an input image luminance equal to the source anchor (L_SA1) has to be exactly equal to anc, we obtain from this internal program of the apparatus the drawn function. In case the output luminance LT2_v can fall in a neighborhood, a somewhat different two-segment function similar to FF can be determined passing through the point with the value Y anc/k, where k is, for example, 1.5, 2, 3 or 4.

La Figura 18B muestra que se pueden diseñar funciones de forma compleja alrededor de esto, por ejemplo, anclaje gris medio normalmente/débilmente iluminado, con, por ejemplo, una curva en S para los negros. El aparato de combinación puede proponer dicha parte de función de mapeo de luminancia, por ejemplo, observando típicamente las funciones de luminancia de reclasificación (por ejemplo, la función de clasificación fina) que se ha comunicado de acuerdo con nuestros principios de codificación para obtener una de las imágenes de intervalo dinámico de la otra, realmente recibida. Si el aparato de combinación ve un comportamiento de tipo S para los negros, puede entender que parece haber una región de objetos importantes en el medio de los negros, que debe tener un buen contraste fuerte, mientras que los negros más profundos parecen ser en gran medida ignorables, porque la función muestra que pueden ser casi recortados al negro mínimo (0, o lo que sea Min-Black). Por lo tanto, las realizaciones de un programa de combinación algo más inteligente seguirán este comportamiento en su forma FF determinada, pero ahora la función se vuelve a configurar porque el mapeo no va entre el intervalo maestro de luminancias HDR de 5000 nits y un intervalo SDR de 100 nits, sino por decir un CombRng de 500 nits (por lo que habrá una necesidad de transformar un poco el negro, de acuerdo con necesidades similares de asegurarse principalmente de que los medios se representen mejor, pero será algo diferente). De manera similar, para la parte de función para los brillos, el aparato de combinación puede decidir seguir las especificaciones de forma correspondientes a los subintervalos críticos de luminancia de objetos de imagen en un grado más preciso o menor. La Figura 18c muestra un ejemplo en el que el aparato de combinación controla el contraste C de algún "intervalo medio" de la imagen SDR, por ejemplo, para combinarse, y también en este ejemplo el aparato decidió no estirar la parte superior de la función Ff hasta el máximo del CombRng (de la imagen de salida Im Cmb), como en la realización que podría resultar en una representación de píxeles SDR demasiado brillante (el lector debe entender que los histogramas de luminancia de imagen HDR generalmente tienen lóbulos muy extendidos, con el lóbulo de las luminancias más brillantes, por ejemplo, que solo contiene 20x5 píxeles de 20 pequeños parches especulares, mientras que la imagen SDR contiene histogramas estrechamente agrupados, con muchas luminancias alrededor del máximo PB_C= 100 nit, por ejemplo, incluso regiones de imagen potencialmente grandes de escenografía exterior recortada a blanca, y ciertamente en una película HDR relativamente más tenue u oscura, esas regiones de píxeles combinados no deben ser tan brillantes como PB_Comb = 2000 nit, para no destruir el placer de ver películas). Debe apreciarse que en los días anteriores las realizaciones de aparatos de combinación pueden tener solo un par de tales reglas preprogramadas sensatas en su software o hardware, pero las realizaciones adicionales en el futuro podrían hacer análisis complicados, para llegar a combinaciones de imágenes finalmente equilibradas. Por lo tanto, se pueden diseñar varias realizaciones diferentes del sistema en torno a ese aparato central que maneja la mezcla correcta de imagen o vídeo, por ejemplo, para permitir que un humano pueda especificar, mucho antes de que la mezcla (a menudo desconocida) ocurra realmente, de una manera elegante y no demasiado engorrosa, lo que su contenido necesita, seleccionando un buen valor de la luminancia de anclaje de su contenido. Pueden ocurrir varias realizaciones en el aparato mezclador, por ejemplo, cuando el aparato usa el mismo tipo de anclaje (aunque algunos aparatos también podrían decidir usar un tipo de anclaje diferente y convertir el mapeo armonizado de las dos imágenes de sus tipos de anclaje en las luminancias disponibles del intervalo dinámico de mezcla). El lector experto puede entender que, en la práctica, la primera situación puede incorporarse, por ejemplo, en un aparato de mezcla que funciona en una especie de modo esclavo, verificando que al menos el vídeo principal, por ejemplo, definió cuál era su luminancia crítica de anclaje facial, luego establece cuál sería una buena luminancia facial en el intervalo dinámico de mezcla (por ejemplo, ya teniendo en cuenta las características de renderización finales), y luego transforma la luminancia de la segunda imagen (incluso si no contiene una cara), para estar en armonía con esa luminancia de la cara importante en la primera imagen (es decir, cómo se representó en el intervalo dinámico de combinación). Un ejemplo de la segunda estrategia, en la que el aparato de mezcla está liderando, podría ser, por ejemplo, si el usuario está mirando fotos en la televisión y ha establecido alguna referencia para eso (definiendo una luminancia de anclaje como un valor único representativo para el brillo general típico al que las representaciones fotográficas deben (aproximadamente) cumplir; y típicamente también un intervalo dinámico de presentación, por ejemplo, ha definido un intervalo dinámico de combinación no demasiado brillante (visualización suave) ya con la luminancia de las fotos mapeada en ese intervalo, antes de que entren otros datos de imagen y se mezclen armoniosamente, y también puede haber especificado que las fotos actualmente usan principalmente la mitad de ese intervalo, es decir, todos nuestros píxeles tienen luminancias por debajo de PB_Comb_PhotView/2, aunque hay algo de espacio en el intervalo dinámico de combinación para píxeles más brillantes, si el contenido secundario lo desea). La mezcla del contenido de la imagen secundaria (el contenido primario son las fotos en las que ya se están mapeando bajo un mapeo de luminancia determinado) ocurrirá a continuación por el aparato mirando el valor de anclaje en el contenido (que puede ser diferente del tipo de anclaje de la visualización de fotos, pero mediante un cálculo de fórmula del aparato de mezcla estará relacionado con él, por ejemplo, anc_face_inmix = 1.3*anc_photviewapplic), y el intervalo dinámico de combinación de visualización de fotos establecido con luminancias entre, por ejemplo, 0 o k nit y PB_Comb_PhotView. Es muy útil tener un sistema genérico de mezcla de contenido de imágenes HDR único (apto para todas las situaciones) que pueda manejar varias situaciones, y la determinación en varias especies dependerá de lo que sea óptimo para la situación y de lo que ya conozca el aparato en cualquier momento. Figure 18B shows that complex shaped functions can be designed around this, e.g. normally/weakly illuminated middle gray anchor, with e.g. an S-curve for blacks. The combining apparatus can propose such a luminance mapping function part, e.g. by typically looking at the re-grading luminance functions (e.g. the fine-grading function) that has been communicated according to our coding principles to get one of the dynamic range images from the other, actually received one. If the combining apparatus sees S-type behavior for blacks, it can understand that there appears to be a region of important objects in the middle of the blacks, which should have good strong contrast, while the deeper blacks appear to be largely ignorable, because the function shows that they can be nearly clipped to the minimum black (0, or whatever Min-Black is). So somewhat smarter combining program implementations will follow this behavior in their given FF form, but now the function is reconfigured because the mapping is not between the 5000 nit HDR master luminance range and a 100 nit SDR range, but to say a 500 nit CombRng (so there will be a need to transform black a bit, according to similar needs of mainly making sure mids are rendered better, but it will be a different thing). Similarly, for the function part for highlights, the combining apparatus may decide to follow the shape specifications corresponding to the critical luminance subranges of image objects to a more or less precise degree. Figure 18c shows an example where the combining apparatus controls the contrast C of some "middle range" of the SDR image, e.g. to be combined, and also in this example the apparatus decided not to stretch the top of the Ff function all the way to the maximum of the CombRng (of the output image Im Cmb), as in realization that could result in too bright SDR pixel representation (the reader should understand that HDR image luminance histograms typically have very spread out lobes, with the lobe of the brightest luminances, e.g., containing only 20x5 pixels of 20 small specular patches, while the SDR image contains tightly clustered histograms, with many luminances around the maximum PB_C=100 nit, e.g., even potentially large image regions of outdoor scenery clipped to white, and certainly in a relatively dimmer or darker HDR film, those regions of combined pixels should not be as bright as PB_Comb= 2000 nit, so as not to destroy the pleasure of watching movies). It should be appreciated that in the earlier days embodiments of blending apparatus may have only a couple of such sensible pre-programmed rules in their software or hardware, but further embodiments in the future could do complicated analysis, to arrive at finally balanced image blends. Thus, several different embodiments of the system can be designed around that central apparatus that handles the correct image or video blending, for example to allow a human to specify, long before the (often unknown) blending actually happens, in an elegant and not too cumbersome way, what his content needs, by selecting a good value of the anchor luminance of his content. Several embodiments can occur in the blending apparatus, for example when the apparatus uses the same anchor type (although some apparatus might also decide to use a different anchor type and convert the harmonized mapping of the two images from their anchor types into the available luminances of the blending dynamic range). The skilled reader can understand that in practice the first situation can be incorporated, for example, in a mixing apparatus operating in a sort of slave mode, by checking that at least the main video, for example, defined what was its critical face anchor luminance, then establishing what would be a good face luminance in the blending dynamic range (e.g. already taking into account the final rendering characteristics), and then transforming the luminance of the second image (even if it does not contain a face), to be in harmony with that luminance of the important face in the first image (i.e. how it was rendered in the blending dynamic range). An example of the second strategy, where the blending apparatus is leading, could be for example if the user is looking at photos on TV and you have set some reference for that (by defining an anchor luminance as a single representative value for the typical overall brightness that photo representations should (approximately) conform to; and typically also a presentation dynamic range - e.g. you have defined a not too bright blending dynamic range (soft display) already with the photos' luminance mapped into that range, before other image data comes in and is harmoniously blended - and you may have also specified that the photos currently use mostly half of that range, i.e. all our pixels have luminances below PB_Comb_PhotView/2, although there is some room in the blending dynamic range for brighter pixels, if secondary content wants it). Blending of secondary image content (primary content being photos already being mapped under a given luminance mapping) will next happen by the appliance looking at the anchor value in the content (which can be different from the photo view's anchor type, but by a blending appliance formula calculation will be related to it, e.g. anc_face_inmix = 1.3*anc_photviewapplic), and the photo view's blending dynamic range set with luminances between e.g. 0 or k nit and PB_Comb_PhotView. It is very useful to have a single (suitable for all situations) generic HDR image content blending system that can handle multiple situations, and the determination across multiple species will depend on what is optimal for the situation and what is already known by the appliance at any given time.

Por ejemplo, en caso de que aún no se conozca el sistema de renderizado final, lo mejor que puede hacer un mezclador cuando necesita armonizar los dos contenidos de la imagen es al menos ver cómo se mezclan mejor (por ejemplo, si una de las imágenes tiene excesivamente más (tal vez grandes) regiones de alto brillo, que deben atenuarse para disfrutar del otro contenido de la imagen). En ese caso, es posible que la etapa de optimización de la pantalla final (por ejemplo, en el televisor de un consumidor) aún deba realizar una optimización más compleja, teniendo en cuenta las imágenes ya indicadas como la forma en que deben mezclarse (genéricamente) de manera óptima. Sin embargo, en realizaciones en las que el entorno de representación ya se conoce, y en particular cuando tiene fuertes deseos, el mezclador puede equilibrarse más hacia el aspecto final (es decir, las necesidades de calidad visual del Combrng determinado por la visualización de un factor grande, y por ejemplo, sacrificar algo de la representación única perfecta de una de las imágenes, haciendo un mapeo diferente). En caso de que las capacidades de representación sean de importancia primordial en la determinación del CombRng, típicamente se utilizarán al menos algunas consideraciones típicas con respecto a las propiedades esperadas de, por ejemplo, imágenes HDR (por ejemplo, las reglas del software del aparato de combinación que determinan que probablemente la mayor parte de una imagen HDR típica "genérica" residiría (+-) por debajo de, por ejemplo, 500 nits, y los objetos brillantes deben ser renderizables si se asignan para ser visualizadas luminancias de, por ejemplo, hasta 1500 nits. Si una pantalla, por ejemplo, solo tiene una capacidad de solo PB_D=1000 nits, eso correspondería a una representación errónea no óptima de imágenes HDR de buena calidad (es decir, explosiones brillantes de, por ejemplo, 1400 nits serían demasiado tenues). En tal situación, aunque el PB_D real de la pantalla disponible puede tener un gran impacto en la determinación del PB_C del CombRng para mezclar el contenido de la imagen antes de la representación, el aparato de combinación aún podría decidir determinar que el PB del CombRng es algo superior a 1000 nits (y aplicar un ajuste de pantalla final de la imagen mezclada para asignarla al intervalo de representación de la pantalla), por ejemplo, 15 % más alto, es decir, 1150 nits. Por supuesto, idealmente en las mejores realizaciones, la optimización del CombRng, y también un punto anterior adecuado en ese intervalo dinámico de combinación, tendrá en cuenta, y equilibrará, todos los factores conocidos (es decir, de las necesidades de representación de contenido ideales, y todos los requisitos prácticos y limitaciones de la fase de mezcla de imágenes HDR actual). Una determinación óptima de un punto puede mirar típicamente lo que está disponible (posible) después de haber definido previamente el CombRng óptimo (pero como se enseña, pueden estar involucrados varios otros factores, tales como, por ejemplo, qué tipo de contenido contienen semánticamente las imágenes, y en algunas realizaciones posiblemente incluso lo que el espectador final espera para dicho contenido de imagen, etc.). Por lo tanto, varias realizaciones pueden establecer el ANC de varias maneras, abarcando desde una configuración fija en el aparato que (lo que se especifique como tipos de anclaje de imagen de origen) siempre relacionará todo con luminancias de cara adecuadas, sobre un sistema que tiene varias opciones de tipo ANC y elige la más cercana a lo que se determinó en al menos una de las imágenes de origen que se combinarán (es decir, una luminancia ANC en el CombRng del mismo tipo que se indica en al menos una de las imágenes que se combinarán, como por ejemplo, buen color de cara, pero en el CombRng, es decir, óptimo para la situación de combinación, que debe entenderse es diferente que para representar cada imagen por sí sola), es decir, típicamente la imagen principal, a una determinación sobre la marcha del aparato de lo que sería un valor ANC sensible dado todos los detalles fiscales de la situación (distribución de luminancia de píxeles de contenido y capacidades de visualización, por ejemplo), etc. El último tipo de realización es bueno si, por ejemplo, un color de cara tiene que determinarse de manera óptima dadas limitaciones de representación específicas, como, por ejemplo, cuán oscura puede mostrar la pantalla objetos oscuros, por encima de los cuales debería caer la luminancia de la cara, lo que puede ser especialmente crítico para caras en regiones oscuras de las imágenes de origen. Por lo tanto, para que quede claro, algunas realizaciones del aparato pueden funcionar determinando algún valor de ANC (por ejemplo, una buena luminancia promedio), aunque las dos imágenes entrantes actualmente se pueden definir con luminancias de ANC del tipo color de cara, porque genéricamente lo único que se necesita para hacer que el aparato funcione es que puedan ser relacionadas por el aparato (es decir, que la luminancia de cara típica en una imagen de entrada se pueda mapear en las proximidades del valor de ANC de "tipo promedio" del CombRng, porque el aparato juzga que se obtendrían imágenes suficientemente buenas si las caras son, por ejemplo, un 50 % más brillantes que el valor de ANC bien utilizable establecido de forma particular, en primer lugar e independiente. Por lo tanto, los tipos de ANC de la imagen de origen y CombRng deben estar relacionados o ser identificables. Un ANC puede resumir de manera óptima y elegante todas las complejidades colorimétricas de una imagen, y en muchas situaciones solo se necesitaría un punto de coordinación para la combinación de todos modos. Para completar, debe ser obvio que un valor anc en un intervalo dinámico significa que no es ninguna de las luminancias de punto final, sino más bien información adicional a eso. En cuanto al establecimiento de un intervalo dinámico de luminancia, el lector experto puede entender cómo eso puede implicar determinar una luminancia superior, y para las realizaciones que no toman sistemáticamente la luminancia más baja como nit cero, también establecer una luminancia más baja, de nuevo dependiente de las necesidades equilibradas de los factores conocidos, tales como la cantidad de contenido de imagen relevante en las regiones más oscuras de la imagen, la capacidad del sistema de representación para mostrar colores oscuros, etc. For example, in case the final rendering system is not yet known, the best a mixer can do when it needs to harmonize the two image contents is to at least see how they are best blended (e.g. if one of the images has excessively more (perhaps large) high brightness regions, which need to be dimmed in order to enjoy the other image content). In that case, the final display optimization stage (e.g. on a consumer TV) may still need to perform more complex optimization, taking into account the already stated images as how they should be (generically) optimally blended. However, in embodiments where the rendering environment is already known, and in particular when it has strong desires, the mixer may balance more towards the final look (i.e. the visual quality needs of the Combrng determined by the display by a large factor, and e.g. sacrifice some of the perfect single representation of one of the images, by doing a different mapping). In case rendering capabilities are of primary importance in determining the CombRng, typically at least some typical considerations will be used regarding the expected properties of, say, HDR images (e.g. the rules of the combining apparatus software determining that likely most of a typical "generic" HDR image would reside (+-) below, say, 500 nits, and bright objects should be renderable if assigned to be displayed at luminances of, say, up to 1500 nits. If a display, for example, is only capable of only PB_D=1000 nits, that would correspond to non-optimal misrendering of good quality HDR images (i.e. bright bursts of, say, 1400 nits would be too dim). In such a situation, although the actual PB_D of the available display may have a large impact on determining the CombRng's PB_C for blending the image content prior to rendering, the blending apparatus might still decide to determine that the PB of the CombRng is somewhat higher than 1000 nits (and apply a final display adjustment of the blended image to map it to the display's rendering range), e.g. 15% higher, i.e. 1150 nits. Of course, ideally in best embodiments, the optimization of the CombRng, and also a suitable prior point in that blending dynamic range, will take into account, and balance, all known factors (i.e., ideal content rendering needs, and all practical requirements and constraints of the current HDR image blending phase). An optimal determination of a point may typically look at what is available (possible) after the optimal CombRng has been previously defined (but as taught, various other factors may be involved, such as, for example, what type of content the images semantically contain, and in some embodiments possibly even what the end viewer expects for such image content, etc.). Thus, various embodiments may set the ANC in various ways, ranging from a fixed setting in the apparatus that (whatever is specified as source image anchor types) will always relate everything to suitable face luminances, over a system that has several ANC type options and chooses the one closest to what was determined in at least one of the source images to be combined (i.e., an ANC luminance in the CombRng of the same type as indicated in at least one of the images to be combined, such as good face color, but in the CombRng, i.e., optimal for the combining situation, which should be understood to be different than for representing each image on its own), i.e., typically the main image, to an on-the-fly determination by the apparatus of what would be a sensible ANC value given all the fiscal details of the situation (content pixel luminance distribution and display capabilities, for example), etc. The latter type of implementation is good if, for example, a face color has to be optimally determined given specific rendering constraints, such as how dark the display can render dark objects, above which the luminance of the face should fall, which can be especially critical for faces in dark regions of the source images. Thus, to be clear, some embodiments of the apparatus may operate by determining some ANC value (e.g. a good average luminance), although the two incoming images may currently be defined with face-color type ANC luminances, because generically all that is needed to make the apparatus work is that they can be related by the apparatus (i.e. that the typical face luminance in an input image can be mapped into the vicinity of the "average type" ANC value of the CombRng, because the apparatus judges that sufficiently good images would be obtained if the faces are, say, 50% brighter than the particular, first and independently set good usable ANC value. Thus, the ANC types of the source image and CombRng must be related or identifiable. An ANC can optimally and elegantly summarize all the colorimetric complexities of an image, and in many situations only one coordination point would be needed for the combination anyway. For completeness, it should be obvious that an anc value in a dynamic range means not any of the endpoint luminances, but rather additional information to that. As for setting a dynamic range of luminance, the skilled reader can understand how that may involve setting an upper luminance, and for implementations that do not systematically take the lowest luminance as nit zero, also setting a lower luminance, again dependent on the balanced needs of known factors such as the amount of relevant image content in the darker regions of the image, the ability of the display system to display dark colors, etc.

Los componentes algorítmicos descritos en este texto pueden (total o parcialmente) realizarse en la práctica como hardware (por ejemplo, partes de un IC específico de la solicitud) o como software que se ejecuta en un procesador de señales digitales especial, o un procesador genérico, etc. The algorithmic components described in this text may (wholly or partially) be implemented in practice as hardware (e.g. parts of an application-specific IC) or as software running on a special digital signal processor, or a generic processor, etc.

Debe ser comprensible para el experto a partir de nuestra presentación qué componentes pueden ser mejoras opcionales y se pueden realizar en combinación con otros componentes, y cómo las etapas (opcionales) de los procedimientos corresponden a los respectivos medios de los aparatos, y viceversa. La palabra "aparato" en esta solicitud se usa en su sentido más amplio, a saber, un grupo de medios que permiten la realización de un objetivo particular y, por lo tanto, puede ser, por ejemplo, (una pequeña parte de circuito de) un IC, o un aparato dedicado (como un aparato con una pantalla), o parte de un sistema en red, etc. "Disposición" también está destinada a ser utilizada en el sentido más amplio, por lo que puede comprender, entre otros, un solo aparato, una parte de un aparato, una colección de (partes de) aparatos cooperantes, etc. It should be understandable to the skilled person from our presentation which components may be optional enhancements and may be realized in combination with other components, and how (optional) steps of methods correspond to the respective means of the apparatuses, and vice versa. The word "apparatus" in this application is used in its broadest sense, namely a group of means allowing the realization of a particular objective, and may therefore be, for example, (a small circuit part of) an IC, or a dedicated apparatus (such as an apparatus with a display), or part of a networked system, etc. "Arrangement" is also intended to be used in the broadest sense, so it may comprise, inter alia, a single apparatus, a part of an apparatus, a collection of (parts of) cooperating apparatuses, etc.

Debe entenderse que la denotación de producto de programa informático abarca cualquier realización física de una colección de comandos que permita a un procesador genérico o de propósito especial, después de una serie de etapas de carga (que pueden incluir etapas de conversión intermedias, como la traducción a un lenguaje intermedio y un lenguaje de procesador final) introducir los comandos en el procesador y ejecutar cualquiera de las funciones características de una invención. En particular, el producto de programa de ordenador puede realizarse como datos en un soporte tal como, por ejemplo, un disco o cinta, datos presentes en una memoria, datos que viajan a través de una conexión de red, por cable o inalámbrica, o código de programa en papel. Además del código de programa, los datos característicos requeridos para el programa también pueden incorporarse como un producto de programa informático. It should be understood that the denotation of computer program product encompasses any physical embodiment of a collection of commands that enables a generic or special-purpose processor, after a series of loading steps (which may include intermediate conversion steps, such as translation to an intermediate language and a final processor language) to input the commands to the processor and perform any of the functions characteristic of an invention. In particular, the computer program product may be embodied as data on a medium such as, for example, a disk or tape, data present in a memory, data traveling over a network, wired or wireless connection, or program code on paper. In addition to program code, the characteristic data required for the program may also be embodied as a computer program product.

Es posible que algunas de las etapas necesarias para el funcionamiento del procedimiento ya estén presentes en la funcionalidad del procesador en lugar de estar descritos en el producto de programa informático, como los etapas de entrada y salida de datos. Some of the steps required for the operation of the procedure may already be present in the processor functionality rather than being described in the computer program product, such as data input and output steps.

Cabe señalar que las realizaciones mencionadas anteriormente ilustran la invención en lugar de limitarla. Cuando el experto en la materia puede realizar fácilmente un mapeo de los ejemplos presentados a otras regiones de las reivindicaciones, para mayor concisión no hemos mencionado todas estas opciones en profundidad. Aparte de las combinaciones de elementos de la invención como se combinan en las reivindicaciones, son posibles otras combinaciones de los elementos. Cualquier combinación de elementos se puede realizar en un solo elemento dedicado. It should be noted that the above-mentioned embodiments illustrate the invention rather than limit it. Whereas the skilled person can easily map the presented examples to other regions of the claims, for the sake of conciseness we have not mentioned all these options in depth. Apart from the combinations of elements of the invention as combined in the claims, other combinations of the elements are possible. Any combination of elements can be realized in a single dedicated element.

Cualquier signo de referencia entre paréntesis en la reivindicación no pretende limitar la reivindicación. La palabra "que comprende" no excluye la presencia de elementos o aspectos no enumerados en una reivindicación. El artículo “un” o “una” que precede a un elemento no excluye la presencia de una pluralidad de dichos elementos. Any parenthetical reference sign in the claim is not intended to limit the claim. The word "comprising" does not exclude the presence of elements or aspects not listed in a claim. The word "a" or "an" preceding an element does not exclude the presence of a plurality of such elements.

Claims

1. An apparatus (301) for combining two images or two videos of images (Im_HDR, Im_LDR) from different sources and with different maximum luminance, one of them being a high dynamic range image or video, the apparatus comprising:

- a dynamic range setting assembly (302) arranged to set a combination luminance dynamic range (CombRng), which is characterized by at least one maximum luminance (LMC) that is determined based on the maximum luminances of the two images or the two image videos, the dynamic range setting assembly further comprising a luminance anchor determining assembly (303), arranged to determine an anchor luminance (anc) in the combination luminance dynamic range (CombRng);

- a colour transformation assembly (310), arranged to perform at least one luminance transformation on at least one of the two images or videos, where the colour transformation assembly (310) comprises a source anchor luminance readout assembly (311) arranged to read at least one source anchor luminance (L_SA1) from metadata of a first source (350) delivering a first image or video (Im1_LDR) of the two images or videos,

and where the color transformation set is arranged to establish a luminance transformation (FF_1) to be applied to the first image or video that produces a first output image having first output luminances, which luminance transformation depends on the value of the source anchor luminance (L_SA1) by having the property that the source anchor luminance (L_SA1) is mapped to an output luminance in the vicinity of the anchor luminance (anc); and

- an image combining assembly (320) arranged to combine output luminances of the first output image with luminances of the other of the two images or two image videos to form at least one combined output image (Im_o).

2. An apparatus according to claim 1, wherein the color transformation assembly (310) is arranged to determine the luminance transformation (FF_1) such that an output luminance (LF1_o), which is determined as a result of applying the luminance transformation (FF_1) to an input luminance of a pixel color of the first image or video (Im1_LDR) that is equal to the at least one source anchor luminance (L_SA1), is equal to the anchor luminance (anc).

3. An apparatus according to claim 2, wherein the colour transformation assembly (310) is arranged to determine the luminance transformation (FF_1) such that a luminance ratio of a second output luminance (LT2_o), which is determined as a result of applying the luminance transformation (FF_1) to a second input luminance (LT1_i), divided by the output luminance (LF1_o) is a multiplicative constant (C) times a ratio of the second input luminance (LT1_i) divided by the source anchor luminance (L_SA1).

4. An apparatus according to one of the preceding claims, wherein the colour transformation assembly (310) comprises an offset determining assembly (312) arranged to determine on the basis of the at least one source anchor luminance (L_SA1) a luminance shift (d_anc), and wherein the colour transformation assembly is arranged to determine the luminance transformation (FF_1) such that an output luminance (LF1_o), which is determined as a result of applying the luminance transformation (FF_1) to an input luminance of a pixel colour of the first image or video (Im1_LDR) which is equal to the at least one source anchor luminance (L_SA1), is equal to the anchor luminance (anc) plus the luminance shift (d_anc).

5. An apparatus according to claim 4, wherein the colour transformation assembly (310) is arranged to read at least one second source anchor luminance (L_S2A1) obtained from a second source (351) outputting a second image or video (Im_HDR) of the two images or videos, and wherein the offset determining assembly (312) is arranged to determine the luminance shift (d_anc) also as a function of the at least one second source anchor luminance (L_S2A1).

6. An apparatus according to one of the preceding claims, wherein the colour transformation set is arranged to establish a luminance transformation (FF_1) to be applied to the first image or video also in dependence on first luminance remapping functions (F1_L), wherein these first luminance remapping functions (F1_L) specify a change in the luminance distribution of objects in the first image or video (Im1_LDR) to map that first image or video from the dynamic range associated with the encoding of the first image or video to a dynamic range with a maximum brightness that differs from the maximum brightness of the dynamic range associated with the encoding by at least a multiplicative factor 2;

either

wherein the color transformation set is arranged to establish a luminance transformation (FF_2) to be applied to the second image or video also based on the second luminance remapping functions (F2_L), wherein these second luminance remapping functions (F2_L) specify a change in the luminance distribution of the objects in the second image or video (Im2_HDR) to map that second image or video from the dynamic range associated with the encoding of the second image or video to a dynamic range with a maximum brightness that differs by at least a multiplicative factor 2 from the maximum brightness of the dynamic range associated with the encoding of the second image.

7. An apparatus according to one of the preceding claims, wherein the dynamic range setting assembly (302) is arranged to set the dynamic range of combination luminance (CombRng) depending on the luminances present in the two video images.

8. An apparatus according to claim 7, wherein the dynamic range setting assembly (302) is arranged to set the dynamic range of combination luminance (CombRng) further depending on a maximum brightness of a display on which the at least one combined output image (Im_o) is to be displayed, and preferably also on a brightness characteristic of a viewing environment.

9. An apparatus according to one of the preceding claims, wherein the luminance anchor determining assembly (303) is arranged to determine the anchor luminance (anc) depending on at least one of: the combined luminance dynamic range (CombRng), luminances in at least one of the two images or videos, a maximum brightness of a display on which the at least one combined output image is to be displayed (Im_o), and a brightness characteristic of a viewing environment.

10. A method for combining two images or two videos of images (Im_HDR, Im_LDR) from different sources and with different maximum luminance, one of them being a high dynamic range image or video, the method comprising:

- establishing a dynamic range of combination luminance (CombRng), characterized by at least one maximum luminance (LMC) that is determined based on the maximum luminances of the two images or the two image videos, the establishment further comprising determining an anchor luminance (anc) in the dynamic range of combination luminance (CombRng);

- applying a luminance transformation (FF_1) on at least one of the two images or videos producing a first output image having first output luminances, which luminance transformation is set based on a value of a source anchor luminance (L_SA1) read from metadata of a first source (350) delivering a first image or video (Im1_LDR) of the two images or videos, the luminance transformation having the property that the source anchor luminance (L_SA1) is mapped to an output luminance in the vicinity of the anchor luminance (anc); and

- combine the output luminances of the first output image with the luminances of the other of the two images or two image videos to form at least one combined output image (Im_o).

11. A method for combining two images according to claim 10, wherein the luminance transformation (FF_1) is determined such that an output luminance (LF1_o), which is determined as a result of applying the luminance transformation (FF_1) to an input luminance of a pixel color of the first image or video (Im1_LDR) that is equal to the at least one source anchor luminance (L_SA1), is equal to the anchor luminance (anc), or equal to the anchor luminance (anc) plus a determined difference (d_anc).

12. A method for combining two images according to one of the preceding method claims, wherein the luminance transformation (FF_1) is determined such that a luminance ratio of a second output luminance (LT2_o), which is determined as a result of applying the luminance transformation (FF_1) to a second input luminance (LT1_i), divided by the output luminance (LF1_o) is a multiplicative constant (C) times a ratio of the second input luminance (LT1_i) divided by the source anchor luminance (L_SA1).

13. A method for combining two images according to one of the preceding method claims, wherein a luminance transformation (FF_2) of the second image or video of images is determined based on at least a second source anchor luminance (L_S2A1) obtained from a second source (351) providing a second image or video (Im1_HDR) of the two images or videos.

14. A method for combining two images according to one of the preceding method claims, wherein at least one of the luminance transformations (FF_1, FF_2) to be applied to the respective one of the at least two images or videos is determined at least in part as a function of at least one received luminance mapping function (F1_L, F2_L) which received luminance mapping function indicates how the respective image is to be transformed from the dynamic range for which it is encoded, to a dynamic range having a maximum brightness which is at least twice as large or small as the maximum brightness of the dynamic range for which the respective image is encoded.

15. A method for combining two images according to one of the preceding method claims, wherein at least one of the combination of the dynamic range of luminance (CombRng) and the anchor luminance (anc) is further determined based on at least one factor from the set: a property dependent on the luminance distribution of objects in at least one of the two images, information summarizing the luminance characteristics of at least one of the two images, the dynamic range of a display on which the at least one combined output image is to be displayed (Im_o), and a brightness measure for a viewing environment in which the combined output image is to be viewed.