FR2974434A1

FR2974434A1 - Prediction de la valeur esthetique d'une image

Info

Publication number: FR2974434A1
Application number: FR1253434A
Authority: FR
Inventors: Luca Marchesotti; Gabriela Csurka; Florent Perronnin
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2011-04-19
Filing date: 2012-04-13
Publication date: 2012-10-26
Also published as: US20120269425A1; US8594385B2

Abstract

Un système et un procédé pour déterminer la qualité esthétique (20) d'une image (12) sont décrits. Le procédé comprend l'extraction d'un ensemble de caractéristiques locales (14) de l'image (12), telles que des caractéristiques de gradient et/ou de couleur, et la génération d'une représentation d'image (16) qui décrit la distribution des caractéristiques locales (14). Un système classifieur (18) est utilisé pour déterminer une qualité esthétique (20) de l'image (12) basée sur la représentation d'image calculée (16).

Description

PRÉDICTION DE LA VALEUR ESTHÉTIQUE D'UNE IMAGE Des aspects des exemples de modes de réalisation décrits ici ont trait à un système et à un procédé d'évaluation de la qualité d'images photographiques.

Des images photographiques numériques sont produites en nombre sans cesse croissant par les photographes professionnels et amateurs. De telles images peuvent être accessibles via un site Web public, où elles peuvent être cotées selon leur qualité et d'autres caractéristiques par les visiteurs du site Web. Des efforts considérables ont été réalisés dans le domaine de l'évaluation de la qualité des images pour concevoir des mesures de qualité permettant de prédire automatiquement la qualité d'image perçue. Un objectif a été d'extraire de l'image numérique des descripteurs qui présentent une bonne corrélation avec la préférence humaine. La présence ou l'absence de dégradations de niveau de signal spécifiques telles qu'un bruit aléatoire ou structuré (par exemple un bruit poivre et sel, un artéfact jpeg, un effet de suroscillation - ou ringing) et un flou ont été utilisées par le passé pour définir la qualité d'une image photographique. Des capteurs numériques à haute définition sont maintenant largement disponibles et permettent aux photographes d'éviter de telles dégradations. L'évaluation de qualité d'image s'est focalisée plus récemment sur l'évaluation de caractéristiques de haut niveau qui dépassent les qualités d'image répondant aux meilleures pratiques, telles que « l'image obéit-elle à la règle des tiers ? ». Voir R. Datta, et al., « Studying aesthetics in photographic images using a computational approach », ECCV (3), pp. 288-301, 2006 (désigné ci-après par « Datta 2006 ») ; R. Datta, et al., « Learning the consensus on visual quality for next-generation image management », MULTIMEDIA '07: Proc. 15th Intern l Conf. on Multimedia, pp. 533-536, 2007 (désigné ci-après par « Datta 2007 ») ; et R. Datta, et al., « Algorithmic inferencing of aesthetics and emotion in natural images: An exposition », 15th IEEE Intern'/ Conf. on Image Processing, pp. 105-108, oct. 2008 (désigné ci-après par « Datta 2008 »).

Les caractéristiques qui ont trait à la qualité d'image sont souvent désignées comme des caractéristiques esthétiques, car elles sont conçues pour décrire des éléments visuels spécifiques tels que des combinaisons de couleurs, la composition, le cadrage, etc. qui ne sont pas directement liés au contenu de l'image mais ont un impact sur la qualité perçue de l'image. Des systèmes d'extraction de caractéristique esthétique sont par exemple décrits dans les références précitées de Datta et par Y. Ke, X. Tang et F. Jing dans « The design of high-level features for photo quality assessment », in CVPR 2006. Les caractéristiques utilisées dans ces procédés sont typiquement créées en prenant en compte les facteurs de perception qui ont trait à la préférence visuelle. Ces caractéristiques esthétiques peuvent être divisées en deux classes générales : les caractéristiques de bas niveau et les caractéristiques de haut niveau. Malgré la prolifération de données d'image annotées disponibles via les réseaux sociaux, les sites Web de partage d'images, etc. qui pourraient être utilisés pour fournir des données d'apprentissage, il reste des défis à surmonter pour l'évaluation de la qualité d'image. De telles données sont premièrement annotées avec un bruit intrinsèque, car lorsqu'il est question de préférence humaine, un consensus unanime est rare. Un autre défi concerne la conception de caractéristiques permettant de saisir la préférence humaine. Les caractéristiques utilisées actuellement n'établissent pas toujours une bonne corrélation avec la perception humaine de la qualité d'image. Il existe encore un besoin pour un système et un procédé permettant d'améliorer l'évaluation de la qualité d'image. Un aspect de la présente invention a trait à un procédé pour déterminer la qualité esthétique d'une image d'entrée, comprenant : l'extraction d'un ensemble de caractéristiques locales à partir de l'image d'entrée ; avec un processeur, la génération d'une représentation d'image qui décrit la 25 distribution des caractéristiques locales ; et avec un système classifieur, la détermination d'une qualité esthétique de l'image d'entrée basée sur la représentation d'image calculée. Dans un autre mode de réalisation, les caractéristiques de bas niveau 30 comprennent au moins une caractéristique de gradient ou de couleur.20 Dans un autre mode de réalisation, la génération de la représentation d'image comprend la modélisation des descripteurs locaux extraits en utilisant un modèle probabiliste pour générer une représentation d'image d'entrée comprenant des valeurs de composantes de modèle probabiliste pour un ensemble de composantes de modèle probabiliste. Dans un autre mode de réalisation, le modèle probabiliste comprend un modèle de mélange gaussien et les composantes du modèle probabiliste comprennent des composantes gaussiennes du modèle de mélange gaussien. Dans un autre mode de réalisation, la représentation d'image comprend au moins une représentation par sac de mots visuels (soit Bag-Of-Visual words, ou BOV) et une représentation par vecteur de Fisher (soit Fisher Vector, ou FV). 15 Dans un autre mode de réalisation, la génération comprend : le partitionnement de l'image d'entrée en une pluralité de régions d'image en utilisant un modèle de partitionnement par pyramides spatiales ; l'extraction de descripteurs de région à partir des régions d'image sur base de l'ensemble de caractéristiques locales extraites pour la région ; et 20 l'agrégation des descripteurs locaux extraits des régions d'image. Dans un autre mode de réalisation, le système classifieur subit un apprentissage concernant une valeur de qualité esthétique pour chacune des images d'apprentissage d'un ensemble et des représentations d'image correspondantes. Dans un autre mode de réalisation, la valeur de qualité esthétique d'une image d'apprentissage est calculée en établissant la moyenne d'une pluralité de scores de qualité d'image attribués manuellement pour l'image d'apprentissage. 30 Un autre aspect de la présente invention procure un système comprenant une mémoire non volatile qui stocke des instructions pour mettre en oeuvre le procédé selon la 25 revendication 1 et un processeur en communication avec la mémoire pour exécuter les instructions. Un autre aspect encore de la présente invention procure un système pour déterminer la qualité esthétique d'une image d'entrée, comprenant : un extracteur de caractéristique pour extraire un ensemble de caractéristiques locales à partir de l'image d'entrée ; un générateur de représentation pour générer une représentation d'image qui décrit une distribution des caractéristiques locales extraites, le générateur de représentation générant des descripteurs locaux sur base de caractéristiques de bas niveau extraites à partir de morceaux de l'image et agrégeant les descripteurs locaux pour former la représentation d'image ; et un système classifieur qui détermine une qualité esthétique de l'image d'entrée basée sur la représentation d'image calculée. Dans certaines variantes décrites ici, les techniques et systèmes suivants peuvent être pourvus. Conformément à un aspect d'un exemple de variante, un procédé pour déterminer 20 la qualité esthétique d'une image d'entrée comprend l'extraction d'un ensemble de caractéristiques locales de l'image d'entrée et la génération d'une représentation d'image qui décrit la distribution des caractéristiques locales. Une qualité esthétique de l'image d'entrée basée sur la représentation d'image calculée est déterminée par un système classifieur. Une ou plusieurs des étapes du procédé peuvent être mises en oeuvre avec 25 un processeur. Dans le procédé, l'extraction de l'ensemble de caractéristiques locales de l'image d'entrée peut comprendre, pour chaque morceau d'un ensemble de morceaux, la génération d'un descripteur local sur base de caractéristiques de bas niveau de pixels 30 dans le morceau, et la représentation d'image peut comprendre une agrégation des descripteurs locaux.15 Les composantes du modèle probabiliste peuvent inclure des composantes d'un vecteur de gradient V Jx (X) , où X désigne les descripteurs locaux extraits de l'image d'entrée et Jx(X) désigne une fonction de probabilité paramétrée selon les paramètres X. La représentation d'image peut inclure au moins une représentation par vecteur de Fisher des descripteurs de région extraits des régions d'image. Le partitionnement peut inclure le partitionnement de l'image d'entrée en 10 exactement trois régions espacées verticalement, et l'extraction d'un descripteur de région dans chacune des trois régions. Les valeurs de qualité esthétique des images d'apprentissage peuvent être des valeurs binarisées. 15 Le procédé de cette variante peut en outre comprendre l'apprentissage du classifieur, y compris la réception d'un ensemble d'images d'apprentissage, chacune des images d'apprentissage recevant au moins un score de qualité d'image attribué manuellement, pour chaque image d'apprentissage, l'attribution d'une valeur de qualité 20 d'image à chaque image d'apprentissage sur base de son au moins un score de qualité d'image, l'extraction d'un ensemble de caractéristiques locales à partir de l'image d'apprentissage, la génération d'une représentation d'image qui décrit la distribution des caractéristiques locales de l'image d'apprentissage, et l'apprentissage du système classifieur avec les représentations d'image et les valeurs de qualité esthétique des 25 images d'apprentissage. Le procédé peut en outre comprendre le filtrage d'un plus grand ensemble d'images d'apprentissage pour identifier l'ensemble d'images d'apprentissage, le filtrage étant basé sur l'au moins un score de qualité d'image attribué manuellement. L'image d'entrée peut inclure une image photographique. 30 Une autre variante peut avoir trait à un produit logiciel qui peut inclure un support de stockage non volatile où sont encodées des instructions qui, lorsqu'elles sont exécutées par un ordinateur, mettent en oeuvre le procédé décrit précédemment.

Selon une variante du système tel que défini ci-dessus, le générateur de représentation génère une première représentation d'image qui décrit une distribution d'un premier type de caractéristiques locales extraites et une deuxième représentation d'image qui décrit une distribution d'un deuxième type de caractéristiques locales extraites, et dans lequel le système classifieur comprend un premier classifieur qui calcule un premier score basé sur la première représentation d'image et un deuxième classifieur qui calcule un deuxième score basé sur la deuxième représentation d'image, et un composant d'agrégation qui détermine la qualité esthétique par agrégation des premier et deuxième scores.

Conformément à une autre variante, un procédé comprend pour chacune des images d'un ensemble d'images d'apprentissage un partitionnement de l'image d'apprentissage en une pluralité de régions d'image à l'aide d'un modèle de partitionnement de pyramides spatiales, le partitionnement comprenant le partitionnement de l'image en trois régions espacées verticalement d'une hauteur d'un tiers de l'image chacune, l'extraction de descripteurs locaux de chacune des régions d'image, et la modélisation des descripteurs locaux extraits de chaque région d'image à l'aide d'un modèle probabiliste pour générer une représentation de région correspondante comprenant des valeurs de composante de modèle probabiliste pour un ensemble de composantes de modèle probabiliste. Les représentations de région sont combinées pour générer une représentation d'image pour l'image d'apprentissage. Une valeur de qualité d'image pour l'image d'apprentissage est extraite sur base d'au moins un score esthétique attribué manuellement pour l'image d'apprentissage. Un système classifieur est entraîné pour déterminer une qualité esthétique de l'image d'entrée basée sur sa représentation d'image calculée, l'apprentissage comprenant l'application d'un algorithme d'apprentissage linéaire ou non linéaire aux valeurs de qualité d'image et aux représentations d'image des images d'apprentissage. Une ou plusieurs des étapes du procédé peuvent être mises en oeuvre avec un processeur.

Dans une autre variante, la modélisation comprend la génération de la représentation de région d'image des descripteurs locaux de chaque région d'image sous forme d'une représentation par vecteur de Fisher, et la combinaison comprend l'enchaînement des représentations par vecteur de Fisher pour générer la représentation d'image d'apprentissage. Dans une autre variante, le partitionnement comprend le partitionnement de l'image en trois régions espacées verticalement d'une hauteur d'un tiers de l'image chacune.

La FIGURE 1 est une vue schématique d'entrées dans un exemple de système classifieur durant l'apprentissage et en cours d'utilisation. La FIGURE 2 est un schéma fonctionnel d'un système d'attribution de valeurs de qualité d'image conformément à un aspect de l'exemple de mode de réalisation.

La FIGURE 3 est un organigramme illustrant un procédé d'évaluation de la qualité d'image, conformément à un autre aspect de l'exemple de mode de réalisation. La FIGURE 4 illustre la génération de descripteurs par région d'une image. La FIGURE 5 est un graphique montrant des résultats de précision générés par un ensemble de procédés comparés.

La FIGURE 6 est un graphique montrant des résultats de précision générés par l'exemple de procédé à l'aide des représentations d'image par vecteur de Fisher (FV) et par sac de mots visuels (BOV), et des résultats pour l'un des procédés comparatifs à l'aide de l'ensemble de données PN1 pour l'apprentissage et les essais. La FIGURE 7 est un graphique montrant des résultats de précision générés par l'exemple de procédé pour les représentations d'image par FV et BOV avec et sans partitionnement de l'image selon un modèle de partitionnement par pyramide spatiale, à l'aide de l'ensemble de données PN1. La FIGURE 8 est un graphique montrant des résultats de précision générés par l'exemple de procédé lorsque les représentations d'image FV formées par partitionnement de l'image avec un modèle de partitionnement par pyramide spatiale sont combinées avec des caractéristiques esthétiques (FV pyramid +Dattat0 15), à l'aide de l'ensemble de données PN1.

La FIGURE 9 est un graphique montrant des résultats de précision générés par l'exemple de procédé lorsque les représentations d'image FV formées par partitionnement de l'image avec un modèle de partitionnement par pyramide spatiale sont combinées avec des caractéristiques esthétiques, en utilisant l'ensemble de données PN2 pour l'apprentissage et les essais. L'exemple de mode de réalisation a trait à un système et à un procédé d'évaluation de qualité d'image mis en oeuvre par un ordinateur. Le système comprend un système classifieur qui a subi un apprentissage pour sortir une évaluation de qualité d'image basée sur une représentation d'image d'entrée. Les données d'apprentissage pour le système classifieur comprennent des représentations d'image et des évaluations de qualité d'image associées attribuées manuellement (valeurs esthétiques) pour ces images. Pour une nouvelle image à classifier, sa représentation d'image est extraite et entrée dans le système classifieur, qui sort une évaluation de la qualité d'image correspondante pour l'image. L'exemple de représentation d'image dépend d'une modélisation de distribution de caractéristiques locales de bas niveau dans une image pour évaluer sa qualité esthétique. Bien que de nombreuses représentations d'image vectorielles soient envisagées comme représentations d'image, deux techniques qui modélisent la distribution d'ensembles de caractéristiques à l'aide de représentations vectorielles de longueur fixe sont décrites à titre d'exemple : 1. L'approche par sac de mots visuels (BOV) décrite dans le brevet U.S. n°20080069456 et dans G. Csurka, C. Dance, L. Fan, J. Willamowski et C. Bray, « Visual categorization with bags of keypoints », dans ECCV SLCV Workshop, 2004, désigné ci-après par « Csurka 2004 » ; et dans Sivic et A. Zisserman, « Video Google: A text retrieval approach to object matching in videos », dans ICCV, 2003, désigné ci-après par « Sivic 2003 ». 2. Le vecteur de Fisher (FV), décrit dans la demande U.S. 12/859,898 et dans F. Perronnin et C. Dance, « Fisher kernels on visual vocabularies for image categorization », dans CVPR, 2007, (« Perronnin 2007 ») ; et F. Perronnin, J. Sanchez et T. Mensink, « Improving the fisher kernel for large-scale image classification », dans ECCV, 2010 (« Perronnin 2010 »). Ces techniques sont similaires en ce qu'elles comprennent le calcul pour chaque 5 type de caractéristique locale de bas niveau d'un ensemble de statistiques et ensuite l'agrégation de ces statistiques en une représentation au niveau image ou « signature ». Des techniques qui modélisent des ensembles de caractéristiques en utilisant des distributions continues telles que des modèles de mélange gaussien (soit Gaussian 10 Mixture Model, ou GMM) sont également envisagées. Voir par exemple la demande U.S. 12/512,209, le brevet U.S. n°20090144033 et Y. Liu et F. Perronnin, « A similarity measure between unordered vector sets with application to image categorization », in CVPR, 2008. 15 Des expériences effectuées avec les descripteurs BOV et FV montrent que ces représentations d'image sont sensiblement plus efficaces que les procédés existants. Le FV est particulièrement efficace comme descripteur à base de contenu et s'est avéré avoir une faible complémentarité avec des caractéristiques esthétiques conventionnelles. 20 Dans plusieurs instances, une telle prédiction automatisée de la préférence humaine directement à partir de données d'image peut être utile. Dans des systèmes d'extraction d'image par exemple, les résultats de procédés d'extraction conventionnels basés sur le contenu ont pu être affinés ou intégrés à l'aide de l'exemple de système. Le système peut aussi être déployé directement sur des appareils photo pour effectuer des 25 suggestions en temps réel concernant ce qui doit être photographié dans une scène donnée. La FIGURE 1 illustre de manière schématique des aspects des exemples de modes de réalisation. La FIGURE 2 illustre un exemple de système 10 pour attribuer une 30 valeur de qualité d'image à une image 12, telle qu'une image photographique. La FIGURE 3 illustre un exemple de procédé pour attribuer une évaluation de la qualité d'image à une image qui vise à procurer une qualité d'image perçue qui serait conforme à celle d'un spectateur moyen. Tel qu'illustré à la FIGURE 1, en exécution, l'exemple de système 10 reçoit une image 12 à évaluer et génère un ensemble de caractéristiques 14 pour l'image 12. Au moins un descripteur de caractéristique basé sur le contenu (représentation d'image) 16 est généré pour l'image, sur base des caractéristiques extraites, et entré dans un système classifieur 18. Le système classifieur a subi un apprentissage pour attribuer une évaluation de qualité d'image 20 à l'image d'entrée 12 sous forme d'une valeur de qualité. L'évaluation de la qualité d'image 20 est donc une évaluation automatisée de la qualité d'une image 12, qui prédit la qualité d'image qui serait perçue par un ensemble de spectateurs humains. L'évaluation de la qualité d'image 20 sortie par le présent système peut être un score qui est une valeur réelle dans une plage prédéfinie de valeurs maximales et minimales, par exemple sur une échelle de 0 à 1, où 0 représente la qualité d'image la plus basse, c'est-à-dire une image très mauvaise, et 1 représente la qualité d'image la plus élevée, c'est-à-dire une très bonne image, ou peut être un score quantifié, tel qu'une note par étoiles (1 étoile étant la plus basse et K étoiles étant la plus élevée, où K peut être une valeur maximale prédéterminée de 5 à 10, par exemple). Dans d'autres modes de réalisation, la valeur 20 peut être un classement (par exemple avec 1 correspondant à une qualité d'image la plus élevée, et d'autres images dans un ensemble ayant des valeurs plus élevées correspondant à des classements inférieurs) ou une description verbale de la qualité d'image sélectionnée parmi un ensemble fini de descriptions verbales possibles (telles que « basse qualité », « qualité moyenne », « bonne qualité » et « excellente qualité »). Les exemples de caractéristiques de contenu 14 sont des caractéristiques de bas niveau, telles que des caractéristiques de gradient ou de couleur. Une représentation d'image 16 peut être attribuée à une image 12 sous forme d'un vecteur qui décrit la distribution des caractéristiques locales dans l'image. Les valeurs formant la représentation d'image 16 peuvent être quantifiées, par exemple des valeurs binaires (0 ou 1), ou peuvent être des valeurs réelles dans une plage prédéterminée, telle qu'une plage [0,1].

Le système classifieur 18 subit un apprentissage avec un ensemble d'images d'apprentissage 30, 32, 34, etc., tel qu'un ensemble de cent à un million d'images d'apprentissage comprenant des photographies de différents sujets. Chaque image d'apprentissage 30, 32, 34 comprend des données d'image comportant un réseau de pixels. Les images d'apprentissage sont chacune étiquetées avec de l'information de qualité 38, telle qu'un score (ou des scores multiples) attribué(s) par un réviseur humain ou un ensemble de réviseurs. Un ensemble réduit 42 d'images d'apprentissage peut être sélectionné pour l'apprentissage en filtrant les images sur base de l'information de qualité 38.

Pour chaque image d'apprentissage, des caractéristiques de contenu 50 et une valeur de qualité normalisée 54 sont générées. Des représentations d'image 56 (dans le même format qu'une ou plusieurs représentations 16 de l'image 12 à classifier) sont entrées dans le système classifieur 18. Le classifieur 18 apprend à attribuer une valeur de qualité 20 à une nouvelle image 12 sur base desdites une ou plusieurs représentations d'image calculées 56 et de la valeur de qualité associée 54 de chacune des images d'apprentissage 30, 32, 34, etc. En considérant maintenant la FIGURE 2, un exemple d'environnement dans lequel fonctionne le système de qualité d'image 10 est représenté. Le système 10 comprend un dispositif informatique 58 qui comporte de la mémoire, illustrée ici par une mémoire principale 60 et une mémoire de données 62, un processeur 64 tel qu'une unité centrale d'ordinateur, et une ou plusieurs interfaces de réseau d'entrée/sortie (soit Input/Output, ou I/O) 66 pour communiquer avec d'autres dispositifs, tous connectés pour communiquer par un ou plusieurs bus de données/communication 68. Le ou les ordinateur(s) 58 peuvent inclure un PC, tel qu'un ordinateur de bureau, un ordinateur portable, un assistant numérique personnel (soit Personal Digital Assistant, ou PDA), un appareil photo numérique, un ordinateur serveur, un téléphone portable, un ordinateur tablette, un récepteur d'appel, ou un ou plusieurs autres dispositifs informatiques capables d'exécuter des instructions de mise en oeuvre de l'exemple de procédé. Le processeur numérique 64 peut être réalisé de plusieurs manières, sous forme d'un processeur à simple coeur, un processeur à double coeur (ou plus généralement un processeur multiple coeur), un processeur numérique et un coprocesseur mathématique associé, un contrôleur numérique, etc. En général, tout dispositif capable de mettre en oeuvre un automate fini, lui-même capable de mettre en oeuvre l'organigramme de programmation représenté à la FIGURE 2, peut être utilisé comme processeur.

La ou les mémoires 60, 62 peuvent représenter tout type de support non volatile lisible par un ordinateur tel qu'une mémoire vive (soit Random Access Memory, ou RAM), une mémoire morte (soit Read Only Memory, ou ROM), un disque ou une bande magnétique, un disque optique, une mémoire flash, une mémoire holographique, ou une combinaison de ceux-ci. La mémoire 60 peut stocker des instructions aussi bien pour le fonctionnement d'un ordinateur serveur que pour mettre en oeuvre l'exemple de procédé pour évaluer la qualité d'image décrite ci-dessous. La mémoire 62 stocke des images 12 en cours de traitement par l'exemple de procédé ainsi que les données traitées 20.

L'interface réseau 66 peut comprendre un modulateur-démodulateur (MODEM) et permet à l'ordinateur de communiquer avec d'autres dispositifs via une ou plusieurs connexions filaires ou sans fil 70, tels qu'un réseau informatique, par exemple un réseau local (soit Local Area Network, ou LAN), un réseau étendu (soit Wide Area Network, ou WAN) comme Internet, une ligne téléphonique, une connexion filaire, ou une combinaison de ces dispositifs. Des images 12 dont la qualité doit être évaluée sont entrées dans le système 10 à partir d'une source d'images 80, telle qu'un dispositif informatique standard ou spécialisé comme un ordinateur personnel, un ordinateur portable, un appareil photo, un téléphone portable, etc., ou à partir d'un dispositif de stockage à mémoire non volatile, tel qu'un lecteur flash, un disque optique, un disque dur portable, une carte mémoire Memory Stick pour caméra, etc. Dans l'exemple de mode de réalisation, la source 80 est un dispositif informatique client comprenant de la mémoire 82, qui stocke les images 12, et un navigateur Web 84 pour télécharger des images vers un portail Web hébergé par l'ordinateur serveur 58, qui est mis en oeuvre par un processeur 86. La mémoire 82 et le processeur 86 peuvent être configurés de manière similaire à la mémoire 60, 62 et au processeur 64. Une ou plusieurs interfaces 88, 90 permettent à l'ordinateur 80 de communiquer avec le système 10 et avec un dispositif d'affichage 92, tel qu'un écran d'ordinateur, un écran LCD ou similaire, et un ou plusieurs périphériques d'entrée 94, tels qu'un écran tactile, un clavier, un pavé numérique, un dispositif de contrôle de curseur, ou une combinaison de ceux-ci. Un ensemble d'images d'apprentissage, telles que les images d'apprentissage 32, 34, 36, est stocké dans une (ou plusieurs) base(s) de données 100. La base de données 100 peut être stockée en mémoire 62 ou dans une mémoire accessible par le système 10, par exemple via un réseau 70. Les images 12, 32, 34, 36 peuvent être reçues par le système 10 dans un format de fichier adapté quelconque, tel que JPEG, TIFF, GIF, JBIG, BMP ou un autre format de fichier utilisé communément pour des images et qui peut éventuellement être converti en un autre format approprié avant le traitement. Les images peuvent être des photographies individuelles, des images vidéo, des images tridimensionnelles, des images combinées qui comprennent des textes/graphiques ainsi qu'une photographie, etc. En général, chaque image numérique entrée comprend des données d'image pour un réseau de pixels qui forme l'image. Les données d'image peuvent inclure des valeurs de coloration, telles que des valeurs de niveau de gris, pour chaque séparation de couleur d'un ensemble, tel qu'un codage RVB, ou peuvent être exprimées dans un autre espace colorimétrique dans lequel différentes couleurs peuvent être représentées. En général, un « niveau de gris » se réfère à la valeur de densité optique d'une séparation de couleur unique quelconque, exprimée de façon quelconque (RVB, L*a*b*, YCbCr, etc.). Les exemples de système et de procédé sont applicables à des images monochromes (une seule séparation de couleur) ainsi qu'à des images multicolores (deux séparations de couleur ou plus). Le terme « données d'image » tel qu'utilisé ici n'inclut pas l'information textuelle qui peut accompagner les données d'image, par exemple sous forme de métadonnées, d'une balise HTML, d'information dans un fichier associé, etc. Le système 10 comprend des instructions logicielles stockées en mémoire principale 60 pour mettre en oeuvre l'exemple de procédé illustré sur la FIGURE 3. Ces instructions sont exécutées par le processeur 64 et sont illustrées sous forme d'un ensemble de composants : un extracteur de valeur de qualité d'image 102, un extracteur de caractéristique de contenu 104, un générateur de représentation 106 et le système classifieur 18.

En bref, l'extracteur de valeur de qualité 102 extrait une valeur de qualité 54 pour chaque image d'apprentissage 32, 34, 36 sur base du ou des score(s) 38. Certaines images d'apprentissage 32, 34, 36 peuvent avoir été évaluées par plus d'un réviseur, auquel cas la valeur de qualité 54 peut être basée sur une moyenne ou une autre fonction des scores de réviseur 38. Comme on peut le remarquer, une fois que le système classifieur 18 a subi l'apprentissage, le composant 102 n'est plus nécessaire. L'extracteur de caractéristique de contenu 104 extrait des caractéristiques de contenu pour l'image 12, 32, 34, 36, par exemple sous forme de caractéristiques de bas niveau et de descripteurs 14, 50 qui y sont basés et qui sont représentatifs de l'image. Le générateur de représentation 106 génère une ou plusieurs représentations d'image (descripteurs de caractéristique basés sur le contenu) 16, 56 pour l'image respective, sur base des caractéristiques de contenu/descripteurs respectifs 14 ou 50. Dans un mode de réalisation, des descripteurs de région sont d'abord extraits de régions de l'image à différentes échelles, tel qu'indiqué par exemple sur la FIGURE 4. L'image est en particulier partitionnée en une pluralité de régions 130, puis repartitionnée en un nombre plus grand de régions. Comme on peut le remarquer, les descripteurs de région extraits des régions peuvent être enchaînés ou agrégés d'une façon ou d'une autre pour procurer une représentation d'image unique 56 représentative de l'image dans son ensemble. Le système classifieur 18, qui a subi un apprentissage avec des représentations d'image basées sur le contenu 56 et des valeurs de qualité calculées 54, est capable de catégoriser la nouvelle image 12 (qui peut ne comporter aucune information de qualité associée) sur base uniquement de sa ou ses représentation(s) d'image 16 (et donc non sur base d'une quelconque information de qualité associée). Lorsque deux types de caractéristiques de bas niveau ou plus sont utilisés pour générer des représentations d'image 16, le système classifieur 18 peut inclure deux classifieurs ou plus 110, 112, par exemple un pour chaque type de caractéristique, et un composant d'agrégation 114 qui agrège les deux scores de classifieur afin de générer une valeur esthétique pour l'image. Comme on peut le remarquer, bien que les différents composants logiciels 102, 104, 106, 18 soient décrits comme des modules séparés, un ou plusieurs d'entre eux peuvent être séparés en modules additionnels ou combinés. Certains des composants peuvent fonctionner avec l'entrée d'un module antérieur. Dans certains cas, les données d'image ou l'information qui en est extraite peuvent être renvoyées à un module antérieur pour un traitement additionnel.

Le terme « logiciel » tel qu'utilisé ici comprend tout ensemble ou collection d'instructions exécutable par un ordinateur ou autre système numérique pour configurer l'ordinateur ou autre système numérique afin de mettre en oeuvre la tâche du logiciel, et peut être stocké localement ou sur un serveur distant. La FIGURE 3 illustre un procédé d'évaluation de la qualité d'image qui peut être mis en oeuvre avec le système de la FIGURE 2. Le procédé commence au point S100. Au point S102, un ensemble d'images d'apprentissage 32, 34, 36 est pourvu. Les 10 images d'apprentissage 32, 34, 36 peuvent être associées à une information textuelle, par exemple sous forme d'une balise ou d'une liste, qui comprend un score de qualité 38. Au point S104, une valeur de qualité 54 est extraite pour chaque image d'apprentissage, par exemple à partir d'information de qualité 38 (par l'extracteur 102). 15 Dans un mode de réalisation, les scores d'utilisateur (moyens) 38 peuvent être quantifiés, par exemple binarisés, en sélectionnant un score seuil (soit treshold score) th ; les images < au seuil sont alors étiquetées comme mauvaises (par exemple -1) et le reste des images, c'est-à-dire les images > au seuil th, sont étiquetées comme bonnes (par exemple +1). Dans un autre mode de réalisation, les images d'apprentissage peuvent 20 éventuellement être filtrées (S106) pour procurer un ensemble réduit d'images d'apprentissage 42, par exemple en éliminant les images qui dépassent un premier seuil de valeur de qualité et se trouvent également sous un deuxième seuil plus élevé. Ceci élimine les images de bord. 25 Au point S104, un score de qualité 54 est attribuée aux images ; par exemple les images filtrées 5 au premier seuil sont étiquetées comme mauvaises (par exemple -1) et le reste des images, c'est-à-dire les images >_ au deuxième seuil, sont étiquetées comme bonnes (par exemple +1). 30 Au point S108, des caractéristiques de contenu et des descripteurs locaux 50 basés sur celles-ci sont extraits (par l'extracteur 104) à partir de l'ensemble d'images d'apprentissage 32, 34, 36 (éventuellement filtrées).5 Au point S110, une représentation d'image 56 est générée (par le générateur de représentation 106) pour chaque image d'apprentissage 32, 34, 36, sur base des descripteurs locaux extraits 50. Au point S112, le système classifieur 18 subit un apprentissage basé sur les valeurs de qualité 54 extraites au point S104 et aux représentations d'image respectives 56 générées au point S110. Au point S114, les paramètres du système classifieur entraîné sont stockés en mémoire 60. Au point S116, une nouvelle image 12 (image d'entrée) est entrée dans le système 10, par exemple une image où manque une information de qualité quelconque 38. Au point S118, des caractéristiques basées sur le contenu et des descripteurs 15 locaux 14 basés sur celles-ci sont extraits de la nouvelle image 12 (par l'extracteur 104). Au point S120, une représentation d'image 16 est générée (par le générateur de représentation 106) pour chaque nouvelle image 12, sur base des descripteurs locaux 14 extraits au point S120. 20 Au point S122, une valeur de qualité d'image 20, par exemple un score, est générée sur base de la représentation d'image 16 pour la nouvelle image 12 en utilisant un système classifieur entraîné 18. Comme indiqué précédemment, la valeur de qualité 20 peut être quantifiée, par exemple comme une valeur binaire (par exemple +1, -1) qui 25 désigne l'image 12 comme bonne ou mauvaise en termes de qualité, ou peut être une valeur réelle, par exemple dans une plage de 0 à 1, de 1 à 10 ou similaire, et ne doit pas être dans le même format que les scores 38 ou les valeurs de qualité 54. Au point S124, la valeur de qualité d'image 20 est sortie par exemple vers un 30 dispositif de stockage de mémoire 62 résidant sur l'ordinateur serveur 10, ou sortie via un dispositif d'entrée/sortie 66 vers un dispositif externe, tel qu'une mémoire externe, un 10 dispositif client 80 ou une imprimante, un dispositif d'affichage 92 ou un autre dispositif de sortie externe. Au point S126, la valeur de qualité 20 peut être utilisée comme entrée pour un autre processus mis en oeuvre par un ordinateur, tel qu'un processus d'extraction d'image, qui est basé en partie sur les scores de qualité d'images qui sont extraites en réponse à une requête. Le procédé s'arrête au point S128. Comme on peut le remarquer, une fois l'apprentissage du système classifieur 18 effectué, il n'est plus nécessaire de répéter les étapes S104 à S114 pour chaque nouvelle image. En outre, toutes les étapes ne doivent pas non plus être exécutées dans l'ordre indiqué. Le procédé illustré sur la FIGURE 3 peut être mis en oeuvre dans un produit logiciel qui peut être exécuté sur un ordinateur. Le produit logiciel peut comprendre un support d'enregistrement non volatile lisible par un ordinateur sur lequel est enregistré un programme de contrôle pour mettre en oeuvre le procédé, tel qu'un disque optique, un disque dur, etc.

En variante, le procédé peut être mis en oeuvre sur un support volatile, tel qu'une onde porteuse transmissible dans laquelle le programme de contrôle est présent sous forme d'un signal de données en utilisant un support de transmission, comme des ondes acoustiques ou lumineuses telles que celles générées lors de communications de données par ondes radio ou infrarouge, etc.

Différents aspects du système et du procédé seront maintenant décrits plus en détail. Dans la suite, les termes « optimisation », « minimisation » et autres désignations similaires seront utilisés au sens large comme les comprendrait la personne de l'art disposant de compétences normales. Ces termes ne sont par exemple pas utilisés selon un sens limité à la valeur optimale globale absolue, au minimum global absolu, etc. La minimisation d'une fonction peut employer par exemple un algorithme de minimisation itératif qui termine à un critère d'arrêt avant qu'un minimum absolu soit atteint. On envisage également que la valeur optimale ou minimale soit une valeur optimale ou minimale locale. L'apprentissage d'images Les ensembles de données d'image qui sont utilisés pour étudier l'esthétique consistent typiquement en des images provenant de sites Web tels que photo.net - un réseau pionnier de photographes amateurs qui partagent, étiquettes et cotent des 10 photographies en ligne concernant différents sujets. D'autres sites Web similaires comprenant des ensembles de données sont disponibles sur le Web (soit World Wide Web, ou www) aux adresses dpchallenge.com ; terragalleria.com ; et hotornot.com. Une ou plusieurs de ces bases de données d'images ou d'autres similaires peuvent être utilisées pour fournir l'ensemble d'images d'apprentissage 100. Comme on peut le 15 remarquer, les images d'apprentissage doivent être représentatives d'une large plage de contenus (et de qualités) d'images. Chacune des images est annotée avec une ou plusieurs étiquettes de qualité d'image 38. Dans l'exemple de mode de réalisation, les valeurs de qualité 54 des images 20 d'apprentissage 32, 34, 36 sont dérivées de scores de qualité d'image 38 (par exemple des scores de qualité numérique, des classements, ou des évaluations d'utilisateur) associés aux images, provenant par exemple d'un site Web de partage d'images. Les réseaux sociaux ont souvent une politique d'annotation qui peut inclure des 25 étiquettes textuelles (« J'aime », « Je n'aime pas ») ou une échelle de valeurs numériques (évaluations). Sur le site Web photo.net par exemple, les utilisateurs peuvent coter les images avec un score de 1 (affreux) à 7 (magnifique). Les utilisateurs de ce site Web reçoivent des administrateurs du site les directives suivantes : « Raisons pour une évaluation plus proche de 7 : a) bel aspect, b) attire ou captive l'attention, c) composition 30 intéressante, d) bonne exploitation des couleurs, e) (photojournalisme) contenu dramatique, humoristique, impactant, f) (sports) moment critique, combat de l'athlète. » Les évaluations peuvent être converties en un score numérique si toutes les évaluations sont sous la forme de réponses textuelles sélectionnables, telles que « J'aime ».5 Dans certains modes de réalisation, certaines au moins ou toutes les images 32, 34, 36 qui sont utilisées pour l'apprentissage ont plus d'un score - les images ont par exemple au moins cinq ou au moins dix scores 38. Une valeur représentative telle qu'une moyenne, une médiane ou une valeur dominante de ces scores peut être prise comme valeur de qualité d'image 54. Dans certains modes de réalisation, des données aberrantes, telles que des scores 38 qui diffèrent de la moyenne de plus d'un ou deux écarts types, peuvent être exclues du calcul de la valeur de qualité 54.

Les scores 38 attribués aux images d'apprentissage par les réviseurs sont indépendants du contenu, c'est-à-dire que l'image d'une fleur peut recevoir un score de 1 ou 7 selon la valeur esthétique de l'image déterminée par le réviseur. Autrement dit, pour un score de qualité d'image 38 attribué manuellement, une moyenne d'un ensemble de tels scores d'utilisateur, une valeur de qualité 54, ou une valeur de qualité d'image 20 sortie par le système classifieur 18, il est impossible d'identifier le contenu sémantique de l'image associée au score, c'est-à-dire qu'il n'est pas possible de déterminer s'il est probable que l'image contient une personne, une fleur, un paysage ou toute autre classe sémantique attribuée conventionnellement à des images pour décrire leur contenu, sur base uniquement de l'information de score.

Le système classifieur 18 peut être entraîné avec des scores bruts 38 à partir des étiquettes, ou les scores peuvent être binarisés ou quantifiés d'une façon ou d'une autre (par exemple en trois niveaux quantifiés ou plus). Dans un mode de réalisation, pour chaque image i, la moyenne des scores 38 disponible pour cette image qay (i) est calculée. Deux seuils 0, = µ +8 /2 et 01 = p -5 /2 sont établis, où µ peut avoir une valeur correspondant à environ la moitié de la plage de scores d'utilisateur, telle qu'environ le score médian, et â est un nombre approprié qui détermine quelle proportion des images se trouve dans une plage du milieu, intermédiaire.

Ceci créée essentiellement trois plages. Chaque image est alors annotée avec une étiquette « bon » (+1) si qay (i) 01 et « mauvais » (-1) si qav (i) 02. Les images 32, 34, 36 qui se trouvent dans la plage du milieu où 02 < qay (i) <01 sont donc filtrées et ignorées pour l'apprentissage du système classifieur. La valeur de 3 peut dépendre de la taille de l'ensemble d'apprentissage. Si â est trop grand, il ne sera pas possible d'obtenir un nombre raisonnable d'images bonnes et mauvaises. S'il est trop petit, il peut y avoir trop d'images non concluantes dans l'ensemble pour un apprentissage précis du système classifieur. À titre d'exemple, µ peut être d'environ 3 à 6, soit environ 5, et 8 peut être de 0,5 à 3, soit de 1 à 2, dans le cas où les scores possibles sont compris dans une plage de 1 à 7. Dans ce cas, 5 < 4 ou il n'y aurait aucune image classée comme bonne. Comme on peut le remarquer, le score utilisé pour régler le seuil (5 dans cet exemple) peut être varié sur base de la plage de scores attribués par des utilisateurs, et peut être sélectionné de telle sorte qu'il y ait un nombre approximativement égal de scores qav (i) étiquetés « bon » et « mauvais ». Les valeurs binaires sont utilisées comme des valeurs de qualité 54 des images respectives pour l'apprentissage du système classifieur. II faut remarquer cependant que des valeurs de qualité quantifiées 54 peuvent être générées par d'autres procédés, par exemple ceux qui produisent plus de 2 scores possibles, tels que 3 ou 4 scores possibles ou plus. Dans d'autres modes de réalisation encore, les scores moyens 38 sont utilisés comme valeurs de qualité 54.

Extraction de représentations d'image L'exemple de mode de réalisation suppose que la valeur esthétique 20 attribuée à une image 12 dépend du contenu sémantique de l'image. De manière surprenante, tel que démontré dans les exemples ci-après, l'utilisation de caractéristiques de contenu 14 qui décrivent le contenu de l'image 12 peut être adéquate, sans information additionnelle, pour procurer une évaluation de qualité qui est en bon accord avec les observations humaines de qualité d'image et peut être plus précise que des systèmes existants basés sur des caractéristiques esthétiques conventionnelles. Les exemples ci-dessous démontrent que les propriétés esthétiques d'une image peuvent être modélisées à l'aide d'une distribution de ses caractéristiques locales de bas niveau.

L'extraction de caractéristiques (S104, S118) peut être effectuée comme suit. L'image est d'abord partitionnée en régions 130 sur plusieurs échelles (FIG. 4). Ensuite, un ensemble de morceaux 132 est extrait pour chaque région 130, éventuellement aussi à plusieurs échelles. Pour chaque morceau, des caractéristiques de bas niveau sont extraites (sous forme de descripteurs locaux). Une représentation de l'image 16, 56 est ensuite générée sur base des descripteurs locaux extraits. L'image est ainsi décrite par une représentation basée sur des statistiques générées pour les petits morceaux de l'image. Partitionnement de l'image Dans le mode de réalisation illustratif, une opération de partitionnement est d'abord effectuée pour partitionner l'image d'entrée 12, 32, 34, 36 en une pluralité de régions d'image 130. Dans le mode de réalisation représenté à la FIGURE 4 par exemple, 8 descripteurs de niveau de région (numérotés de 1 à 8) sont extraits par image : un pour l'image complète, trois pour les régions supérieure, moyenne et inférieure, et quatre pour chacun des quatre quadrants. Une telle pyramide de descripteurs peut coder de l'information concernant la composition de l'image. Les trois régions espacées verticalement 2, 3 et 4, qui comprennent chacune environ un tiers de la hauteur de l'image, peuvent par exemple procurer indirectement de l'information qui établit une corrélation avec une évaluation selon la règle des tiers. Cette opération est suivie par l'extraction des descripteurs locaux parmi un ensemble de morceaux 132 définit dans chacune des régions d'image 130.

Extraction de morceaux Dans l'exemple de mode de réalisation, des morceaux multiples sont extraits de chacune des régions 130 de l'image 12, 32, 34, 36. Les morceaux peuvent être obtenus par segmentation d'image en appliquant des détecteurs de point d'intérêt spécifiques, en considérant une grille régulière, ou simplement par échantillonnage aléatoire de morceaux d'image. Au moins environ 100 morceaux 132 sont par exemple extraits de chaque région 130. De manière plus générale, au moins 1.000 - et dans certains cas au moins 10.000 - morceaux peuvent être extraits sur l'image dans son ensemble. Le nombre de morceaux peut atteindre 100.000 ou plus en fonction de la taille du fichier d'image.

Chaque morceau comprend un réseau de pixels, tel qu'au moins 100 pixels ou au moins 500 pixels. Dans l'exemple de mode de réalisation, chaque morceau comprend moins de 50.000 pixels, et dans un mode de réalisation moins de 10.000 pixels, par exemple environ 1.000 pixels, bien que d'autres tailles de morceaux 132 soient envisagées. Comme on peut le remarquer, il peut s'agir de pixels représentatifs, car tous les pixels de l'image d'entrée ne doivent pas être pris en considération.

Extraction de caractéristiques de bas niveau Pour chaque morceau 132, des caractéristiques de bas niveau sont extraites et utilisées afin de générer un descripteur local pour chaque morceau, tel qu'un vecteur. Les caractéristiques de bas niveau qui sont extraites des morceaux sont généralement des valeurs quantitatives qui résument ou caractérisent des aspects du morceau respectif, telles que le contenu de fréquence spatiale, l'intensité moyenne, des caractéristiques de couleur (dans le cas d'images en couleur), des valeurs de gradient , et/ou d'autres valeurs caractéristiques. Dans certains modes de réalisation, au moins environ cinquante caractéristiques de bas niveau sont extraites de chaque morceau ; cependant, le nombre de caractéristiques qui peuvent être extraites n'est pas limité à un quelconque nombre ou type particulier de caractéristiques - 1.000, 10.000 ou 100.000 caractéristiques de bas niveau peuvent par exemple être extraites en fonction des capacités de calcul. Dans l'exemple de mode de réalisation, les caractéristiques de bas niveau comprennent les statistiques de couleur locales (par exemple par pixel) et la texture. Pour les statistiques de couleur, des statistiques RVB locales (par exemple la moyenne et l'écart type) peuvent être calculées. Pour la texture, des orientations de gradient (représentant un changement de couleur) peuvent être calculées pour chaque morceau sous forme d'un histogramme afin de générer des descripteurs de caractéristique de gradient, tels que des descripteurs de transformation de caractéristiques visuelles invariante à l'échelle (soit Scale Invariant Feature Transform, ou SIFT) pour des caractéristiques de type SIFT. Dans l'exemple de mode de réalisation, deux types (ou plus) de caractéristiques de bas niveau telles que la couleur et la texture sont extraits séparément, et la représentation de haut niveau du morceau ou de l'image est basée sur une combinaison (par exemple une somme ou un enchaînement) de deux descripteurs, un pour chaque type de caractéristique.

Dans l'exemple de mode de réalisation, des descripteurs SIFT tels que décrits par Lowe dans « Object Recognition From Local Scale-Invariant Features », ICCV 1999, sont calculés pour chaque morceau. Les descripteurs SIFT sont des représentations à images multiples d'un voisinage d'image, telles que des dérivées gaussiennes calculées par exemple pour huit plans d'orientation sur une grille quatre par quatre d'emplacement dans l'espace, donnant un vecteur à 128 dimensions (c'est-à-dire 128 caractéristiques par vecteur de caractéristiques dans ces modes de réalisation). D'autres descripteurs ou algorithmes d'extraction de caractéristique peuvent être employés pour extraire des caractéristiques des morceaux. Des exemples de certains autres descripteurs adaptés sont fournis par K. Mikolajczyk et C. Schmid dans « A Performance Evaluation Of Local Descriptors », CVPR 2003). Dans un exemple illustratif employant des caractéristiques SIFT, les caractéristiques sont extraites de morceaux de 32x32 pixels sur des grilles régulières (tous les 16 pixels) à cinq échelles pour fournir des descripteurs SIFT à 128 dimensions. D'autres caractéristiques appropriées comprennent des simples caractéristiques de couleur à 96 dimensions dans lesquelles un morceau est subdivisé en 4x4 sous-régions et dans lesquelles la moyenne et l'écart type sont calculés dans chaque sous-région pour les trois canaux R, V et B. Le nombre de caractéristiques est éventuellement réduit, par exemple à 64 dimensions, en utilisant une analyse en composantes principales (soit Principal Componant Analysis, ou PCA). Pour chaque type de caractéristique locale de bas niveau, un ensemble de statistiques est calculé pour chaque morceau sous forme d'un descripteur local. Les statistiques sont agrégées pour générer une représentation au niveau image ou au niveau région. Pour des raisons de rendement de calcul, deux techniques de génération de représentations d'image qui modélisent la distribution d'ensembles de caractéristiques à l'aide de représentations vectorielles de longueur fixe peuvent être employées : le sac de mots visuels (BOV) et le vecteur de Fisher (FV). Alors que les approches BOV et FV ont été appliquées avec succès pour des tâches sémantiques telles que l'extraction d'objet ou de scène, la classification ou annotation d'image ou la localisation d'objet, elles n'ont pas été utilisées pour modéliser la qualité d'image. Les exemples de caractéristiques de bas niveau extraites des morceaux 132 peuvent fournir une information significative concernant les propriétés locales d'une image, par exemple si le morceau contient des bords nets ou si la couleur d'un morceau est saturée ou non. En outre, l'agrégation de cette information en une représentation au niveau image procure une opportunité pour considérer la composition globale de l'image, comme le fait que l'image comporte un mélange de morceaux nets et flous, ou qu'il y ait une couleur dominante ou un mélange de couleurs. Finalement, l'utilisation de la structure à pyramide spatiale (FIG. 4) permet de prendre en compte l'agencement spatial, qui est une caractéristique utile pour une prédiction esthétique. 1. Sac de mots visuels (BOV) Dans la représentation BOV, une image (ou région) est décrite par un histogramme de caractéristiques locales quantifiées. (Voir par exemple Csurka 2004, Sivic 2003, brevet U.S. n°20080069456). Plus précisément, pour un ensemble (non ordonné) de descripteurs locaux donnés, tel qu'un ensemble de descripteurs SIFT ou de descripteurs de couleur extraits d'une image d'apprentissage ou d'essai, un histogramme BOV est calculé par région 130. Ces représentations au niveau région peuvent ensuite être enchaînées ou autrement agrégées pour former une représentation d'image (par exemple une pour des caractéristiques SIFT et une pour des caractéristiques de couleur).

Durant la phase d'apprentissage, un vocabulaire visuel, c'est-à-dire un ensemble de caractéristiques de prototype, est d'abord appris en regroupant automatiquement un grand nombre de descripteurs locaux à partir de différentes images, en utilisant par exemple un algorithme des k-moyennes. Chaque morceau de descripteur local (par exemple un vecteur à 96 ou 64 dimensions) est alors attribué au groupement le plus proche et un histogramme des attributions peut être généré. Dans d'autres approches, une structure probabiliste est employée. II est par exemple supposé qu'il existe un modèle de génération sous-jacent, tel qu'un modèle de mélange gaussien (GMM), à partir duquel tous les vecteurs sont émis. Un modèle de mélange gaussien (GMM) peut être utilisé pour modéliser la distribution de caractéristiques locales, c'est-à-dire qu'il y a un vocabulaire visuel probabiliste. Chaque (fonction) gaussienne dans le GMM peut être identifiée par un mot visuel et le regroupement des descripteurs locaux peut être effectué via un apprentissage EM standard des paramètres GMM (moyenne et covariance de chacune des gaussiennes et poids de chaque (fonction) gaussienne dans le GMM). Le vocabulaire GMM procure un moyen de principe pour prendre en compte l'incertitude d'attribution, car chaque caractéristique locale est attribuée avec une probabilité à tous les mots visuels (voir par exemple J. Farquhar et al. « Improving "bag-of-keypoints" image categorisation », Technical report, University of Southampton, 2005). Le nombre de gaussiennes dans le GMM peut être par exemple au moins environ 100, par exemple au moins 10.000. Le nombre peut être jusqu'à 100.000, et dans un mode de réalisation il est inférieur à 10.000, par exemple environ 2.000. Dans l'un ou l'autre cas, chaque mot visuel du vocabulaire correspond à un groupement de caractéristiques typiques de bas niveau. Les mots visuels peuvent correspondre chacun (approximativement) à une caractéristique d'image de niveau moyen telle qu'un type d'objet visuel - plutôt que numérique (par exemple une boule ou une sphère, une tige ou une barre, etc.), un arrière-plan caractéristique (par exemple un ciel étoilé, un ciel bleu, une pelouse, etc.), ou une caractéristique similaire.

Pour une image à classifier donnée, chaque vecteur de caractéristique extrait (descripteur local) est attribué à son mot visuel (ou groupe de mots visuels) le plus proche dans le vocabulaire appris antérieurement, ou à tous les mots visuels de manière probabiliste dans le cas d'un modèle stochastique. Dans l'exemple de mode de réalisation, l'ensemble de descripteurs locaux d'une image donnée (ou de chaque région 130) est transformé en une représentation à histogramme de longueur fixe en comptant le nombre de descripteurs locaux attribués à chaque mot visuel. 2. Vecteur de Fisher Dans ce mode de réalisation, une représentation à vecteur de Fisher (FV) est calculée pour chaque région d'image 130. Les représentations par vecteur de Fisher pour les différentes régions sont ensuite enchaînées ou autrement agrégées afin de former une représentation d'image pour l'image d'ensemble 12, 32, 34, 36. Le vecteur de Fisher étend le BOV en allant au-delà du comptage (statistiques d'ordre 0) et en codant des statistiques (jusqu'au deuxième ordre) concernant la distribution de descripteurs locaux attribués à chaque mot visuel (voir T. Jaakkola et D. Haussier, « Exploiting generative models in discriminative classifiers » dans NIPS, 1999, désigné ci-après par Jaakkola ; et Perronnin 2007, demande U.S. 12/859,898 et Perronnin 2010). Un exemple illustratif de calcul d'une représentation par vecteur de Fisher pour une image (ou région d'image) est décrit. Posons que X = {xt,t =1,...,T} est l'ensemble de descripteurs locaux extraits de T morceaux d'une image (ou région d'image). On suppose ici que le processus de génération de X peut être modélisé par une fonction de densité de probabilité ux avec des paramètres X . Dans des exemples illustratifs présentés ici, la fonction de densité de probabilité u, est sélectionnée pour être un modèle de mélange gaussien (GMM). Voir par exemple Perronnin 2007. Ici ux = xw,u,(x) et les paramètres sont X = =1,...,K}, où w, , µ, et E, sont respectivement le poids de mélange, le vecteur principal et la matrice de covariance de la gaussienne u; . Dans le cas de l'exemple, le GMM ux = E"1w,u,(x) modélise par conséquent le processus de génération des descripteurs locaux (c'est-à-dire le vocabulaire visuel probabiliste).

On peut assumer que les matrices de covariance E, sont diagonales et le vecteur de variance correspondant est ainsi désigné par c . Le modèle GMM ux = EKlw,u,(x) est entraîné sur un ensemble d'images d'apprentissage à l'aide d'un algorithme d'apprentissage adapté tel qu'une estimation du maximum de probabilité (soit Maximum Likelihood, ou ML). Le nombre de gaussiennes dans le GMM peut être au moins 10, par

exemple au moins 100, et peut atteindre 100.000, et est dans un mode de réalisation inférieur à 1.000, par exemple environ 100 à 200. Les caractéristiques X peuvent alors être décrites par un vecteur de gradient.

Le FV G~ caractérise l'ensemble X = {x,,t =1...T} par sa déviation de la distribution u, Gxx = Lx Gxx où Gx est le gradient du logarithme de la probabilité par rapport à X : Gx =-V 1ogux(X) T et L, est la décomposition de Cholesky de l'inverse de la matrice d'information de Fisher FF de ux , c'est-à-dire que FF-' = 4'LA où par définition : (1) (2) 2974434 F~ = EX_u~ [v logux (x)V logu (x)']. 27 (3) L'apprentissage d'un classifieur de noyau est équivalent à l'apprentissage d'un classifieur linéaire sur les vecteurs de Fisher GI . L'apprentissage d'un classifieur linéaire avec de telles représentations d'image peut être effectué efficacement. Des détails additionnels concernant la génération de représentations FV sont par exemple donnés dans la demande U.S. 12/859,898 et dans Perronnin 2010. Comme décrit dans ces références, le calcul de la racine carrée et la normalisation L2 de FV peut fortement améliorer la précision de classification. 10 Dans des modes de réalisation qui emploient un partitionnement d'image, par exemple le mode de réalisation illustratif employant la pyramide spatiale, une représentation par vecteur de Fisher est générée pour chaque partition conformément à l'équation (1). Ces vecteurs de Fisher sont enchaînés pour générer une représentation 15 d'image. 3. Combinaison de représentations d'image avec d'autres caractéristiques Bien que l'exemple de représentation d'image FV ou BOV puisse être suffisant en soi pour classifier l'image 12 en termes de qualité, dans d'autres modes de réalisation, la 20 classification d'image peut aussi être une fonction d'autres caractéristiques comme une caractéristique esthétique ou un ensemble de caractéristiques esthétiques, telles que celles de Datta et al., et/ou des caractéristiques sémantiques extraites de l'image et/ou des métadonnées associées. Dans ce cas, les autres caractéristiques et le BOV ou vecteur FV peuvent être enchaînés pour former une représentation d'image 25 (éventuellement avec une pondération des caractéristiques pour procurer plus ou moins de poids au BOV ou au vecteur FV). En variante, les scores sortis par des classifieurs spécifiques de chaque type de représentation d'image peuvent être combinés dans une technique de fusion tardive par le composant d'agrégation 114. La représentation BOV/FV est par exemple entrée dans un premier classifieur qui sort un premier score, les caractéristiques esthétiques sont entrées dans un deuxième classifieur qui sort un deuxième score, et les premier et deuxième scores sont agrégés, par exemple en calculant une moyenne pondérée des deux scores. 5 Des procédés de génération d'une représentation du contenu sémantique d'une image sont décrits par exemple dans les brevets U.S. n°2007005356, 20070258648, 20080069456, 20080317358, 20090144033, 20100040285, 20100092084, 20100098343, 20100318477, dans les demandes U.S. n°12/512,209 et 12/960,018, et dans Perronnin, F., Dance, C., « Fisher Kernels on Visual Vocabularies for Image Categorization » dans CVPR 2007. Les exemples de caractéristiques esthétiques qui peuvent être combinés avec les exemples de représentation BOV et FV pour procurer un score de qualité d'image comprennent des caractéristiques de bas niveau telles que celles qui décrivent la lumière et la couleur en utilisant de simples statistiques évaluées sur l'image entière. En particulier, la moyenne et l'écart type peuvent être calculés pour chaque canal de couleur dans différents espaces colorimétriques à cohérence perceptive et non perceptive, tels que CIE Lab, RVB, YUV ou TSL. D'autres descripteurs esthétiques sont basés sur des techniques d'estimation de flou, où une image floue est modélisée comme le résultat de l'application d'un filtre de lissage gaussien à une image autrement nette (voir par exemple H. Tong, « Blur detection for digital images using wavelet transform », Proc. IEEE lntern'l Conf. on Multimedia and Expo, pp. 17 à 20, 2004). D'autres caractéristiques de bas niveau qui peuvent être utilisées sont celles qui calculent la plage dynamique d'une image en évaluant ses histogrammes de niveaux de gris. En outre, la coloration peut être évaluée en extrayant des histogrammes tridimensionnels en couleur et en calculant leur distance de transport (soit Earth Mover Distance, ou EMD) par rapport à un modèle chromatique de référence.

Le système classifieur L'exemple de système classifieur 18 est entraîné à l'aide des représentations d'image 56 et des valeurs de qualité correspondantes 54 de l'ensemble d'images d'apprentissage 100. Une fois l'apprentissage achevé, le système classifieur reçoit en entrée la représentation d'image 16, telle que la représentation BOV ou le vecteur de Fisher de la nouvelle image 12, et sort une mesure de qualité d'image basée sur celle-ci. La mesure peut être un score de qualité q pour l'image 12, qui peut être utilisée seule comme sa valeur de qualité 20. En variante, la valeur de qualité 20 peut également être basée sur de l'information additionnelle.

Lorsque deux types différents ou plus de caractéristiques de bas niveau sont utilisés, tels que SIFT et couleur, deux classifieurs 110, 112 peuvent être utilisés comme classifieur 18 (FIG. 2). Un score de classifieur séparé peut donc être obtenu pour chaque représentation d'image, et le résultat final (score de qualité) peut être obtenu (par le composant d'agrégation 114) en agrégeant les deux scores (ou plus) avec la fusion résultante, c'est-à-dire calculant la moyenne des scores des deux systèmes 110, 112 (par exemple avec des poids égaux ou différents). En variante, les deux représentations d'image (ou plus), une pour la couleur et une pour le SIFT, sont combinées, par exemple par enchaînement, pour former une représentation d'image unique qui est entrée dans un classifieur unique. Le système classifieur 18 peut comporter un ou plusieurs classifieurs binaires entraînés avec un quelconque algorithme d'apprentissage linéaire ou non linéaire approprié, tel qu'une régression logistique creuse, une classification naïve bayésienne, une analyse discriminante linéaire, des forêts d'arbres décisionnels, ou des machines à vecteurs de support (soit Support Vector Machine, ou SVM), en utilisant une fonction de classification appropriée telle qu'un noyau de fonction de base linéaire ou radiale (soit Radial Basis Function, ou RBF), un perceptron, une fonction polynomiale, une régression linéaire, ou tout autre procédé d'apprentissage de machine adapté. Dans l'exemple de mode de réalisation, une machine SVM utilisant des noyaux à fonction de base radiale (RBF) est utilisée. Ceci permet une comparaison directe avec le résultat de procédés existants. Notons cependant que d'autres procédés d'apprentissage de classifieur sont également envisagés.

Utilisation de valeurs de qualité Les valeurs de qualité 20 sorties par le système 10 peuvent être utilisées (au point S126) dans diverses applications. Le score de qualité 20 peut par exemple être utilisé dans un processus d'extraction d'information où le score de qualité 20 d'une image 12 peut être utilisé, seul ou en combinaison avec d'autres paramètres, pour classer un ensemble de telles images 12 extraites par un moteur de recherche en réponse à une requête entrée par un utilisateur. Dans ce mode de réalisation, chaque image 12 dans l'ensemble possède un score de qualité 20, et plus le score est élevé, plus il est probable que l'image se trouve parmi les premières présentées à l'utilisateur, sur base de ce paramètre. Dans un autre mode de réalisation, la valeur de qualité 20 peut être utilisée pour afficher des images sur un affichage 92 dans un dispositif en fonction de la valeur de la qualité (par exemple la ou les images ayant les scores les plus élevés sont montrées les premières). Dans un autre mode de réalisation encore, au moins une - mais pas toutes - les images d'un ensemble d'images 12 à chacune desquelles une valeur de qualité 20 a été attribuée par le système sont sélectionnées sur base de leur valeur de qualité. Une image peut par exemple être sélectionnée pour être collée dans un document afin de générer un contenu Web, etc. La ou les images recevant par exemple les scores les plus élevés dans un ensemble d'images approprié sont sélectionnées.

Dans un autre mode de réalisation, des étiquettes peuvent être attribuées à une collection d'images d'utilisateur, ces étiquettes étant basées sur les scores 20, avec par exemple un classement de 1 à 5 étoiles. Un utilisateur peut alors extraire par exemple les images qui ont un classement d'au moins 4 ou 5 étoiles.

Dans un autre mode de réalisation, les scores de qualité 20 peuvent être utilisés pour sélectionner un ensemble d'images à utiliser pour l'apprentissage d'un nouveau catégoriseur. Seules par exemple les images 12 qui ont un score de qualité d'image dépassant un seuil peuvent être entrées dans un catégoriseur. Le catégoriseur peut être un catégoriseur sémantique qui attribue une étiquette sémantique à des images sur base d'un contenu d'image ou qui attribue toutes les étiquettes d'un ensemble à l'image de manière probabiliste. Les étiquettes sont sélectionnées dans un ensemble prédéfini d'étiquettes, telles que fleur, personne, paysage, etc. Dans un autre mode de réalisation, le système classifieur entraîné 18 peut être déployé directement dans des appareils photographiques pour faire des suggestions à l'utilisateur en temps réel, avant même qu'une image 12 ne soit capturée. L'image 12 dans la fenêtre de l'appareil photo est par exemple traitée et un score de qualité est déterminé. La caméra peut procurer un avertissement sur son écran si l'image 12, 30 lorsqu'elle est capturée, est probablement de mauvaise qualité (par exemple inférieure à un seuil). Sans vouloir limiter la portée de l'exemple de mode de réalisation, l'exemple suivant décrit une mise en oeuvre de l'exemple de procédé qui montre que le BOV et le FV sont utiles pour une prédiction esthétique. EXEMPLE Un système prototype 10 a été mis en oeuvre tel que décrit précédemment. Ensembles de données d'image : Pour les images d'apprentissage 100 et les images 16, les deux bases de données publiques suivantes dérivées du site Web photo.net ont été utilisées : Ensemble de données Photo.net 1 (PN1) : Cette base de données consiste en un ensemble de 3.581 photographies choisies aléatoirement sur le site Web public photo.net. Étant donné cependant que certains hyperliens vers les images originales ne sont plus actifs, seules 3.118 de ces images étaient disponibles en téléchargement. Ces images ont été utilisées pour le test. Les images de l'ensemble de données Photo.net 1 sont notées avec des valeurs comprises entre 1,0 et 7,0 (7 étant le score de qualité le plus élevé) et des votes multiples par image sont possibles. Les sujets des images sont hautement hétérogènes. PN1 a été utilisé pour les expériences décrites dans Datta 2006 et Datta 2007.

Ensemble de données Photo.net 2 (PN2) : Il s'agit d'une version plus grande que PN1 procurée par les auteurs de Dalla 2006. Elle consiste en 20.278 images au total, dont seulement 17.036 sont accessibles. Outre la taille, une différence par rapport à PN1 consiste en ce que PN2 contient uniquement des images ayant reçu au moins 10 classifications. Cela garantit une plus grande stabilité des scores moyens de qualité d'image 54.

Pour chaque image i, la moyenne des scores 38 disponible pour cette image qav (i) est calculée. Deux seuils 01 = 5+8 /2 et 02 = 5 -5 / 2 sont établis. Chaque image est annotée avec une étiquette « bon » = +1 si qav (i) >- 01 et « mauvais » = -1 si gav(i)<_02. Ces valeurs de qualité binaires 54 furent utilisées pour l'apprentissage du système classifieur et les mesures de précision. Caractéristiques esthétiques : Comme caractéristiques esthétiques utilisées à titre de comparaison, les caractéristiques de classification esthétique citées dans Datta 2006 (56 caractéristiques) et Ke 2006 (7 caractéristiques) ont été utilisées. Dans les exemples suivants, Dattaa' désigne toutes les 56 caractéristiques Datta. Ke désigne toutes les 7 caractéristiques Ke 2007. Dattatop15 désigne les 15 premières caractéristiques de Datta 2006. Ke+Dattatopl5 désigne les 15 premières caractéristiques de Datta 2006 et de Ke 2006 combinées.

Les résultats rapportés dans Datta 2006 et Ke ont pu être répliqués en utilisant les mêmes protocoles et ensembles de données expérimentaux. Caractéristiques basées sur le contenu : Pour BOV et FV, deux types de descripteurs locaux ont été utilisés pour décrire les morceaux : des descripteurs SIFT à 128 dimensions (tels que décrits précédemment et dans Lowe 2004) et des descripteurs de couleur à 96 dimensions (Perronnin 2010). Dans les deux cas, les descripteurs locaux furent réduits par PCA à 64 dimensions. Des descripteurs locaux sont extraits régulièrement sur des grilles tous les 16 pixels dans des morceaux de 32x32 pixels à différentes échelles (c'est-à-dire en réduisant l'image). Le vocabulaire visuel probabiliste, c'est-à-dire un GMM, est appris en utilisant un algorithme EM standard. Pour le BOV, un GMM à 2.048 fonctions gaussiennes est utilisé, et pour le FV, un GMM à 128 fonctions gaussiennes est utilisé.

Classification : Pour les ensembles de données PN1 et PN2, une validation croisée multipliée 5 fois fut effectuée, tel que suggéré dans Datta 2006. Un classifieur de régression logistique creuse (SLR) fut utilisé, dont les performances était avérées similaires à celles du classifieur SVM (voir B. Krishnapuram et al. « Sparse multinomial logistic regression: Fast algorithms and generalization bounds », IEEE TPAMI, 2005). Pour BOV et FV, deux classifieurs séparés 110, 112 furent lancés, un pour SIFT et l'autre pour des caractéristiques de couleur. Pour la qualité esthétique de l'image, celle-ci fut simplement classée comme « bonne » ou « mauvaise » en utilisant des classifieurs discriminatifs entraînés respectivement avec les descripteurs BOV et FV, des plis d'apprentissage d'images le long de leurs étiquettes esthétiques respectives « bonne » et « mauvaise ».

Le résultat final (score de qualité) pour une image test est simplement obtenu par fusion tardive, c'est-à-dire par calcul de la moyenne des scores des deux classifieurs 110, 112 (ici avec des poids égaux). Expériences sur PN1 Dans les expériences suivantes, la précision fut mesurée sous forme du pourcentage d'images dans l'ensemble d'essai qui étaient classées correctement sur base de leur score de qualité, après avoir calculé une moyenne sur les cinq plis. Pour établir un référentiel des caractéristiques esthétiques, différents ensembles de caractéristiques furent évalués dans l'ensemble de données PN1. La FIGURE 5 représente des courbes de précision de classifieur par rapport au seuil de classement S pour les ensembles de caractéristiques esthétiques : Dattaal,, Dattatopl5, Ke et Ke+Dattatop,5. On peut voir sur la FIGURE 5 que les caractéristiques Datta 2006 sont plus performantes que les caractéristiques Ke et qu'il y a une différence limitée entre les caractéristiques Dattaa' et les caractéristiques Dattatop15 sélectionnées. Les caractéristiques fusionnées Ke+Dattatop,5 ne procurent aucune amélioration notable. Dans le reste des expériences, les 15 meilleures caractéristiques proposées par Datta 2006 (Datta,op,5) furent par conséquent utilisées comme référentiel.

La FIGURE 6 montre l'impact de la pyramide spatiale sur la précision de classification pour l'ensemble de données PN1 en utilisant les descripteurs BOV et FV, les résultats Dattatop,5 étant indiqués à titre de comparaison. On remarquera que les descripteurs BOV et FV utilisés comme représentations d'image sont plus performants que les caractéristiques esthétiques conventionnelles pour tous les seuils de classement 8 testés. On peut donc conclure que les distributions FV et BOV de descripteurs locaux présentent un potentiel de discrimination élevé pour l'évaluation de la qualité d'image. Parmi ceux-ci, FV est le descripteur le plus performant.

La FIGURE 7 montre l'effet de la pyramide spatiale sur les scores BOV et FV (en utilisant 8 descripteurs de région enchaînés par type de caractéristique, tel que décrit pour la FIG. 4). On remarquera que l'impact est le plus significatif dans le cas des descripteurs FV. Ceci peut être dû au fait que relativement peu d'échantillons d'apprentissage furent utilisés et que la dimensionnalité des descripteurs est beaucoup plus grande avec la pyramide spatiale que sans elle. En d'autres termes, on peut s'attendre à ce que des pyramides spatiales puissent fournir une plus grande augmentation dans le cas où plus de données d'apprentissage sont disponibles.

La complémentarité entre les meilleurs descripteurs basés sur le contenu (les FV) et les caractéristiques Datta (Dattat0 15) fut également évaluée. La FIGURE 7 montre des résultats pour la fusion tardive (à poids égaux) de ces deux systèmes sous « FV pyramid+Datta ». Une amélioration limitée (mais cohérente) de la précision peut être observée, ce qui tend à indiquer que la complémentarité entre ces descripteurs est faible, bien que l'amélioration de précision puisse justifier l'utilisation des deux types de descripteurs pour l'évaluation de la qualité d'image. Le FV, même sans la pyramide spatiale, est significativement plus performant que l'autre procédé sur la plage de seuils de classement 8 testée (tout comme pour la FIG. 7), même dans le cas où une connaissance parfaite de l'information sémantique est disponible. Expériences sur PN2 La FIGURE 9 montre des résultats analogues à ceux de la FIGURE 8, mais avec la base de données PN2, c'est-à-dire en utilisant des caractéristiques esthétiques (Datta), des caractéristiques basées sur le contenu (FV avec pyramide spatiale) et leur combinaison. On remarquera ici que le descripteur FV est significativement plus performant que les caractéristiques Dalla et que la combinaison de ces deux classes de caractéristiques n'apporte que peu de bénéfice. Les résultats démontrent qu'il est possible d'évaluer la qualité esthétique d'une image à partir de la distribution de ses caractéristiques locales de bas niveau. Une image peut être décrite par un BOV ou un vecteur FV et classifiée comme « bonne » ou « mauvaise » en utilisant des classifieurs discriminants 110, 112 entraînés sur des images à étiquettes esthétiques. De manière surprenante, les exemples BOV et FV peuvent être plus performants que des caractéristiques spécifiquement développées pour être corrélées avec des techniques de photographie.

Claims

REVENDICATIONS1. Procédé pour déterminer la qualité esthétique d'une image d'entrée, comprenant : l'extraction d'un ensemble de caractéristiques locales à partir de l'image d'entrée ; avec un processeur, la génération d'une représentation d'image qui décrit la distribution des caractéristiques locales ; et avec un système classifieur, la détermination d'une qualité esthétique de l'image d'entrée basée sur la représentation d'image calculée.
2. Procédé selon la revendication 1, dans lequel les caractéristiques de bas niveau comprennent au moins une caractéristique de gradient ou de couleur.
3. Procédé selon la revendication 1, dans lequel la génération de la représentation d'image comprend la modélisation des descripteurs locaux extraits en utilisant un modèle probabiliste pour générer la représentation d'image d'entrée comprenant des valeurs de composantes de modèle probabiliste pour un ensemble de composantes de modèle probabiliste.
4. Procédé selon la revendication 3, dans lequel le modèle probabiliste comprend un modèle de mélange gaussien, et les composantes du modèle probabiliste comprennent des composantes gaussiennes du modèle de mélange gaussien.
5. Procédé selon la revendication 1, dans lequel la représentation d'image comprend au moins une représentation par sac de mots visuels (BOV) et une représentation par vecteur de Fisher (FV). 20 25 30
6. Procédé selon la revendication 1, dans lequel la génération comprend : le partitionnement de l'image d'entrée en une pluralité de régions d'image en utilisant un modèle de partitionnement par pyramides spatiales ; l'extraction de descripteurs de région à partir des régions d'image sur base de l'ensemble de caractéristiques locales extraites pour la région ; et l'agrégation des descripteurs locaux extraits des régions d'image.
7. Procédé selon la revendication 1, dans lequel le système classifieur subit un apprentissage concernant une valeur de qualité esthétique pour chacune des images d'apprentissage d'un ensemble et des représentations d'image correspondantes.
8. Procédé selon la revendication 7, dans lequel la valeur de qualité esthétique d'une image d'apprentissage est calculée en établissant la moyenne d'une pluralité de scores de qualité d'image attribués manuellement pour l'image d'apprentissage.
9. Système comprenant une mémoire non volatile qui stocke des instructions pour mettre en oeuvre le procédé selon la revendication 1 et un processeur en communication avec la mémoire pour exécuter les instructions.
10. Système pour déterminer la qualité esthétique d'une image d'entrée, comprenant : un extracteur de caractéristique pour extraire un ensemble de 25 caractéristiques locales à partir de l'image d'entrée ; un générateur de représentation pour générer une représentation d'image qui décrit une distribution des caractéristiques locales extraites, le générateur de représentation générant des descripteurs locaux sur base de caractéristiques de bas niveau extraites à partir de morceaux de l'image et 30 agrégeant les descripteurs locaux pour former la représentation d'image ; et 15 20un système classifieur qui détermine une qualité esthétique de l'image d'entrée sur base de la représentation d'image calculée.