Stable Diffusion

Informations
Première version	22 août 2022
Dernière version	3.5 (23 octobre 2024)
Dépôt	github.com/Stability-AI/generative-models
Écrit en	Python
Système d'exploitation	Linux, macOS et Microsoft Windows
Type	Prompt art; Latent variable model (en); Modèle de diffusion (en)
Licence	Stability AI Community License (d)
Site web	stability.ai/stable-image

Stable Diffusion est un modèle d'apprentissage automatique permettant de générer des images numériques photoréalistes à partir de descriptions en langage naturel. Le modèle peut également être utilisé pour d'autres tâches, comme la génération d'une image améliorée à partir d'une esquisse et d'une description textuelle^[2].

Il peut fonctionner sur la plupart des matériels grand public équipés d'une carte graphique même de moyenne gamme.

Licence

Le code source de Stable Diffusion est public, mais ce n'est pas un logiciel libre^[3], car sa licence, dite CreativeML Open RAIL M License, interdit certains cas d'utilisation, ce qui est contraire à un principe de base de la fondation pour le logiciel libre^[4]^,^[5]^,^[6].

Les critiques déplorant la publication du code source peuvent en général être liées aux inquiétudes concernant l'éthique de l'intelligence artificielle. Elles s'appuient sur l'hypothèse que le modèle peut être utilisé pour créer des deepfakes^[7] et remettent également en question la légalité de la génération d'images avec un modèle formé sur un ensemble de données incluant du contenu protégé par le droit d'auteur sans le consentement des artistes originaux^[8].

Entraînement

Stable Diffusion est formé sur un sous-ensemble de l'ensemble de données LAION-Aesthetics V2^[9]. Il est entrainé sur 256 GPU Nvidia A100 pour un coût de 600 000 $^[10].

Modèles


Version	date de sortie	taille recommandée des images à générer	licence d'utilisation	Notes
1.0
1.4 ^[11]	août 2022	512 x 512 pixels	CreativeML OpenRAIL M license
1.5^[12]	octobre 2022	512 x 512 pixels	CreativeML OpenRAIL M license	Basé sur la version 1.2, publié par Runway ML, partenaire de Stability ^[13]
2.0^[14]	novembre 2022	768 x 768 pixels	CreativeML OpenRAIL M license	Modèle entrainé sans images explicites (érotiques, pornographiques)^[15]
2.1^[16]	décembre 2022	768 x 768 pixels	CreativeML OpenRAIL M license
SDXL 0.9 base^[17]	juin 2023	1024 x 1024 pixels	SDXL 0.9 Research License
SDXL base 1.0^[18] SDXL refiner 1.0^[19]	juillet 2024	1024 x 1024 pixels	CreativeML Open RAIL++-M License
3.0 Medium	22 février 2024 (annonce et accés restreint) 12 juin 2024 (publication)	1024 x 1024 pixels	Stability Non-Commercial Research Community License

En novembre 2023, Stability a publié une version distillée nommée SDXL-Turbo^[20] : elle a pour but de permettre la génération d'images en temps réel. À la différence des autres modèles, sa licence n'en permet pas un usage commercial et la version originale ne permet de générer que des images de 512x512 pixels : la communauté des utilisateurs^[21] a depuis entrainé d'autres modèles Turbo permettant de générer des images de 1024x1024 pixels. Les modèles Turbo permettent potentiellement de générer une image en une seule étape de calcul (de 1 à 4 étapes en pratique)^[22].

En février 2024, Stability publie un modèle Stable Cascade^[23] : Ce modèle est construit sur l'architecture Würstchen^[24] : il fonctionne dans un espace latent beaucoup plus petit. Stable Diffusion utilise un facteur de compression de 8, ce qui signifie qu'une image de 1024x1024 est encodée en 128x128. Stable Cascade atteint un facteur de compression de 42, ce qui signifie qu'il est possible d'encoder une image de 1024x1024 en 24x24. Ce type de modèle est bien adapté aux utilisations où l'efficacité est importante. Comme la version Turbo, sa licence est non-commerciale et elle est destinée à permettre la recherche.

Le 22 février 2024, Stability annonce la prochaine version de son modèle, Stable Diffusion 3^[25].

ControlNet

ControlNet^[26] est une structure de réseau neuronal qui permet d'ajouter un conditionnement spécifique à des images générées par Stable Diffusion à partir de texte. Les ControlNet utilisent une image de référence pour conditionner la génération. L'image passe un préprocesseur (détection de contours, de profondeur, de pose, etc.) et sert alors de guide à la génération. Cela permet par exemple de conserver la composition de l'image de référence dans les générations^[27].

Exemples de ControlNet (liste non exhaustive) :

Détection de contours : Filtre de Canny
Détection de la position d'un corps humain : Pose^[28]
Détection de la profondeur de champ : Depth^[29]
Détection des lignes d'un dessin : Lineart

Certains modèles sont entrainés pour déflouter^[30] des images ou coloriser^[31] des images.

ControlNet se sert de couches spéciales, appelées "convolutions zéro", qui commencent sans influence sur l'image et progressent doucement, évitant d'introduire des erreurs pendant l'amélioration du modèle^[26].

Des modèles ont été entrainés pour les diverses versions de Stable Diffusion (1.4, 1.5, 2.1, SDXL).

Remarque : ne pas confondre le terme avec le système de communication industriel ControlNet.

Principaux logiciels utilisés

Cette section relève du guide pratique, ce qui n'est pas de nature encyclopédique (février 2024).

Les principaux logiciels (gratuits) utilisés pour générer des images avec Stable Diffusion localement (sur son propre ordinateur s’il dispose d’un GPU adapté) ou via une plateforme d'environnement de développement en ligne (Google Colab, RunPod, SageMaker, Jupyter, etc.)

Le langage Python est principalement utilisé pour tous ces programmes, qui sont disponibles sur GitHub.


Logiciel	auteur	fork
Web UI	Automatic1111	non
SD.Next	vladmandic	oui, de WebUI
Stable Diffusion web UI-UX	anapnoe	oui, de WebUI
Stable Diffusion WebUI Forge	lllyasviel	oui de WebUI
ComfyUI	comfyanonymous	non
InvokeAI	InvokeAI	non
Fooocus	lllyasviel	non
Fooocus-ControlNet-SDXL	fenneishi	oui, de Fooocus
RuinedFooocus	runew0lf	oui, de Fooocus
Fooocus-MRE	MoonRide303	oui, de Fooocus
VoltaML	VoltaML	non
EasyDiffusion	easydiffusion	non

Poursuites en justice

En janvier 2023, trois artistes — Sarah Andersen, Kelly McKernan et Karla Ortiz — intentent une action en justice contre Stability AI, Midjourney et DeviantArt, créateurs des générateurs d'art Stable Diffusion, Midjourney et DreamUp, affirmant que ces sociétés ont violé les droits de « millions d'artistes » en entraînant leurs outils d'intelligence artificielle sur cinq milliards d'images extraites du web « sans le consentement des artistes originaux »^[32].

Le juge de district américain William Orrick III (en) a rejeté certaines des revendications de l'action collective, y compris toutes les allégations dirigées contre Midjourney et DeviantArt. Il a indiqué que les artistes pouvaient amender leur plainte contre les deux entreprises, dont les systèmes utilisent la technologie de texte à image Stable Diffusion de Stability.

Le juge a également rejeté intégralement les revendications de violation du droit d'auteur de Kelly McKernan et Ortiz. Il a autorisé Sarah Andersen à poursuivre sa principale allégation selon laquelle l'utilisation présumée de son travail par Stability pour entrainer Stable Diffusion enfreignait son copyright^[33].

Notes et références

↑ « https://stability.ai/news/introducing-stable-diffusion-3-5 »
↑ (en) « Diffuse The Rest - a Hugging Face Space by huggingface », huggingface.co, sur Hugging Face (consulté le 5 septembre 2022).
↑ (en) Emad Mostaque (en), « Stable Diffusion Public Release », Stability.Ai, 22 août 2022 (consulté le 31 août 2022).
↑ (en) Richard Stallman, « Why programs must not limit the freedom to run them », sur gnu.org, 6 septembre 2022.
↑ « Ready or not, mass video deepfakes are coming », The Washington Post, 30 août 2022 (consulté le 31 août 2022).
↑ (en) « License - a Hugging Face Space by CompVis », huggingface.co, 22 août 2022 (consulté le 5 septembre 2022).
↑ (en) « Deepfakes for all: Uncensored AI art model prompts ethics questions », TechCrunch, 24 février 2022 (consulté le 31 août 2022).
↑ (en) Luke Plunkett, « AI Creating 'Art' Is An Ethical And Copyright Nightmare », Kotaku, 25 août 2022 (consulté le 2 septembre 2022).
↑ (en) « LAION-Aesthetics | LAION », laion.ai (consulté le 2 septembre 2022).
↑ (en) Emad Mostaque (en), « Cost of construction », Twitter, 28 août 2022 (consulté le 6 septembre 2022).
↑ « CompVis/stable-diffusion-v1-4 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).
↑ « runwayml/stable-diffusion-v1-5 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).
↑ (en) RunwayML, « Stable Diffusion v1-5 Model Card » , sur HuggingFace, 22 octobre 2022.
↑ « stabilityai/stable-diffusion-2 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).
↑ « Découvrir les modèles Stable Diffusion » , stablediffusion.blog (consulté le 28 février 2024).
↑ « stabilityai/stable-diffusion-2-1 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).
↑ « stabilityai/stable-diffusion-xl-base-0.9 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).
↑ « stabilityai/stable-diffusion-xl-base-1.0 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).
↑ « stabilityai/stable-diffusion-xl-refiner-1.0 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).
↑ (en) stabilityai, « SDXL-Turbo Model Card » , sur huggingface, 2_ novembre 2023.
↑ (en) divers, « Modèles SDXL Turbo CIVITAI » , sur civitai.
↑ (en) Axel Sauer, Dominik Lorenz, Andreas Blattmann et Robin Rombach, « Adversarial Diffusion Distillation », Stability AI papers,‎ novembre 2023, p. 7 (lire en ligne [PDF])
↑ (en) Stability, « Stable Cascade Model Card », sur Huggingface, février 1014.
↑ (en) Sayak Paul, Pedro Cuenca, Pablo Pernías, Kashif Rasul et Dominic Rampas, « Introducing Würstchen: Fast Diffusion for Image Generation » , sur huggingface, 13 septembre 2023 (consulté le 28 février 2024).
↑ (en) Stability, « Stable Diffusion 3 » , sur stability.ai, 22 février 2024 (consulté le 28 février 2024).
↑ ^{a et b} Lvmin Zhang, Anyi Rao et Maneesh Agrawala, « Adding Conditional Control to Text-to-Image Diffusion Models » , sur Cornwell University, arXiv, 10 février 2023 (consulté le 5 mars 2024).
↑ (en) stable-diffusion-art, « ControlNet v1.1: A complete guide » , sur stable-diffusion-art.com, 5 novembre 2023 (consulté le 5 mars 2024).
↑ (en) « Papers with Code - Pose Estimation », sur paperswithcode.com (consulté le 5 mars 2024).
↑ (en) « Papers with Code - Depth Estimation », sur paperswithcode.com (consulté le 5 mars 2024).
↑ « kohya-ss/controlnet-lllite · Hugging Face », sur huggingface.co (consulté le 5 mars 2024).
↑ (en) Renato Sortino, « ColorizeNet: Stable Diffusion for Image Colorization », sur Medium, 7 octobre 2023 (consulté le 5 mars 2024).
↑ (en) James Vincent, « AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit », sur The Verge, 16 janvier 2023.
↑ (en) Blake Brittain, « Judge pares down artists' AI copyright lawsuit against Midjourney, Stability AI », sur Reuters, 30 octobre 2023 (consulté le 28 février 2024).

Articles connexes

Liens externes

[wikidata-f4d7d5dd2e8403d1828aa3d1aab3fa1e2c707c80-1] « https://stability.ai/news/introducing-stable-diffusion-3-5 »

[2] (en) « Diffuse The Rest - a Hugging Face Space by huggingface », huggingface.co, sur Hugging Face (consulté le 5 septembre 2022).

[stability-3] (en) Emad Mostaque (en), « Stable Diffusion Public Release », Stability.Ai, 22 août 2022 (consulté le 31 août 2022).

[4] (en) Richard Stallman, « Why programs must not limit the freedom to run them », sur gnu.org, 6 septembre 2022.

[washingtonpost-5] « Ready or not, mass video deepfakes are coming », The Washington Post, 30 août 2022 (consulté le 31 août 2022).

[6] (en) « License - a Hugging Face Space by CompVis », huggingface.co, 22 août 2022 (consulté le 5 septembre 2022).

[techcrunch-7] (en) « Deepfakes for all: Uncensored AI art model prompts ethics questions », TechCrunch, 24 février 2022 (consulté le 31 août 2022).

[kotaku-8] (en) Luke Plunkett, « AI Creating 'Art' Is An Ethical And Copyright Nightmare », Kotaku, 25 août 2022 (consulté le 2 septembre 2022).

[9] (en) « LAION-Aesthetics | LAION », laion.ai (consulté le 2 septembre 2022).

[10] (en) Emad Mostaque (en), « Cost of construction », Twitter, 28 août 2022 (consulté le 6 septembre 2022).

[11] « CompVis/stable-diffusion-v1-4 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).

[12] « runwayml/stable-diffusion-v1-5 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).

[13] (en) RunwayML, « Stable Diffusion v1-5 Model Card » , sur HuggingFace, 22 octobre 2022.

[14] « stabilityai/stable-diffusion-2 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).

[15] « Découvrir les modèles Stable Diffusion » , stablediffusion.blog (consulté le 28 février 2024).

[16] « stabilityai/stable-diffusion-2-1 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).

[17] « stabilityai/stable-diffusion-xl-base-0.9 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).

[18] « stabilityai/stable-diffusion-xl-base-1.0 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).

[19] « stabilityai/stable-diffusion-xl-refiner-1.0 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).

[20] (en) stabilityai, « SDXL-Turbo Model Card » , sur huggingface, 2_ novembre 2023.

[21] (en) divers, « Modèles SDXL Turbo CIVITAI » , sur civitai.

[22] (en) Axel Sauer, Dominik Lorenz, Andreas Blattmann et Robin Rombach, « Adversarial Diffusion Distillation », Stability AI papers,‎ novembre 2023, p. 7 (lire en ligne [PDF])

[23] (en) Stability, « Stable Cascade Model Card », sur Huggingface, février 1014.

[24] (en) Sayak Paul, Pedro Cuenca, Pablo Pernías, Kashif Rasul et Dominic Rampas, « Introducing Würstchen: Fast Diffusion for Image Generation » , sur huggingface, 13 septembre 2023 (consulté le 28 février 2024).

[25] (en) Stability, « Stable Diffusion 3 » , sur stability.ai, 22 février 2024 (consulté le 28 février 2024).

[:0-26] {a et b} Lvmin Zhang, Anyi Rao et Maneesh Agrawala, « Adding Conditional Control to Text-to-Image Diffusion Models » , sur Cornwell University, arXiv, 10 février 2023 (consulté le 5 mars 2024).

[27] (en) stable-diffusion-art, « ControlNet v1.1: A complete guide » , sur stable-diffusion-art.com, 5 novembre 2023 (consulté le 5 mars 2024).

[28] (en) « Papers with Code - Pose Estimation », sur paperswithcode.com (consulté le 5 mars 2024).

[29] (en) « Papers with Code - Depth Estimation », sur paperswithcode.com (consulté le 5 mars 2024).

[30] « kohya-ss/controlnet-lllite · Hugging Face », sur huggingface.co (consulté le 5 mars 2024).

[31] (en) Renato Sortino, « ColorizeNet: Stable Diffusion for Image Colorization », sur Medium, 7 octobre 2023 (consulté le 5 mars 2024).

[32] (en) James Vincent, « AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit », sur The Verge, 16 janvier 2023.

[33] (en) Blake Brittain, « Judge pares down artists' AI copyright lawsuit against Midjourney, Stability AI », sur Reuters, 30 octobre 2023 (consulté le 28 février 2024).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

v · m Intelligence artificielle générative
Texte	Claude Google Gemini GPT-3 GPT-4 SearchGPT LLaMA
Images	DALL-E Midjourney Stable Diffusion
Vidéos	Sora
Musiques	Suno AI Udio
Prompt	Prompt art Ingénierie de prompt
Entreprises	Aleph Alpha Anthropic Google DeepMind Hugging Face Meta AI Mistral AI OpenAI Perplexity AI