[go: up one dir, main page]

Aller au contenu

Sora (conversion texte-vidéo)

Un article de Wikipédia, l'encyclopédie libre.
Sora

Informations
Créateur OpenAI
Développé par OpenAIVoir et modifier les données sur Wikidata
Fichier exécutable images vidéo de résolution allant jusqu'à 1920 x 1080 et jusqu'à 1080 x 1920, générées à partir de commandes naturelles
Première version février 2024 (pour les beta-testeurs uniquement)
Supporte les langages Langage naturel
Type Intelligence artificielle générative
Site web openai.com/sora

Vidéo générée par Sora à partir du texte suivant : « A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about[1]. »

Sora est un outil d'intelligence artificielle générative, de type Text-to-video model développé par l'organisation américaine de recherche sur l'IA OpenAI. Grâce à des modèles d'IA de pointe, cette IA peut générer des vidéos de haute qualité, fluides, cohérentes, réalistes et immersives, basées sur de courtes invites descriptives[2], ainsi que prolonger les vidéos existantes vers l'avant ou vers l'arrière dans le temps[3]. Sora peut générer des vidéos avec une résolution allant jusqu'à 1920 x 1080 et jusqu'à 1080 x 1920. La durée maximale des vidéos générées est de 1 minute.

Comme Dall-E, Sora s'appuie sur des modèles de langage sophistiqués lui permettant d'analyser et comprendre les nuances du langage humain dans les descriptions textuelles.

Cette IA, comme toutes les IA générative perfectionnées et par sa capacité à transformer des phrases simples (prompts) en vidéos ouvre de nouvelles perspectives créatives pour la communication, la pédagogie, l'art, le divertissement et bien d'autres domaines, mais tout en suscitant des questions éthiques, juridiques, morales, économiques et des inquiétudes nouvelles concernant le respect des droit d'auteur, et des utilisations malveillantes.

Dénomination

[modifier | modifier le code]

L'équipe qui développe Sora lui donne le nom du mot japonais signifiant ciel pour signifier « son potentiel créatif illimité ». La technologie derrière Sora est une adaptation de la technologie derrière le modèle texte-image DALL-E 3[4].

OpenAI présente au grand public quelques vidéos haute définition créées par Sora le 15 février 2024, déclarant que la technologie est capable de générer des vidéos d'une durée allant jusqu'à une minute.

Il ne partage pas de rapport technique ni ne démontre comment les vidéos sont générées par le modèle. Il reconnait certaines lacunes du système, notamment des difficultés à simuler une physique complexe[5]. Will Douglas Heaven de la MIT Technology Review qualifie les vidéos de démonstration d'"impressionnantes", mais note qu'elles doivent avoir été sélectionnées avec soin et qu'elles peuvent ne pas être représentatives de la production typique de Sora.

Distribution et précautions

[modifier | modifier le code]

OpenAI déclare qu'il n'a pas l'intention de rendre Sora public. Préoccupés par le potentiel d'utilisation abusive de Sora, l'accès sera limité à une petite équipe rouge comprenant des universitaires et des chercheurs.

Les vidéos générées par Sora sont étiquetées avec des métadonnées C2PA pour indiquer qu'elles sont générées par l'IA. Ils partagent également Sora avec un petit groupe de professionnels de la création, notamment des vidéastes et des artistes, pour obtenir des commentaires sur son utilité.

Technologie

[modifier | modifier le code]

Le "rapport technique" ne contient essentiellement aucune information technique selon laquelle il s'agit d'une diffusion débruitante dans l'espace latent avec (au moins) un transformeur comme débruiteur. Cette conception est standard pour les générateurs d'images de diffusion comme Stable Diffusion (sauf que Stable Diffusion utilise un U-Net au lieu d'un transformeur). Une vidéo est générée dans l'espace latent par débruitage de "patchs" 3D (2D d'espace et 1D de temps), puis transformée en espace standard par un décompresseur vidéo. Le re-sous-titrage est utilisé pendant la formation pour créer de bons sous-titres sur des vidéos qui n'en ont pas.

De nombreux commentateurs, tel l'universitaire américain Oren Etzioni (en) s'inquiètent des détournement possibles de cette technologie à des fins d'influence et de désinformation en ligne, en particulier pour les campagnes politiques. La vidéo crée par IA a en effet le potentiel de renforcer la crédibilité et la propagation de deepfakes de plus en plus sophistiqués, et plus généralement de fausses informations, ou encore des contenus dits inappropriés ou offensants (ce pourquoi ces vidéos seront taguées au moyen d'un filigrane numérique pour faciliter la détection de mésusages et d'éventuelles poursuites contre leurs auteurs).

OpenAI entraîne ce système à l'aide de vidéos accessibles au public ainsi, peut-être, que de vidéos protégées par le droit d'auteur (sous licence à cet effet), mais ne révèle pas le nombre ni la source exacte des vidéos.

Notes et références

[modifier | modifier le code]
  1. (en) « OpenAI (@OpenAI) on X », sur Twitter (consulté le ).
  2. (en) « OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos », sur The New York Times,
  3. (en) « Video generation models as world simulators », sur OpenAI,
  4. (en) « OpenAI teases an amazing new generative video model called Sora », sur MIT Technology Review,
  5. (en) « OpenAI Reveals ‘Sora’: AI Video Model Capable Of Realistic Text-To-Video Prompts », sur Forbes,

Sur les autres projets Wikimedia :

Articles connexes

[modifier | modifier le code]