Comment fonctionne la génération d'images

“Un sculpteur n'ajoute pas de marbre. Il part d'un bloc brut et retire tout ce qui n'est pas la statue.”

La génération comme débruitage

Un modèle de diffusion est entraîné sur une idée simple, presque naïve. Prenez une image réelle, ajoutez-y un peu de bruit aléatoire, et apprenez à un modèle à l'éliminer. Faites cela sur tous les niveaux de bruit, du légèrement tacheté jusqu'au pur bruit statique. Le modèle devient expert en une chose : étant donné une image bruitée, prédire une version légèrement plus propre.

Pour générer, vous partez d'un bruit pur — du bruit statique aléatoire — et vous appliquez cette étape de débruitage encore et encore. Chaque passage élimine un peu de bruit, et comme le modèle a appris à quoi ressemblent les vraies images, le bruit se résout en une image cohérente. La génération n'est que du débruitage, exécuté depuis rien.

Partir d'un bruit aléatoire; chaque étape en retire un peu, guidée par le prompt, jusqu'à ce qu'une image nette émerge. La création comme soustraction répétée.

Comment le prompt le dirige

Un débruitage pur produirait une image plausible, mais pas votre image. Le prompt intervient comme guidage : à chaque étape de débruitage, le modèle est conditionné sur votre texte, orientant le résultat vers une image correspondant à la description. Le texte est converti en une représentation (en utilisant le type d'espace partagé image-texte que nous verrons au chapitre 6) que le débruiteur peut suivre.

C'est pourquoi le même prompt donne des images différentes chaque fois — vous partez d'un bruit aléatoire différent — et pourquoi de petites modifications du prompt peuvent changer radicalement le résultat : vous pilotez un processus, vous ne récupérez pas une image. Le prompt est un champ de force sur le débruitage, pas une clé de recherche.

Travailler en petit : la diffusion latente

Débruiter directement une image en pleine résolution est extrêmement coûteux — des millions de pixels, des centaines d'étapes. La percée qui a mis la génération d'images à la portée du matériel ordinaire a été de travailler dans un espace compressé. Un encodeur réduit l'image à une petite représentation « latente », tout le débruitage coûteux s'y effectue, puis un décodeur re-dilate le résultat vers la pleine résolution.

Compresser vers un espace latent réduit, effectuer la génération coûteuse là-dedans, puis décoder vers la pleine résolution. Le même résultat pour une fraction du calcul.

Cette approche de diffusion latente, popularisée vers 2022, explique pourquoi les générateurs d'images sont passés de curiosités de laboratoire à des outils tournant sur un GPU de gaming. L'idée — faire le travail difficile dans un espace compressé — revient partout dans l'IA efficiente.

Ce que cela explique sur l'IA pour les images

L'image du débruitage explique les bizarreries que vous avez observées. Pourquoi les images prennent du temps à générer (de nombreuses étapes). Pourquoi les détails comme les mains et le texte sortaient historiquement déformés (les détails fins et structurés sont difficiles à récupérer depuis le bruit). Pourquoi vous pouvez guider, incruster et varier une image (vous pouvez intervenir dans le débruitage). Et pourquoi les sorties sont non déterministes (différents bruits de départ). L'étrangeté n'est pas de l'aléatoire — c'est le mécanisme qui transparaît.

En une ligne chacun

Les modèles de diffusion génèrent en partant d'un bruit pur et en le retirant progressivement jusqu'à ce qu'une image émerge.
Ils sont entraînés en ajoutant du bruit à de vraies images et en apprenant à l'inverser — la génération exécute cette inversion depuis rien.
Le prompt guide chaque étape de débruitage; les différents bruits de départ expliquent pourquoi le même prompt donne des images différentes.
La diffusion latente effectue le travail coûteux dans un espace compressé, ce qui a mis la génération d'images à la portée du matériel ordinaire.

Où aller ensuite

Chapitre 3 — Contrôler les images