One idea, many modalities

“Quand on sait apprendre la forme d'une chose, on peut apprendre la forme de n'importe quoi — mots, images, sons.”

Une seule idée, plusieurs habits

Sous chaque modèle génératif se cache un seul geste : apprendre la distribution d'un type de données, puis en échantillonner de nouveaux exemples. Apprendre à quoi ressemblent les phrases en anglais, en échantillonner une nouvelle — c'est un modèle de langage. Apprendre à quoi ressemblent les photographies, en échantillonner une nouvelle — c'est un générateur d'images. Les données changent; l'idée de fond, elle, reste.

La même idée de base — apprendre une distribution, puis en échantillonner — alimente la génération de texte, d'images, d'audio, de vidéo, de 3D et de code.

C'est pourquoi les progrès dans une modalité débordent constamment vers les autres. L'architecture transformer qui a propulsé les modèles de langage s'est révélée tout aussi efficace pour les images et l'audio. La leçon apprise avec le texte — l'échelle combinée à la bonne architecture surpasse le génie-conseil manuel — s'est rejouée dans toutes les autres modalités, avec quelques années de décalage.

Génération contre compréhension

Deux directions comptent et sont faciles à confondre. La compréhension va d'une entrée riche vers une réponse compacte : une image vers une légende, de l'audio vers une transcription, une vidéo vers un résumé. La génération va dans l'autre sens : un prompt vers une image, du texte vers la parole, une description vers une vidéo. Les mêmes modèles sous-jacents font souvent les deux, mais l'ingénierie, le coût et les risques diffèrent nettement entre les deux directions.

Pourquoi tout est arrivé en même temps

L'IA générative dans toutes les modalités a semblé exploser soudainement au début des années 2020, mais cette explosion était la rencontre de trois tendances lentes : suffisamment de données (les images, l'audio et les vidéos de l'internet), suffisamment de puissance de calcul (les GPU construits précisément pour ce type de mathématiques) et quelques percées architecturales — principalement le transformer et, pour les images, les modèles de diffusion. Rien n'était une magie nouvelle; ensemble, ils ont franchi un seuil d'utilité.

Le savoir vous garde ancré dans la réalité. Les capacités sont réelles et s'améliorent vite. Mais chaque modalité se trouve à un point différent sur la courbe — le texte et l'image sont matures, la vidéo et le 3D sont plus précoces et plus bruts — et le fossé entre une démo époustouflante et un produit fiable est, comme toujours, toute l'histoire.

Ce que ce cours couvre

Nous ouvrirons le capot de la génération d'images (comment la diffusion fonctionne réellement), comment la piloter, puis l'audio et la musique, puis la vidéo et le 3D, puis les modèles multimodaux qui fusionnent vision et langage — et nous terminerons par les risques qu'entraînent des machines capables de fabriquer des médias convaincants. Le cours sur les fondamentaux est un bon préalable, mais non obligatoire; celui-ci est autonome.

En une ligne chacun

Tout modèle génératif fait une seule chose : apprendre la distribution de certaines données, puis en échantillonner de nouveaux exemples.
Les progrès débordent d'une modalité à l'autre parce que les mêmes architectures (notamment le transformer) continuent de fonctionner sur de nouveaux types de données.
La compréhension (entrée → réponse compacte) et la génération (prompt → sortie riche) diffèrent en coût, en fiabilité et en risque.
Chaque modalité se trouve à un point différent sur la courbe — texte et image matures, vidéo et 3D plus précoces — et les démos dépassent encore les produits fiables.

Où aller ensuite

Chapitre 2 — Comment fonctionne la génération d'images