Aller au contenu
Chapitre 01 · 9 min

Au-delà de la boîte de chat

Le chatbot est le visage connu de l'IA, mais ce n'est qu'une application d'une idée plus profonde. La même mécanique qui prédit le prochain mot peut aussi générer des images, de l'audio, de la vidéo et du 3D. Ce cours explore ce monde plus vaste — comment les machines créent des choses qui ne sont pas du texte, et ce qui est réel plutôt que du battage médiatique dans chaque modalité.

One idea, many modalitiesA hub labelled "generate" with spokes to text, image, audio, video, 3D, and code. The same core idea — learn a distribution, then sample from it — powers generation across every modality.textimageaudiovideo3Dcodegenerate

Quand on sait apprendre la forme d'une chose, on peut apprendre la forme de n'importe quoi — mots, images, sons.

Une seule idée, plusieurs habits

Sous chaque modèle génératif se cache un seul geste : apprendre la distribution d'un type de données, puis en échantillonner de nouveaux exemples. Apprendre à quoi ressemblent les phrases en anglais, en échantillonner une nouvelle — c'est un modèle de langage. Apprendre à quoi ressemblent les photographies, en échantillonner une nouvelle — c'est un générateur d'images. Les données changent; l'idée de fond, elle, reste.

One idea, many modalitiesA hub labelled "generate" with spokes to text, image, audio, video, 3D, and code. The same core idea — learn a distribution, then sample from it — powers generation across every modality.textimageaudiovideo3Dcodegenerate
La même idée de base — apprendre une distribution, puis en échantillonner — alimente la génération de texte, d'images, d'audio, de vidéo, de 3D et de code.

C'est pourquoi les progrès dans une modalité débordent constamment vers les autres. L'architecture transformer qui a propulsé les modèles de langage s'est révélée tout aussi efficace pour les images et l'audio. La leçon apprise avec le texte — l'échelle combinée à la bonne architecture surpasse le génie-conseil manuel — s'est rejouée dans toutes les autres modalités, avec quelques années de décalage.

Génération contre compréhension

Deux directions comptent et sont faciles à confondre. La compréhension va d'une entrée riche vers une réponse compacte : une image vers une légende, de l'audio vers une transcription, une vidéo vers un résumé. La génération va dans l'autre sens : un prompt vers une image, du texte vers la parole, une description vers une vidéo. Les mêmes modèles sous-jacents font souvent les deux, mais l'ingénierie, le coût et les risques diffèrent nettement entre les deux directions.

Pourquoi tout est arrivé en même temps

L'IA générative dans toutes les modalités a semblé exploser soudainement au début des années 2020, mais cette explosion était la rencontre de trois tendances lentes : suffisamment de données (les images, l'audio et les vidéos de l'internet), suffisamment de puissance de calcul (les GPU construits précisément pour ce type de mathématiques) et quelques percées architecturales — principalement le transformer et, pour les images, les modèles de diffusion. Rien n'était une magie nouvelle; ensemble, ils ont franchi un seuil d'utilité.

Le savoir vous garde ancré dans la réalité. Les capacités sont réelles et s'améliorent vite. Mais chaque modalité se trouve à un point différent sur la courbe — le texte et l'image sont matures, la vidéo et le 3D sont plus précoces et plus bruts — et le fossé entre une démo époustouflante et un produit fiable est, comme toujours, toute l'histoire.

Ce que ce cours couvre

Nous ouvrirons le capot de la génération d'images (comment la diffusion fonctionne réellement), comment la piloter, puis l'audio et la musique, puis la vidéo et le 3D, puis les modèles multimodaux qui fusionnent vision et langage — et nous terminerons par les risques qu'entraînent des machines capables de fabriquer des médias convaincants. Le cours sur les fondamentaux est un bon préalable, mais non obligatoire; celui-ci est autonome.

En une ligne chacun

  • Tout modèle génératif fait une seule chose : apprendre la distribution de certaines données, puis en échantillonner de nouveaux exemples.
  • Les progrès débordent d'une modalité à l'autre parce que les mêmes architectures (notamment le transformer) continuent de fonctionner sur de nouveaux types de données.
  • La compréhension (entrée → réponse compacte) et la génération (prompt → sortie riche) diffèrent en coût, en fiabilité et en risque.
  • Chaque modalité se trouve à un point différent sur la courbe — texte et image matures, vidéo et 3D plus précoces — et les démos dépassent encore les produits fiables.
Au-delà de la boîte de chat · Cours d'IA · SDEN