The librarian metaphor

“Un bibliothécaire très cultivé qui ne peut que citer ce qu'il a lu.”

Le mot ne veut pas dire ce que vous croyez

« Intelligence artificielle » sonne comme une chose concrète. Ce n'en est pas une. C'est une étiquette mobile qu'on colle sur ce que les ordinateurs ne savaient pas faire hier. Les échecs étaient autrefois de l'IA. Le correcteur orthographique aussi. Dès qu'une technique devient banale, on cesse de l'appeler IA et on l'appelle logiciel. L'historienne Pamela McCorduck a baptisé ce phénomène — et c'est l'idée la plus utile pour garder les idées claires dans ce domaine.

Ce que les gens veulent dire *aujourd'hui* quand ils disent IA, c'est presque toujours une famille précise : de grands modèles statistiques entraînés sur d'immenses corpus de textes, d'images ou de code, qui produisent des continuations vraisemblables à partir d'une entrée. Tout le reste de ce cours consiste à décomposer cette seule phrase.

L'étiquette « IA » rétrécit sans cesse autour de ce qui est encore difficile à ce moment-là.

Deux grandes familles d'IA très différentes

Historiquement, deux visions concurrentes ont existé pour construire des machines intelligentes. La première — l'IA symbolique — cherchait à encoder le monde sous forme de règles et de logique, à la façon dont un juriste raisonne. La seconde — l'apprentissage automatique — a abandonné les règles pour laisser les ordinateurs extraire des schémas à partir des données, comme un enfant apprend à reconnaître un chien en en voyant beaucoup.

L'IA symbolique a dominé jusqu'à la fin des années 1990. C'est elle qui a battu Kasparov aux échecs. C'est aussi elle qui a passé quarante ans à essayer — sans succès — de définir ce qu'est « une chaise ». L'apprentissage automatique a gagné l'ère moderne parce que le monde s'est révélé trop désordonné pour les règles. Les systèmes que vous utilisez aujourd'hui (ChatGPT, Claude, Midjourney, Whisper) sont de l'apprentissage automatique pur.

Où se trouve vraiment l'« intelligence »

Quand vous posez une question à un modèle, aucun raisonnement au sens humain du terme ne se produit. Le modèle est une immense fonction. Vous lui soumettez une séquence de nombres (votre prompt, encodé) et il retourne une autre séquence de nombres (sa réponse). Les nombres qui se trouvent au milieu — des milliards — ont été calibrés lors de l'entraînement pour que la fonction tende à produire des continuations vraisemblables. C'est toute la mécanique.

Parler d'« intelligence » n'est juste que dans un sens limité. Le modèle a compressé une quantité phénoménale d'écrits humains dans une forme qui lui permet d'en produire davantage. Il n'a ni objectifs, ni mémoire d'hier, ni monologue intérieur entre vos messages. Chaque appel repart d'une ardoise vierge, augmentée de votre prompt. L'illusion d'un esprit persistant vient de nous, pas du modèle.

Pourquoi maintenant ?

Les mathématiques qui sous-tendent les modèles actuels remontent en grande partie aux années 1980. Ce qui a changé, c'est l'échelle : assez de texte sur Internet pour s'entraîner, assez de GPU pour faire tourner l'entraînement, et une architecture — le transformeur — qui s'adapte élégamment quand on lui en donne plus. L'article « Attention is all you need » de 2017 n'a pas inventé des idées nouvelles autant qu'il les a combinées d'une façon qui récompensait enfin le passage à l'échelle. Nous rencontrerons l'attention au chapitre 5.

Trois chiffres pour calibrer. GPT-2 (2019) comptait 1,5 milliard de paramètres et faisait l'effet d'un jouet. GPT-3 (2020) en avait 175 milliards et donnait une impression étrange. Les modèles de pointe en 2025 sont estimés à des billions, entraînés sur quelque chose se rapprochant de la fraction significative de tout ce que l'humanité a écrit publiquement. Le saut qualitatif entre ces étapes n'était pas dans l'algorithme. Il était dans l'échelle.

À quoi sert ce cours

À la fin du chapitre 7, vous devriez être en mesure de lire une annonce sur l'IA, une offre d'emploi ou un titre de recherche et de former votre propre opinion sur ce qui se passe réellement sous le capot. Vous n'aurez pas construit un modèle — mais vous saurez ce qu'est un paramètre, un jeton, un plongement et une tête d'attention, pourquoi ils importent, et où les affirmations les plus structurantes du domaine sont fragiles.

Si vous n'avez jamais écrit de code : vous vous en sortirez bien. Les approfondissements sont facultatifs.
Si vous êtes étudiant : les approfondissements contiennent les maths et les articles originaux.
Si vous êtes un professionnel : le chapitre 7 est fait pour vous, mais méritez-le en lisant les chapitres 1 à 6 d'abord.

En une ligne chacun

« IA » est une étiquette mobile. Ce que vous utilisez aujourd'hui appartient à une famille précise : de grands modèles statistiques qui produisent des continuations vraisemblables.
Il n'y a pas de règles à l'intérieur. Il y a des milliards de nombres calibrés pour que la sortie soit vraisemblable.
L'IA moderne fonctionne grâce à l'échelle (données + calcul) et à une architecture (le transformeur) — pas à une nouvelle théorie de l'esprit.
Les capacités sont réelles mais limitées. « L'IA peut faire X » signifie presque toujours « un modèle précis dans une configuration précise a fait X ».

Où aller ensuite

Chapitre 2 — Comment les modèles apprennent