The training loop, as a metaphor

“Enseigner par l'exemple, avec des millions d'exemples et un stagiaire infatigable.”

La recette en trois étapes

Tout l'entraînement d'IA moderne se résume à : (1) montrer un exemple au modèle, (2) mesurer à quel point il s'est trompé, (3) ajuster ses paramètres pour qu'il se trompe légèrement moins la prochaine fois. Puis répéter cette boucle entre un milliard et un billion de fois.

La mesure « à quel point s'est-il trompé » s'appelle la perte. L'étape « ajuster les paramètres » s'appelle la descente de gradient. Ensemble, ce sont les deux rouages de l'apprentissage automatique. Tous les autres termes — transformeur, attention, ajustement fin, RLHF — sont des raffinements de l'une ou l'autre de ces deux idées.

Les mêmes cinq étapes, répétées environ un billion de fois. Toutes les autres techniques de ce cours sont des raffinements de cette boucle.

Trois types d'« exemples »

Ce qui compte comme exemple dépend de ce qu'on veut que le modèle apprenne. Il existe trois grandes configurations, et tout système d'IA sérieux en utilise une combinaison.

Apprentissage supervisé. Chaque exemple est associé à la bonne réponse. « Cette photo → chat. Ce e-mail → pourriel. » Le modèle apprend la correspondance. La plupart de l'apprentissage automatique classique — détection de fraude, imagerie médicale, recommandation — est supervisé. Il nécessite des étiquettes, ce qui implique des humains, ce qui implique un coût élevé.

Apprentissage auto-supervisé. Le modèle invente ses propres étiquettes à partir des données elles-mêmes. Étant donné une phrase avec un mot manquant, prédire le mot. Étant donné la première moitié d'un paragraphe, prédire la seconde. C'est ainsi que chaque grand modèle de langage moderne est pré-entraîné — et c'est la raison principale pour laquelle ils passent à l'échelle. Les étiquettes sont gratuites parce qu'Internet les écrit pour vous.

Apprentissage par renforcement. Le modèle effectue des actions dans un environnement et reçoit un signal de récompense — score élevé, victoire, clic, pouce levé. Il ajuste son comportement pour maximiser la récompense. C'est ainsi qu'AlphaGo a appris à battre les champions de go, et ainsi que les modèles de dialogue sont perfectionnés après le pré-entraînement.

Pré-entraînement contre ajustement fin

Les LLM modernes sont construits en deux phases, et la distinction est importante quand on lit des annonces.

Le pré-entraînement est la grande passe auto-supervisée et coûteuse : prédire le prochain mot sur des billions de mots d'Internet, de livres, de code. C'est là que vont 99 % du calcul. Ce qui en sort est un modèle qui connaît les faits et la langue mais n'a aucun savoir-vivre — il complétera volontiers « Comment fabriquer une bo » par « étagère » ou quelque chose de bien pire.

L'ajustement fin est une passe supervisée ou par renforcement bien plus courte et moins coûteuse, qui transforme le modèle pré-entraîné en quelque chose d'utile : un assistant de dialogue, un compléteur de code, un agent de soutien à la clientèle. L'ajustement fin enseigne les comportements, pas les connaissances. Si le modèle de base ne sait pas qui a écrit *Anna Karénine*, l'ajustement fin n'y changera rien.

Le surapprentissage : le seul mode d'échec à connaître

Tout l'intérêt de l'entraînement est que le modèle doit fonctionner sur des exemples qu'il n'a *jamais vus*. Un modèle qui mémorise parfaitement ses données d'entraînement mais échoue sur de nouvelles entrées est inutile. Ce mode d'échec s'appelle le surapprentissage, et l'éviter représente l'essentiel de ce qui sépare un système d'apprentissage automatique fonctionnel d'un système défaillant.

Visualisez-le : vous ajustez une courbe sur des points dispersés. Une droite peut manquer beaucoup de points mais capturer la tendance générale. Une courbe très sinueuse peut passer exactement par chaque point — et prédire n'importe quoi entre eux. Les données d'entraînement réelles sont bruitées. Votre objectif est d'apprendre le signal, pas le bruit.

La défense standard est un jeu de données de validation mis de côté : une tranche de données sur laquelle le modèle n'est jamais entraîné. On surveille la perte de validation au fil de l'entraînement. Dès qu'elle commence à remonter pendant que la perte d'entraînement continue de baisser, on s'arrête. Le modèle a commencé à mémoriser plutôt qu'à généraliser.

La perte d'entraînement continue de baisser, mais la perte de validation atteint un plancher et remonte. Arrêtez au bas de la courbe orange.

Pourquoi l'entraînement prend des mois et coûte des millions

Un entraînement de LLM de pointe en 2025 coûte entre des dizaines et des centaines de millions de dollars et tourne pendant des semaines sur des dizaines de milliers de GPU. Le coût est dominé par une seule chose : la boucle tourne des billions de fois, et chaque passe touche chaque paramètre.

L'inférence — utiliser concrètement le modèle entraîné — est bien moins coûteuse par appel mais s'accumule à l'échelle. L'économie de l'IA, c'est : l'entraînement est une dépense en capital ponctuelle ; l'inférence est la dépense d'exploitation continue. Chaque décision produit (taille du modèle, longueur du contexte, regroupement des requêtes) découle de cette distinction.

En une ligne chacun

Entraînement = montrer un exemple, mesurer l'erreur (perte), ajuster les paramètres (descente de gradient). Répéter un billion de fois.
L'apprentissage supervisé a besoin d'étiquettes ; l'auto-supervisé les invente à partir des données ; le renforcement apprend à partir de récompenses.
Les LLM sont construits en deux phases : un vaste pré-entraînement auto-supervisé, puis un court ajustement fin qui enseigne les comportements.
L'ennemi de l'entraînement est le surapprentissage — mémoriser les données plutôt qu'apprendre le schéma.

Où aller ensuite

Chapitre 3 — À l'intérieur d'un réseau de neurones