The workshop metaphor

“Cessez de consulter le génie. Construisez l'atelier.”

Les quatre leviers d'un système d'IA fonctionnel

Presque toute application d'IA réelle qui fonctionne actionne une combinaison de quatre leviers. La plupart des produits d'IA qui échouent n'en ont actionné qu'un seul.

Le prompt — indiquer précisément au modèle ce que vous voulez, avec des contraintes et des exemples.
La récupération — fournir au modèle le bon contexte pour qu'il n'ait pas à deviner.
Les outils — laisser le modèle appeler des systèmes déterministes (calculatrices, bases de données, vérificateurs de types) plutôt que de prétendre.
L'évaluation — mesurer si le système fonctionne réellement, avant et après chaque changement.

Actionnez au moins trois des quatre. La plupart des produits d'IA qui échouent n'en actionnent qu'un seul — généralement le prompt.

L'ajustement fin est un cinquième levier, mais bien plus coûteux. La plupart des équipes qui croient en avoir besoin ont en réalité besoin d'une meilleure récupération ou de meilleures évaluations. Gardez-le en dernier recours.

Le prompt : seulement les éléments essentiels

La majorité du contenu sur l'« ingénierie de prompt » porte sur des optima locaux. Quatre principes qui se généralisent vraiment :

Contraintes : indiquez au modèle le format, la longueur, le style, ce qu'il doit exclure. Plus la boîte est claire, mieux la sortie la remplit.
Exemples (few-shot) : montrez deux ou trois paires entrée/sortie illustrant le type de résultat voulu. Le modèle est bien meilleur pour imiter que pour obéir.
Décomposition : si la tâche comporte plusieurs étapes, exécutez-les en prompts séparés (ou avec une chaîne de pensée explicite) plutôt que de demander la réponse complète d'un coup.
Vérification : demandez au modèle de vérifier sa propre sortie, ou soumettez-la à un second modèle avec un prompt différent. Peu coûteux, attrape souvent les erreurs bêtes.

La récupération (RAG) — quand le modèle a besoin de faits

La génération augmentée par récupération associe un modèle à un système de recherche. Quand l'utilisateur pose une question, vous interrogez d'abord une base de connaissances (magasin vectoriel, base de données, web), récupérez les extraits les plus pertinents, et les injectez dans le prompt comme contexte. Le modèle répond à partir du contexte plutôt que de ses données d'entraînement.

Le RAG est la bonne réponse à la plupart des problèmes de type « dialoguez avec notre documentation » ou « robot de soutien à la clientèle ». Il sépare ce que le système sait (l'index) de ce que le système dit (le modèle). Vous pouvez mettre à jour l'index toutes les heures ; vous ne pouvez pas mettre à jour le modèle toutes les heures.

Là où le RAG déraille : mauvais découpage (la bonne réponse est répartie sur deux extraits), mauvaise récupération (le document pertinent ne figure même pas dans le top 10), mauvais modèle de plongement (votre domaine n'est pas représenté), ou le modèle ignore le contexte récupéré. Chacun est corrigible ; aucun n'est évident tant qu'on ne mesure pas.

Le modèle répond à partir des extraits récupérés, pas de ses données d'entraînement. Mettez à jour l'index, pas le modèle.

Outils et agents

Un modèle qui peut appeler des outils est considérablement plus capable que celui qui ne peut pas. Donnez-lui une calculatrice et il cesse de simuler les mathématiques. Donnez-lui un outil de requête de base de données et il cesse d'inventer du SQL. Donnez-lui un interpréteur de code et il peut vérifier ses propres sorties.

Un « agent » n'est qu'un modèle dans une boucle où à chaque tour il peut appeler des outils, voir le résultat, et décider de la suite. La boucle a généralement une limite d'étapes et une condition d'arrêt. La plupart des agents en production sont des boucles de 3 à 20 étapes ; les agents qui vont au-delà sans contraintes fortes fonctionnent rarement.

L'état honnête des agents en 2025 : ils sont utiles pour des tâches bien délimitées (« répondre à ce ticket de soutien avec ces outils ») et peu fiables pour des tâches ouvertes (« planifier un lancement et l'exécuter »). Les erreurs se cumulent. L'étape 1 avec une précision de 95 % est correcte ; l'étape 10 avec une précision de 95 % donne moins de 60 %.

L'agent le plus simple : le modèle appelle un outil, lit le résultat, décide de la suite, s'arrête quand il a une réponse finale.

Les évaluations : le seul signal honnête

Une évaluation est un ensemble d'entrées associées à des sorties attendues (ou un moyen de noter les sorties), plus un script qui les fait passer dans votre système et rapporte le résultat. Sans évaluations, vous ne savez pas si un changement a amélioré ou dégradé votre système. Sans évaluations, vous faites de l'ingénierie IA à l'instinct.

Commencez petit : 20 à 50 exemples tirés de l'usage réel, chacun étant un problème que votre système doit traiter. Ajoutez les échecs que vous découvrez. Relancez l'évaluation à chaque changement de prompt, chaque mise à niveau de modèle, chaque ajustement de récupération. Si vous ne faites qu'une chose de ce chapitre, faites celle-là.

Quand ne pas utiliser l'IA

Certaines tâches ne devraient pas être résolues avec un LLM. Une expression régulière est plus rapide, moins chère et plus fiable qu'un modèle pour « extraire cette adresse e-mail ». Une requête de base de données est plus honnête qu'un modèle pour « compter les lignes où statut='actif' ». Un vérificateur de types est meilleur qu'un modèle pour « ce code est-il du Rust valide ? »

Règle empirique : si la tâche a une réponse correcte déterministe et qu'il existe un outil déterministe pour ça, utilisez l'outil. Faites appel à l'IA quand la tâche est floue, les entrées sont désordonnées, ou le coût d'être approximativement juste est acceptable. N'utilisez pas un modèle de langage pour additionner deux nombres.

En cas de doute, parcourez cet arbre avant d'ajouter un LLM à votre pile.

Ce que ce cours ne couvre pas

Vision par ordinateur, modèles multimodaux, robotique, apprentissage par renforcement au-delà du RLHF, interprétabilité mécanistique, recherche en alignement, les spécificités de chaque fournisseur de modèles. Chacun est un cours en soi. Ce que vous avez maintenant est suffisant pour suivre le domaine — et pour repérer quand quelqu'un essaie de vous vendre quelque chose.

Où aller à partir d'ici

Si vous voulez approfondir le prompt : lisez « Prompt Engineering — First Principles » dans nos guides. Si vous voulez tester si votre équipe est prête à mettre de l'IA en production : suivez l'auto-audit de préparation à l'IA. Si vous voulez construire quelque chose et avez besoin d'un partenaire : c'est littéralement ce que fait SDEN.

En une ligne chacun

Quatre leviers : prompt, récupération, outils, évaluation. Actionnez-en au moins trois pour tout système sérieux.
Le RAG sépare ce que le système sait de ce qu'il dit. Mettez à jour l'index, pas le modèle.
Les agents fonctionnent avec une portée étroite, des outils idempotents, des simulations et des garde-fous humains pour les actions à forts enjeux.
Les évaluations sont le seul signal honnête. Sans elles vous livrez à l'instinct ; avec elles vous livrez quelque chose sur lequel vous pouvez raisonner.

Où aller ensuite