Aller au contenu
Chapitre 07 · 12 min

Livraison et exploitation

Le modèle fonctionne dans le bloc-notes. Maintenant il doit fonctionner pour des milliers d'utilisateurs, dans les limites d'un budget, sans tomber, pendant que vous continuez à le modifier. Ce chapitre couvre la réalité opérationnelle : coût, latence, fiabilité et la discipline du changement sécuritaire qui vous permet d'améliorer un système IA en production sans le casser.

A request's path through a served AI featureLeft to right: a request hits a cache, passes an input guardrail, reaches the model, passes an output guardrail, and returns to the user. A fallback path catches model failures. The model is one stage among several.requestcachehit? returnguardrailfilter inmodelguardrailfilter outuserfallback on timeout / error

Livrer un modèle n'est pas lancer une fusée. C'est ouvrir une cuisine — la partie difficile, c'est le service du midi, tous les jours.

Le chemin de requête en production

Une fonctionnalité IA servie n'est pas un appel au modèle ; c'est un pipeline. Une requête touche un cache, passe un garde-fou d'entrée, atteint le modèle, passe un garde-fou de sortie et retourne — avec un chemin de repli quand le modèle est lent ou hors service. Chaque étape est de l'infrastructure ordinaire, et c'est là que vous contrôlez le coût, la sécurité et la fiabilité.

A request's path through a served AI featureLeft to right: a request hits a cache, passes an input guardrail, reaches the model, passes an output guardrail, and returns to the user. A fallback path catches model failures. The model is one stage among several.requestcachehit? returnguardrailfilter inmodelguardrailfilter outuserfallback on timeout / error
Le modèle est une étape parmi plusieurs. Le cache, les garde-fous et un chemin de repli sont ce qui rend la fonctionnalité économique, sécuritaire et fiable.

Le coût et la latence sont des paramètres de conception

L'entraînement est une dépense en capital ; l'inférence est une dépense d'exploitation — vous payez par appel, pour toujours. À l'échelle, le coût des modèles devient un vrai poste budgétaire, et les choix qui le contrôlent sont architecturaux, faits tôt. Les grands leviers : la taille du modèle (utilisez le plus petit modèle qui passe votre évaluation), la longueur du contexte (chaque jeton dans le prompt coûte à chaque appel) et la mise en cache.

La mise en cache est le levier de coût à plus fort impact et le plus négligé. Beaucoup de requêtes sont quasi-identiques ; un cache par correspondance exacte ou sémantique peut les servir gratuitement. La mise en cache de prompt — réutiliser le coût d'un long prompt système stable entre les appels — réduit encore la facture.

Context windows comparedHorizontal bars comparing context-window sizes: 4 thousand tokens (about 6 pages), 32 thousand (50 pages), 128 thousand (a 300-page book), and 1 million tokens (around 7 novels).4k≈ 6 pages32k≈ 50 pages128k≈ a 300-page book1M≈ 7 novelsCONTEXT WINDOW (TOKENS)1 token ≈ 0.75 English words
Un contexte plus grand coûte plus à chaque appel et peut dégrader la qualité. Plus de jetons est un levier, pas une valeur par défaut.

La latence est une décision de produit, pas seulement un chiffre. Le streaming la cache — les utilisateurs tolèrent bien mieux une réponse lente qui commence immédiatement qu'une réponse rapide qui arrive en bloc après une pause. Et la latence des agents s'accumule : un agent de 10 étapes à deux secondes par étape donne vingt secondes, ce qui est un produit différent d'une réponse en une seconde.

Fiabilité : le modèle tombera

Les fournisseurs ont des pannes. Les modèles se retrouvent limités en débit, expirent, et retournent parfois du charabia. Votre fonctionnalité doit se dégrader, pas s'effondrer. Les défenses sont les classiques des systèmes distribués : délais d'attente, réessais avec retrait exponentiel, un repli (un modèle plus petit, une réponse mise en cache, ou un honnête « réessayez dans un moment »), et un disjoncteur pour que l'après-midi difficile d'un fournisseur ne vous entraîne pas avec lui.

Modifier un système en production sans le casser

Les systèmes IA changent constamment : les prompts sont ajustés, les modèles sont mis à niveau, la récupération est ajustée, les fournisseurs déprécie des versions sous vos pieds. Chacun de ces changements est une occasion de régresser silencieusement. La discipline du changement sécuritaire est la même que pour tout système de production, appliquée à un composant probabiliste.

  • Conditionnez chaque changement au jeu d'évaluation — pas de passage d'évaluation, pas de livraison (chapitre 6).
  • Déployez graduellement — faites un déploiement canari sur une tranche du trafic, observez les métriques, puis élargissez.
  • Épinglez les versions de modèle — ne laissez jamais « latest » changer votre comportement à votre insu.
  • Gardez un retour arrière — les prompts et les choix de modèle reviennent aussi proprement que du code.
  • Surveillez la production, pas seulement les évaluations — les cas que les utilisateurs envoient surprendront votre jeu de tests.

Par où aller ensuite

Vous avez maintenant la forme d'un vrai système IA : un modèle mince dans une enveloppe épaisse et déterministe, alimenté par la récupération, habilité par des outils, maintenu honnête par des évaluations, et exploité comme n'importe quel autre service de production. Deux directions l'approfondissent : le sécuriser contre la nouvelle surface d'attaque que tout cela ouvre, et les guides sur les prompts et le RAG pour des patrons pratiques.

En une ligne chacun

  • Une fonctionnalité servie est un pipeline — cache, garde-fous, modèle, repli — pas un appel nu au modèle.
  • Le coût et la latence sont architecturaux : calibrez la taille du modèle, mettez en cache agressivement, réduisez le contexte, streamez la sortie.
  • Le modèle tombera ; dégradez avec des délais d'attente, des réessais, des replis et une abstraction multi-fournisseur.
  • Modifiez un système en production en toute sécurité : conditionnez aux évaluations, déployez graduellement, épinglez les versions, gardez un retour arrière, surveillez la production.
Livraison et exploitation · Cours d'IA · SDEN