A request's path through a served AI feature

“Livrer un modèle n'est pas lancer une fusée. C'est ouvrir une cuisine — la partie difficile, c'est le service du midi, tous les jours.”

Le chemin de requête en production

Une fonctionnalité IA servie n'est pas un appel au modèle ; c'est un pipeline. Une requête touche un cache, passe un garde-fou d'entrée, atteint le modèle, passe un garde-fou de sortie et retourne — avec un chemin de repli quand le modèle est lent ou hors service. Chaque étape est de l'infrastructure ordinaire, et c'est là que vous contrôlez le coût, la sécurité et la fiabilité.

Le modèle est une étape parmi plusieurs. Le cache, les garde-fous et un chemin de repli sont ce qui rend la fonctionnalité économique, sécuritaire et fiable.

Le coût et la latence sont des paramètres de conception

L'entraînement est une dépense en capital ; l'inférence est une dépense d'exploitation — vous payez par appel, pour toujours. À l'échelle, le coût des modèles devient un vrai poste budgétaire, et les choix qui le contrôlent sont architecturaux, faits tôt. Les grands leviers : la taille du modèle (utilisez le plus petit modèle qui passe votre évaluation), la longueur du contexte (chaque jeton dans le prompt coûte à chaque appel) et la mise en cache.

La mise en cache est le levier de coût à plus fort impact et le plus négligé. Beaucoup de requêtes sont quasi-identiques ; un cache par correspondance exacte ou sémantique peut les servir gratuitement. La mise en cache de prompt — réutiliser le coût d'un long prompt système stable entre les appels — réduit encore la facture.

Un contexte plus grand coûte plus à chaque appel et peut dégrader la qualité. Plus de jetons est un levier, pas une valeur par défaut.

La latence est une décision de produit, pas seulement un chiffre. Le streaming la cache — les utilisateurs tolèrent bien mieux une réponse lente qui commence immédiatement qu'une réponse rapide qui arrive en bloc après une pause. Et la latence des agents s'accumule : un agent de 10 étapes à deux secondes par étape donne vingt secondes, ce qui est un produit différent d'une réponse en une seconde.

Fiabilité : le modèle tombera

Les fournisseurs ont des pannes. Les modèles se retrouvent limités en débit, expirent, et retournent parfois du charabia. Votre fonctionnalité doit se dégrader, pas s'effondrer. Les défenses sont les classiques des systèmes distribués : délais d'attente, réessais avec retrait exponentiel, un repli (un modèle plus petit, une réponse mise en cache, ou un honnête « réessayez dans un moment »), et un disjoncteur pour que l'après-midi difficile d'un fournisseur ne vous entraîne pas avec lui.

Modifier un système en production sans le casser

Les systèmes IA changent constamment : les prompts sont ajustés, les modèles sont mis à niveau, la récupération est ajustée, les fournisseurs déprécie des versions sous vos pieds. Chacun de ces changements est une occasion de régresser silencieusement. La discipline du changement sécuritaire est la même que pour tout système de production, appliquée à un composant probabiliste.

Conditionnez chaque changement au jeu d'évaluation — pas de passage d'évaluation, pas de livraison (chapitre 6).
Déployez graduellement — faites un déploiement canari sur une tranche du trafic, observez les métriques, puis élargissez.
Épinglez les versions de modèle — ne laissez jamais « latest » changer votre comportement à votre insu.
Gardez un retour arrière — les prompts et les choix de modèle reviennent aussi proprement que du code.
Surveillez la production, pas seulement les évaluations — les cas que les utilisateurs envoient surprendront votre jeu de tests.

Par où aller ensuite

Vous avez maintenant la forme d'un vrai système IA : un modèle mince dans une enveloppe épaisse et déterministe, alimenté par la récupération, habilité par des outils, maintenu honnête par des évaluations, et exploité comme n'importe quel autre service de production. Deux directions l'approfondissent : le sécuriser contre la nouvelle surface d'attaque que tout cela ouvre, et les guides sur les prompts et le RAG pour des patrons pratiques.

En une ligne chacun

Une fonctionnalité servie est un pipeline — cache, garde-fous, modèle, repli — pas un appel nu au modèle.
Le coût et la latence sont architecturaux : calibrez la taille du modèle, mettez en cache agressivement, réduisez le contexte, streamez la sortie.
Le modèle tombera ; dégradez avec des délais d'attente, des réessais, des replis et une abstraction multi-fournisseur.
Modifiez un système en production en toute sécurité : conditionnez aux évaluations, déployez graduellement, épinglez les versions, gardez un retour arrière, surveillez la production.

Où aller ensuite