Pourquoi les pilotes d'IA tombent-ils en panne en production ?

Trois raisons, par ordre de fréquence. Premièrement, la distribution des entrées en production est plus large que celle du pilote, les utilisateurs font des choses que le pilote n'a pas testées, et le modèle les gère mal. Deuxièmement, des surprises de coût et de latence frappent à une échelle qui n'apparaissait pas au volume du pilote. Troisièmement, le repli sans IA n'a jamais été bâti, de sorte que lorsque le modèle casse, le flux n'a aucune dégradation gracieuse. Le travail d'ingénierie pilote-vers-production est ce qui gère les trois.

Combien de temps devrait prendre le processus pilote-vers-production ?

Six à dix semaines pour une fonctionnalité d'IA ciblée avec une entrée, une sortie et une métrique de succès claires. Plus rapide signifie habituellement que le harnais d'évaluation ou le repli a été sauté, ce qui comprime l'échéancier maintenant et coûte plus cher plus tard. Plus lent signifie habituellement que la portée du pilote original est élargie sous le couvert de la « mise en production », signalez-le et recadrez explicitement.

Avons-nous besoin d'un harnais d'évaluation complet pour chaque fonctionnalité d'IA ?

Oui, à l'échelle de la criticité du flux. Un outil interne à faibles enjeux a besoin d'un petit jeu d'évaluation (50 à 100 exemples) et d'une vérification manuelle de la qualité. Une fonctionnalité orientée client ou touchant aux revenus a besoin d'une évaluation plus riche (300 à 1 000 exemples), de métriques automatisées, et d'une revue humaine d'un échantillon à chaque changement de modèle. Le principe est le même, ce qui change, c'est le budget que vous consacrez à le bâtir.

Quel est le mode d'échec en production le plus fréquent auquel nous devrions nous attendre ?

La dérive de qualité aux mois quatre à sept. Le modèle performe au lancement, le prompt ou l'index de récupération s'écarte lentement des besoins évolutifs du flux, personne ne surveille de près, et au neuvième mois la fonctionnalité est devenue assez peu fiable pour que l'équipe cesse de l'utiliser. La contre-mesure est l'évaluation mensuelle par rapport à la base de référence, affichée sur un tableau de bord que l'équipe regarde réellement. C'est peu glorieux et c'est la différence entre les fonctionnalités d'IA qui vivent et celles qui meurent.

Qui devrait posséder la fonctionnalité d'IA après le lancement ?

Un ingénieur nommé dans l'équipe du client, appuyé par le propriétaire de produit original. Pas le fournisseur d'IA, pas la firme de consultation qui l'a bâtie, pas « l'équipe ». L'IA sans propriétaire est dans la même classe de risque que le code de production sans propriétaire, elle fonctionne jusqu'à ce qu'elle cesse, et quand elle cesse, personne ne sait. Le document de transfert nomme le propriétaire explicitement, et la rotation de garde l'inclut dès le premier jour.

Du projet pilote ChatGPT à l'IA en production : les étapes d'ingénierie que les fondateurs sautent

Le constat de départ

Faire passer une fonctionnalité d'IA du pilote à la production, c'est le travail qui transforme une démo qui a impressionné la direction en un système qui survit à une année de vrais utilisateurs, de vrais cas limites et de vraie pression sur les coûts. C'est là que la plupart des projets d'IA échouent en silence, non pas parce que le modèle est mauvais, mais parce que les sept étapes d'ingénierie entre un prototype fonctionnel et une fonctionnalité déployée sont sautées ou comprimées.

Le pilote fonctionnait. Le fondateur l'a exécuté sur son portable, lui a posé cinq questions, a obtenu cinq bonnes réponses, et l'a montré au conseil. Le financement suit. Trois mois plus tard, l'équipe a un canal Slack rempli de plaintes, une facture fournisseur trois fois supérieure à la projection, et une fonctionnalité que l'équipe de soutien a commencé à contourner. L'écart entre le pilote et le déploiement en production est l'endroit où le projet a déraillé, et l'écart est prévisible.

Ce texte parcourt les sept étapes, dans l'ordre, avec les modes d'échec à chacune. Il est écrit pour les fondateurs et les responsables d'ingénierie qui ont un prototype d'IA fonctionnel et qui veulent le voir aboutir en production sous forme de fonctionnalité que leur équipe peut défendre. Le cadrage est tranché ; les étapes ne sont pas optionnelles.

Comment on construit

De l'idée à la production

La façon dont SDEN transforme une idée comme celle-ci en un système que vous exploitez.

Les sept étapes

De la démo au déploiement, dans l'ordre où elles doivent se produire

Chaque étape existe parce que la sauter est ce qui fait échouer le déploiement.

Étape un : définir les modes d'échec en production. Une démo n'a qu'à fonctionner ; une fonctionnalité en production doit échouer correctement. Que fait la fonctionnalité quand le modèle est lent, quand le modèle se trompe, quand l'entrée est malformée, quand l'utilisateur se comporte de façon adverse ? La plupart des pilotes n'ont aucune réponse ; les fonctionnalités en production ont besoin d'une réponse pour chacun. Étape deux : bâtir le harnais d'évaluation. Un jeu de données figé de 100 à 500 entrées représentatives, les métriques qui comptent, le seuil sous lequel la fonctionnalité est désactivée. Tant que l'évaluation n'existe pas, le modèle peut changer mais vous ne pouvez pas dire si le changement était une amélioration.

Étape trois : budgets de coût et de latence. Quel est le plafond de coût par requête, le budget de latence p95, le plafond de dépense mensuelle ? Si ceux-ci ne sont pas spécifiés, la fonctionnalité dépassera silencieusement les trois dès le deuxième mois. Étape quatre : garde-fous à la frontière. Caviardage des renseignements personnels à l'entrée, détection d'injection de prompt, filtrage des sorties pour les catégories de politique applicables, taxonomie de refus pour les cas que le modèle ne devrait pas traiter. Le pilote ne faisait rien de tout cela et s'en tirait parce que le seul utilisateur était le fondateur. Étape cinq : le repli sans IA. Tout flux assisté par l'IA a besoin d'un chemin sans IA vers lequel l'entreprise peut revenir en quelques minutes quand le modèle casse, dérive, ou devient hors de prix. Le repli n'est pas une boîte de dialogue d'expérience utilisateur ; c'est un processus manuel fonctionnel.

Étape six : observabilité. Journalisation par requête des entrées, des sorties, de la latence, du coût et du score d'évaluation lorsqu'applicable. Sans cela, l'équipe débogue à l'aveugle. Étape sept : le transfert. Documentation, guides d'exploitation, jeu d'évaluation, tableau de bord, rotation de garde. La fonctionnalité n'est pas en production tant que l'équipe qui l'exploitera ne peut pas le faire sans l'équipe qui l'a bâtie. La plupart des dépassements de coûts que nous voyons proviennent du fait de sauter l'étape sept, l'équipe de construction devient l'équipe d'exploitation permanente, et l'économie unitaire s'en trouve modifiée.

Fig. · De la démo au déploiement, dans l'ordre où elles doivent se produire

Les étapes que les fondateurs sautent

Évaluation, repli et observabilité : à chaque fois

À travers les projets que nous avons sauvés, trois des sept étapes sont sautées presque chaque fois : le harnais d'évaluation, le repli sans IA et la couche d'observabilité. L'évaluation est sautée parce qu'elle ressemble à du superflu, le modèle fonctionne sur les entrées que l'équipe a essayées, et un jeu de test figé « c'est pour plus tard ». Puis l'équipe a besoin de changer le prompt, ou d'échanger le modèle, ou d'ajouter une source de contexte, et elle n'a aucun moyen de savoir si le changement a rendu la fonctionnalité meilleure ou pire. La plupart des désastres d'ingénierie de prompts en production sont des désastres de discipline d'évaluation et non des désastres de prompts.

Le repli sans IA est sauté parce qu'il semble pessimiste, l'équipe vient de bâtir la fonctionnalité d'IA, la dernière chose à laquelle elle veut penser est le monde où elle ne fonctionne pas. Puis six mois plus tard, le fournisseur de modèle a une panne partielle, ou le coût a triplé, ou le modèle a été abandonné, ou l'environnement réglementaire change, et l'entreprise n'a aucun repli. Le coût de la panne est ce que le repli aurait coûté à bâtir, trois fois plutôt qu'une.

L'observabilité est sautée parce que le pilote n'en avait pas besoin. Le seul utilisateur était le fondateur ; le fondateur se souvenait de ce qu'il avait tapé. En production, l'équipe devra déboguer une plainte arrivée il y a trois jours, à propos d'un flux qui a touché huit entrées, dont aucune n'a été journalisée. L'équipe passera une semaine à essayer de reproduire le bogue de mémoire et échouera. L'ajout rétroactif de l'observabilité est plus coûteux que de l'intégrer dès le départ.

Fig. · Évaluation, repli et observabilité : à chaque fois

À quoi ressemble réellement le prêt-pour-la-production

La liste de vérification de livraison, ligne par ligne

Une fonctionnalité d'IA prête pour la production possède, au minimum, ce qui suit : un jeu de données d'évaluation figé versé dans le dépôt ; le harnais d'évaluation s'exécutant à chaque changement de prompt ou de modèle ; des tableaux de bord de latence, de coût et de qualité révisés chaque semaine ; le caviardage des renseignements personnels et la détection d'injection de prompt à la frontière ; un repli sans IA documenté avec une procédure de bascule testée ; une journalisation par requête avec une rétention dimensionnée à la plus longue fenêtre de débogage attendue ; un guide d'exploitation pour l'ingénieur de garde ; et un propriétaire documenté responsable des métriques de la fonctionnalité au douzième mois.

Chaque élément existe parce que nous avons vu l'échec qui survient quand il manque. Chaque élément coûte aussi moins cher à bâtir que le coût de l'échec. L'économie n'est pas subtile, l'équipe qui livre ces sept choses passe quelques semaines additionnelles au lancement et économise quelques trimestres additionnels de débogage et de reconstruction.

Nous refusons de déployer de l'IA sans la liste de vérification. Non pas parce que nous voulons paraître rigoureux, mais parce que l'alternative est un déploiement que le client ne peut pas maintenir une fois que nous sommes partis, ce qui n'est pas un livrable. Le transfert comprend chaque élément de la liste de vérification, sous gestion de versions, avec la documentation rédigée pour l'ingénieur qui en héritera.

Fig. · La liste de vérification de livraison, ligne par ligne

Comment SDEN fait passer les pilotes en production

Trois engagements sur chaque déploiement

L'écart pilote-production est l'endroit où les projets d'IA échouent. Les engagements ci-dessous sont la façon dont nous le comblons.

Évaluation avant déploiement

Un jeu de données d'évaluation figé, les métriques qui comptent, et le seuil sous lequel la fonctionnalité est désactivée. Versé dans le dépôt du client. L'évaluation est le contrat entre le modèle et le flux.

Un repli qui fonctionne réellement

Tout flux assisté par l'IA a un repli sans IA vers lequel l'entreprise peut revenir en quelques minutes. Nous le testons chaque trimestre. Il existe pour le jour où le modèle casse, et ce jour arrive toujours.

Le transfert est le livrable

Documentation, guides d'exploitation, tableaux de bord, rotation de garde. La fonctionnalité n'est pas en production tant que votre équipe ne peut pas l'exploiter sans la nôtre. Une fonctionnalité d'IA que vous ne pouvez pas maintenir sans nous est une dépendance, pas un livrable.

À quoi ressemble la réussite

Un an après le déploiement

Le vrai test d'un déploiement d'IA en production, c'est à quoi il ressemble douze mois plus tard, et non le jour du lancement.

Les déploiements qui vieillissent bien partagent trois propriétés. Le jeu d'évaluation a été mis à jour au moins deux fois à mesure que le flux a évolué, et non abandonné. Le repli a été testé pour de vrai au moins une fois, même si le modèle ne s'est jamais brisé, confirmant que le chemin fonctionne toujours. L'équipe qui exploite la fonctionnalité n'est pas l'équipe qui l'a bâtie, le transfert a réellement transféré la propriété.

Les déploiements qui échouent partagent les trois propriétés inverses. Le jeu d'évaluation est périmé de six mois, parce que personne ne le possède. Le repli existe uniquement dans la documentation, non testé. Et l'équipe d'ingénierie originale est encore l'équipe de soutien de facto, parce que la documentation n'a jamais permis à quelqu'un d'autre de prendre la relève.

Quand SDEN termine un mandat d'IA, le transfert est ce sur quoi le livrable est jugé. La fonctionnalité fonctionne le premier jour ; c'est le minimum. La fonctionnalité fonctionne encore au trois cent soixante-cinquième jour, possédée par votre équipe, voilà l'aboutissement du mandat.

FAQ

Ingénierie de l'IA
les questions qu'on nous pose le plus.

Des réponses directes aux questions qu'on nous pose le plus souvent. Si la vôtre n'y est pas, écrivez à l'équipe.

Contactez l'équipe

Du projet pilote ChatGPT à l'IA en production : les étapes d'ingénierie que les fondateurs sautent

De l'idée à la production

De la démo au déploiement, dans l'ordre où elles doivent se produire

Évaluation, repli et observabilité : à chaque fois

La liste de vérification de livraison, ligne par ligne