Perché i pilot di IA si rompono in produzione?

Tre ragioni, in ordine di frequenza. Primo, la distribuzione degli input in produzione è più ampia di quella del pilot, gli utenti fanno cose che il pilot non ha testato, e il modello le gestisce male. Secondo, sorprese di costo e di latenza colpiscono a una scala che non appariva al volume del pilot. Terzo, il fallback senza IA non è mai stato costruito, così che quando il modello si rompe, il flusso non ha alcun degrado garbato. Il lavoro di ingegneria pilot-verso-produzione è ciò che gestisce tutti e tre.

Quanto tempo dovrebbe prendere il processo pilot-verso-produzione?

Da sei a dieci settimane per una funzionalità di IA mirata con un input, un output e una metrica di successo chiari. Più rapido significa di solito che l'harness di valutazione o il fallback è stato saltato, il che comprime la tempistica adesso e costa di più dopo. Più lento significa di solito che l'ambito del pilot originale è allargato sotto la copertura della "messa in produzione", segnalalo e ridefinisci esplicitamente.

Abbiamo bisogno di un harness di valutazione completo per ogni funzionalità di IA?

Sì, in scala alla criticità del flusso. Uno strumento interno a bassa posta ha bisogno di un piccolo set di valutazione (50-100 esempi) e di un controllo manuale della qualità. Una funzionalità rivolta al cliente o che tocca il fatturato ha bisogno di una valutazione più ricca (300-1.000 esempi), di metriche automatizzate, e di una revisione umana di un campione a ogni modifica di modello. Il principio è lo stesso, ciò che cambia è il budget che gli dedichi per costruirlo.

Qual è il modo di guasto in produzione più frequente a cui dovremmo aspettarci?

La deriva di qualità ai mesi da quattro a sette. Il modello rende al lancio, il prompt o l'indice di recupero si discosta lentamente dai bisogni evolutivi del flusso, nessuno sorveglia da vicino, e al nono mese la funzionalità è diventata abbastanza inaffidabile da far smettere al team di usarla. La contromisura è la valutazione mensile rispetto alla baseline, mostrata su una dashboard che il team guarda davvero. È poco glorioso ed è la differenza tra le funzionalità di IA che vivono e quelle che muoiono.

Chi dovrebbe possedere la funzionalità di IA dopo il lancio?

Un ingegnere nominato nel team del cliente, supportato dal product owner originale. Non il fornitore di IA, non la società di consulenza che l'ha costruita, non "il team". L'IA senza proprietario è nella stessa classe di rischio del codice di produzione senza proprietario, funziona finché non smette, e quando smette, nessuno lo sa. Il documento di passaggio di consegne nomina il proprietario esplicitamente, e la rotazione di reperibilità lo include dal primo giorno.

Dal pilota ChatGPT all'IA in produzione: i passaggi di ingegneria che i fondatori saltano

Il punto di partenza

Far passare una funzionalità di IA dal pilot alla produzione è il lavoro che trasforma una demo che ha impressionato la direzione in un sistema che sopravvive a un anno di utenti reali, casi limite reali e pressione reale sui costi. È qui che la maggior parte dei progetti di IA fallisce in silenzio, non perché il modello è cattivo, ma perché i sette passi di ingegneria tra un prototipo funzionante e una funzionalità deployata sono saltati o compressi.

Il pilot funzionava. Il founder l'ha eseguito sul suo portatile, gli ha posto cinque domande, ha ottenuto cinque buone risposte, e l'ha mostrato al consiglio. Il finanziamento segue. Tre mesi dopo, il team ha un canale Slack pieno di lamentele, una fattura del fornitore tre volte superiore alla proiezione, e una funzionalità che il team di supporto ha cominciato ad aggirare. Il divario tra il pilot e il deploy in produzione è il punto in cui il progetto ha deragliato, e il divario è prevedibile.

Questo testo percorre i sette passi, in ordine, con i modi di guasto a ciascuno. È scritto per i founder e i responsabili di ingegneria che hanno un prototipo di IA funzionante e che vogliono vederlo arrivare in produzione sotto forma di funzionalità che il loro team può difendere. L'inquadramento è netto; i passi non sono opzionali.

Come costruiamo

Dall'idea alla produzione

Il modo in cui SDEN trasforma un'idea come questa in un sistema che puoi gestire.

I sette passi

Dalla demo al deploy, nell'ordine in cui devono avvenire

Ogni passo esiste perché saltarlo è ciò che fa fallire il deploy.

Passo uno: definire i modi di guasto in produzione. Una demo deve solo funzionare; una funzionalità in produzione deve fallire correttamente. Cosa fa la funzionalità quando il modello è lento, quando il modello sbaglia, quando l'input è malformato, quando l'utente si comporta in modo avverso? La maggior parte dei pilot non ha alcuna risposta; le funzionalità in produzione hanno bisogno di una risposta per ciascuno. Passo due: costruire l'harness di valutazione. Un dataset congelato da 100 a 500 input rappresentativi, le metriche che contano, la soglia sotto la quale la funzionalità è disattivata. Finché la valutazione non esiste, il modello può cambiare ma non puoi dire se il cambiamento era un miglioramento.

Passo tre: budget di costo e di latenza. Qual è il tetto di costo per richiesta, il budget di latenza p95, il tetto di spesa mensile? Se questi non sono specificati, la funzionalità supererà silenziosamente tutti e tre già dal secondo mese. Passo quattro: guardrail al confine. Mascheramento dei dati personali in input, rilevamento di prompt injection, filtraggio degli output per le categorie di policy applicabili, tassonomia di rifiuto per i casi che il modello non dovrebbe trattare. Il pilot non faceva niente di tutto questo e se la cavava perché l'unico utente era il founder. Passo cinque: il fallback senza IA. Ogni flusso assistito dall'IA ha bisogno di un cammino senza IA a cui l'azienda può tornare in pochi minuti quando il modello si rompe, deriva, o diventa fuori prezzo. Il fallback non è una finestra di dialogo di esperienza utente; è un processo manuale funzionante.

Passo sei: observability. Logging per richiesta degli input, degli output, della latenza, del costo e del punteggio di valutazione quando applicabile. Senza di esso, il team fa il debug alla cieca. Passo sette: il passaggio di consegne. Documentazione, runbook, set di valutazione, dashboard, rotazione di reperibilità. La funzionalità non è in produzione finché il team che la gestirà non può farlo senza il team che l'ha costruita. La maggior parte degli sforamenti di costo che vediamo proviene dal saltare il passo sette, il team di costruzione diventa il team di gestione permanente, e l'economia unitaria ne risulta modificata.

Fig. · Dalla demo al deploy, nell'ordine in cui devono avvenire

I passi che i founder saltano

Valutazione, fallback e observability: ogni volta

Attraverso i progetti che abbiamo salvato, tre dei sette passi sono saltati quasi ogni volta: l'harness di valutazione, il fallback senza IA e il livello di observability. La valutazione è saltata perché sembra superflua, il modello funziona sugli input che il team ha provato, e un set di test congelato "è per dopo". Poi il team ha bisogno di cambiare il prompt, o di scambiare il modello, o di aggiungere una fonte di contesto, e non ha alcun modo di sapere se il cambiamento ha reso la funzionalità migliore o peggiore. La maggior parte dei disastri di prompt engineering in produzione sono disastri di disciplina di valutazione e non disastri di prompt.

Il fallback senza IA è saltato perché sembra pessimista, il team ha appena costruito la funzionalità di IA, l'ultima cosa a cui vuole pensare è il mondo in cui non funziona. Poi sei mesi dopo, il fornitore del modello ha un'interruzione parziale, o il costo è triplicato, o il modello è stato dismesso, o l'ambiente normativo cambia, e l'azienda non ha alcun fallback. Il costo dell'interruzione è ciò che il fallback sarebbe costato a costruire, tre volte anziché una.

L'observability è saltata perché il pilot non ne aveva bisogno. L'unico utente era il founder; il founder si ricordava di ciò che aveva digitato. In produzione, il team dovrà fare il debug di una lamentela arrivata tre giorni fa, su un flusso che ha toccato otto input, nessuno dei quali è stato registrato. Il team passerà una settimana a cercare di riprodurre il bug a memoria e fallirà. Aggiungere retroattivamente l'observability è più costoso che integrarla fin dall'inizio.

Fig. · Valutazione, fallback e observability: ogni volta

Com'è davvero il pronto-per-la-produzione

La checklist di consegna, riga per riga

Una funzionalità di IA pronta per la produzione possiede, come minimo, quanto segue: un dataset di valutazione congelato versato nel repository; l'harness di valutazione che gira a ogni modifica di prompt o di modello; dashboard di latenza, costo e qualità riviste ogni settimana; il mascheramento dei dati personali e il rilevamento di prompt injection al confine; un fallback senza IA documentato con una procedura di passaggio testata; un logging per richiesta con una retention dimensionata sulla più lunga finestra di debug attesa; un runbook per l'ingegnere di reperibilità; e un proprietario documentato responsabile delle metriche della funzionalità al dodicesimo mese.

Ogni elemento esiste perché abbiamo visto il fallimento che avviene quando manca. Ogni elemento costa anche meno da costruire del costo del fallimento. L'economia non è sottile, il team che consegna queste sette cose passa qualche settimana in più al lancio e risparmia qualche trimestre in più di debug e ricostruzione.

Rifiutiamo di fare deploy di IA senza la checklist. Non perché vogliamo sembrare rigorosi, ma perché l'alternativa è un deploy che il cliente non può mantenere una volta che siamo andati via, il che non è un deliverable. Il passaggio di consegne comprende ogni elemento della checklist, sotto controllo di versione, con la documentazione scritta per l'ingegnere che la erediterà.

Fig. · La checklist di consegna, riga per riga

Come SDEN fa passare i pilot in produzione

Tre impegni su ogni deploy

Il divario pilot-produzione è il punto in cui i progetti di IA falliscono. Gli impegni qui sotto sono il modo in cui lo colmiamo.

Valutazione prima del deploy

Un dataset di valutazione congelato, le metriche che contano, e la soglia sotto la quale la funzionalità è disattivata. Versato nel repository del cliente. La valutazione è il contratto tra il modello e il flusso.

Un fallback che funziona davvero

Ogni flusso assistito dall'IA ha un fallback senza IA a cui l'azienda può tornare in pochi minuti. Lo testiamo ogni trimestre. Esiste per il giorno in cui il modello si rompe, e quel giorno arriva sempre.

Il passaggio di consegne è il deliverable

Documentazione, runbook, dashboard, rotazione di reperibilità. La funzionalità non è in produzione finché il tuo team non può gestirla senza il nostro. Una funzionalità di IA che non puoi mantenere senza di noi è una dipendenza, non un deliverable.

Com'è il successo

Un anno dopo il deploy

Il vero test di un deploy di IA in produzione è com'è dodici mesi dopo, e non il giorno del lancio.

I deploy che invecchiano bene condividono tre proprietà. Il set di valutazione è stato aggiornato almeno due volte man mano che il flusso è evoluto, e non abbandonato. Il fallback è stato testato per davvero almeno una volta, anche se il modello non si è mai rotto, confermando che il cammino funziona ancora. Il team che gestisce la funzionalità non è il team che l'ha costruita, il passaggio di consegne ha davvero trasferito la proprietà.

I deploy che falliscono condividono le tre proprietà inverse. Il set di valutazione è scaduto da sei mesi, perché nessuno lo possiede. Il fallback esiste solo nella documentazione, non testato. E il team di ingegneria originale è ancora il team di supporto di fatto, perché la documentazione non ha mai permesso a qualcun altro di prendere il testimone.

Quando SDEN conclude un progetto di IA, il passaggio di consegne è ciò su cui il deliverable è giudicato. La funzionalità funziona il primo giorno; è il minimo. La funzionalità funziona ancora al trecentosessantacinquesimo giorno, posseduta dal tuo team, ecco l'esito del progetto.