“Un'eval è il rilevatore di fumo. Fastidioso fino alla notte in cui salva la casa.”
Cos'è un'eval
Un'eval è un insieme di input abbinati a un modo di giudicare l'output, più uno script che esegue il tuo sistema su di essi e riporta un punteggio. Tutto qui. La disciplina non è complicata; è solo raramente messa in pratica. La maggior parte dei team "valuta" provando qualche prompt a mano e tenendo ciò che sembra meglio, che è il modo in cui si spediscono le regressioni.
Inizia ridicolmente piccolo. Da venti a cinquanta input reali, ognuno un caso che il tuo sistema dovrebbe gestire, con la risposta attesa o un modo per valutarla. Aggiungi ogni fallimento che scopri in produzione. Questo cresce fino a diventare il bene più prezioso che il tuo team IA possiede.
Tre tipi di eval, ordinati per leva
- Eval di regressione: casi reali di input/output, eseguiti a ogni modifica di prompt o di modello. Coglie "la correzione che ha rotto dieci cose".
- Eval avversariale: input progettati per rompere il sistema: richieste ambigue, prompt injection, contesto irrilevante, casi limite. Esegui prima di ogni release.
- Eval di calibrazione: il sistema sa quando è incerto? Traccia se le risposte ad alta confidenza sono effettivamente corrette più spesso.
L'eval di regressione è quella da costruire per prima e da eseguire costantemente. Le altre contano, ma un'eval di regressione che si esegue a ogni modifica è ciò che trasforma lo sviluppo IA da indovinello in ingegneria.
Come valutare gli output
Tre metodi di valutazione, in ordine di preferenza. La corrispondenza esatta o basata su regole quando la risposta è strutturata (un numero, una categoria, JSON valido): economica, deterministica, affidabile. L'LLM-as-judge quando la risposta è aperta (un riassunto, una spiegazione): un modello valuta secondo una rubrica. E la revisione umana per i casi che contano di più.
L'LLM-as-judge è seducente perché scala, ma è rumoroso e distorto: i giudici favoriscono le risposte più lunghe, il proprio stile, la prima opzione mostrata. Ancoralo con una rubrica chiara, validalo contro valutazioni umane su un campione, e abbinalo alla corrispondenza esatta ovunque puoi. Non fidarti mai di un giudice che non hai sottoposto ad audit.
Osservabilità: le eval per la realtà di produzione
Le eval ti dicono dei casi a cui hai pensato. L'osservabilità ti dice dei casi che gli utenti inviano davvero. Traccia ogni richiesta: il prompt completo, il contesto recuperato, ogni chiamata di tool, l'output grezzo, la latenza e il costo. Quando qualcosa va storto, e succederà, devi poter rieseguire esattamente ciò che è accaduto.
Il loop che fa crescere la qualità: le tracce di produzione fanno emergere fallimenti reali; i fallimenti reali diventano nuovi casi di eval; il set di eval si affina; il sistema migliora in modo misurabile. I team che chiudono questo loop distanziano quelli che non lo fanno.
Una riga per ciascuno
- Un'eval è input più un modo di valutare gli output più uno script. Inizia con 20 casi reali e cresci a partire dai fallimenti.
- Tre tipi: regressione (sempre in esecuzione), avversariale (prima delle release), calibrazione. Costruisci prima l'eval di regressione.
- Valuta con la corrispondenza esatta quando puoi, l'LLM-as-judge (sottoposto ad audit) quando non puoi, gli umani per ciò che conta di più.
- L'osservabilità chiude il loop: le tracce di produzione diventano nuovi casi di eval. Non eliminare mai i casi che falliscono.
Dove andare ora