Every change runs the eval set before it ships

“Un'eval è il rilevatore di fumo. Fastidioso fino alla notte in cui salva la casa.”

Le eval valutano gli output rispetto alle attese; l'osservabilità li osserva in produzione.

Cos'è un'eval

Un'eval è un insieme di input abbinati a un modo di giudicare l'output, più uno script che esegue il tuo sistema su di essi e riporta un punteggio. Tutto qui. La disciplina non è complicata; è solo raramente messa in pratica. La maggior parte dei team "valuta" provando qualche prompt a mano e tenendo ciò che sembra meglio, che è il modo in cui si spediscono le regressioni.

L'eval è la porta tra una modifica e la produzione. Il punteggio tiene o migliora → spedisci. Il punteggio regredisce → blocca.

Inizia ridicolmente piccolo. Da venti a cinquanta input reali, ognuno un caso che il tuo sistema dovrebbe gestire, con la risposta attesa o un modo per valutarla. Aggiungi ogni fallimento che scopri in produzione. Questo cresce fino a diventare il bene più prezioso che il tuo team IA possiede.

Tre tipi di eval, ordinati per leva

Eval di regressione: casi reali di input/output, eseguiti a ogni modifica di prompt o di modello. Coglie "la correzione che ha rotto dieci cose".
Eval avversariale: input progettati per rompere il sistema: richieste ambigue, prompt injection, contesto irrilevante, casi limite. Esegui prima di ogni release.
Eval di calibrazione: il sistema sa quando è incerto? Traccia se le risposte ad alta confidenza sono effettivamente corrette più spesso.

L'eval di regressione è quella da costruire per prima e da eseguire costantemente. Le altre contano, ma un'eval di regressione che si esegue a ogni modifica è ciò che trasforma lo sviluppo IA da indovinello in ingegneria.

Come valutare gli output

Tre metodi di valutazione, in ordine di preferenza. La corrispondenza esatta o basata su regole quando la risposta è strutturata (un numero, una categoria, JSON valido): economica, deterministica, affidabile. L'LLM-as-judge quando la risposta è aperta (un riassunto, una spiegazione): un modello valuta secondo una rubrica. E la revisione umana per i casi che contano di più.

L'LLM-as-judge è seducente perché scala, ma è rumoroso e distorto: i giudici favoriscono le risposte più lunghe, il proprio stile, la prima opzione mostrata. Ancoralo con una rubrica chiara, validalo contro valutazioni umane su un campione, e abbinalo alla corrispondenza esatta ovunque puoi. Non fidarti mai di un giudice che non hai sottoposto ad audit.

Osservabilità: le eval per la realtà di produzione

Le eval ti dicono dei casi a cui hai pensato. L'osservabilità ti dice dei casi che gli utenti inviano davvero. Traccia ogni richiesta: il prompt completo, il contesto recuperato, ogni chiamata di tool, l'output grezzo, la latenza e il costo. Quando qualcosa va storto, e succederà, devi poter rieseguire esattamente ciò che è accaduto.

Il loop che fa crescere la qualità: le tracce di produzione fanno emergere fallimenti reali; i fallimenti reali diventano nuovi casi di eval; il set di eval si affina; il sistema migliora in modo misurabile. I team che chiudono questo loop distanziano quelli che non lo fanno.

Una riga per ciascuno

Un'eval è input più un modo di valutare gli output più uno script. Inizia con 20 casi reali e cresci a partire dai fallimenti.
Tre tipi: regressione (sempre in esecuzione), avversariale (prima delle release), calibrazione. Costruisci prima l'eval di regressione.
Valuta con la corrispondenza esatta quando puoi, l'LLM-as-judge (sottoposto ad audit) quando non puoi, gli umani per ciò che conta di più.
L'osservabilità chiude il loop: le tracce di produzione diventano nuovi casi di eval. Non eliminare mai i casi che falliscono.

Dove andare ora

Capitolo 7: Spedizione e gestione