The workshop metaphor

“Smetti di interrogare il genio. Costruisci il laboratorio.”

Le quattro leve di un sistema di IA funzionante

Quasi ogni applicazione di IA reale che funziona aziona una combinazione di quattro leve. La maggior parte dei prodotti di IA che falliscono ne ha azionata una sola.

Il prompt: dire al modello con precisione cosa vuoi, con vincoli ed esempi.
Il recupero: fornire al modello il contesto giusto perché non debba tirare a indovinare.
Gli strumenti: lasciare che il modello chiami sistemi deterministici (calcolatrici, database, type checker) invece di fingere.
La valutazione: misurare se il sistema funziona davvero, prima e dopo ogni cambiamento.

Aziona almeno tre delle quattro. La maggior parte dei prodotti di IA che falliscono ne aziona una sola, di solito il prompt.

Il fine-tuning è una quinta leva, ma molto più costosa. La maggior parte dei team che crede di averne bisogno in realtà ha bisogno di un recupero migliore o di valutazioni migliori. Tienilo come ultima risorsa.

Il prompt: solo gli elementi essenziali

La maggior parte dei contenuti sull'«ingegneria del prompt» riguarda ottimi locali. Quattro principi che si generalizzano davvero:

Vincoli: di' al modello il formato, la lunghezza, lo stile, cosa escludere. Più la scatola è chiara, meglio l'output la riempie.
Esempi (few-shot): mostra due o tre coppie input/output che illustrano il tipo di risultato che vuoi. Il modello è molto più bravo a imitare che a obbedire.
Scomposizione: se il compito ha più passi, eseguili in prompt separati (o con una catena di pensiero esplicita) invece di chiedere la risposta completa in un colpo solo.
Verifica: chiedi al modello di verificare il proprio output, oppure passalo a un secondo modello con un prompt diverso. Economico, spesso intercetta gli errori sciocchi.

Il recupero (RAG): quando il modello ha bisogno di fatti

La generazione aumentata da recupero abbina un modello a un sistema di ricerca. Quando l'utente pone una domanda, prima interroghi una base di conoscenza (store vettoriale, database, web), recuperi i frammenti più pertinenti e li inietti nel prompt come contesto. Il modello risponde a partire dal contesto anziché dai suoi dati di addestramento.

Il RAG è la risposta giusta alla maggior parte dei problemi di tipo «dialoga con la nostra documentazione» o «bot di assistenza clienti». Separa ciò che il sistema sa (l'indice) da ciò che il sistema dice (il modello). Puoi aggiornare l'indice ogni ora; non puoi aggiornare il modello ogni ora.

Dove il RAG va storto: cattivo chunking (la risposta giusta è divisa su due frammenti), cattivo recupero (il documento pertinente non figura nemmeno tra i primi 10), modello di embedding sbagliato (il tuo dominio non è rappresentato), oppure il modello ignora il contesto recuperato. Ognuno è correggibile; nessuno è ovvio finché non misuri.

Il modello risponde a partire dai frammenti recuperati, non dai suoi dati di addestramento. Aggiorna l'indice, non il modello.

Strumenti e agenti

Un modello che può chiamare strumenti è notevolmente più capace di uno che non può. Dagli una calcolatrice e smette di simulare la matematica. Dagli uno strumento di interrogazione del database e smette di inventare SQL. Dagli un interprete di codice e può verificare i propri output.

Un «agente» non è che un modello in un ciclo in cui a ogni turno può chiamare strumenti, vedere il risultato e decidere cosa fare dopo. Il ciclo ha di solito un limite di passi e una qualche condizione di arresto. La maggior parte degli agenti in produzione sono cicli da 3 a 20 passi; gli agenti che vanno oltre senza vincoli forti raramente funzionano.

Lo stato onesto degli agenti nel 2025: sono utili per compiti ben delimitati («rispondi a questo ticket di assistenza usando questi strumenti») e poco affidabili per compiti aperti («pianifica un lancio ed eseguilo»). Gli errori si accumulano. Il passo 1 con una precisione del 95% va bene; il passo 10 con una precisione del 95% scende sotto il 60%.

L'agente più semplice: il modello chiama uno strumento, legge il risultato, decide cosa fare dopo, si ferma quando ha una risposta finale.

Le valutazioni: l'unico segnale onesto

Una valutazione è un insieme di input abbinati a output attesi (o a un modo di assegnare un punteggio agli output), più uno script che li fa passare nel tuo sistema e riporta com'è andata. Senza valutazioni, non sai se un cambiamento ha migliorato o rotto il tuo sistema. Senza valutazioni, fai ingegneria dell'IA a sensazione.

Inizia in piccolo: da 20 a 50 esempi tratti dall'uso reale, ognuno un problema che il tuo sistema deve gestire. Aggiungi i fallimenti che scopri. Rilancia la valutazione a ogni cambio di prompt, a ogni aggiornamento di modello, a ogni ritocco del recupero. Se fai una sola cosa di questo capitolo, fai questa.

Quando non usare l'IA

Alcuni compiti non dovrebbero essere risolti con un LLM. Un'espressione regolare è più veloce, più economica e più affidabile di un modello per «estrai questo indirizzo email». Una query di database è più onesta di un modello per «conta le righe dove stato='attivo'». Un type checker è migliore di un modello per «questo codice è Rust valido?».

Regola empirica: se il compito ha una risposta corretta deterministica ed esiste uno strumento deterministico per farlo, usa lo strumento. Ricorri all'IA quando il compito è sfumato, gli input sono disordinati, o il costo di essere all'incirca giusti è accettabile. Non usare un modello di linguaggio per sommare due numeri.

In caso di dubbio, percorri questo albero prima di aggiungere un LLM al tuo stack.

Cosa questo corso non copre

Visione artificiale, modelli multimodali, robotica, apprendimento per rinforzo oltre l'RLHF, interpretabilità meccanicistica, ricerca sull'allineamento, le specificità di ogni singolo fornitore di modelli. Ognuno è un corso a sé. Ciò che hai ora è sufficiente per seguire il campo, e per accorgerti quando qualcuno cerca di venderti qualcosa.

Dove andare da qui

Se vuoi approfondire il prompt: leggi «Prompt Engineering: First Principles» nelle nostre guide. Se vuoi verificare se il tuo team è pronto a mettere l'IA in produzione: fai l'auto-audit di prontezza all'IA. Se vuoi costruire qualcosa e hai bisogno di un partner: è letteralmente ciò che fa SDEN.

Una riga per ciascuno

Quattro leve: prompt, recupero, strumenti, valutazione. Azionane almeno tre per qualsiasi sistema serio.
Il RAG separa ciò che il sistema sa da ciò che dice. Aggiorna l'indice, non il modello.
Gli agenti funzionano con ambito ristretto, strumenti idempotenti, simulazioni e barriere umane per le azioni ad alta posta in gioco.
Le valutazioni sono l'unico segnale onesto. Senza di esse rilasci a sensazione; con esse rilasci qualcosa su cui puoi ragionare.

Dove andare ora