The training loop, as a metaphor

“Insegnare con l'esempio, con milioni di esempi e uno stagista instancabile.”

Da un mucchio di testo grezzo a un modello che risponde in modo utile: ogni fase plasma la successiva.

La ricetta in tre passi

Tutto l'addestramento dell'IA moderna si riduce a: (1) mostrare un esempio al modello, (2) misurare quanto ha sbagliato, (3) ritoccare le sue manopole perché sbagli leggermente meno la volta successiva. Poi ripetere questo ciclo da un miliardo a mille miliardi di volte.

La misura di «quanto ha sbagliato» si chiama loss. Il passo di «ritoccare le manopole» si chiama discesa del gradiente. Insieme sono l'intero motore dell'apprendimento automatico. Ogni altra parola (transformer, attention, fine-tuning, RLHF) è un perfezionamento di una di queste due idee.

Gli stessi cinque passi, ripetuti circa mille miliardi di volte. Ogni altra tecnica di questo corso è un perfezionamento di questo ciclo.

Tre tipi di «esempio»

Cosa conti come esempio dipende da cosa vuoi che il modello impari. Ci sono tre configurazioni principali, e ogni sistema di IA serio ne usa una combinazione.

Apprendimento supervisionato. Ogni esempio è abbinato alla risposta corretta. «Questa foto → gatto. Questa email → spam.» Il modello impara la corrispondenza. La maggior parte dell'apprendimento automatico classico (rilevamento di frodi, imaging medico, raccomandazione) è supervisionato. Richiede etichette, il che implica umani, il che implica costi elevati.

Apprendimento auto-supervisionato. Il modello inventa le proprie etichette a partire dai dati stessi. Data una frase con una parola mancante, prevedi la parola. Data la prima metà di un paragrafo, prevedi la seconda. È così che viene pre-addestrato ogni grande modello linguistico moderno, ed è il motivo principale per cui scalano. Le etichette sono gratuite perché Internet le scrive per te.

Apprendimento per rinforzo. Il modello compie azioni in un ambiente e riceve un segnale di ricompensa: un punteggio alto, una vittoria, un clic, un pollice in su. Regola il suo comportamento per inseguire la ricompensa. È così che AlphaGo ha imparato a battere i campioni di go, ed è così che i modelli di dialogo vengono perfezionati dopo il pre-addestramento.

Pre-addestramento contro fine-tuning

Gli LLM moderni sono costruiti in due fasi, e la distinzione conta quando leggi gli annunci.

Il pre-addestramento è la grande passata auto-supervisionata e costosa: prevedere la prossima parola su migliaia di miliardi di parole di Internet, libri, codice. È qui che va il 99% del calcolo. Ciò che ne esce è un modello che conosce fatti e lingua ma non ha alcuna educazione: completerà volentieri «Come faccio una bo» con «mensola» o con qualcosa di ben peggiore.

Il fine-tuning è una passata supervisionata o per rinforzo molto più breve ed economica, che trasforma il modello pre-addestrato in qualcosa di utile: un assistente di dialogo, un completatore di codice, un agente di assistenza clienti. Il fine-tuning insegna comportamenti, non conoscenza. Se il modello di base non sa chi ha scritto *Anna Karenina*, il fine-tuning non lo sistemerà.

L'overfitting: l'unico modo di fallire da conoscere

Tutto il senso dell'addestramento è che il modello deve funzionare su esempi che *non ha mai visto*. Un modello che memorizza perfettamente i suoi dati di addestramento ma fallisce su nuovi input è inutile. Questo modo di fallire si chiama overfitting, ed evitarlo è gran parte di ciò che separa un sistema di apprendimento automatico funzionante da uno guasto.

Visualizzalo: stai adattando una curva su punti sparsi. Una retta può mancare molti punti ma cogliere la tendenza generale. Una curva molto ondulata può passare esattamente per ogni punto e prevedere qualunque cosa tra di essi. I dati di addestramento reali sono rumorosi. Il tuo obiettivo è imparare il segnale, non il rumore.

La difesa standard è un insieme di validazione tenuto da parte: una fetta di dati su cui il modello non viene mai addestrato. Si osserva la loss di validazione man mano che l'addestramento procede. Nell'istante in cui inizia a risalire mentre la loss di addestramento continua a scendere, ci si ferma. Il modello ha iniziato a memorizzare anziché a generalizzare.

La loss di addestramento continua a scendere, ma la loss di validazione tocca il fondo e inizia a risalire. Fermati al punto più basso della curva arancione.

Perché l'addestramento richiede mesi e milioni

Un addestramento di un LLM di punta nel 2025 costa tra decine e centinaia di milioni di dollari e gira per settimane su decine di migliaia di GPU. Il costo è dominato da una sola cosa: il ciclo gira migliaia di miliardi di volte, e ogni passata tocca ogni parametro.

L'inferenza (usare concretamente il modello addestrato) costa molto meno per chiamata ma si accumula su larga scala. L'economia dell'IA è: l'addestramento è una spesa in conto capitale una tantum; l'inferenza è la spesa operativa continua. Ogni decisione di prodotto (dimensione del modello, lunghezza del contesto, raggruppamento delle richieste) discende da questa distinzione.

Una riga per ciascuno

Addestramento = mostrare un esempio, misurare l'errore (loss), ritoccare i parametri (discesa del gradiente). Ripetere mille miliardi di volte.
Il supervisionato ha bisogno di etichette; l'auto-supervisionato le inventa dai dati; il rinforzo impara dalle ricompense.
Gli LLM sono costruiti in due fasi: un vasto pre-addestramento auto-supervisionato, poi un breve fine-tuning che insegna i comportamenti.
Il nemico dell'addestramento è l'overfitting: memorizzare i dati invece di imparare lo schema.

Dove andare ora

Capitolo 3: Dentro una rete neurale