Vai al contenuto
Capitolo 02 · 12 min

Come imparano i modelli

Addestrare un modello non è programmare. È un processo lungo, meccanico e ripetitivo che spinge miliardi di numeri di un piccolissimo passo alla volta finché il sistema smette di sbagliare così spesso. Ecco cosa succede davvero.

The training loop, as a metaphorA circular loop with four stations (example, prediction, compare, nudge) repeating endlessly. Each lap, the model gets a tiny bit less wrong.examplepredictioncomparenudge× 1 TRILLION

Insegnare con l'esempio, con milioni di esempi e uno stagista instancabile.

La ricetta in tre passi

Tutto l'addestramento dell'IA moderna si riduce a: (1) mostrare un esempio al modello, (2) misurare quanto ha sbagliato, (3) ritoccare le sue manopole perché sbagli leggermente meno la volta successiva. Poi ripetere questo ciclo da un miliardo a mille miliardi di volte.

La misura di «quanto ha sbagliato» si chiama loss. Il passo di «ritoccare le manopole» si chiama discesa del gradiente. Insieme sono l'intero motore dell'apprendimento automatico. Ogni altra parola (transformer, attention, fine-tuning, RLHF) è un perfezionamento di una di queste due idee.

The training loopA horizontal flow: input → prediction → loss (how wrong) → gradient → update, then a feedback arrow loops the updated parameters back to the input for the next example.inputpredictionlossgradientupdaterepeat ~1 trillion times“HOW WRONG?”
Gli stessi cinque passi, ripetuti circa mille miliardi di volte. Ogni altra tecnica di questo corso è un perfezionamento di questo ciclo.

Tre tipi di «esempio»

Cosa conti come esempio dipende da cosa vuoi che il modello impari. Ci sono tre configurazioni principali, e ogni sistema di IA serio ne usa una combinazione.

Apprendimento supervisionato. Ogni esempio è abbinato alla risposta corretta. «Questa foto → gatto. Questa email → spam.» Il modello impara la corrispondenza. La maggior parte dell'apprendimento automatico classico (rilevamento di frodi, imaging medico, raccomandazione) è supervisionato. Richiede etichette, il che implica umani, il che implica costi elevati.

Apprendimento auto-supervisionato. Il modello inventa le proprie etichette a partire dai dati stessi. Data una frase con una parola mancante, prevedi la parola. Data la prima metà di un paragrafo, prevedi la seconda. È così che viene pre-addestrato ogni grande modello linguistico moderno, ed è il motivo principale per cui scalano. Le etichette sono gratuite perché Internet le scrive per te.

Apprendimento per rinforzo. Il modello compie azioni in un ambiente e riceve un segnale di ricompensa: un punteggio alto, una vittoria, un clic, un pollice in su. Regola il suo comportamento per inseguire la ricompensa. È così che AlphaGo ha imparato a battere i campioni di go, ed è così che i modelli di dialogo vengono perfezionati dopo il pre-addestramento.

Pre-addestramento contro fine-tuning

Gli LLM moderni sono costruiti in due fasi, e la distinzione conta quando leggi gli annunci.

Il pre-addestramento è la grande passata auto-supervisionata e costosa: prevedere la prossima parola su migliaia di miliardi di parole di Internet, libri, codice. È qui che va il 99% del calcolo. Ciò che ne esce è un modello che conosce fatti e lingua ma non ha alcuna educazione: completerà volentieri «Come faccio una bo» con «mensola» o con qualcosa di ben peggiore.

Il fine-tuning è una passata supervisionata o per rinforzo molto più breve ed economica, che trasforma il modello pre-addestrato in qualcosa di utile: un assistente di dialogo, un completatore di codice, un agente di assistenza clienti. Il fine-tuning insegna comportamenti, non conoscenza. Se il modello di base non sa chi ha scritto *Anna Karenina*, il fine-tuning non lo sistemerà.

L'overfitting: l'unico modo di fallire da conoscere

Tutto il senso dell'addestramento è che il modello deve funzionare su esempi che *non ha mai visto*. Un modello che memorizza perfettamente i suoi dati di addestramento ma fallisce su nuovi input è inutile. Questo modo di fallire si chiama overfitting, ed evitarlo è gran parte di ciò che separa un sistema di apprendimento automatico funzionante da uno guasto.

Visualizzalo: stai adattando una curva su punti sparsi. Una retta può mancare molti punti ma cogliere la tendenza generale. Una curva molto ondulata può passare esattamente per ogni punto e prevedere qualunque cosa tra di essi. I dati di addestramento reali sono rumorosi. Il tuo obiettivo è imparare il segnale, non il rumore.

La difesa standard è un insieme di validazione tenuto da parte: una fetta di dati su cui il modello non viene mai addestrato. Si osserva la loss di validazione man mano che l'addestramento procede. Nell'istante in cui inizia a risalire mentre la loss di addestramento continua a scendere, ci si ferma. Il modello ha iniziato a memorizzare anziché a generalizzare.

Overfitting: training loss vs validation lossTwo curves over training steps. Training loss keeps falling smoothly. Validation loss falls, bottoms out, then rises. Stop training at the bottom of the validation curve; past that point the model is memorising, not learning.losstraining steps →stop heretraining lossvalidation loss
La loss di addestramento continua a scendere, ma la loss di validazione tocca il fondo e inizia a risalire. Fermati al punto più basso della curva arancione.

Perché l'addestramento richiede mesi e milioni

Un addestramento di un LLM di punta nel 2025 costa tra decine e centinaia di milioni di dollari e gira per settimane su decine di migliaia di GPU. Il costo è dominato da una sola cosa: il ciclo gira migliaia di miliardi di volte, e ogni passata tocca ogni parametro.

L'inferenza (usare concretamente il modello addestrato) costa molto meno per chiamata ma si accumula su larga scala. L'economia dell'IA è: l'addestramento è una spesa in conto capitale una tantum; l'inferenza è la spesa operativa continua. Ogni decisione di prodotto (dimensione del modello, lunghezza del contesto, raggruppamento delle richieste) discende da questa distinzione.

Una riga per ciascuno

  • Addestramento = mostrare un esempio, misurare l'errore (loss), ritoccare i parametri (discesa del gradiente). Ripetere mille miliardi di volte.
  • Il supervisionato ha bisogno di etichette; l'auto-supervisionato le inventa dai dati; il rinforzo impara dalle ricompense.
  • Gli LLM sono costruiti in due fasi: un vasto pre-addestramento auto-supervisionato, poi un breve fine-tuning che insegna i comportamenti.
  • Il nemico dell'addestramento è l'overfitting: memorizzare i dati invece di imparare lo schema.