One idea, many modalities

“Quando sai imparare la forma di una cosa, puoi imparare la forma di qualsiasi cosa: parole, immagini, suoni.”

Una sola idea, tanti vestiti

Sotto ogni modello generativo c'è un solo gesto: imparare la distribuzione di un tipo di dati, poi campionarne nuovi esempi. Impara come sono fatte le frasi in inglese, campionane una nuova: questo è un modello linguistico. Impara come sono fatte le fotografie, campionane una nuova: questo è un generatore di immagini. I dati cambiano; l'idea di fondo, invece, resta.

La stessa idea di base (imparare una distribuzione, poi campionarne) alimenta la generazione di testo, immagini, audio, video, 3D e codice.

Ecco perché i progressi in una modalità sconfinano di continuo nelle altre. L'architettura transformer che ha alimentato i modelli linguistici si è rivelata altrettanto efficace per immagini e audio. La lezione imparata con il testo (la scala combinata alla giusta architettura batte l'ingegneria manuale ingegnosa) si è ripetuta in ogni altra modalità, con qualche anno di ritardo.

Generazione contro comprensione

Due direzioni contano e sono facili da confondere. La comprensione va da un input ricco verso una risposta compatta: un'immagine verso una didascalia, audio verso una trascrizione, un video verso un riassunto. La generazione va nell'altro senso: un prompt verso un'immagine, testo verso voce, una descrizione verso un video. Gli stessi modelli sottostanti spesso fanno entrambe le cose, ma l'ingegneria, il costo e i rischi differiscono nettamente tra le due direzioni.

Perché è successo tutto insieme

L'IA generativa in tutte le modalità è sembrata esplodere all'improvviso all'inizio degli anni 2020, ma quell'esplosione è stata l'incontro di tre tendenze lente: abbastanza dati (le immagini, l'audio e i video di internet), abbastanza potenza di calcolo (le GPU costruite proprio per questo tipo di matematica) e un paio di svolte architetturali, soprattutto il transformer e, per le immagini, i modelli di diffusione. Niente di tutto questo era nuova magia; insieme hanno superato una soglia di utilità.

Saperlo ti tiene ancorato alla realtà. Le capacità sono reali e migliorano in fretta. Ma ogni modalità si trova in un punto diverso della curva (il testo e l'immagine sono maturi, il video e il 3D sono più acerbi e più grezzi), e il divario tra una demo sbalorditiva e un prodotto affidabile è, come sempre, tutta la storia.

Cosa copre questo corso

Apriremo il cofano della generazione di immagini (come funziona davvero la diffusione), come pilotarla, poi l'audio e la musica, poi il video e il 3D, poi i modelli multimodali che fondono visione e linguaggio, e finiremo con i rischi che comportano le macchine capaci di fabbricare media convincenti. Il corso sui fondamentali è un buon contesto, ma non obbligatorio; questo è autonomo.

Una riga per ciascuno

Ogni modello generativo fa una sola cosa: imparare la distribuzione di certi dati, poi campionarne nuovi esempi.
I progressi sconfinano da una modalità all'altra perché le stesse architetture (in particolare il transformer) continuano a funzionare su nuovi tipi di dati.
La comprensione (input → risposta compatta) e la generazione (prompt → output ricco) differiscono in costo, affidabilità e rischio.
Ogni modalità si trova in un punto diverso della curva (testo e immagine maturi, video e 3D più acerbi), e le demo superano ancora i prodotti affidabili.

Dove andare ora

Capitolo 2: Come funziona la generazione di immagini