“Quando sai imparare la forma di una cosa, puoi imparare la forma di qualsiasi cosa: parole, immagini, suoni.”
Una sola idea, tanti vestiti
Sotto ogni modello generativo c'è un solo gesto: imparare la distribuzione di un tipo di dati, poi campionarne nuovi esempi. Impara come sono fatte le frasi in inglese, campionane una nuova: questo è un modello linguistico. Impara come sono fatte le fotografie, campionane una nuova: questo è un generatore di immagini. I dati cambiano; l'idea di fondo, invece, resta.
Ecco perché i progressi in una modalità sconfinano di continuo nelle altre. L'architettura transformer che ha alimentato i modelli linguistici si è rivelata altrettanto efficace per immagini e audio. La lezione imparata con il testo (la scala combinata alla giusta architettura batte l'ingegneria manuale ingegnosa) si è ripetuta in ogni altra modalità, con qualche anno di ritardo.
Generazione contro comprensione
Due direzioni contano e sono facili da confondere. La comprensione va da un input ricco verso una risposta compatta: un'immagine verso una didascalia, audio verso una trascrizione, un video verso un riassunto. La generazione va nell'altro senso: un prompt verso un'immagine, testo verso voce, una descrizione verso un video. Gli stessi modelli sottostanti spesso fanno entrambe le cose, ma l'ingegneria, il costo e i rischi differiscono nettamente tra le due direzioni.
Perché è successo tutto insieme
L'IA generativa in tutte le modalità è sembrata esplodere all'improvviso all'inizio degli anni 2020, ma quell'esplosione è stata l'incontro di tre tendenze lente: abbastanza dati (le immagini, l'audio e i video di internet), abbastanza potenza di calcolo (le GPU costruite proprio per questo tipo di matematica) e un paio di svolte architetturali, soprattutto il transformer e, per le immagini, i modelli di diffusione. Niente di tutto questo era nuova magia; insieme hanno superato una soglia di utilità.
Saperlo ti tiene ancorato alla realtà. Le capacità sono reali e migliorano in fretta. Ma ogni modalità si trova in un punto diverso della curva (il testo e l'immagine sono maturi, il video e il 3D sono più acerbi e più grezzi), e il divario tra una demo sbalorditiva e un prodotto affidabile è, come sempre, tutta la storia.
Cosa copre questo corso
Apriremo il cofano della generazione di immagini (come funziona davvero la diffusione), come pilotarla, poi l'audio e la musica, poi il video e il 3D, poi i modelli multimodali che fondono visione e linguaggio, e finiremo con i rischi che comportano le macchine capaci di fabbricare media convincenti. Il corso sui fondamentali è un buon contesto, ma non obbligatorio; questo è autonomo.
Una riga per ciascuno
- Ogni modello generativo fa una sola cosa: imparare la distribuzione di certi dati, poi campionarne nuovi esempi.
- I progressi sconfinano da una modalità all'altra perché le stesse architetture (in particolare il transformer) continuano a funzionare su nuovi tipi di dati.
- La comprensione (input → risposta compatta) e la generazione (prompt → output ricco) differiscono in costo, affidabilità e rischio.
- Ogni modalità si trova in un punto diverso della curva (testo e immagine maturi, video e 3D più acerbi), e le demo superano ancora i prodotti affidabili.
Dove andare ora