Text and images in one shared space

“Insegna due lingue nella stessa aula e cominciano a completarsi le frasi a vicenda.”

Il tuo prompt guida un modello addestrato che trasforma il rumore in nuovo media.

L'idea dello spazio condiviso

La chiave che sblocca l'IA multimodale è proiettare diversi tipi di dati nello stesso spazio. Ricorda che un modello linguistico trasforma le parole in vettori in modo che significati simili finiscano vicini. Fai lo stesso per le immagini, con un'aggiunta cruciale: addestrare in modo che un'immagine e la sua descrizione finiscano vicine l'una all'altra nello stesso spazio. L'immagine di un cane e le parole "un cane" diventano vicine.

Encoder separati proiettano un'immagine e il testo corrispondente in uno spazio condiviso, dove finiscono vicini. Questa geometria comune è il ponte.

È ciò che modelli come CLIP (intorno al 2021) hanno dimostrato, ed è il motore silenzioso dietro gran parte dell'IA multimodale: guida testo verso immagine, ricerca di immagini per descrizione, classificazione di immagini senza esempi precedenti. Una volta che immagini e parole condividono una geometria, ci si può muovere tra di esse.

La stessa idea di geometria del significato dal linguaggio, ora attraverso le modalità: i concetti correlati si avvicinano, in qualunque forma siano arrivati.

Modelli visione-linguaggio: modelli che vedono e parlano

I modelli di frontiera moderni sono sempre più multimodali in modo nativo: puoi mostrare loro un'immagine e porre domande, consegnare loro un grafico perché lo leggano, puntare una telecamera e ottenere una descrizione. Sotto il cofano, l'immagine è codificata nella stessa rappresentazione che il modello linguistico consuma, così che il modello ragiona su immagini e testo insieme invece di trattarli come sistemi separati.

È genuinamente potente e ampiamente utile: leggere documenti e moduli, descrivere immagini per l'accessibilità, rispondere a domande visive, comprendere screenshot e diagrammi. È anche il punto in cui la comprensione (leggere un'immagine) e la generazione (crearne una) vivono sempre più in un solo modello, anche se valgono le solite avvertenze sulla fiducia erronea, ora applicate a ciò che il modello afferma di vedere.

Da qualsiasi a qualsiasi: la direzione di marcia

La traiettoria è verso modelli che accettano qualsiasi modalità in input e producono qualsiasi modalità in output: leggere un documento e rispondere a voce, guardare un video e scrivere un riassunto, sentire una domanda e disegnare un diagramma. Siamo a metà strada: testo più visione è comune, l'audio è sempre più integrato, il tutto-verso-tutto sta emergendo. L'idea dello spazio condiviso è ciò che lo rende concepibile.

Per chi costruisce, la conseguenza pratica è che puoi sempre più dare per scontato che un solo modello possa gestire input misti. Le pipeline documentali non hanno più bisogno di un passo OCR separato più un modello di testo; un modello multimodale legge la pagina direttamente. Questa semplificazione (meno passaggi fragili) è silenziosamente uno dei guadagni più importanti a breve termine dell'IA multimodale.

Una riga per ciascuno

L'IA multimodale funziona proiettando diversi tipi di dati in uno spazio condiviso in cui un'immagine e la sua descrizione finiscono vicine.
Modelli come CLIP l'hanno dimostrato; questo alimenta la guida testo verso immagine, la ricerca di immagini per descrizione e la classificazione senza esempi.
I modelli visione-linguaggio ragionano su immagini e testo insieme (potenti per i documenti, l'accessibilità e le domande visive), con la stessa avvertenza sulla fiducia erronea.
La direzione è il tutto-verso-tutto; il guadagno a breve termine sono pipeline più semplici (un solo modello legge la pagina, niente passo OCR separato).

Dove andare ora

Capitolo 7: Rischi e realtà