Aller au contenu
Chapitre 06 · 11 min

Modèles multimodaux

Le virage le plus conséquent n'est pas de meilleurs modèles d'images ou d'audio isolément — ce sont des modèles qui gèrent plusieurs modalités à la fois, reliant ce qu'ils voient à ce qu'ils lisent et à ce qu'ils entendent. Ce chapitre explique comment un modèle fait le pont entre les modalités, et pourquoi cela change ce qu'il est possible de construire.

Text and images in one shared spaceAn image of a dog and the words "a dog" are both mapped, by separate encoders, into the same vector space — landing close together. Shared embedding space is what lets a model connect pictures and words.🐕 image“a dog”img enctxt encshared spaceclose together

Enseignez deux langues dans la même salle de classe et elles commencent à compléter les phrases l'une de l'autre.

L'idée de l'espace partagé

La clé qui déverrouille l'IA multimodale est de projeter différents types de données dans le même espace. Rappelez-vous qu'un modèle de langage transforme les mots en vecteurs de sorte que des significations similaires se retrouvent proches. Faites la même chose pour les images, avec un ajout crucial : entraîner de sorte qu'une image et sa description se retrouvent proches l'une de l'autre dans le même espace. L'image d'un chien et les mots « un chien » deviennent voisins.

Text and images in one shared spaceAn image of a dog and the words "a dog" are both mapped, by separate encoders, into the same vector space — landing close together. Shared embedding space is what lets a model connect pictures and words.🐕 image“a dog”img enctxt encshared spaceclose together
Des encodeurs séparés projettent une image et le texte correspondant dans un espace partagé, où ils se retrouvent proches. Cette géométrie commune est le pont.

C'est ce que des modèles comme CLIP (vers 2021) ont démontré, et c'est le moteur discret derrière une grande partie de l'IA multimodale : guidage texte vers image, recherche d'images par description, classification d'images sans exemples préalables. Une fois que les images et les mots partagent une géométrie, on peut se déplacer entre eux.

Embedding arithmeticFour word-points in a 2D space. The vector from "man" to "woman" is parallel to the vector from "king" to "queen" — visualising the famous king − man + woman ≈ queen relationship.manwomankingqueenking − man + woman ≈ queen2D PROJECTION OF EMBEDDING SPACE
La même idée de géométrie du sens depuis le langage, maintenant à travers les modalités : les concepts liés se rapprochent, quelle que soit la forme sous laquelle ils arrivent.

Modèles vision-langage : des modèles qui voient et parlent

Les modèles frontières modernes sont de plus en plus multimodaux nativement : vous pouvez leur montrer une image et leur poser des questions, leur remettre un graphique pour qu'ils le lisent, pointer une caméra et obtenir une description. Sous le capot, l'image est encodée dans la même représentation que le modèle de langage consomme, de sorte que le modèle raisonne sur les images et le texte ensemble plutôt que de les traiter comme des systèmes séparés.

C'est genuinement puissant et largement utile : lire des documents et des formulaires, décrire des images pour l'accessibilité, répondre à des questions visuelles, comprendre des captures d'écran et des diagrammes. C'est aussi là où la compréhension (lire une image) et la génération (en créer une) vivent de plus en plus dans un seul modèle — même si les mises en garde habituelles sur la confiance erronée s'appliquent, désormais à ce que le modèle prétend voir.

N'importe quoi vers n'importe quoi : la direction de voyage

La trajectoire est vers des modèles qui acceptent n'importe quelle modalité en entrée et produisent n'importe quelle modalité en sortie — lire un document et répondre à voix haute, regarder une vidéo et écrire un résumé, entendre une question et dessiner un diagramme. Nous y sommes à moitié : texte plus vision est courant, l'audio est de plus en plus intégré, le tout vers tout émerge. L'idée d'espace partagé est ce qui le rend concevable.

Pour les constructeurs, la conséquence pratique est que vous pouvez de plus en plus supposer qu'un seul modèle peut gérer des entrées mixtes. Les pipelines documentaires n'ont plus besoin d'une étape OCR séparée plus un modèle de texte; un modèle multimodal lit la page directement. Cette simplification — moins d'étapes fragiles — est discrètement l'un des gains les plus importants à court terme de l'IA multimodale.

En une ligne chacun

  • L'IA multimodale fonctionne en projetant différents types de données dans un espace partagé où une image et sa description se retrouvent proches.
  • Des modèles comme CLIP l'ont démontré; cela alimente le guidage texte vers image, la recherche d'images par description et la classification sans exemples.
  • Les modèles vision-langage raisonnent sur les images et le texte ensemble — puissants pour les documents, l'accessibilité et les questions visuelles — avec la même mise en garde sur la confiance erronée.
  • La direction est le tout vers tout; le gain à court terme est des pipelines plus simples (un seul modèle lit la page, pas d'étape OCR séparée).
Modèles multimodaux · Cours d'IA · SDEN