Vidéo et 3D

“Un folioscope ne fonctionne que si chaque page s'accorde avec la précédente. Cet accord est la partie difficile.”

Pourquoi la vidéo est tellement plus difficile que les images

Une vidéo n'est pas qu'un ensemble d'images — c'est un ensemble d'images qui doivent s'accorder. Le même objet doit conserver la même forme, couleur et identité dans chaque trame; le mouvement doit être physiquement plausible; l'éclairage doit rester cohérent. Cette cohérence temporelle est le défi central, et c'est pourquoi un modèle peut réussir une trame photoréaliste isolée mais produire une vidéo où les visages se transforment, les objets vacillent et la physique dérive.

C'est aussi bien plus coûteux. Quelques secondes de vidéo représentent des centaines de trames, chacune aussi coûteuse qu'une image, plus le travail de les maintenir cohérentes. Le calcul et le problème de cohérence se cumulent, ce qui explique pourquoi la génération vidéo accuse quelques années de retard sur la génération d'images en maturité.

Où en est vraiment la génération vidéo

La trajectoire est rapide et réelle : le texte vers vidéo est passé de quelques secondes vacillantes à des clips d'une cohérence et d'une durée impressionnantes en peu de temps. L'état honnête, cependant, est que c'est plus fort pour les clips courts et autonomes et plus faible précisément là où la vidéo professionnelle en a besoin — contrôle précis, longue durée, personnages cohérents à travers les scènes, et physique fiable.

Le 3D et les mondes au-delà des images plates

Générer du 3D — modèles, scènes, environnements — est encore plus précoce et genuinement utile dans des niches spécifiques (jeux, visualisation de produits, production virtuelle). Les défis reprennent ceux de la vidéo : cohérence, mais maintenant à travers les points de vue plutôt que le temps, et une rareté des données d'entraînement, car il existe bien moins de modèles 3D que d'images 2D dans le monde.

Les approches vont de la reconstruction 3D à partir de plusieurs photos (techniques comme les champs de radiance neuronale et, plus récemment, le splatting gaussien, qui construisent une scène 3D navigable à partir d'images) à la génération directe d'actifs 3D à partir de texte ou d'images. C'est un domaine spécialisé qui évolue rapidement — prometteur, mais pas encore un outil universel en un clic.

À quoi s'attendre, et quand

Pour un constructeur ou un décideur : traitez la vidéo et le 3D comme des capacités à fort potentiel et en début de cycle. Il y a des usages réels aujourd'hui pour les clips courts, le b-roll, la conception, la prévizualisation et des niches 3D spécifiques. Mais tout ce qui nécessite une sortie longue, précise, cohérente et contrôlable reste approximatif, et le spectacle d'une démo ne devrait pas être lu comme une fiabilité de production. C'est le coin de l'IA générative où le jugement « construire-ou-acheter-ou-attendre » atterrit le plus souvent sur « attendre et observer ».

En une ligne chacun

La vidéo est plus difficile que les images parce que les trames doivent s'accorder — la cohérence temporelle d'identité, de mouvement et de physique est le défi central.
C'est aussi bien plus coûteux (des centaines de trames plus la cohérence), ce qui explique que la génération vidéo accuse du retard sur les images.
Statut : solide pour les clips courts, faible pour une sortie longue, contrôlable et cohérente de qualité professionnelle. Jugez les parties ennuyeuses, pas le spectacle.
Le 3D est encore plus précoce et de niche; traitez vidéo et 3D comme des capacités à fort potentiel en début de cycle — souvent un cas d'« attendre et observer ».

Où aller ensuite

Chapitre 6 — Modèles multimodaux