Vídeo y 3D

“Un folioscopio solo funciona si cada página concuerda con la anterior. Esa concordancia es la parte difícil.”

El vídeo y el 3D añaden lo difícil: la coherencia entre fotogramas y vistas.

Por qué el vídeo es mucho más difícil que las imágenes

Un vídeo no es solo muchas imágenes. Son muchas imágenes que deben concordar. El mismo objeto tiene que mantener la misma forma, color e identidad en cada trama; el movimiento tiene que ser físicamente plausible; la iluminación tiene que mantenerse coherente. Esta consistencia temporal es el reto central, y es por lo que un modelo puede clavar una sola trama fotorrealista pero producir un vídeo donde las caras se deforman, los objetos parpadean y la física se va a la deriva.

También es enormemente más caro. Unos pocos segundos de vídeo son cientos de tramas, cada una tan costosa como una imagen, más el trabajo de mantenerlas coherentes. El cómputo y el problema de la consistencia se acumulan, y por eso la generación de vídeo va por detrás de la de imágenes unos años en madurez.

Dónde está realmente la generación de vídeo

La trayectoria es rápida y real: el texto a vídeo ha pasado de unos pocos segundos parpadeantes a clips de coherencia y duración impresionantes en poco tiempo. El estado honesto, sin embargo, es que es más fuerte para clips cortos y autónomos y más débil precisamente en lo que el vídeo profesional necesita (control preciso, larga duración, personajes consistentes entre escenas y física fiable).

El 3D y los mundos más allá de las imágenes planas

Generar 3D (modelos, escenas, entornos) es aún más temprano y genuinamente útil en nichos específicos (videojuegos, visualización de producto, producción virtual). Los retos hacen eco de los del vídeo: consistencia, pero ahora entre puntos de vista en lugar de en el tiempo, y una escasez de datos de entrenamiento, ya que el mundo tiene muchos menos modelos 3D que imágenes 2D.

Los enfoques van desde reconstruir 3D a partir de varias fotos (técnicas como los campos de radiancia neuronal y, más recientemente, el splatting gaussiano, que construyen una escena 3D navegable a partir de imágenes) hasta generar activos 3D directamente a partir de texto o imágenes. Es un área especializada y de rápido movimiento, prometedora pero todavía no una herramienta de propósito general a golpe de botón.

Qué esperar, y cuándo

Para quien construye o decide: trata el vídeo y el 3D como capacidades de alto potencial y en fase temprana. Hay usos reales hoy para clips cortos, b-roll, conceptualización, previsualización y nichos 3D específicos. Pero todo lo que requiera una salida precisa, consistente, controlable y de formato largo sigue siendo basto, y el espectáculo de una demo no debe leerse como fiabilidad de producción. Esta es la esquina de la IA generativa donde el juicio de construir-comprar-o-esperar aterriza más a menudo en "esperar y observar".

Una línea por cada uno

El vídeo es más difícil que las imágenes porque las tramas deben concordar. La consistencia temporal de identidad, movimiento y física es el reto central.
También es mucho más caro (cientos de tramas más la coherencia), así que la generación de vídeo va por detrás de las imágenes en madurez.
Estado: fuerte para clips cortos, débil en salida larga, controlable y consistente de calidad profesional. Juzga las partes aburridas, no el espectáculo.
El 3D es aún más temprano y de nicho; trata el vídeo y el 3D como capacidades de alto potencial en fase temprana, a menudo un caso de "esperar y observar".

Adónde ir ahora

Capítulo 6: Modelos multimodales