La IA generativa más allá del texto
Cómo las máquinas aprendieron a crear imágenes, audio y vídeo.
Siete capítulos sobre la IA generativa más allá del chatbot: cómo las máquinas crean imágenes, audio, vídeo y 3D, cómo encajan las piezas en los modelos multimodales, y los riesgos reales de los medios sintéticos. Cada uno combina una explicación en lenguaje claro con profundizaciones opcionales.
Escrito para los curiosos, para quienes construyen y para cualquiera que trabaje con medios generativos. No se requieren matemáticas pesadas; las profundizaciones van más allá en la investigación allí donde ayuda.
Capítulos
- Capítulo 01 · 9 min
Más allá de la ventana de chat
“Una vez que sabes aprender la forma de una cosa, puedes aprender la forma de cualquier cosa: palabras, imágenes, sonido.”
Leer → - Capítulo 02 · 12 min
Cómo funciona la generación de imágenes
“Un escultor no añade mármol. Parte de un bloque en bruto y retira todo lo que no es la estatua.”
Leer → - Capítulo 03 · 10 min
Controlar las imágenes
“Un prompt es gritar una orden a través de una sala ruidosa. El control es poner el plano en sus manos.”
Leer → - Capítulo 04 · 10 min
Audio y música
“El sonido no es más que una línea que ondula en el tiempo. Enseña a una máquina las formas de las ondulaciones y podrá dibujar otras nuevas.”
Leer → - Capítulo 05 · 10 min
Vídeo y 3D
“Un folioscopio solo funciona si cada página concuerda con la anterior. Esa concordancia es la parte difícil.”
Leer → - Capítulo 06 · 11 min
Modelos multimodales
“Enseña dos idiomas en la misma aula y empezarán a terminarse las frases el uno al otro.”
Leer → - Capítulo 07 · 11 min
Riesgos y realidad
“Cuando cualquiera puede falsificar una fotografía, la pregunta deja de ser "¿es falso?" y pasa a ser "¿puedes demostrar que es real?".”
Leer →