Saltar al contenido
Capítulo 07 · 12 min

Despliegue y operación

El modelo funciona en el cuaderno. Ahora tiene que funcionar para miles de usuarios, dentro de un presupuesto, sin caerse, mientras sigues cambiándolo. Este capítulo trata de la realidad operativa: coste, latencia, fiabilidad y la disciplina del cambio seguro que te permite mejorar un sistema de IA en producción sin romperlo.

A request's path through a served AI featureLeft to right: a request hits a cache, passes an input guardrail, reaches the model, passes an output guardrail, and returns to the user. A fallback path catches model failures. The model is one stage among several.requestcachehit? returnguardrailfilter inmodelguardrailfilter outuserfallback on timeout / error

Desplegar un modelo no es lanzar un cohete. Es abrir una cocina: la parte difícil es el ajetreo del mediodía, todos los días.

La ruta de la petición en producción

Una funcionalidad de IA servida no es una llamada al modelo; es un pipeline. Una petición toca una caché, pasa una salvaguarda de entrada, llega al modelo, pasa una salvaguarda de salida y regresa, con una ruta de respaldo para cuando el modelo es lento o está caído. Cada etapa es infraestructura corriente, y cada una es donde controlas el coste, la seguridad y la fiabilidad.

A request's path through a served AI featureLeft to right: a request hits a cache, passes an input guardrail, reaches the model, passes an output guardrail, and returns to the user. A fallback path catches model failures. The model is one stage among several.requestcachehit? returnguardrailfilter inmodelguardrailfilter outuserfallback on timeout / error
El modelo es una etapa entre varias. La caché, las salvaguardas y una ruta de respaldo son lo que hace la funcionalidad económica, segura y fiable.

El coste y la latencia son parámetros de diseño

El entrenamiento es gasto de capital; la inferencia es gasto operativo: pagas por llamada, para siempre. A escala, el coste de los modelos se convierte en una partida presupuestaria real, y las decisiones que lo controlan son arquitectónicas, tomadas pronto. Las grandes palancas: el tamaño del modelo (usa el modelo más pequeño que pase tu evaluación), la longitud del contexto (cada token del prompt cuesta en cada llamada) y la caché.

La caché es la palanca de coste de mayor impacto y la más pasada por alto. Muchas peticiones son casi idénticas; una caché por coincidencia exacta o semántica puede servirlas gratis. La caché de prompt (reutilizar el coste de un prompt de sistema largo y estable entre llamadas) reduce aún más la factura.

Context windows comparedHorizontal bars comparing context-window sizes: 4 thousand tokens (about 6 pages), 32 thousand (50 pages), 128 thousand (a 300-page book), and 1 million tokens (around 7 novels).4k≈ 6 pages32k≈ 50 pages128k≈ a 300-page book1M≈ 7 novelsCONTEXT WINDOW (TOKENS)1 token ≈ 0.75 English words
Un contexto más grande cuesta más en cada llamada y puede degradar la calidad. Más tokens es una palanca, no un valor por defecto.

La latencia es una decisión de producto, no solo un número. El streaming la oculta: los usuarios toleran mucho mejor una respuesta lenta que empieza de inmediato que una rápida que llega de golpe tras una pausa. Y la latencia de los agentes se acumula: un agente de 10 pasos a dos segundos por paso son veinte segundos, lo cual es un producto distinto de una respuesta de un segundo.

Fiabilidad: el modelo fallará

Los proveedores tienen caídas. A los modelos se les limita la tasa, expiran y de vez en cuando devuelven basura. Tu funcionalidad debe degradarse, no derrumbarse. Las defensas son las clásicas de los sistemas distribuidos: tiempos de espera, reintentos con retroceso exponencial, un respaldo (un modelo más pequeño, una respuesta en caché o un honesto «inténtalo de nuevo en un momento») y un cortacircuitos para que la mala tarde de un proveedor no te arrastre con él.

Cambiar un sistema en producción sin romperlo

Los sistemas de IA cambian constantemente: los prompts se ajustan, los modelos se actualizan, la recuperación se afina, los proveedores deprecian versiones bajo tus pies. Cada uno de esos cambios es una ocasión para regresar en silencio. La disciplina del cambio seguro es la misma que para cualquier sistema de producción, aplicada a un componente probabilístico.

  • Condiciona cada cambio al conjunto de evaluación: sin pasar la evaluación, no se despliega (capítulo 6).
  • Despliega gradualmente: haz un despliegue canario sobre una porción del tráfico, observa las métricas, luego amplía.
  • Fija las versiones de modelo: nunca dejes que «latest» cambie tu comportamiento sin que lo sepas.
  • Mantén una reversión: los prompts y las elecciones de modelo se revierten tan limpiamente como el código.
  • Vigila la producción, no solo las evaluaciones: los casos que envían los usuarios sorprenderán a tu conjunto de pruebas.

Por dónde seguir a partir de aquí

Ya tienes la forma de un sistema de IA real: un modelo delgado en una envoltura gruesa y determinista, alimentado por la recuperación, potenciado por herramientas, mantenido honesto por las evaluaciones y operado como cualquier otro servicio de producción. Dos direcciones lo profundizan: protegerlo frente a la nueva superficie de ataque que todo esto abre, y las guías de prompting y RAG para patrones prácticos.

Una línea por cada uno

  • Una funcionalidad servida es un pipeline (caché, salvaguardas, modelo, respaldo), no una llamada pelada al modelo.
  • El coste y la latencia son arquitectónicos: ajusta el tamaño del modelo, usa caché de forma agresiva, recorta el contexto, transmite la salida en streaming.
  • El modelo fallará; degrádate con tiempos de espera, reintentos, respaldos y una abstracción multiproveedor.
  • Cambia un sistema en producción con seguridad: condiciona a las evaluaciones, despliega gradualmente, fija las versiones, mantén una reversión, vigila la producción.
Despliegue y operación · Cursos de IA · SDEN