The workshop metaphor

“Deja de consultar al genio. Construye el taller.”

Las cuatro palancas de un sistema de IA que funciona

Casi toda aplicación de IA real que funciona acciona alguna combinación de cuatro palancas. La mayoría de los productos de IA que fracasan lo hacen porque solo accionaron una.

El prompt: decirle al modelo con precisión qué quieres, con restricciones y ejemplos.
La recuperación: darle al modelo el contexto adecuado para que no tenga que adivinar.
Las herramientas: dejar que el modelo llame a sistemas deterministas (calculadoras, bases de datos, verificadores de tipos) en lugar de fingir.
La evaluación: medir si el sistema funciona de verdad, antes y después de cada cambio.

Acciona al menos tres de las cuatro. La mayoría de los productos de IA que fracasan accionan solo una, normalmente el prompt.

El fine-tuning es una quinta palanca, pero mucho más cara. La mayoría de los equipos que creen necesitarla en realidad necesitan una mejor recuperación o mejores evaluaciones. Déjala para el último recurso.

El prompt: solo lo esencial

La mayoría del contenido sobre «ingeniería de prompts» son óptimos locales. Cuatro principios que de verdad se generalizan:

Restricciones: dile al modelo qué formato, qué longitud, qué estilo, qué excluir. Cuanto más clara sea la caja, mejor la llenará la salida.
Ejemplos (few-shot): muestra dos o tres entradas de muestra emparejadas con el tipo de salida que quieres. El modelo es mucho mejor imitando que obedeciendo.
Descomposición: si la tarea tiene varios pasos, ejecútalos como prompts separados (o con una cadena de pensamiento explícita) en lugar de pedir la respuesta completa de golpe.
Verificación: pídele al modelo que compruebe su propia salida, o pásala a un segundo modelo con un prompt distinto. Barato, suele cazar los errores tontos.

La recuperación (RAG): cuando el modelo necesita hechos

La generación aumentada por recuperación empareja un modelo con un sistema de búsqueda. Cuando el usuario hace una pregunta, primero buscas en una base de conocimiento (almacén vectorial, base de datos, web), recuperas los fragmentos más relevantes, y los metes en el prompt como contexto. El modelo responde a partir del contexto en lugar de a partir de sus datos de entrenamiento.

El RAG es la respuesta correcta a la mayoría de los problemas del tipo «chatea con nuestra documentación» o «bot de atención al cliente». Separa lo que el sistema sabe (el índice) de lo que el sistema dice (el modelo). Puedes actualizar el índice cada hora; no puedes actualizar el modelo cada hora.

Donde el RAG se tuerce: mala fragmentación (la respuesta correcta queda repartida entre dos fragmentos), mala recuperación (el documento relevante ni siquiera está entre los 10 primeros), modelo de embedding inadecuado (tu dominio no está representado), o el modelo ignora el contexto recuperado. Cada uno es corregible; ninguno es evidente hasta que mides.

El modelo responde a partir de los fragmentos recuperados, no de sus datos de entrenamiento. Actualiza el índice, no el modelo.

Herramientas y agentes

Un modelo que puede llamar a herramientas es muchísimo más capaz que uno que no puede. Dale una calculadora y deja de fingir las matemáticas. Dale una herramienta de consulta de base de datos y deja de alucinar SQL. Dale un intérprete de código y podrá verificar sus propias salidas.

Un «agente» no es más que un modelo en un bucle donde en cada turno puede llamar a herramientas, ver el resultado y decidir qué hacer a continuación. El bucle suele tener un límite de pasos y algún tipo de condición de parada. La mayoría de los agentes en producción son bucles de 3 a 20 pasos; los agentes que van más allá sin restricciones fuertes rara vez funcionan.

El estado honesto de los agentes en 2025: son útiles para tareas bien delimitadas («responde a este ticket de soporte usando estas herramientas») y poco fiables para las abiertas («planifica un lanzamiento y ejecútalo»). Los errores se acumulan. El paso 1 con un 95 % de precisión está bien; el paso 10 con un 95 % de precisión queda por debajo del 60 %.

El agente más simple: el modelo llama a una herramienta, lee el resultado, decide qué hacer a continuación, se detiene cuando tiene una respuesta final.

Las evaluaciones: la única señal honesta

Una evaluación es un conjunto de entradas emparejadas con salidas esperadas (o una forma de puntuar las salidas), más un script que las hace pasar por tu sistema e informa de cómo le fue. Sin evaluaciones, no sabes si un cambio mejoró o rompió tu sistema. Sin evaluaciones, estás haciendo ingeniería de IA a ojo.

Empieza pequeño: de 20 a 50 ejemplos tomados del uso real, cada uno un problema que tu sistema debería resolver. Añade los fallos que vayas descubriendo. Vuelve a ejecutar la evaluación en cada cambio de prompt, cada actualización de modelo, cada ajuste de la recuperación. Si solo haces una cosa de este capítulo, haz esta.

Cuándo no usar la IA

Algunas tareas no deberían resolverse con un LLM. Una expresión regular es más rápida, más barata y más fiable que un modelo para «extraer esta dirección de correo». Una consulta de base de datos es más honesta que un modelo para «contar las filas donde estado='activo'». Un verificador de tipos es mejor que un modelo para «¿es este código Rust válido?»

Regla práctica: si la tarea tiene una respuesta correcta determinista y existe una herramienta determinista para ello, usa la herramienta. Recurre a la IA cuando la tarea sea difusa, las entradas estén desordenadas, o el coste de estar aproximadamente acertado sea aceptable. No uses un modelo de lenguaje para sumar dos números.

Ante la duda, recorre este árbol antes de añadir un LLM a tu pila.

Lo que este curso no cubre

Visión por ordenador, modelos multimodales, robótica, aprendizaje por refuerzo más allá del RLHF, interpretabilidad mecanicista, investigación en alineamiento, las particularidades de cada proveedor de modelos. Cada uno es un curso en sí mismo. Lo que tienes ahora es suficiente para seguir el campo, y suficiente para detectar cuándo alguien te está intentando vender algo.

Adónde ir a partir de aquí

Si quieres profundizar en el prompt: lee «Prompt Engineering: First Principles» en nuestras guías. Si quieres comprobar si tu equipo está listo para poner IA en producción: haz la autoauditoría de preparación para la IA. Si quieres construir algo y necesitas un socio: eso es literalmente lo que hace SDEN.

Una línea por cada uno

Cuatro palancas: prompt, recuperación, herramientas, evaluación. Acciona al menos tres para cualquier sistema serio.
El RAG separa lo que el sistema sabe de lo que dice. Actualiza el índice, no el modelo.
Los agentes funcionan cuando se delimitan de forma estrecha, con herramientas idempotentes, simulaciones y barreras humanas para las acciones de alto riesgo.
Las evaluaciones son la única señal honesta. Sin ellas lanzas a ojo; con ellas lanzas algo sobre lo que puedes razonar.

Adónde ir ahora