Every change runs the eval set before it ships

“Una evaluación es el detector de humo. Molesto hasta la noche en que salva la casa.”

Las evals puntúan salidas frente a lo esperado; la observabilidad las observa en producción.

Qué es una evaluación

Una evaluación es un conjunto de entradas emparejadas con una forma de juzgar la salida, más un script que ejecuta tu sistema sobre ellas e informa de una puntuación. Eso es todo. La disciplina no es complicada; simplemente rara vez se practica. La mayoría de los equipos «evalúan» probando unos cuantos prompts a mano y quedándose con lo que parece mejor, que es como se despliegan las regresiones.

La evaluación es la puerta entre un cambio y producción. La puntuación se mantiene o mejora → despliega. La puntuación regresa → bloquea.

Empieza absurdamente pequeño. De veinte a cincuenta entradas reales, cada una un caso que tu sistema debería manejar, con la respuesta esperada o una forma de calificarla. Añade cada fallo que descubras en producción. Esto crece hasta convertirse en el activo más valioso que posee tu equipo de IA.

Tres tipos de evaluación, ordenados por impacto

Evaluación de regresión: casos reales de entrada/salida, ejecutados en cada cambio de prompt o de modelo. Atrapa «el arreglo que rompió diez cosas».
Evaluación adversarial: entradas diseñadas para romper el sistema: peticiones ambiguas, inyección de prompt, contexto irrelevante, casos límite. Ejecútala antes de cada versión.
Evaluación de calibración: ¿sabe el sistema cuándo está inseguro? Rastrea si las respuestas de alta confianza son realmente correctas con más frecuencia.

La evaluación de regresión es la que hay que construir primero y ejecutar constantemente. Las demás importan, pero una evaluación de regresión que se ejecuta en cada cambio es lo que convierte el desarrollo de IA de adivinanza en ingeniería.

Cómo calificar las salidas

Tres métodos de calificación, en orden de preferencia. La coincidencia exacta o por reglas cuando la respuesta es estructurada (un número, una categoría, JSON válido): barata, determinista, fiable. El LLM como juez cuando la respuesta es abierta (un resumen, una explicación): un modelo califica según una rúbrica. Y la revisión humana para los casos que más importan.

El LLM como juez es seductor porque escala, pero es ruidoso y sesgado: los jueces favorecen las respuestas más largas, su propio estilo, la primera opción mostrada. Sujétalo con una rúbrica clara, valídalo contra calificaciones humanas en una muestra y combínalo con la coincidencia exacta siempre que puedas. Nunca confíes en un juez que no hayas auditado.

Observabilidad: evaluaciones para la realidad de producción

Las evaluaciones te informan de los casos en que pensaste. La observabilidad te informa de los casos que los usuarios envían de verdad. Traza cada petición: el prompt completo, el contexto recuperado, cada llamada a herramienta, la salida en bruto, la latencia y el coste. Cuando algo salga mal, y saldrá, necesitas poder reproducir exactamente lo que pasó.

El bucle que hace crecer la calidad: las trazas de producción sacan a la luz fallos reales; los fallos reales se convierten en nuevos casos de evaluación; el conjunto de evaluación se afina; el sistema mejora de forma medible. Los equipos que cierran este bucle se distancian de los que no.

Una línea por cada uno

Una evaluación son entradas más una forma de calificar salidas más un script. Empieza con 20 casos reales y crece a partir de los fallos.
Tres tipos: regresión (siempre en ejecución), adversarial (antes de las versiones), calibración. Construye primero la evaluación de regresión.
Califica con coincidencia exacta cuando puedas, con el LLM como juez (auditado) cuando no, y con humanos para lo que más importa.
La observabilidad cierra el bucle: las trazas de producción se convierten en nuevos casos de evaluación. Nunca borres los casos que fallan.

Adónde ir ahora

Capítulo 7: Despliegue y operación