Saltar al contenido

El ROI de la IA para fundadores: medir lo que la IA vale de verdad

Un marco defendible para medir el retorno de la inversión en IA: la línea base, las cuatro métricas que cuentan y los fallos que destruyen en silencio el caso de negocio.

Equipo SDEN11 min de lectura

El punto de partida

El retorno de la inversión en IA es el cambio medible en los resultados de negocio (tiempo por caso, coste por caso, rendimiento, tasa de conversión o calidad) que puede atribuirse a un despliegue de IA, neto del coste de construirlo y operarlo. La cifra es defendible cuando existe una línea base, una frecuencia de medición y un modelo de atribución explícito. Sin esos tres elementos, es una historia.

La mayoría de las cifras de ROI de IA que vemos en las presentaciones al consejo son historias. El patrón es constante: el equipo elige la métrica que se movió, atribuye toda la diferencia a la funcionalidad de IA, ignora los efectos estacionales y de gama de producto, y reporta un porcentaje lo bastante grande para justificar la próxima inversión. La conversación pasa luego a otra cosa. Tres trimestres después, cuando la próxima inversión en IA también debe justificarse, el impacto real de la funcionalidad original ha dejado en silencio de medirse.

Este texto es el marco que SDEN usa para hacer medible el ROI de la IA. Las cuatro métricas que importan, la disciplina de línea base que las hace defendibles, los modos de fallo de atribución que destruyen en silencio el caso, y cómo es el éxito al primer mes, al tercer mes y al duodécimo mes.

La disciplina de la línea base

Si no mides el antes, no puedes medir el después

La principal razón por la que las cifras de ROI de IA no son defendibles es que nadie capturó el antes.

Un despliegue de IA sin una línea base documentada antes del despliegue no es medible. Por sofisticados que sean los paneles posteriores al despliegue: sin una cifra del antes, cada comparación se hace respecto a una impresión memorizada de lo lento o caro que era el antiguo proceso, y la memoria humana de las métricas operativas no es fiable. Hemos auditado despliegues donde el equipo estaba seguro de que la funcionalidad de IA ahorraba un 40 % en el tiempo por caso; la cifra real, respecto a la línea base recuperada, era del 12 %. También hemos visto lo contrario: un equipo que encontraba decepcionante la funcionalidad de IA, mientras que la línea base recuperada mostraba una mejora real del 25 % que nadie había acreditado, porque el nuevo proceso daba la misma impresión.

La línea base no es difícil de capturar. Para la mayoría de los flujos operativos, son cuatro mediciones: el tiempo por caso (mediana y p95), el coste por caso (plenamente cargado del tiempo humano), el rendimiento (casos tratados por persona por semana) y la calidad (una auditoría muestreada de la exactitud, normalmente 30 a 50 casos). Lleva una semana, a veces dos si los datos están desperdigados por varias herramientas, y es el paso de mayor apalancamiento de todo proyecto de IA.

Nos negamos a entregar una funcionalidad de IA sin una línea base capturada. No porque queramos quedar bien, sino porque sin ella, la funcionalidad no tiene ningún camino de gobernanza. Nadie puede retirarla cuando deja de funcionar, porque nadie puede demostrar que alguna vez funcionó.

Si no mides el antes, no puedes medir el después
Fig. · Si no mides el antes, no puedes medir el después
Las cuatro métricas que importan

Tiempo, coste, rendimiento, calidad, y la trampa de la quinta

Los despliegues de IA mueven cuatro métricas. El tiempo por caso es el más visible: cuánto tiempo lleva tratar una instancia del flujo, de principio a fin. El coste por caso es la versión plenamente cargada: el tiempo por caso multiplicado por el coste de las personas que lo hacen, más el coste de la IA misma. El rendimiento es la vista a escala de equipo: cuántos casos trata el equipo en una semana, a plantilla constante. La calidad es la disciplina contra el teatro de la optimización: ¿se tratan los casos correctamente, muestreados respecto a la misma auditoría que antes?

La mayoría de los equipos reportan una de esas métricas y lo llaman ROI. La versión honesta reporta las cuatro, porque optimizar una sin las otras suele ser la forma en que los despliegues de IA fracasan en silencio. El patrón clásico: la funcionalidad de IA reduce el tiempo por caso un 50 %, el equipo trata un 80 % más de casos por semana, la dirección reporta una ganancia de productividad. Seis meses después, la auditoría de calidad muestra que las tasas de error se han doblado, el equipo se ha precipitado, el modelo ha fallado en los casos límite, y el coste de los errores ha acabado aguas abajo en forma de abandono de clientes u obligaciones de reembolso. El ROI real era negativo; nadie lo midió.

La quinta métrica (la trampa) es la «satisfacción del equipo» o el «tiempo ahorrado» tal como se reporta en una encuesta. Son señales útiles; no son métricas de ROI. La gente sobreestima sistemáticamente el tiempo que las herramientas de IA le ahorran, por factores de dos a tres en los estudios en los que confiamos. Usa los datos de la encuesta para el feedback sobre el producto. No los uses para justificar la próxima inversión en IA.

Tiempo, coste, rendimiento, calidad, y la trampa de la quinta
Fig. · Tiempo, coste, rendimiento, calidad, y la trampa de la quinta
Modos de fallo de atribución

Tres formas en que la cifra de ROI miente

El primer modo de fallo es el de los cambios concurrentes no atribuidos. La funcionalidad de IA se entregó el mismo trimestre que un rediseño de la experiencia de usuario, un nuevo programa de formación y un cambio de gama de producto. La métrica se movió; la funcionalidad de IA se lleva el crédito de toda la diferencia. La defensa es un grupo de control, un test A/B, o como mínimo una lista explícita de los cambios concurrentes documentada en el memo del ROI. Por defecto, usamos un pequeño grupo de control en cada despliegue, salvo que el flujo lo haga imposible.

El segundo modo de fallo es el fallo de la estacionalidad. La línea base se capturó durante un trimestre tranquilo; la medición posterior al despliegue proviene de un trimestre punta. La mejora parece real y es en parte estacional. Defensa: comparar de un año a otro si el ciclo es anual, o usar una línea base móvil de cuatro semanas que controle la varianza a corto plazo.

El tercer modo de fallo es la deriva de calidad silenciosa. El modelo funciona bien en el lanzamiento, el rendimiento se erosiona lentamente durante seis meses, nadie reinicia la línea base, y el ROI reportado sigue usando la cifra de calidad del trimestre de lanzamiento. El despliegue parece sano en el panel mientras los clientes notan la degradación. Defensa: la calidad se mide con la misma frecuencia que el coste y el tiempo, y el panel hace aflorar la deriva explícitamente.

Tres formas en que la cifra de ROI miente
Fig. · Tres formas en que la cifra de ROI miente
Cómo lleva SDEN el ROI

Tres compromisos sobre la medición de la IA

No entregamos una funcionalidad de IA sin los tres. Son el listón del proyecto, no opciones facultativas.

Línea base capturada antes del lanzamiento

No entregamos hasta que el tiempo, el coste, el rendimiento y la calidad estén medidos para el proceso pre-IA. Sin las cuatro cifras, el despliegue no puede gobernarse después.

Grupo de control o factores de confusión documentados

Por defecto, un grupo de control. Cuando no es posible, el memo del ROI nombra cada cambio concurrente del mismo trimestre, así como el modelo de atribución que los gestiona.

Revisión mensual, horizonte de doce meses

Las mismas cuatro métricas se revisan cada mes, se muestran de forma continua en un panel, y se recalibran cada año. La prueba honesta es si la funcionalidad sigue funcionando al duodécimo mes, y no al primero.

Cómo es el éxito

Una cartera de IA con cifras defendibles

Al cabo de doce meses, el equipo de dirección puede defender cada inversión en IA con una cifra que sobrevive a un cuestionamiento del consejo.

Las empresas que tienen éxito en el ROI de la IA no son las que tienen las cifras más grandes. Son aquellas cuyas cifras sobreviven al escrutinio. El director financiero puede vincular cada punto porcentual de impacto a una metodología de medición. El CEO puede explicar en una reunión del consejo qué inversiones en IA funcionaron y cuáles no, y qué aprendió la empresa de los fracasos. El responsable de ingeniería puede retirar una funcionalidad de IA cuando las cifras dejan de moverse, y lo ha hecho de verdad, al menos una vez, sin coste político.

El efecto más amplio es que la IA deja de ser una categoría de inversión especial y se convierte en una categoría normal. Un nuevo caso de uso llega con una línea base, se entrega con una evaluación, se revisa cada mes, y se abandona cuando deja de rendir. La disciplina que la empresa aplica al gasto publicitario o a los experimentos de precio, aplicada a la IA. Así es como se ve una cartera de IA madura.

Las cifras también son más pequeñas. Las empresas dotadas de una medición de ROI rigurosa reportan mejoras del 15 al 35 % en los flujos que apuntan, y no las mejoras del 200 al 400 % que aparecen en los casos de estudio de los proveedores. Las cifras más pequeñas son las verdaderas, se acumulan a través de la cartera, y sobreviven a la auditoría.

Una cartera de IA con cifras defendibles
Fig. · Una cartera de IA con cifras defendibles
FAQ

IA para fundadores
las preguntas que más nos hacen.

Respuestas directas a las preguntas que más nos hacen. Si la tuya no está, escribe al equipo.

Del análisis a la acción

¿No tienes claro dónde encaja la IA?

Evaluamos dónde merece la pena la IA para ti, clasificamos el riesgo y te entregamos una hoja de ruta sobre la que actuar.

El ROI de la IA para fundadores: medir lo que la IA vale de verdad · SDEN