Vai al contenuto

Il ROI dell'IA per i fondatori: misurare quanto vale davvero l'IA

Un framework difendibile per misurare il ritorno sull'investimento in IA: la baseline, le quattro metriche che contano e le trappole che distruggono silenziosamente il business case.

Team SDEN11 min di lettura

Il punto di partenza

Il ritorno sull'investimento in IA è il cambiamento misurabile nei risultati di business (tempo per pratica, costo per pratica, throughput, tasso di conversione o qualità) che si può attribuire a un deploy di IA, al netto del costo di costruirlo e gestirlo. Il numero è difendibile quando esistono una baseline, una frequenza di misurazione e un modello di attribuzione esplicito. Senza questi tre elementi, è una storia.

La maggior parte dei numeri di ROI dell'IA che vediamo nelle presentazioni al consiglio sono storie. Lo schema è costante: il team sceglie la metrica che si è mossa, attribuisce tutto lo scarto alla funzionalità di IA, ignora gli effetti stagionali e di gamma prodotti, e riporta una percentuale abbastanza grande da giustificare il prossimo investimento. La conversazione passa poi ad altro. Tre trimestri dopo, quando il prossimo investimento in IA deve anch'esso essere giustificato, l'impatto reale della funzionalità originale ha smesso in silenzio di essere misurato.

Questo testo è il framework che SDEN usa per rendere misurabile il ROI dell'IA. Le quattro metriche che contano, la disciplina di baseline che le rende difendibili, i modi di guasto di attribuzione che distruggono in silenzio il caso, e com'è il successo al primo mese, al terzo mese e al dodicesimo mese.

La disciplina della baseline

Se non misuri il prima, non puoi misurare il dopo

La ragione principale per cui i numeri di ROI dell'IA non sono difendibili è che nessuno ha catturato il prima.

Un deploy di IA senza baseline documentata prima del deploy non è misurabile. Per quanto sofisticate siano le dashboard post-deploy: senza un numero del prima, ogni confronto si fa rispetto a un'impressione memorizzata di quanto fosse lento o costoso il vecchio processo, e la memoria umana delle metriche operative non è affidabile. Abbiamo fatto l'audit di deploy in cui il team era certo che la funzionalità di IA facesse risparmiare il 40% sul tempo per pratica; il numero reale, rispetto alla baseline recuperata, era del 12%. Abbiamo anche visto l'inverso: un team che trovava deludente la funzionalità di IA, mentre la baseline recuperata mostrava un vero miglioramento del 25% che nessuno gli aveva accreditato, perché il nuovo processo dava la stessa impressione.

La baseline non è difficile da catturare. Per la maggior parte dei flussi operativi, sono quattro misure: il tempo per pratica (mediana e p95), il costo per pratica (pienamente caricato del tempo umano), il throughput (pratiche trattate per persona a settimana) e la qualità (un audit campionato dell'accuratezza, di solito 30-50 pratiche). Prende una settimana, a volte due se i dati sono sparpagliati tra più strumenti, ed è il passo a più alta leva di tutto il progetto di IA.

Rifiutiamo di consegnare una funzionalità di IA senza baseline catturata. Non perché vogliamo fare bella figura, ma perché senza di essa la funzionalità non ha alcun percorso di governance. Nessuno può ritirarla quando smette di funzionare, perché nessuno può provare che abbia mai funzionato.

Se non misuri il prima, non puoi misurare il dopo
Fig. · Se non misuri il prima, non puoi misurare il dopo
Le quattro metriche che contano

Tempo, costo, throughput, qualità, e la trappola della quinta

I deploy di IA muovono quattro metriche. Il tempo per pratica è il più visibile: quanto tempo serve per trattare un'istanza del flusso, dall'inizio alla fine. Il costo per pratica è la versione pienamente caricata: il tempo per pratica moltiplicato per il costo delle persone che lo fanno, più il costo dell'IA stessa. Il throughput è la vista a livello di team: quante pratiche tratta il team in una settimana, a organico costante. La qualità è la disciplina contro il teatro dell'ottimizzazione: le pratiche sono trattate correttamente, campionate rispetto allo stesso audit di prima.

La maggior parte dei team riporta una di queste metriche e la chiama ROI. La versione onesta riporta tutte e quattro, perché ottimizzare una senza le altre è di solito il modo in cui i deploy di IA falliscono in silenzio. Lo schema classico: la funzionalità di IA riduce il tempo per pratica del 50%, il team tratta l'80% di pratiche in più a settimana, la direzione riporta un guadagno di produttività. Sei mesi dopo, l'audit di qualità mostra che i tassi di errore sono raddoppiati, il team si è precipitato, il modello ha mancato i casi limite, e il costo degli errori è finito a valle sotto forma di abbandono dei clienti o obblighi di rimborso. Il ROI reale era negativo; nessuno l'ha misurato.

La quinta metrica (la trappola) è la "soddisfazione del team" o il "tempo risparmiato" come riportato in un sondaggio. Sono segnali utili; non sono metriche di ROI. Le persone sovrastimano sistematicamente il tempo che gli strumenti di IA fanno loro risparmiare, di fattori da due a tre negli studi su cui ci affidiamo. Usa i dati del sondaggio per il feedback sul prodotto. Non usarli per giustificare il prossimo investimento in IA.

Tempo, costo, throughput, qualità, e la trappola della quinta
Fig. · Tempo, costo, throughput, qualità, e la trappola della quinta
Modi di guasto di attribuzione

Tre modi in cui il numero di ROI mente

Il primo modo di guasto è quello dei cambiamenti concorrenti non attribuiti. La funzionalità di IA è stata consegnata nello stesso trimestre di un ridisegno dell'esperienza utente, un nuovo programma di formazione e un cambiamento di gamma prodotti. La metrica si è mossa; la funzionalità di IA riceve il credito di tutto lo scarto. La contromossa è un gruppo di controllo, un test A/B, o al minimo un elenco esplicito dei cambiamenti concorrenti documentato nella nota sul ROI. Di default, usiamo un piccolo gruppo di controllo su ogni deploy, salvo che il flusso lo renda impossibile.

Il secondo modo di guasto è l'inghippo della stagionalità. La baseline è stata catturata durante un trimestre tranquillo; la misurazione post-deploy proviene da un trimestre di picco. Il miglioramento sembra reale ed è in parte stagionale. Contromossa: confrontare anno su anno se il ciclo è annuale, o usare una baseline mobile di quattro settimane che controlla la varianza a breve termine.

Il terzo modo di guasto è la deriva di qualità silenziosa. Il modello funziona bene al lancio, la performance si erode lentamente su sei mesi, nessuno reimposta la baseline, e il ROI riportato continua a usare il numero di qualità del trimestre di lancio. Il deploy sembra in salute sulla dashboard mentre i clienti notano il degrado. Contromossa: la qualità è misurata alla stessa frequenza del costo e del tempo, e la dashboard fa emergere la deriva esplicitamente.

Tre modi in cui il numero di ROI mente
Fig. · Tre modi in cui il numero di ROI mente
Come SDEN conduce il ROI

Tre impegni sulla misurazione dell'IA

Non consegniamo una funzionalità di IA senza tutti e tre. Sono l'asticella del progetto, non opzioni facoltative.

Baseline catturata prima del lancio

Non consegniamo finché tempo, costo, throughput e qualità non sono misurati per il processo pre-IA. Senza i quattro numeri, il deploy non può essere governato in seguito.

Gruppo di controllo o fattori confondenti documentati

Di default, un gruppo di controllo. Quando non è possibile, la nota sul ROI nomina ogni cambiamento concorrente dello stesso trimestre, oltre al modello di attribuzione che li gestisce.

Revisione mensile, orizzonte di dodici mesi

Le stesse quattro metriche sono riviste ogni mese, mostrate in continuazione su una dashboard, e ritarate ogni anno. Il test onesto è se la funzionalità funziona ancora al dodicesimo mese, e non al primo.

Com'è il successo

Un portafoglio di IA con numeri difendibili

In capo a dodici mesi, il team di direzione può difendere ogni investimento in IA con un numero che sopravvive a una contestazione del consiglio.

Le aziende che riescono nel ROI dell'IA non sono quelle con i numeri più grandi. Sono quelle i cui numeri sopravvivono all'esame. Il CFO può collegare ogni punto percentuale di impatto a una metodologia di misurazione. Il CEO può spiegare in una riunione del consiglio quali investimenti in IA hanno funzionato e quali no, e cosa l'azienda ha imparato dai fallimenti. Il responsabile dell'ingegneria può ritirare una funzionalità di IA quando i numeri smettono di muoversi, e l'ha davvero fatto, almeno una volta, senza costo politico.

L'effetto più ampio è che l'IA smette di essere una categoria di investimento speciale e diventa una categoria normale. Un nuovo caso d'uso arriva con una baseline, è consegnato con una valutazione, è rivisto ogni mese, ed è abbandonato quando smette di rendere. La disciplina che l'azienda applica alla spesa pubblicitaria o agli esperimenti di prezzo, applicata all'IA. Ecco com'è un portafoglio di IA maturo.

I numeri sono anche più piccoli. Le aziende dotate di una misurazione di ROI rigorosa riportano miglioramenti dal 15 al 35% sui flussi che mirano, e non i miglioramenti dal 200 al 400% che appaiono nei case study dei fornitori. I numeri più piccoli sono quelli veri, si cumulano attraverso il portafoglio, e sopravvivono all'audit.

Un portafoglio di IA con numeri difendibili
Fig. · Un portafoglio di IA con numeri difendibili
FAQ

IA per i fondatori
le domande che ci fanno più spesso.

Risposte dirette alle domande che ci vengono poste più spesso. Se la tua non c'è, scrivi al team.

Dall'analisi all'azione

Non sei sicuro del posto dell'IA?

Valutiamo dove l'IA ne vale la pena per te, classifichiamo il rischio, e ti consegniamo una roadmap su cui agire.

Il ROI dell'IA per i fondatori: misurare quanto vale davvero l'IA · SDEN