Vai al contenuto

Il RAG per le aziende: costruire assistenti di conoscenza che funzionano davvero

La generazione aumentata dal recupero (RAG) ancora le risposte dell'IA ai tuoi dati. Cos'è il RAG, quando batte il fine-tuning o un semplice prompt, e cosa distingue un assistente di conoscenza di cui fidarti da una semplice demo.

Team SDEN11 min di lettura

Il punto di partenza

La generazione aumentata dal recupero (RAG) è lo schema dietro la maggior parte degli assistenti di IA utili su contenuti privati: invece di affidarsi a ciò che un modello ha appreso in addestramento, il sistema recupera i passaggi pertinenti dai tuoi documenti e li fornisce al modello come ancoraggio, così che la risposta si basi sui tuoi dati e possa citare la propria fonte.

È lo strumento giusto per un compito preciso: rispondere a domande su un corpo di conoscenza che cambia e su cui il modello non è mai stato addestrato, le tue policy, i tuoi ticket, i tuoi contratti, la documentazione del tuo prodotto. È anche ampiamente usato a sproposito, applicato a problemi che un semplice prompt risolverebbe, o scelto quando la vera esigenza era cambiare il comportamento del modello e non i suoi fatti.

Questo testo è la versione pratica: cos'è RAG, quando batte le alternative, cosa fa la differenza tra un assistente di conoscenza di cui la gente si fida e uno che la gente smette in silenzio di usare, e come li costruiamo e li gestiamo perché restino accurati dopo il lancio.

Cos'è

Ancoraggio, non memorizzazione

Un modello linguistico sa molto in generale e niente sulla tua azienda in particolare. RAG colma quel divario al momento della query.

Quando un utente pone una domanda, un sistema RAG recupera prima i frammenti più pertinenti dai tuoi contenuti indicizzati, poi li passa al modello insieme alla domanda con l'istruzione di rispondere a partire dal materiale fornito e di citarlo. Il modello non sta più indovinando a partire dai dati di addestramento; sta leggendo i tuoi documenti e li sta riassumendo. È questo che rende la risposta attuale, specifica e verificabile.

Le due metà contano allo stesso modo, e la maggior parte dei guasti sono guasti di recupero, non guasti del modello. Se il passo di recupero porta a galla i passaggi sbagliati, anche il modello migliore produce una risposta sicura, sbagliata e ben scritta. Un assistente di conoscenza vale solo quanto ciò che recupera, ed è per questo che le parti poco affascinanti (come si segmentano i documenti, come vengono incorporati, come si valuta il recupero) decidono se la cosa funziona.

Ancoraggio, non memorizzazione
Fig. · Ancoraggio, non memorizzazione
RAG e le alternative

Recupero, fine-tuning, o solo un prompt più lungo

Scegli RAG quando le risposte devono essere ancorate a un corpus grande, mutevole, o entrambi, e quando citare la fonte conta. Scegli il fine-tuning quando devi cambiare il modo in cui il modello si comporta, il suo tono, formato o una competenza ristretta, non i fatti che conosce; il fine-tuning insegna lo stile e gli schemi, non un corpo di conoscenza in movimento. Scegli un semplice prompt quando la conoscenza è abbastanza piccola da incollarla nel contesto, nel qual caso il recupero è un sovraccarico di cui non hai bisogno.

Non si escludono a vicenda, e i sistemi più solidi li combinano: un modello sottoposto a fine-tuning o ben istruito per il comportamento, RAG per i fatti. L'errore che vediamo più spesso è fare il fine-tuning di un modello sui documenti di un'azienda nella speranza che li memorizzi. Non funziona in modo affidabile: il modello mescola insieme i fatti, non può citare, e diventa obsoleto nel momento in cui un documento cambia. Se il requisito sono risposte accurate da documenti attuali, è RAG, ogni volta.

Sbagliare questa scelta è costoso in entrambe le direzioni. Abbiamo visto progetti di fine-tuning che avrebbero dovuto essere una build RAG di due settimane, e pipeline RAG elaborate per una base di conoscenza che stava in un singolo prompt. Diamo un nome alla ragione della scelta prima di costruire, perché l'architettura è difficile da tornare indietro dopo.

Recupero, fine-tuning, o solo un prompt più lungo
Fig. · Recupero, fine-tuning, o solo un prompt più lungo
Cosa lo rende affidabile

Controllo degli accessi, ancoraggio e un set di valutazione

Tre cose separano un assistente di conoscenza che puoi mettere davanti a personale o clienti da una demo. La prima è il controllo degli accessi a livello di recupero: l'assistente deve recuperare solo dai documenti che l'utente corrente è autorizzato a vedere, applicato quando la query viene eseguita, non filtrato a posteriori. Un assistente che può portare a galla un documento che un utente non avrebbe mai dovuto vedere è una violazione di dati con un'interfaccia amichevole.

La seconda è l'ancoraggio e la citazione: ogni risposta rimanda ai passaggi da cui proviene, così che un utente possa verificarla e un revisore possa controllarla. Gli assistenti che rispondono senza citazioni abituano la gente a fidarsi ciecamente, che è esattamente il contrario di ciò che serve per qualsiasi cosa portante. La terza è la misurazione: un set di valutazione graduato che assegna un punteggio all'accuratezza e all'ancoraggio delle risposte a ogni cambiamento, così che le regressioni di qualità vengano colte in sviluppo e non da un cliente in produzione.

Anche la conoscenza cambia, quindi il recupero va mantenuto: re-indicizzazione man mano che i documenti si aggiornano, e monitoraggio della qualità del recupero per il lento degrado che erode la fiducia trimestre dopo trimestre. La build è la parte facile; la postura operativa è ciò che lo tiene accurato un anno dopo.

Controllo degli accessi, ancoraggio e un set di valutazione
Fig. · Controllo degli accessi, ancoraggio e un set di valutazione
Come SDEN costruisce RAG

Tre impegni su ogni build di assistente di conoscenza

Costruiamo l'intera pipeline e la consegniamo, con il controllo degli accessi e le valutazioni che la rendono sicura da usare, poi la gestiamo finché il tuo team non è in grado di farlo.

Il recupero prima della generazione

Investiamo dove i guasti si trovano davvero: segmentazione, embedding e scoring del recupero, misurati su un vero set di domande dei tuoi utenti. Un buon livello di recupero fa sembrare eccellente un modello ordinario; uno cattivo rende inaffidabile il modello migliore.

Il controllo degli accessi non è opzionale

I permessi sono applicati al momento della query, così che l'assistente non possa mai portare a galla un documento che l'utente non è autorizzato a vedere. Fa parte dell'architettura fin dal primo giorno, non è un filtro aggiunto dopo.

Misurato, poi mantenuto

Ogni assistente è consegnato con un set di valutazione che assegna un punteggio ad accuratezza e ancoraggio a ogni cambiamento, oltre al monitoraggio della deriva del recupero in produzione, e alla pipeline di dati e baseline di valutazione che lo rendono manutenibile dopo la consegna.

Com'è il successo

Un assistente di cui la gente si fida davvero

Un anno dopo, l'assistente è ancora accurato, cita ancora le sue fonti, e non ha fatto trapelare in silenzio un documento né è scivolato in sicure assurdità.

Il test onesto di un assistente di conoscenza non è la demo di lancio; è se la gente lo usa ancora dopo averlo colto in errore. La fiducia si perde la prima volta che un assistente inventa una policy o porta a galla qualcosa che non avrebbe dovuto, ed è quasi impossibile riconquistarla. È per questo che ancoraggio, citazione e controllo degli accessi non sono rifiniture: sono il prodotto.

Gli assistenti che restano affidabili sono quelli che sono stati misurati fin dall'inizio e mantenuti dopo il lancio. La qualità del recupero è sorvegliata, il set di valutazione cresce man mano che si scoprono nuovi modi di guasto, e l'indice tiene il passo con i documenti. Niente di tutto ciò è affascinante, e tutto ciò è ciò che separa un sistema che cresce di valore da uno che viene abbandonato in silenzio in due trimestri.

Fatto bene, un assistente di conoscenza trasforma la conoscenza sparsa e poco usata di un'azienda in qualcosa che ogni dipendente può interrogare in linguaggio semplice, con risposte che può verificare. È un vantaggio durevole, e ti appartiene: la pipeline, le valutazioni e il codice.

Un assistente di cui la gente si fida davvero
Fig. · Un assistente di cui la gente si fida davvero
FAQ

IA per i fondatori
le domande che ci fanno più spesso.

Risposte dirette alle domande che ci vengono poste più spesso. Se la tua non c'è, scrivi al team.

Dall'analisi all'azione

Pronto a costruire e a possedere la tua IA?

Dicci cosa stai costruendo. La prima fase è l'inquadramento: un'architettura, un registro dei rischi e un go / no-go di cui ci facciamo carico.

Il RAG per le aziende: costruire assistenti di conoscenza che funzionano davvero · SDEN