Cos'è RAG in parole semplici?

Generazione aumentata dal recupero. Quando poni una domanda, il sistema trova i passaggi più pertinenti nei tuoi documenti e li fornisce al modello di IA come contesto, così che la risposta si basi sui tuoi dati anziché sull'addestramento del modello, e possa citare la fonte. È lo schema standard per gli assistenti di IA su contenuti privati o che cambiano spesso.

Dovremmo usare RAG o fare il fine-tuning di un modello?

RAG quando le risposte devono essere ancorate a fatti attuali e citare una fonte. Il fine-tuning quando devi cambiare il comportamento, il tono o il formato del modello, non la sua conoscenza. Risolvono problemi diversi e spesso si combinano: un modello ben educato per lo stile, RAG per i fatti. Se l'obiettivo sono risposte accurate dai tuoi documenti, la risposta è RAG.

Come evitate che faccia trapelare documenti che la gente non dovrebbe vedere?

Il controllo degli accessi è applicato a livello di recupero: quando un utente pone una domanda, il sistema recupera solo dai documenti che quell'utente è autorizzato a vedere, al momento della query. È integrato nell'architettura fin dal primo giorno anziché aggiunto come filtro, perché un assistente di conoscenza che può portare a galla il documento sbagliato è una violazione di dati.

Come fate a sapere che le risposte sono accurate?

Un set di valutazione graduato assegna un punteggio all'accuratezza e all'ancoraggio delle risposte a ogni cambiamento durante lo sviluppo, e il monitoraggio sorveglia la qualità del recupero in produzione così che il degrado venga colto prima che gli utenti se ne accorgano. Ogni risposta cita anche le sue fonti, così che le singole risposte possano essere verificate dalla persona che le legge.

Quanto tempo serve per costruire un sistema RAG?

Un assistente di conoscenza mirato su un corpus definito richiede di solito qualche settimana per arrivare a un sistema funzionante e misurato, a seconda dello stato dei dati. Documenti sorgente disordinati o sparsi aggiungono tempo nella fase di preparazione dei dati, che è di solito dove sta il vero lavoro.

Il RAG per le aziende: costruire assistenti di conoscenza che funzionano davvero

Il punto di partenza

La generazione aumentata dal recupero (RAG) è lo schema dietro la maggior parte degli assistenti di IA utili su contenuti privati: invece di affidarsi a ciò che un modello ha appreso in addestramento, il sistema recupera i passaggi pertinenti dai tuoi documenti e li fornisce al modello come ancoraggio, così che la risposta si basi sui tuoi dati e possa citare la propria fonte.

È lo strumento giusto per un compito preciso: rispondere a domande su un corpo di conoscenza che cambia e su cui il modello non è mai stato addestrato, le tue policy, i tuoi ticket, i tuoi contratti, la documentazione del tuo prodotto. È anche ampiamente usato a sproposito, applicato a problemi che un semplice prompt risolverebbe, o scelto quando la vera esigenza era cambiare il comportamento del modello e non i suoi fatti.

Questo testo è la versione pratica: cos'è RAG, quando batte le alternative, cosa fa la differenza tra un assistente di conoscenza di cui la gente si fida e uno che la gente smette in silenzio di usare, e come li costruiamo e li gestiamo perché restino accurati dopo il lancio.

Come costruiamo

Dall'idea alla produzione

Il modo in cui SDEN trasforma un'idea come questa in un sistema che puoi gestire.

Cos'è

Ancoraggio, non memorizzazione

Un modello linguistico sa molto in generale e niente sulla tua azienda in particolare. RAG colma quel divario al momento della query.

Quando un utente pone una domanda, un sistema RAG recupera prima i frammenti più pertinenti dai tuoi contenuti indicizzati, poi li passa al modello insieme alla domanda con l'istruzione di rispondere a partire dal materiale fornito e di citarlo. Il modello non sta più indovinando a partire dai dati di addestramento; sta leggendo i tuoi documenti e li sta riassumendo. È questo che rende la risposta attuale, specifica e verificabile.

Le due metà contano allo stesso modo, e la maggior parte dei guasti sono guasti di recupero, non guasti del modello. Se il passo di recupero porta a galla i passaggi sbagliati, anche il modello migliore produce una risposta sicura, sbagliata e ben scritta. Un assistente di conoscenza vale solo quanto ciò che recupera, ed è per questo che le parti poco affascinanti (come si segmentano i documenti, come vengono incorporati, come si valuta il recupero) decidono se la cosa funziona.

RAG e le alternative

Recupero, fine-tuning, o solo un prompt più lungo

Scegli RAG quando le risposte devono essere ancorate a un corpus grande, mutevole, o entrambi, e quando citare la fonte conta. Scegli il fine-tuning quando devi cambiare il modo in cui il modello si comporta, il suo tono, formato o una competenza ristretta, non i fatti che conosce; il fine-tuning insegna lo stile e gli schemi, non un corpo di conoscenza in movimento. Scegli un semplice prompt quando la conoscenza è abbastanza piccola da incollarla nel contesto, nel qual caso il recupero è un sovraccarico di cui non hai bisogno.

Non si escludono a vicenda, e i sistemi più solidi li combinano: un modello sottoposto a fine-tuning o ben istruito per il comportamento, RAG per i fatti. L'errore che vediamo più spesso è fare il fine-tuning di un modello sui documenti di un'azienda nella speranza che li memorizzi. Non funziona in modo affidabile: il modello mescola insieme i fatti, non può citare, e diventa obsoleto nel momento in cui un documento cambia. Se il requisito sono risposte accurate da documenti attuali, è RAG, ogni volta.

Sbagliare questa scelta è costoso in entrambe le direzioni. Abbiamo visto progetti di fine-tuning che avrebbero dovuto essere una build RAG di due settimane, e pipeline RAG elaborate per una base di conoscenza che stava in un singolo prompt. Diamo un nome alla ragione della scelta prima di costruire, perché l'architettura è difficile da tornare indietro dopo.

Fig. · Recupero, fine-tuning, o solo un prompt più lungo

Cosa lo rende affidabile

Controllo degli accessi, ancoraggio e un set di valutazione

Tre cose separano un assistente di conoscenza che puoi mettere davanti a personale o clienti da una demo. La prima è il controllo degli accessi a livello di recupero: l'assistente deve recuperare solo dai documenti che l'utente corrente è autorizzato a vedere, applicato quando la query viene eseguita, non filtrato a posteriori. Un assistente che può portare a galla un documento che un utente non avrebbe mai dovuto vedere è una violazione di dati con un'interfaccia amichevole.

La seconda è l'ancoraggio e la citazione: ogni risposta rimanda ai passaggi da cui proviene, così che un utente possa verificarla e un revisore possa controllarla. Gli assistenti che rispondono senza citazioni abituano la gente a fidarsi ciecamente, che è esattamente il contrario di ciò che serve per qualsiasi cosa portante. La terza è la misurazione: un set di valutazione graduato che assegna un punteggio all'accuratezza e all'ancoraggio delle risposte a ogni cambiamento, così che le regressioni di qualità vengano colte in sviluppo e non da un cliente in produzione.

Anche la conoscenza cambia, quindi il recupero va mantenuto: re-indicizzazione man mano che i documenti si aggiornano, e monitoraggio della qualità del recupero per il lento degrado che erode la fiducia trimestre dopo trimestre. La build è la parte facile; la postura operativa è ciò che lo tiene accurato un anno dopo.

Fig. · Controllo degli accessi, ancoraggio e un set di valutazione

Come SDEN costruisce RAG

Tre impegni su ogni build di assistente di conoscenza

Costruiamo l'intera pipeline e la consegniamo, con il controllo degli accessi e le valutazioni che la rendono sicura da usare, poi la gestiamo finché il tuo team non è in grado di farlo.

Il recupero prima della generazione

Investiamo dove i guasti si trovano davvero: segmentazione, embedding e scoring del recupero, misurati su un vero set di domande dei tuoi utenti. Un buon livello di recupero fa sembrare eccellente un modello ordinario; uno cattivo rende inaffidabile il modello migliore.

Il controllo degli accessi non è opzionale

I permessi sono applicati al momento della query, così che l'assistente non possa mai portare a galla un documento che l'utente non è autorizzato a vedere. Fa parte dell'architettura fin dal primo giorno, non è un filtro aggiunto dopo.

Misurato, poi mantenuto

Ogni assistente è consegnato con un set di valutazione che assegna un punteggio ad accuratezza e ancoraggio a ogni cambiamento, oltre al monitoraggio della deriva del recupero in produzione, e alla pipeline di dati e baseline di valutazione che lo rendono manutenibile dopo la consegna.

Com'è il successo

Un assistente di cui la gente si fida davvero

Un anno dopo, l'assistente è ancora accurato, cita ancora le sue fonti, e non ha fatto trapelare in silenzio un documento né è scivolato in sicure assurdità.

Il test onesto di un assistente di conoscenza non è la demo di lancio; è se la gente lo usa ancora dopo averlo colto in errore. La fiducia si perde la prima volta che un assistente inventa una policy o porta a galla qualcosa che non avrebbe dovuto, ed è quasi impossibile riconquistarla. È per questo che ancoraggio, citazione e controllo degli accessi non sono rifiniture: sono il prodotto.

Gli assistenti che restano affidabili sono quelli che sono stati misurati fin dall'inizio e mantenuti dopo il lancio. La qualità del recupero è sorvegliata, il set di valutazione cresce man mano che si scoprono nuovi modi di guasto, e l'indice tiene il passo con i documenti. Niente di tutto ciò è affascinante, e tutto ciò è ciò che separa un sistema che cresce di valore da uno che viene abbandonato in silenzio in due trimestri.

Fatto bene, un assistente di conoscenza trasforma la conoscenza sparsa e poco usata di un'azienda in qualcosa che ogni dipendente può interrogare in linguaggio semplice, con risposte che può verificare. È un vantaggio durevole, e ti appartiene: la pipeline, le valutazioni e il codice.