Cos'è il RAG: guida pratica per aziende

RAG (Retrieval Augmented Generation): cosa significa, come funziona e perché è il metodo più usato per portare i dati aziendali dentro l'AI. Guida pratica.

Matteo Scutifero

Matteo Scutifero

Founder & CEO, DeepElse

7 min di lettura

La domanda che ogni manager si fa dopo aver visto una demo di AI è quasi sempre la stessa: "Ma può farlo anche con i nostri dati?"

La risposta è sì, e il metodo principale per farlo si chiama RAG - Retrieval Augmented Generation. Non è l'unica strada, ma è quella che funziona meglio nella maggior parte dei casi aziendali, ed è alla base di molti degli strumenti AI più utili in produzione oggi.

Il problema che il RAG risolve

Un LLM sa molte cose, ma non sa nulla di specifico sulla tua azienda. Non conosce i tuoi contratti, i tuoi manuali tecnici, le tue procedure interne, le conversazioni con i clienti, i dati di vendita degli ultimi due anni.

Due sono le strade per portare conoscenza aziendale dentro un LLM: addestrarlo su quei dati (fine-tuning) o dargli accesso ai dati al momento della domanda (RAG). Il fine-tuning è costoso, lento e va ripetuto ogni volta che i dati cambiano. Il RAG è più flessibile, meno costoso e funziona in tempo reale.

L'idea di base è semplice: prima di rispondere a una domanda, il sistema cerca nei tuoi documenti le parti più rilevanti, le inserisce nel contesto e poi chiede al LLM di rispondere basandosi su quelle informazioni.

Come funziona il RAG, passo per passo

Il processo si articola in due fasi distinte: indicizzazione e retrieval+generazione.

Fase 1: indicizzazione

I documenti aziendali - PDF, Word, email, pagine web, dati strutturati - vengono processati e trasformati in rappresentazioni numeriche chiamate embedding. Un embedding è un vettore di numeri che cattura il "significato" di un pezzo di testo in modo che testi semanticamente simili producano vettori vicini nello spazio matematico.

Questi vettori vengono salvati in un vector database (Pinecone, Weaviate, Chroma, pgvector e molti altri). Il vector database è ottimizzato per fare ricerche di somiglianza semantica molto rapidamente.

Fase 2: retrieval e generazione

Quando l'utente fa una domanda, quella domanda viene a sua volta trasformata in embedding. Il sistema cerca nel vector database i chunk di testo più simili semanticamente alla domanda. I risultati più rilevanti vengono inseriti nel prompt del LLM insieme alla domanda originale. Il LLM risponde basandosi su quel contesto.

Il risultato è un sistema che "sa" quello che c'è nei tuoi documenti, può rispondere in linguaggio naturale e può citare le fonti.

Cosa cambia rispetto a un LLM senza RAG

La differenza è sostanziale. Un LLM senza RAG risponde con le conoscenze acquisite durante l'addestramento - generali, datate, prive di qualsiasi specificità aziendale. Con il RAG, il sistema risponde basandosi su documenti reali, aggiornabili, controllati dall'azienda.

Questo ha tre implicazioni pratiche:

Le risposte sono ancorate a fonti verificabili. Si può chiedere al sistema di citare il documento da cui ha tratto la risposta. Se la risposta è sbagliata, si può identificare il documento problematico.

I dati rimangono sotto controllo. Non si addestra il modello su dati proprietari, non si trasferisce conoscenza al provider AI in modo permanente.

Il sistema si aggiorna aggiornando i documenti. Nessun re-addestramento necessario: basta aggiungere o modificare i file nell'indice.

Use case aziendali concreti

Il RAG è alla base di diversi strumenti che funzionano bene in produzione:

Chatbot su knowledge base interna: l'assistente risponde a domande su procedure, policy HR, manuali tecnici. Invece di cercare nel PDF, il dipendente fa una domanda in linguaggio naturale.

Assistente commerciale su contratti: il team commerciale interroga un archivio di contratti passati, offerte, clausole standard. Risparmio di ore su ogni proposta.

Supporto clienti su documentazione prodotto: il chatbot risponde a domande tecniche consultando la documentazione aggiornata. Le risposte sono accurate perché legate ai documenti reali.

Analisi di grandi volumi di documenti: report, email, verbali - il sistema trova informazioni specifiche in corpus che sarebbe impossibile leggere manualmente.

Puoi vedere come questi sistemi vengono costruiti nella sezione tecnologia e nella pagina prodotti/ai-agent.

RAG vs fine-tuning: quale scegliere

La domanda viene posta spesso. La risposta quasi sempre è: RAG.

Il fine-tuning modifica i pesi del modello addestrandolo su nuovi dati. Ha senso quando si vuole cambiare il comportamento del modello - il tono, lo stile, la capacità di gestire un dominio altamente specializzato dove il linguaggio base del modello è inadeguato. Non ha senso per portare informazioni fattuali aggiornabili.

Il RAG è la scelta giusta per informazioni che cambiano nel tempo, per documenti aziendali specifici, per basi di conoscenza che si aggiornano. Non modifica il modello, ma lo equipaggia con il contesto giusto al momento della risposta.

In molti casi le due tecniche si combinano: un modello fine-tuned sul dominio aziendale, potenziato con RAG per l'accesso ai dati più recenti.

I limiti del RAG che è bene conoscere

Il RAG non è una panacea. Ci sono scenari in cui funziona meno bene.

Il retrieval può fallire: se la domanda è formulata in modo molto diverso dai documenti, il sistema potrebbe non trovare i chunk rilevanti. La qualità dell'indicizzazione e della chunking strategy conta molto.

Documenti mal strutturati degradano le prestazioni. PDF scansionati senza OCR di qualità, documenti con layout complessi, dati in tabelle - non tutto si converte in embedding in modo efficace.

Contesto limitato: se la risposta dipende da informazioni distribuite su molti documenti che non vengono recuperati insieme, il sistema fatica. Questo si gestisce con strategie di retrieval più sofisticate (query expansion, re-ranking, hybrid search).

La qualità di un sistema RAG dipende tantissimo dall'ingegneria che sta dietro, non solo dalla scelta del modello o del vector database. Un RAG mal progettato produce risposte inaffidabili o inutili.

Come valutare se il RAG è la scelta giusta per il tuo caso

Tre domande utili:

Hai documenti aziendali su cui vuoi fare domande in linguaggio naturale? RAG è quasi certamente la strada.

I dati cambiano frequentemente? Il RAG è molto più flessibile del fine-tuning su questo fronte.

Hai bisogno di citare le fonti nelle risposte? Il RAG lo rende naturale, il fine-tuning no.

Se hai risposto sì a una o più di queste domande, un sistema RAG vale la pena di esplorare concretamente.

Vuoi applicare tutto questo alla tua azienda?

Prenota una call gratuita di 30 minuti con Matteo. Analizziamo insieme i tuoi processi e identifichiamo le opportunità AI ad alto ROI.

Prenota la call

Pronto a portare l'AI nella tua azienda?

Inizia con una call gratuita di 30 minuti. Nessun impegno: capiamo insieme dove l'AI può fare la differenza per te.

Riassumi con AI

Ottieni un riepilogo di questo articolo con il tuo assistente AI preferito.

Matteo Scutifero

Matteo Scutifero

Founder & CEO, DeepElse

Aiuto PMI e Corporate italiane ad adottare l'AI in modo concreto e misurabile. Appassionato di tecnologia applicata ai processi aziendali.

Ti potrebbe interessare