La domanda che ogni manager si fa dopo aver visto una demo di AI è quasi sempre la stessa: "Ma può farlo anche con i nostri dati?"
La risposta è sì, e il metodo principale per farlo si chiama RAG - Retrieval Augmented Generation. Non è l'unica strada, ma è quella che funziona meglio nella maggior parte dei casi aziendali, ed è alla base di molti degli strumenti AI più utili in produzione oggi.
Il problema che il RAG risolve
Un LLM sa molte cose, ma non sa nulla di specifico sulla tua azienda. Non conosce i tuoi contratti, i tuoi manuali tecnici, le tue procedure interne, le conversazioni con i clienti, i dati di vendita degli ultimi due anni.
Due sono le strade per portare conoscenza aziendale dentro un LLM: addestrarlo su quei dati (fine-tuning) o dargli accesso ai dati al momento della domanda (RAG). Il fine-tuning è costoso, lento e va ripetuto ogni volta che i dati cambiano. Il RAG è più flessibile, meno costoso e funziona in tempo reale.
L'idea di base è semplice: prima di rispondere a una domanda, il sistema cerca nei tuoi documenti le parti più rilevanti, le inserisce nel contesto e poi chiede al LLM di rispondere basandosi su quelle informazioni.
Come funziona il RAG, passo per passo
Il processo si articola in due fasi distinte: indicizzazione e retrieval+generazione.
Fase 1: indicizzazione
I documenti aziendali - PDF, Word, email, pagine web, dati strutturati - vengono processati e trasformati in rappresentazioni numeriche chiamate embedding. Un embedding è un vettore di numeri che cattura il "significato" di un pezzo di testo in modo che testi semanticamente simili producano vettori vicini nello spazio matematico.
Questi vettori vengono salvati in un vector database (Pinecone, Weaviate, Chroma, pgvector e molti altri). Il vector database è ottimizzato per fare ricerche di somiglianza semantica molto rapidamente.
Fase 2: retrieval e generazione
Quando l'utente fa una domanda, quella domanda viene a sua volta trasformata in embedding. Il sistema cerca nel vector database i chunk di testo più simili semanticamente alla domanda. I risultati più rilevanti vengono inseriti nel prompt del LLM insieme alla domanda originale. Il LLM risponde basandosi su quel contesto.
Il risultato è un sistema che "sa" quello che c'è nei tuoi documenti, può rispondere in linguaggio naturale e può citare le fonti.
Cosa cambia rispetto a un LLM senza RAG
La differenza è sostanziale. Un LLM senza RAG risponde con le conoscenze acquisite durante l'addestramento - generali, datate, prive di qualsiasi specificità aziendale. Con il RAG, il sistema risponde basandosi su documenti reali, aggiornabili, controllati dall'azienda.
Questo ha tre implicazioni pratiche:
Le risposte sono ancorate a fonti verificabili. Si può chiedere al sistema di citare il documento da cui ha tratto la risposta. Se la risposta è sbagliata, si può identificare il documento problematico.
I dati rimangono sotto controllo. Non si addestra il modello su dati proprietari, non si trasferisce conoscenza al provider AI in modo permanente.
Il sistema si aggiorna aggiornando i documenti. Nessun re-addestramento necessario: basta aggiungere o modificare i file nell'indice.
Use case aziendali concreti
Il RAG è alla base di diversi strumenti che funzionano bene in produzione:
Chatbot su knowledge base interna: l'assistente risponde a domande su procedure, policy HR, manuali tecnici. Invece di cercare nel PDF, il dipendente fa una domanda in linguaggio naturale.
Assistente commerciale su contratti: il team commerciale interroga un archivio di contratti passati, offerte, clausole standard. Risparmio di ore su ogni proposta.
Supporto clienti su documentazione prodotto: il chatbot risponde a domande tecniche consultando la documentazione aggiornata. Le risposte sono accurate perché legate ai documenti reali.
Analisi di grandi volumi di documenti: report, email, verbali - il sistema trova informazioni specifiche in corpus che sarebbe impossibile leggere manualmente.
Puoi vedere come questi sistemi vengono costruiti nella sezione tecnologia e nella pagina prodotti/ai-agent.
RAG vs fine-tuning: quale scegliere
La domanda viene posta spesso. La risposta quasi sempre è: RAG.
Il fine-tuning modifica i pesi del modello addestrandolo su nuovi dati. Ha senso quando si vuole cambiare il comportamento del modello - il tono, lo stile, la capacità di gestire un dominio altamente specializzato dove il linguaggio base del modello è inadeguato. Non ha senso per portare informazioni fattuali aggiornabili.
Il RAG è la scelta giusta per informazioni che cambiano nel tempo, per documenti aziendali specifici, per basi di conoscenza che si aggiornano. Non modifica il modello, ma lo equipaggia con il contesto giusto al momento della risposta.
In molti casi le due tecniche si combinano: un modello fine-tuned sul dominio aziendale, potenziato con RAG per l'accesso ai dati più recenti.
I limiti del RAG che è bene conoscere
Il RAG non è una panacea. Ci sono scenari in cui funziona meno bene.
Il retrieval può fallire: se la domanda è formulata in modo molto diverso dai documenti, il sistema potrebbe non trovare i chunk rilevanti. La qualità dell'indicizzazione e della chunking strategy conta molto.
Documenti mal strutturati degradano le prestazioni. PDF scansionati senza OCR di qualità, documenti con layout complessi, dati in tabelle - non tutto si converte in embedding in modo efficace.
Contesto limitato: se la risposta dipende da informazioni distribuite su molti documenti che non vengono recuperati insieme, il sistema fatica. Questo si gestisce con strategie di retrieval più sofisticate (query expansion, re-ranking, hybrid search).
La qualità di un sistema RAG dipende tantissimo dall'ingegneria che sta dietro, non solo dalla scelta del modello o del vector database. Un RAG mal progettato produce risposte inaffidabili o inutili.
Come valutare se il RAG è la scelta giusta per il tuo caso
Tre domande utili:
Hai documenti aziendali su cui vuoi fare domande in linguaggio naturale? RAG è quasi certamente la strada.
I dati cambiano frequentemente? Il RAG è molto più flessibile del fine-tuning su questo fronte.
Hai bisogno di citare le fonti nelle risposte? Il RAG lo rende naturale, il fine-tuning no.
Se hai risposto sì a una o più di queste domande, un sistema RAG vale la pena di esplorare concretamente.