Cos'è il fine-tuning di un LLM e quando conviene usarlo

Il fine-tuning è uno di quei termini che circolano molto nelle conversazioni sull'AI aziendale, spesso con aspettative sbagliate. C'è chi lo vede come la soluzione definitiva per personalizzare l'AI, chi lo teme come qualcosa di proibitivamente costoso, e chi semplicemente non sa quando ha senso rispetto alle alternative.

Questa guida chiarisce cosa significa davvero il fine-tuning, quando è la scelta giusta e - soprattutto - quando non lo è.

Cosa significa fare fine-tuning su un LLM

Quando un LLM viene addestrato la prima volta, viene esposto a enormi quantità di testo generico: libri, articoli, codice, siti web. Il risultato è un modello capace di fare molte cose, ma senza specializzazione su nessuna in particolare.

Il fine-tuning è una fase di addestramento aggiuntiva in cui il modello viene esposto a esempi specifici - tipicamente coppie input/output - per affinare il suo comportamento su quel tipo di task o dominio. I pesi del modello vengono modificati in base a questi esempi.

In termini pratici: se vuoi che il modello risponda sempre in un certo tono, usi una terminologia specifica, segua un formato preciso o gestisca bene domande di un dominio molto tecnico, il fine-tuning può aiutare.

La differenza rispetto al RAG

La distinzione è importante perché le due tecniche rispondono a problemi diversi.

Il RAG porta informazioni fattuali nel modello al momento della risposta. Non modifica il modello, gli dà accesso a dati specifici. È la scelta giusta per "il modello deve sapere cosa c'è nei nostri documenti".

Il fine-tuning modifica il comportamento del modello. È la scelta giusta per "il modello deve rispondere in un certo modo, con un certo stile, su un certo tipo di task".

Un esempio concreto: vuoi un assistente che risponda sempre nel linguaggio tecnico del settore farmaceutico, con formati precisi e senza approssimazioni. Il fine-tuning può allenare questo comportamento. Se invece vuoi che l'assistente conosca il tuo catalogo prodotti, il RAG è più indicato.

Le due tecniche non si escludono. In alcuni sistemi si usano entrambe: modello fine-tuned sul dominio + RAG per i dati aggiornabili.

Quando il fine-tuning ha davvero senso

Ci sono scenari in cui il fine-tuning porta un valore reale che le alternative non possono replicare facilmente.

Stile e tono molto specifici: se hai bisogno che il modello scriva esattamente come il tuo brand, usi terminologia interna precisa, eviti categorie intere di risposte. Il prompt engineering ha limiti; il fine-tuning li supera.

Dominio altamente specializzato: settori come quello medico, legale o ingegneristico usano linguaggio che i modelli generalisti gestiscono con meno precisione. Un modello fine-tuned su documentazione di settore funziona meglio.

Task molto ripetitivi con formato preciso: se il task è sempre lo stesso (estrarre dati in un formato JSON specifico, classificare ticket in categorie definite), il fine-tuning riduce la latenza e aumenta la consistenza.

Riduzione dei costi su larga scala: un modello più piccolo, fine-tuned su un task specifico, può essere molto più economico di un modello grande usato via API per milioni di chiamate.

Quando il fine-tuning non conviene

Questa è la parte che vale la pena leggere con attenzione.

Nella maggior parte dei casi aziendali, il fine-tuning non è la prima cosa da fare - anzi, spesso non è necessario.

Se il problema è l'accesso a dati aziendali specifici, il fine-tuning non risolve nulla. I pesi del modello non sono un database. Se vuoi che il modello conosca i tuoi documenti, usa il RAG.

Se il problema è che le risposte non sono nel formato giusto, spesso basta un prompt ben scritto. Prima di fare fine-tuning, investi in prompt engineering: è più rapido, più flessibile e completamente reversibile.

Se i dati cambiano frequentemente, il fine-tuning va ripetuto ogni volta. Il RAG si aggiorna aggiungendo documenti. La dinamica di costo è molto diversa.

Se non hai un dataset di qualità, il fine-tuning produce risultati scadenti o peggiora il modello. Costruire un dataset di addestramento buono richiede tempo e competenza.

Il rischio del catastrophic forgetting

C'è un problema specifico del fine-tuning che vale la pena conoscere: il catastrophic forgetting.

Quando si addestra un modello su dati nuovi, può "dimenticare" capacità che aveva prima. Se addestri un modello su documentazione tecnica molto specifica, potresti scoprire che perde fluidità nelle risposte generali, o che gestisce peggio certi tipi di ragionamento.

Non è inevitabile - le tecniche moderne di fine-tuning come LoRA (Low-Rank Adaptation) mitigano questo problema addestrando solo una parte dei pesi del modello invece di tutti - ma è un rischio reale che va monitorato.

Per questo motivo, un fine-tuning fatto bene include sempre una fase di evaluation sistematica su task diversi da quello target, non solo su quello per cui si è addestrato.

Come si fa in pratica

Il processo di fine-tuning oggi è diventato più accessibile rispetto a qualche anno fa, ma richiede ancora competenze tecniche e decisioni non banali.

I passaggi principali sono: preparare un dataset di esempi input/output di alta qualità (tipicamente da centinaia a migliaia di coppie), scegliere la tecnica di fine-tuning appropriata (full fine-tuning, LoRA, QLoRA in base a risorse e obiettivi), eseguire il training su infrastruttura GPU, valutare i risultati, iterare.

Provider come OpenAI offrono fine-tuning tramite API senza gestire infrastruttura propria, abbassando la barriera tecnica. Per modelli open come Llama si richiede infrastruttura cloud o on-premise con GPU adeguate.

Il costo varia enormemente in base alla dimensione del modello, alla quantità di dati e al numero di epoch di training. Non è un'operazione da fare in modo improvvisato.

Il punto di partenza giusto

Per la maggior parte delle aziende che stanno iniziando il percorso AI, la sequenza logica è:

Prima prova con il modello di base + prompt engineering. Se non basta, valuta il RAG per dare accesso a dati specifici. Se non basta ancora, considera il fine-tuning per i comportamenti che non riesci a ottenere altrimenti.

Il fine-tuning è uno strumento potente. Ma è anche costoso, richiede manutenzione e ha rischi propri. Usarlo prima di aver esaurito le alternative più semplici è quasi sempre un errore.

Puoi esplorare le opzioni di personalizzazione disponibili per le aziende nella pagina prodotti/custom e approfondire l'architettura AI nella sezione tecnologia.

Cos'è il fine-tuning di un LLM e quando conviene usarlo

Cosa significa fare fine-tuning su un LLM

La differenza rispetto al RAG

Quando il fine-tuning ha davvero senso

Quando il fine-tuning non conviene

Il rischio del catastrophic forgetting

Come si fa in pratica

Il punto di partenza giusto

Ti potrebbe interessare

Cos'è un LLM (Large Language Model): guida per manager

Cos'è il RAG: guida pratica per aziende

AI Agent aziendali: guida completa per implementarli