Quando si parla di costi API di un LLM, la prima voce che appare è sempre "per token". Quando si parla di limiti del modello, si parla di "context window" misurata in token. Quando si ottimizza un sistema AI per contenere i costi, si lavora sui token.
Capire cos'è un token non è un dettaglio tecnico secondario: è la base per ragionare su costi, scalabilità e scelta del modello giusto.
Cos'è un token
Un token non corrisponde a una parola. È un'unità di testo più granulare, che varia in base alla lingua e al vocabolario del modello.
In inglese, un token corrisponde mediamente a circa 3-4 caratteri, o circa 0,75 parole. Una frase di 100 parole in inglese corrisponde a circa 130-135 token.
In italiano - e nelle lingue europee in generale - il rapporto è leggermente peggiore: le parole più lunghe e le strutture morfologiche fanno sì che lo stesso contenuto richieda qualche token in più rispetto all'equivalente inglese. In alcune lingue asiatiche con caratteri diversi dall'alfabeto latino, il rapporto è ancora più sfavorevole.
Esempi pratici: "ciao" è 1 token. "intelligenza" è 2-3 token. "intelligenza artificiale" è 3-4 token. Un documento Word di 10 pagine corrisponde indicativamente a 5.000-8.000 token.
Questi numeri sono approssimazioni: ogni modello ha il suo tokenizer con un vocabolario specifico.
La context window: il limite di memoria per chiamata
La context window è la quantità massima di token che il modello può processare in una singola chiamata. Tutto ciò che è dentro la context window è "visibile" al modello per quella risposta. Tutto ciò che è fuori non esiste per lui.
Modelli diversi hanno finestre diverse. Alcuni modelli recenti arrivano a 128.000, 200.000 token o anche più. GPT-4o ha una context window di 128K token. Claude 3.5 Sonnet arriva a 200K.
Cosa entra nella context window? Il prompt di sistema, la storia della conversazione, i documenti recuperati dal RAG, la domanda dell'utente e - una volta generata - la risposta del modello.
Per un chatbot su documenti aziendali, questa gestione è critica: se il documento rilevante è più lungo della context window, o se si sommano troppi documenti, si supera il limite e il sistema va gestito con strategie specifiche (chunking, retrieval selettivo, summarization).
Come i token impattano i costi API
I provider AI fanno pagare per token: separatamente per token in input (quello che mandi al modello) e token in output (quello che il modello genera).
L'output è generalmente più costoso dell'input. Un modello molto capace come GPT-4o costa dell'ordine di centesimi per milione di token in input e qualche volta di più per l'output (i prezzi cambiano frequentemente, sempre verificare i listini ufficiali).
Su un singolo utilizzo il costo è irrilevante. Su scala aziendale, cambia tutto.
Un sistema che gestisce 10.000 richieste al giorno con prompt mediamente lunghi può costare migliaia di euro al mese. Ottimizzare i prompt - eliminating testo non necessario, comprimere il contesto, scegliere modelli più economici per task meno complessi - può ridurre i costi del 50-70%.
Un errore classico nelle architetture AI mal progettate: inserire documenti interi in ogni chiamata quando basterebbe recuperare solo le parti rilevanti con il RAG. Il documento da 50 pagine diventa 30.000 token ogni chiamata, moltiplicati per ogni utente, ogni giorno.
Token in input vs token in output
La distinzione è rilevante non solo per il costo, ma anche per il tipo di task.
Task come riassumere, classificare, estrarre dati strutturati da documenti: richiedono molto input (il documento da processare) e producono output relativamente breve. Il costo è dominato dai token in input.
Task come generare report, scrivere testi, produrre analisi articolate: producono molto output. Il costo è dominato dai token in output.
Questo ha implicazioni sulla scelta del modello. Per task di classificazione ad alto volume, ha senso usare un modello più economico anche se meno capace. Per task di generazione dove la qualità è critica, il modello più costoso può essere giustificato.
Come ottimizzare l'uso dei token senza perdere qualità
Alcune pratiche concrete che fanno la differenza:
Prompt concisi: ogni parola in più nel prompt è un token in più moltiplicato per ogni chiamata. Un prompt sistema da 2.000 token usato su 50.000 chiamate al mese è 100 milioni di token solo di overhead.
RAG con retrieval selettivo: non inserire documenti interi nel contesto, ma solo i chunk rilevanti recuperati dalla ricerca semantica. La qualità del retrieval determina la qualità dell'output.
Modello routing: usare modelli diversi per task diversi. Un task semplice come classificare un'email in 5 categorie può essere gestito da un modello piccolo ed economico. Un'analisi complessa richiede un modello più capace.
Caching dei prompt statici: se il prompt sistema è sempre lo stesso, alcuni provider supportano il prompt caching che riduce il costo di ri-processare quella parte ogni volta.
Output formatting: chiedere risposte in formato JSON o strutturato riduce la verbosità e il numero di token dell'output.
Come scegliere il modello in base al volume di testo
Quando si progetta un sistema AI, il volume di token atteso è uno degli input principali nella scelta del modello.
Se il volume è basso (poche centinaia di chiamate al giorno, documenti brevi), la differenza di costo tra modelli è trascurabile. Si può scegliere il modello più capace senza preoccupazioni.
Se il volume è alto (migliaia di chiamate, documenti lunghi, pipeline automatizzate), il costo per token diventa un parametro di progettazione. Vale la pena valutare modelli più economici, architetture che minimizzano il testo processato, o soluzioni self-hosted per i task più standardizzati.
La comprensione dei token è anche utile quando si valutano le proposte dei fornitori. Un fornitore che non sa stimare il volume di token atteso del sistema che propone sta vendendo qualcosa che non ha progettato seriamente.
Per capire come queste considerazioni si inseriscono nell'architettura di un sistema AI completo, l'articolo Cos'è un LLM: guida per manager offre il contesto più ampio, mentre la sezione tecnologia descrive come questi sistemi vengono costruiti in produzione.