Come preparare i dati aziendali per l'AI

"Prima devo sistemare i miei dati" è una delle frasi più comuni che sentiamo quando parliamo di AI con le PMI italiane. Spesso diventa una giustificazione per rimandare a tempo indeterminato. La realtà è più sfumata: alcuni progetti AI richiedono dati storici puliti e strutturati. Altri funzionano già oggi con quello che hai. Capire la differenza è il primo passo.

Il mito dei dati perfetti

Nessuna azienda ha i dati perfetti. Le grandi aziende con team di data engineering dedicati da anni hanno dati migliori della media - ma ancora con problemi, incoerenze, lacune. Aspettare di avere dati perfetti per iniziare è come aspettare di essere in forma prima di andare in palestra.

Detto questo, c'è una differenza reale tra "dati imperfetti ma utilizzabili" e "dati inutilizzabili per lo scopo specifico". Quello che conta è capire quale applicazione AI vuoi implementare, e quali requisiti minimi di dati quella specifica applicazione richiede.

Un chatbot AI per il customer service che risponde a domande su prodotti, policy di reso, e FAQ ha bisogno di documenti testuali (catalogo prodotti, policy scritte, Q&A storiche). Non richiede database perfettamente strutturati.

Un modello di previsione della domanda ha bisogno di almeno 18-24 mesi di storico vendite pulito per SKU. Se quello storico non esiste o è frammentato, bisogna prima costruirlo.

I tipi di dati aziendali più utili per l'AI

Non tutti i dati valgono uguale. Quelli con il valore più alto per la maggior parte dei casi d'uso aziendali:

Dati transazionali: ordini, fatture, pagamenti, movimenti di magazzino. Sono strutturati, con timestamp, quantità, importi. Perfetti per demand forecasting, analisi di redditività, previsioni finanziarie.

Dati comportamentali: visite al sito, interazioni con email marketing, comportamento su app o piattaforme digitali. Utili per personalizzazione, lead scoring, analisi del funnel.

Dati documentali: contratti, email, report, procedure, schede prodotto. Sono testi non strutturati ma molto ricchi. Utili per sistemi di ricerca interna (RAG), automazione documentale, customer service AI.

Dati conversazionali: trascrizioni di chiamate, ticket di supporto, chat con clienti. Preziosissimi per capire le esigenze dei clienti, formare modelli di customer service, migliorare i prodotti.

La buona notizia: quasi ogni azienda ha almeno uno di questi tipi di dati in quantità sufficiente per iniziare qualcosa di utile.

Come valutare la qualità dei tuoi dati

Prima di qualsiasi implementazione AI vale la pena fare una valutazione rapida. Non serve un audit formale - bastano 2-3 ore con chi gestisce i dati al giorno.

Le domande chiave:

Completezza: qual è la percentuale di campi vuoti o null nelle tabelle più importanti? Sopra il 20% su campi critici è un problema.
Consistenza: le stesse entità sono rappresentate in modo coerente? "Milano", "MI", "milan", "Milano MI" per la stessa città sono 4 formati diversi che un sistema AI tratta come 4 cose diverse.
Aggiornamento: i dati sono aggiornati in tempo reale o con ritardi? Con quale frequenza? Dati aggiornati settimanalmente per un'applicazione che richiede visibilità in tempo reale non funzionano.
Storico: quanti anni di dati storici sono disponibili? Per applicazioni predittive, meno di 12 mesi è spesso insufficiente.
Accessibilità: i dati sono in un unico sistema o distribuiti su più fonti (ERP, CRM, fogli Excel, email)? Più frammentazione, più complessità di integrazione.

I 5 problemi più comuni nelle PMI italiane

1. Duplicati

Il cliente "Rossi Paolo" e "Paolo Rossi" e "P. Rossi srl" nel CRM sono la stessa persona. Moltiplicato per centinaia di clienti, crea analisi distorte e problemi nei sistemi di personalizzazione.

La soluzione: deduplica con algoritmi di fuzzy matching (disponibili in strumenti come Excel Power Query, Python, o moduli ERP dedicati). Non è manuale - si automatizza al 70-80%.

2. Formati inconsistenti

Date in formati diversi (01/03/2025, 1-mar-25, 2025-03-01), valute con o senza simbolo, numeri con punto o virgola come separatore decimale. Questi problemi emergono spesso quando si integrano sistemi diversi o quando i dati vengono inseriti manualmente da persone diverse.

3. Dati mancanti sistematici

Certi campi vengono compilati solo a volte - il settore del cliente, la fonte dell'ordine, la categoria del prodotto. Non è impossibile lavorarci, ma i modelli AI che dipendono da quei campi avranno una performance degradata.

La strategia: o si accetta la limitazione e si sceglie un modello che funziona senza quel campo, o si avvia un processo di arricchimento dati (manuale o automatico) prima del progetto AI.

4. Silos di dati

Le informazioni sui clienti sono in tre posti diversi: il CRM (dati anagrafici), l'ERP (ordini e fatture), e le email del commerciale (relazione e conversazioni). Nessun sistema ha la visione completa.

Per molti progetti AI, l'integrazione tra questi silos è necessaria. Non è impossibile - esistono piattaforme di integrazione dati (come Fivetran, Airbyte, Make) che lo fanno senza sviluppo custom. Ma richiede tempo e va pianificato.

5. Mancanza di storico digitale

Un'azienda che per anni ha gestito gli ordini su carta o via email non ha uno storico strutturato delle transazioni. Questo è il problema più difficile perché non si risolve con pulizia - si risolve solo aspettando che il tempo passi e che i nuovi dati si accumulino.

In questo caso, l'approccio più sensato è partire con applicazioni AI che non richiedono dati storici strutturati (chatbot documentale, automazione processi testuali) e costruire parallelamente il database per le applicazioni predittive future.

Data cleaning di base: da dove iniziare

Non serve diventare ingegneri dei dati. Per il 70% dei casi pratici nelle PMI, questi passi coprono la maggior parte del lavoro:

Passo 1 - Identifica le tabelle chiave. Per un progetto di demand forecasting: tabella ordini e tabella anagrafica prodotti. Non serve pulire tutto il database aziendale.

Passo 2 - Analisi esplorativa. Excel o Python per capire: valori null, distribuzione dei dati, outlier evidenti, formati inconsistenti. 2-4 ore di lavoro.

Passo 3 - Standardizzazione dei formati. Date nello stesso formato, testi nello stesso case, unità di misura consistenti. Automatizzabile con query SQL o script Python semplici.

Passo 4 - Gestione dei valori mancanti. Tre opzioni: rimuovere le righe con valori mancanti (se sono poche), imputare con la media/mediana (per dati numerici), o lasciare come null e usare un modello che gestisce i null. La scelta dipende dal caso.

Passo 5 - Validazione. Controllo manuale a campione: prendi 50 righe casuali e verificale a mano. Se il tasso di errore è sotto il 5%, i dati sono probabilmente abbastanza buoni per iniziare.

Quando i dati che alimentano un sistema AI contengono dati personali (nomi, email, comportamenti di clienti identificabili), si applicano le regole del GDPR.

I punti pratici:

Base giuridica: servire un cliente meglio usando i suoi dati è spesso giustificabile come interesse legittimo o esecuzione contrattuale - ma va documentato. Non basta "supponiamo sia ok".

Minimizzazione dei dati: il sistema AI deve usare solo i dati personali necessari per lo scopo. Se per una previsione della domanda basta la categoria del cliente (non il nome), non passare il nome al modello.

Data processor: se usi un servizio cloud per il tuo sistema AI, quel fornitore è un data processor. Serve un DPA (Data Processing Agreement). I grandi provider (Google, Microsoft, AWS, OpenAI enterprise) li hanno standard. I piccoli fornitori non sempre.

Diritti degli interessati: se un cliente chiede la cancellazione dei suoi dati, quei dati devono essere rimossi anche dagli storici usati per addestrare o far girare i modelli AI.

Quando i dati sono "abbastanza buoni" per cominciare

Non esiste una soglia universale. Dipende dall'applicazione. Ma alcune indicazioni pratiche:

Per un RAG documentale (AI che risponde a domande basandosi sui tuoi documenti): basta avere i documenti rilevanti in formato testo, ragionevolmente aggiornati. Qualità dati: bassa barriera.

Per automazione processi testuali (email, report, classificazione documenti): basta un corpus di esempi. 50-100 esempi rappresentativi sono spesso sufficienti per iniziare.

Per demand forecasting: minimo 12 mesi di storico ordinato per SKU, meglio 24-36. Completezza del dato venduto superiore all'85%.

Per anomaly detection su dati finanziari: almeno 1-2 anni di dati transazionali puliti, senza gap significativi.

La strategia più efficace: inizia con un progetto AI che funziona con i dati che già hai. Impara come funziona il processo, costruisci competenza interna, e usa quel progetto come leva per migliorare la qualità dei dati per i progetti successivi. Non aspettare che tutto sia perfetto - comincia da dove sei.

Come preparare i dati aziendali per l'AI

Il mito dei dati perfetti

I tipi di dati aziendali più utili per l'AI

Come valutare la qualità dei tuoi dati

I 5 problemi più comuni nelle PMI italiane

1. Duplicati

2. Formati inconsistenti

3. Dati mancanti sistematici

4. Silos di dati

5. Mancanza di storico digitale

Data cleaning di base: da dove iniziare

Quando i dati sono "abbastanza buoni" per cominciare

Ti potrebbe interessare

Come implementare l'AI in azienda: guida passo per passo

AI Assessment: come valutare le opportunità AI nella tua azienda

Come costruire una strategia AI per la tua azienda

Il mito dei dati perfetti

I tipi di dati aziendali più utili per l'AI

Come valutare la qualità dei tuoi dati

I 5 problemi più comuni nelle PMI italiane

1. Duplicati

2. Formati inconsistenti

3. Dati mancanti sistematici

4. Silos di dati

5. Mancanza di storico digitale

Data cleaning di base: da dove iniziare

GDPR e dati personali: cosa cambia con l'AI

Quando i dati sono "abbastanza buoni" per cominciare

Ti potrebbe interessare

Come implementare l'AI in azienda: guida passo per passo

AI Assessment: come valutare le opportunità AI nella tua azienda

Come costruire una strategia AI per la tua azienda