La data ingestion è il processo di raccolta di dati non elaborati da varie fonti e di preparazione per l'analisi. Questa pipeline a più fasi garantisce che i dati siano accessibili, accurati, coerenti e utilizzabili per la business intelligence. È fondamentale per supportare l'analisi basata su SQL e altri workload di elaborazione.

Data discovery: la fase esplorativa in cui vengono individuati i dati disponibili in tutta l'organizzazione. Conoscere il panorama, la struttura, la qualità e i potenziali usi dei dati pone le basi per una corretta data ingestion.

Acquisizione di dati: una volta individuate le fonti di dati, l'acquisizione dei dati ne comporta la raccolta. Questo può includere il recupero di dati da numerose fonti, da database strutturati e API (Application programming interface) a formati non strutturati come fogli di calcolo o documenti cartacei. La complessità risiede nella gestione della varietà di formati di dati e dei volumi potenzialmente grandi e nella salvaguardia dell'integrità dei dati durante tutto il processo di acquisizione.

Convalida dei dati: dopo aver acquisito i dati, la convalida ne garantisce l'accuratezza e la coerenza. I dati vengono controllati per individuare eventuali errori, incongruenze e valori mancanti. I dati vengono puliti e resi affidabili e pronti per un'ulteriore elaborazione attraverso vari controlli come la convalida del tipo di dati, la convalida dell'intervallo e la convalida dell'unicità.

Trasformazione dei dati: è qui che i dati convalidati vengono convertiti in un formato adatto all'analisi. Questo può comportare la normalizzazione (rimozione delle ridondanze), l'aggregazione (riepilogo dei dati) e la standardizzazione (formattazione coerente). L'obiettivo è rendere più facile la comprensione e l'analisi dei dati.

Caricamento dei dati: la fase finale posiziona i dati trasformati nella posizione designata, in genere un data warehouse o un data lake, dove sono prontamente disponibili per l'analisi e il reporting. Questo processo di caricamento può essere eseguito in batch o in tempo reale, a seconda delle esigenze specifiche. Il caricamento dei dati significa il completamento della pipeline della data ingestion, in cui i dati sono preparati e pronti per un processo decisionale informato e per generare una business intelligence preziosa.