Home
Think
Argomenti
Ingestione di dati
Data di pubblicazione: 26 giugno 2024
Collaboratori: Tim Mucci, Cole Stryker
La data ingestion è il processo di raccolta e importazione di file di dati da varie fonti in un database per lo storage, l'elaborazione e l'analisi. L'obiettivo della data ingestion è pulire e memorizzare i dati in un repository centrale accessibile e coerente per prepararli all'uso all'interno dell'organizzazione.
Le fonti di dati includono sistemi finanziari, fornitori di dati di terze parti, piattaforme di social, dispositivi IoT, app SaaS, applicazioni aziendali on-premise come la pianificazione delle risorse aziendali (ERP) e la gestione della relazione con il cliente (CRM).
Queste fonti contengono dati strutturati e dati non strutturati. Una volta acquisiti, i dati possono essere memorizzati in un data lake, data warehouse, data lakehouse, data mart, database relazionali e sistemi di storage dei documenti. Le organizzazioni acquisiscono dati in modo che possano essere utilizzati in attività di business intelligence ma anche per applicazioni di apprendimento automatico, modellazione predittiva e AI.
Numerosi strumenti di data ingestion automatizzano questo processo organizzando i dati non elaborati in formati appropriati per un'analisi efficiente da parte di un software di analisi dei dati. La data ingestion richiede in genere esperienza nella data science e nei linguaggi di programmazione come Python. I dati vengono sterilizzati e trasformati in un formato uniforme utilizzando un processo di estrazione, trasformazione, caricamento (ETL) o processo di estrazione, caricamento e trasformazione (ELT), per gestire il ciclo di vita dei dati in modo efficace.
Con diverse e numerose fonti di big data, il software di automazione aiuta a personalizzare il processo di inserimento in base ad applicazioni e ambienti specifici. Spesso includono funzioni di preparazione dei dati per un'analisi immediata o successiva utilizzando programmi di analisi e business intelligence.
La guida per i leader dei dati illustra come ogni tipo di database soddisfi le esigenze di un'azienda, a seconda che l'organizzazione assegni priorità all'analisi, all'AI o alle prestazioni delle applicazioni.
La data ingestion è il primo passo per elaborare i dati ed estrarre valore dalla grande quantità di dati che le aziende di oggi raccolgono. Un processo di data ingestion ben pianificato salvaguarda l'accuratezza e l'affidabilità dei dati che entrano nel motore di analisi, il che è fondamentale per i team di dati per svolgere le proprie funzioni in modo efficace. Ci sono tre motivi principali per cui la data ingestion è fondamentale:
Le aziende moderne utilizzano un ecosistema di dati diversificato. Ogni fonte ha il suo formato e la sua struttura unici. Un processo di data ingestion efficace può acquisire dati da queste fonti eterogenee, consentendo una visione più completa delle operazioni, dei clienti e delle tendenze del mercato. Emergono costantemente nuove fonti di dati e il volume e la velocità di generazione dei dati sono in costante aumento. Un processo di data ingestion ben progettato può adattarsi a queste modifiche, garantendo che l'architettura dei dati rimanga solida e adattabile.
Senza un solido processo di acquisizione dei dati, le aziende non sarebbero in grado di raccogliere e preparare gli enormi set di dati necessari per un'analisi approfondita. Le organizzazioni utilizzano queste analisi per affrontare problemi aziendali specifici e trasformare gli insight derivati dai dati in raccomandazioni attuabili.
Il processo di arricchimento incorpora vari controlli e convalide per garantire la coerenza e l'accuratezza dei dati. Questo include la pulizia dei dati, l'individuazione e l'eliminazione di dati danneggiati, imprecisi o irrilevanti. La data ingestion facilita la trasformazione attraverso la standardizzazione, la normalizzazione e l'arricchimento. La standardizzazione certifica che i dati rispettino un formato coerente, mentre la normalizzazione elimina le ridondanze. L'arricchimento comporta l'aggiunta di informazioni pertinenti ai set di dati esistenti, fornendo più contesto e profondità, aumentando in ultima analisi il valore dei dati per l'analisi.
La data ingestion è il processo di raccolta di dati non elaborati da varie fonti e di preparazione per l'analisi. Questa pipeline a più fasi garantisce che i dati siano accessibili, accurati, coerenti e utilizzabili per la business intelligence. È fondamentale per supportare l'analisi basata su SQL e altri workload di elaborazione.
Data discovery: la fase esplorativa in cui vengono individuati i dati disponibili in tutta l'organizzazione. Conoscere il panorama, la struttura, la qualità e i potenziali usi dei dati pone le basi per una corretta data ingestion.
Acquisizione di dati: una volta individuate le fonti di dati, l'acquisizione dei dati ne comporta la raccolta. Questo può includere il recupero di dati da numerose fonti, da database strutturati e API (Application programming interface) a formati non strutturati come fogli di calcolo o documenti cartacei. La complessità risiede nella gestione della varietà di formati di dati e dei volumi potenzialmente grandi e nella salvaguardia dell'integrità dei dati durante tutto il processo di acquisizione.
Convalida dei dati: dopo aver acquisito i dati, la convalida ne garantisce l'accuratezza e la coerenza. I dati vengono controllati per individuare eventuali errori, incongruenze e valori mancanti. I dati vengono puliti e resi affidabili e pronti per un'ulteriore elaborazione attraverso vari controlli come la convalida del tipo di dati, la convalida dell'intervallo e la convalida dell'unicità.
Trasformazione dei dati: è qui che i dati convalidati vengono convertiti in un formato adatto all'analisi. Questo può comportare la normalizzazione (rimozione delle ridondanze), l'aggregazione (riepilogo dei dati) e la standardizzazione (formattazione coerente). L'obiettivo è rendere più facile la comprensione e l'analisi dei dati.
Caricamento dei dati: la fase finale posiziona i dati trasformati nella posizione designata, in genere un data warehouse o un data lake, dove sono prontamente disponibili per l'analisi e il reporting. Questo processo di caricamento può essere eseguito in batch o in tempo reale, a seconda delle esigenze specifiche. Il caricamento dei dati significa il completamento della pipeline della data ingestion, in cui i dati sono preparati e pronti per un processo decisionale informato e per generare una business intelligence preziosa.
Quando si acquisiscono i dati, garantirne la qualità è fondamentale.
La governance dei dati consente di mantenere la qualità dei dati durante l'inserimento stabilendo criteri e standard per la gestione dei dati. Questo garantisce la responsabilità attraverso ruoli e responsabilità definiti. Implementazione di metriche e sistemi di monitoraggio per tracciare e risolvere i problemi, facilitare la conformità a normative come il GDPR o l'HIPAA e promuovere la coerenza standardizzando le definizioni e i formati dei dati.
La data ingestion abbatte i silo di dati e rende le informazioni prontamente disponibili a tutti gli utenti dell'organizzazione che ne hanno bisogno. Automatizzando la raccolta dei dati e utilizzando lo storage cloud, la data ingestion protegge la sicurezza dei dati e l'accesso a preziosi insight.
La data ingestion abbatte i silo di dati, rendendo le informazioni prontamente disponibili in vari reparti e aree funzionali. Questo favorisce una cultura basata sui dati in cui tutti possono utilizzare gli insight raccolti dall'ecosistema di dati dell'azienda.
La data ingestion semplifica l'attività, spesso complessa, di raccolta e pulizia dei dati da varie fonti con strutture e formati diversi. Le aziende possono semplificare i processi di gestione dei dati portando questi dati in un formato coerente all'interno di un sistema centralizzato.
Un'efficace pipeline di data ingestion a bassa latenza è in grado di gestire grandi quantità di dati ad alta velocità, inclusa l'acquisizione in tempo reale.
Le aziende riducono il tempo e le risorse tradizionalmente necessari per i processi manuali di aggregazione di dati automatizzando la raccolta e la pulizia dei dati attraverso la data ingestion. Inoltre, le soluzioni di data ingestion as-a-service possono offrire ulteriori vantaggi in termini di costi, eliminando la necessità di investimenti iniziali nell'infrastruttura.
Un processo di data ingestion ben organizzato consente alle aziende di tutte le dimensioni di gestire e analizzare volumi di dati in continua crescita. La scalabilità è fondamentale per le aziende in crescita. La capacità di gestire senza sforzo i picchi di dati garantisce che le aziende possano continuare a utilizzare preziosi insight anche quando il loro panorama di dati si espande.
Utilizzando lo storage cloud per i dati non elaborati, le soluzioni di data ingestion offrono un accesso facile e sicuro a set di informazioni di grandi dimensioni ogni volta che è necessario. Questo elimina i vincoli delle limitazioni di storage fisico e consente alle aziende di utilizzare i propri dati sempre e ovunque.
La data ingestion, l'estrazione, la trasformazione, il caricamento (ETL) e l'estrazione, il caricamento, la trasformazione (ELT) dei dati hanno un obiettivo comune ma differiscono nei loro approcci.
La data ingestion e l'integrazione dei dati servono per scopi distinti all'interno della pipeline di dati.
Data ingestion: serve come punto di ingresso per dati provenienti da varie fonti, con l'obiettivo principale di trasferire con successo i dati, con una trasformazione minima per mantenere la struttura originale dei dati.
Integrazione dei dati: si concentra sulla trasformazione e l'unificazione dei dati provenienti da più fonti prima di inserirli in un sistema di destinazione, in genere un data warehouse o un data lake. L'integrazione dei dati potrebbe comportare la pulizia, la standardizzazione e l'arricchimento dei dati per garantire coerenza e accuratezza in tutto il set di dati.
La data ingestion comprende vari metodi per trasferire dati da diverse fonti in un sistema designato.
Questo metodo di acquisizione prevede l'accumulo di dati in un periodo specifico (report di vendita giornalieri, rendiconti finanziari mensili) prima di elaborarli nella loro interezza. L'elaborazione in batch è nota per la sua semplicità, affidabilità e impatto minimo sulle prestazioni del sistema, in quanto può essere programmata non per le ore di punta. Tuttavia, non è la soluzione ideale per le applicazioni in tempo reale.
Questo metodo offre insight immediati e un processo decisionale più rapido grazie all'acquisizione dei dati nel momento stesso in cui vengono generati, consentendo analisi e interventi sul posto. Questo metodo è perfetto per applicazioni sensibili al fattore tempo come il rilevamento delle frodi o le piattaforme di negoziazione azionaria in cui le decisioni immediate sono fondamentali.
L'elaborazione in streaming è molto simile all'elaborazione in tempo reale, ad eccezione del fatto che prende i dati inseriti e li analizza continuamente man mano che arrivano. Sia l'elaborazione in tempo reale, sia in streaming richiedono una potenza di calcolo e risorse di larghezza di banda di rete significative.
Il metodo del microbatching crea un equilibrio tra elaborazione in batch e in tempo reale. Acquisisce dati in batch piccoli e frequenti, fornendo aggiornamenti quasi in tempo reale senza i vincoli di risorse tipici dell'elaborazione in tempo reale su vasta scala. Per ottimizzare il compromesso tra freschezza dei dati e prestazioni del sistema, sono necessarie un'attenta pianificazione e gestione.
Questo metodo di acquisizione combina sia l'elaborazione in batch, sia quella in tempo reale, utilizzando i punti di forza di ciascuna per fornire una soluzione completa per la data ingestion. L'architettura Lambda consente di elaborare grandi volumi di dati storici e di gestire contemporaneamente flussi di dati in tempo reale.
Gli strumenti di data ingestion offrono diverse soluzioni per soddisfare le varie esigenze e competenze tecniche.
Strumenti open source: strumenti che offrono accesso libero al codice sorgente del software, dando agli utenti il controllo completo e la possibilità di personalizzare lo strumento.
Strumenti proprietari: soluzioni sviluppate e concesse in licenza da fornitori di software, offrono funzioni predefinite e vari piani tariffari, ma potrebbero comportare il blocco da fornitore e costi di licenza continui.
Strumenti basati sul cloud: strumenti di acquisizione ospitati in un ambiente cloud che semplificano l'implementazione e la manutenzione e offrono scalabilità senza la necessità di investimenti iniziali in infrastrutture.
Strumenti on-premise: questi strumenti sono installati e gestiti su una rete cloud privata o locale che fornisce un maggiore controllo sulla sicurezza dei dati ma richiede investimenti in hardware e supporto IT costante.
Nel bilanciare le esigenze e le competenze, esistono diversi approcci per costruire pipeline di data ingestion:
Pipeline codificate a mano: queste pipeline su misura offrono il massimo controllo, ma richiedono una notevole esperienza di sviluppo.
Connettore e strumenti di trasformazione precostituiti: questo approccio fornisce un'interfaccia intuitiva ma richiede la gestione di più pipeline.
Piattaforme di integrazione dei dati: questa piattaforma offre una soluzione completa per tutte le fasi del percorso dei dati, ma richiede competenze di sviluppo per la configurazione e la manutenzione.
DataOps: questo approccio consiste nel promuovere la collaborazione tra ingegneri dei dati e consumatori di dati e nell'automatizzare parti del processo di data ingestion per liberare tempo prezioso.
Sebbene sia fondamentale per le pipeline di dati, il processo di data ingestion non è privo di complessità.
Sicurezza dei dati: una maggiore esposizione aumenta il rischio di violazioni di sicurezza per i dati sensibili. Il rispetto delle normative sulla sicurezza dei dati aggiunge complessità e costi.
Scalabilità e varietà: possono sorgere colli di bottiglia in ambito di prestazioni a causa del volume, della velocità e della varietà di dati in continua crescita.
Frammentazione dei dati: la mancanza di coerenza può ostacolare gli sforzi di analisi dei dati e complicare la creazione di una visione unificata dei dati. Quando i dati di origine vengono modificati senza un aggiornamento nel sistema di destinazione, si verifica una deviazione dello schema, che può interrompere i workflow.
Garanzia della qualità dei dati: la natura complessa dei processi di data ingestion può compromettere l'affidabilità dei dati.
La data ingestion è la base per sbloccare il potenziale dei dati all'interno delle organizzazioni.
Le soluzioni di data ingestion consentono alle aziende di raccogliere e trasferire vari dati in un data lake cloud centralizzato. La data ingestion di alta qualità è fondamentale in questo scenario, in quanto qualsiasi errore può compromettere il valore e l'affidabilità dei dati per l'analisi a valle e le iniziative di AI e apprendimento automatico.
Le organizzazioni che migrano sul cloud per iniziative di analisi avanzata e AI spesso devono affrontare sfide legate ai dati legacy, alle fonti di dati in silo e all'aumento del volume, della velocità e della complessità dei dati. Le moderne soluzioni di data ingestion spesso forniscono procedure guidate prive di codice che semplificano il processo di acquisizione dei dati da database, file, applicazioni e fonti di streaming.
Le soluzioni di data ingestion dati possono accelerare la modernizzazione del data warehouse facilitando la migrazione di massa di database on-premise, data warehouse e contenuti mainframe verso data warehouse basati su cloud. L'utilizzo delle tecniche CDC (Change Data Capture) con la data ingestion mantiene il data warehouse del cloud costantemente aggiornato con le informazioni più recenti.
L'elaborazione in tempo reale dei flussi di dati apre le porte a nuove opportunità di guadagno. Ad esempio, le aziende di telecomunicazioni possono utilizzare i dati dei clienti in tempo reale per ottimizzare le strategie di vendita e di marketing. Allo stesso modo, i dati raccolti dai sensori IoT possono migliorare l'efficienza operativa, mitigare i rischi e generare preziosi insight analitici.
Per sbloccare la potenza dell'analisi in tempo reale, gli strumenti di data ingestion consentono la perfetta integrazione di dati in streaming in tempo reale (dati clickstream, dati dei sensori IoT, log delle macchine, feed dei social) in hub di messaggi o destinazioni di streaming, consentendo il trattamento dei dati in tempo reale quando si verificano gli eventi.
Scopri IBM watsonx.data, uno storage dei dati ibrido e scalabile, progettato per i workload di AI e analisi. Offre accesso ai dati aperto, motori di query adatti allo scopo e integrazione con vari ambienti di dati, consentendo una gestione e una preparazione dei dati efficiente su qualsiasi configurazione cloud oppure on-premise.
IBM DataStage è uno strumento ETL ed ELT avanzato progettato per semplificare l'integrazione e la trasformazione dei dati in ambienti cloud e on-premise. Offre funzionalità di integrazione automatizzate, funzionalità di gestione dei dati migliorate e supporto per configurazioni ibride o multicloud.
IBM Manta Data Lineage è una piattaforma progettata per aumentare la trasparenza e l'accuratezza della pipeline di dati. Automatizza la scansione e la mappatura dei flussi di dati, fornendo una visione completa dei dati dall'origine al consumo. Le funzioni principali includono la granularità a livello di colonna, la mitigazione dei rischi, la scalabilità, l'ottimizzazione della collaborazione e il supporto per oltre 50 tecnologie.
Esplora una guida completa alla data ingestion, che ne illustra l'importanza, i tipi e le best practice. Scopri l'intero processo, inclusi l'acquisizione, la convalida, la trasformazione e il caricamento dei dati, oltre al data discovery, per ottenere insight sulla gestione e l'utilizzo efficace di diverse fonti di dati.
Una strategia di data ingestion ben progettata è fondamentale per mantenere la qualità dei dati. Questa guida sottolinea l'importanza di osservare e gestire i dati quando entrano nei sistemi per prevenire errori e migliorare l'efficienza dei workflow dei dati.
Scopri l'importanza di una integrazione dei dati e di una data ingestion efficienti per l'AI aziendale, evidenziando come pipeline di dati accurate siano fondamentali per l'efficacia del modello AI. Scopri le best practice per garantire la qualità e l'affidabilità dei dati per migliorare le prestazioni dell'AI.