Che cos'è la data ingestion?

Data di pubblicazione: 26 giugno 2024
Collaboratori: Tim Mucci, Cole Stryker

Cos'è la data ingestion?

La data ingestion è il processo di raccolta e importazione di file di dati da varie fonti in un database per lo storage, l'elaborazione e l'analisi. L'obiettivo della data ingestion è pulire e memorizzare i dati in un repository centrale accessibile e coerente per prepararli all'uso all'interno dell'organizzazione.

Le fonti di dati includono sistemi finanziari, fornitori di dati di terze parti, piattaforme di social, dispositivi IoT, app SaaS, applicazioni aziendali on-premise come la pianificazione delle risorse aziendali (ERP) e la gestione della relazione con il cliente (CRM).

Queste fonti contengono dati strutturati e dati non strutturati. Una volta acquisiti, i dati possono essere memorizzati in un data lake, data warehouse, data lakehouse, data mart, database relazionali e sistemi di storage dei documenti. Le organizzazioni acquisiscono dati in modo che possano essere utilizzati in attività di business intelligence ma anche per applicazioni di apprendimento automatico, modellazione predittiva e AI.

Numerosi strumenti di data ingestion automatizzano questo processo organizzando i dati non elaborati in formati appropriati per un'analisi efficiente da parte di un software di analisi dei dati. La data ingestion richiede in genere esperienza nella data science e nei linguaggi di programmazione come Python. I dati vengono sterilizzati e trasformati in un formato uniforme utilizzando un processo di estrazione, trasformazione, caricamento (ETL) o processo di estrazione, caricamento e trasformazione (ELT), per gestire il ciclo di vita dei dati in modo efficace.

Con diverse e numerose fonti di big data, il software di automazione aiuta a personalizzare il processo di inserimento in base ad applicazioni e ambienti specifici. Spesso includono funzioni di preparazione dei dati per un'analisi immediata o successiva utilizzando programmi di analisi e business intelligence.

Esplora la guida per i leader dei dati di IBM

La guida per i leader dei dati illustra come ogni tipo di database soddisfi le esigenze di un’azienda, a seconda che l’organizzazione assegni priorità all’analisi, all’AI o alle prestazioni delle applicazioni.

Contenuti correlati

Che cos'è l'integrazione dei dati?

Perché la data ingestion è importante?

La data ingestion è il primo passo per elaborare i dati ed estrarre valore dalla grande quantità di dati che le aziende di oggi raccolgono. Un processo di data ingestion ben pianificato salvaguarda l'accuratezza e l'affidabilità dei dati che entrano nel motore di analisi, il che è fondamentale per i team di dati per svolgere le proprie funzioni in modo efficace. Ci sono tre motivi principali per cui la data ingestion è fondamentale:

Fornire flessibilità per un panorama di dati dinamico

Le aziende moderne utilizzano un ecosistema di dati diversificato. Ogni fonte ha il suo formato e la sua struttura unici. Un processo di data ingestion efficace può acquisire dati da queste fonti eterogenee, consentendo una visione più completa delle operazioni, dei clienti e delle tendenze del mercato. Emergono costantemente nuove fonti di dati e il volume e la velocità di generazione dei dati sono in costante aumento. Un processo di data ingestion ben progettato può adattarsi a queste modifiche, garantendo che l'architettura dei dati rimanga solida e adattabile.

Abilitazione di una potente analisi

Senza un solido processo di acquisizione dei dati, le aziende non sarebbero in grado di raccogliere e preparare gli enormi set di dati necessari per un'analisi approfondita. Le organizzazioni utilizzano queste analisi per affrontare problemi aziendali specifici e trasformare gli insight derivati dai dati in raccomandazioni attuabili.

Migliorare la qualità dei dati

Il processo di arricchimento incorpora vari controlli e convalide per garantire la coerenza e l'accuratezza dei dati. Questo include la pulizia dei dati, l'individuazione e l'eliminazione di dati danneggiati, imprecisi o irrilevanti. La data ingestion facilita la trasformazione attraverso la standardizzazione, la normalizzazione e l'arricchimento. La standardizzazione certifica che i dati rispettino un formato coerente, mentre la normalizzazione elimina le ridondanze. L'arricchimento comporta l'aggiunta di informazioni pertinenti ai set di dati esistenti, fornendo più contesto e profondità, aumentando in ultima analisi il valore dei dati per l'analisi.

La pipeline di data ingestion

La data ingestion è il processo di raccolta di dati non elaborati da varie fonti e di preparazione per l'analisi. Questa pipeline a più fasi garantisce che i dati siano accessibili, accurati, coerenti e utilizzabili per la business intelligence. È fondamentale per supportare l'analisi basata su SQL e altri workload di elaborazione.

Data discovery: la fase esplorativa in cui vengono individuati i dati disponibili in tutta l'organizzazione. Conoscere il panorama, la struttura, la qualità e i potenziali usi dei dati pone le basi per una corretta data ingestion.

Acquisizione di dati: una volta individuate le fonti di dati, l'acquisizione dei dati ne comporta la raccolta. Questo può includere il recupero di dati da numerose fonti, da database strutturati e API (Application programming interface) a formati non strutturati come fogli di calcolo o documenti cartacei. La complessità risiede nella gestione della varietà di formati di dati e dei volumi potenzialmente grandi e nella salvaguardia dell'integrità dei dati durante tutto il processo di acquisizione.

Convalida dei dati: dopo aver acquisito i dati, la convalida ne garantisce l'accuratezza e la coerenza. I dati vengono controllati per individuare eventuali errori, incongruenze e valori mancanti. I dati vengono puliti e resi affidabili e pronti per un'ulteriore elaborazione attraverso vari controlli come la convalida del tipo di dati, la convalida dell'intervallo e la convalida dell'unicità.

Trasformazione dei dati: è qui che i dati convalidati vengono convertiti in un formato adatto all'analisi. Questo può comportare la normalizzazione (rimozione delle ridondanze), l'aggregazione (riepilogo dei dati) e la standardizzazione (formattazione coerente). L'obiettivo è rendere più facile la comprensione e l'analisi dei dati.

Caricamento dei dati: la fase finale posiziona i dati trasformati nella posizione designata, in genere un data warehouse o un data lake, dove sono prontamente disponibili per l'analisi e il reporting. Questo processo di caricamento può essere eseguito in batch o in tempo reale, a seconda delle esigenze specifiche. Il caricamento dei dati significa il completamento della pipeline della data ingestion, in cui i dati sono preparati e pronti per un processo decisionale informato e per generare una business intelligence preziosa.

Tecniche comuni di pulizia dei dati

Quando si acquisiscono i dati, garantirne la qualità è fondamentale.

Gestione dei valori mancanti: le tecniche includono l'imputazione (sostituzione dei valori mancanti con misure statistiche), l'eliminazione (rimozione dei record o dei campi con valori mancanti se rappresentano una piccola parte del set di dati) e la previsione (utilizzando algoritmi di apprendimento automatico per prevedere e completare i valori mancanti sulla base di altri dati disponibili).
Individuazione e correzione degli outlier: le tecniche più diffuse includono metodi statistici come l'uso dei punteggi z o del metodo dell'intervallo interquartile (IQR) per rilevare gli outlier. Strumenti di visualizzazione come box plot o scatter plot e l'applicazione di trasformazioni logiche o di radici quadrate per ridurre l'impatto degli outlier.
Standardizzazione dei formati di dati: la standardizzazione aiuta a garantire la coerenza in tutto il set di dati, facilitando l'analisi. Questo include tipi di dati uniformi, normalizzazione e mappatura del codice.

La governance dei dati e il suo ruolo nel mantenimento della qualità dei dati

La governance dei dati consente di mantenere la qualità dei dati durante l'inserimento stabilendo criteri e standard per la gestione dei dati. Questo garantisce la responsabilità attraverso ruoli e responsabilità definiti. Implementazione di metriche e sistemi di monitoraggio per tracciare e risolvere i problemi, facilitare la conformità a normative come il GDPR o l'HIPAA e promuovere la coerenza standardizzando le definizioni e i formati dei dati.

Vantaggi aziendali di un processo di data ingestion semplificato

La data ingestion abbatte i silo di dati e rende le informazioni prontamente disponibili a tutti gli utenti dell'organizzazione che ne hanno bisogno. Automatizzando la raccolta dei dati e utilizzando lo storage cloud, la data ingestion protegge la sicurezza dei dati e l'accesso a preziosi insight.

Democratizzazione dei dati migliorata

La data ingestion abbatte i silo di dati, rendendo le informazioni prontamente disponibili in vari reparti e aree funzionali. Questo favorisce una cultura basata sui dati in cui tutti possono utilizzare gli insight raccolti dall'ecosistema di dati dell'azienda.

Gestione dei dati semplificata

La data ingestion semplifica l'attività, spesso complessa, di raccolta e pulizia dei dati da varie fonti con strutture e formati diversi. Le aziende possono semplificare i processi di gestione dei dati portando questi dati in un formato coerente all'interno di un sistema centralizzato.

Gestione di dati ad alta velocità e ad alto volume

Un'efficace pipeline di data ingestion a bassa latenza è in grado di gestire grandi quantità di dati ad alta velocità, inclusa l'acquisizione in tempo reale.

Riduzione dei costi e vantaggi in termini di efficienza

Le aziende riducono il tempo e le risorse tradizionalmente necessari per i processi manuali di aggregazione di dati automatizzando la raccolta e la pulizia dei dati attraverso la data ingestion. Inoltre, le soluzioni di data ingestion as-a-service possono offrire ulteriori vantaggi in termini di costi, eliminando la necessità di investimenti iniziali nell'infrastruttura.

Scalabilità per la crescita

Un processo di data ingestion ben organizzato consente alle aziende di tutte le dimensioni di gestire e analizzare volumi di dati in continua crescita. La scalabilità è fondamentale per le aziende in crescita. La capacità di gestire senza sforzo i picchi di dati garantisce che le aziende possano continuare a utilizzare preziosi insight anche quando il loro panorama di dati si espande.

Accessibilità basata su cloud

Utilizzando lo storage cloud per i dati non elaborati, le soluzioni di data ingestion offrono un accesso facile e sicuro a set di informazioni di grandi dimensioni ogni volta che è necessario. Questo elimina i vincoli delle limitazioni di storage fisico e consente alle aziende di utilizzare i propri dati sempre e ovunque.

Data ingestion vs ETL vs ELT

La data ingestion, l'estrazione, la trasformazione, il caricamento (ETL) e l'estrazione, il caricamento, la trasformazione (ELT) dei dati hanno un obiettivo comune ma differiscono nei loro approcci.

Data ingestion: la data ingestion comprende tutti gli strumenti e i processi responsabili della raccolta, dell'estrazione e del trasporto di dati da diverse fonti per l'ulteriore elaborazione o storage.
ETL: l'estrazione, la trasformazione e il caricamento è il processo mediante il quale i dati vengono estratti dal sistema di origine e trasformati per soddisfare i requisiti del sistema di destinazione. Vengono poi caricati nel data warehouse o nel data lake designato.
ELT: l'estrazione, il caricamento e la trasformazione è il processo mediante il quale i dati vengono estratti dalla fonte. I dati non elaborati vengono caricati nel sistema di destinazione e poi trasformati su richiesta e secondo necessità per analisi specifiche. ELT utilizza le funzionalità delle piattaforme cloud per gestire grandi volumi di dati non elaborati e per eseguire trasformazioni in modo efficiente

Data ingestion vs integrazione dei dati

La data ingestion e l'integrazione dei dati servono per scopi distinti all'interno della pipeline di dati.

Data ingestion: serve come punto di ingresso per dati provenienti da varie fonti, con l'obiettivo principale di trasferire con successo i dati, con una trasformazione minima per mantenere la struttura originale dei dati.

Integrazione dei dati: si concentra sulla trasformazione e l'unificazione dei dati provenienti da più fonti prima di inserirli in un sistema di destinazione, in genere un data warehouse o un data lake. L'integrazione dei dati potrebbe comportare la pulizia, la standardizzazione e l'arricchimento dei dati per garantire coerenza e accuratezza in tutto il set di dati.

Tipi di data ingestion

La data ingestion comprende vari metodi per trasferire dati da diverse fonti in un sistema designato.

Elaborazione in batch

Questo metodo di acquisizione prevede l'accumulo di dati in un periodo specifico (report di vendita giornalieri, rendiconti finanziari mensili) prima di elaborarli nella loro interezza. L'elaborazione in batch è nota per la sua semplicità, affidabilità e impatto minimo sulle prestazioni del sistema, in quanto può essere programmata non per le ore di punta. Tuttavia, non è la soluzione ideale per le applicazioni in tempo reale.

Data ingestion in tempo reale

Questo metodo offre insight immediati e un processo decisionale più rapido grazie all'acquisizione dei dati nel momento stesso in cui vengono generati, consentendo analisi e interventi sul posto. Questo metodo è perfetto per applicazioni sensibili al fattore tempo come il rilevamento delle frodi o le piattaforme di negoziazione azionaria in cui le decisioni immediate sono fondamentali.

Elaborazione dei flussi

L'elaborazione in streaming è molto simile all'elaborazione in tempo reale, ad eccezione del fatto che prende i dati inseriti e li analizza continuamente man mano che arrivano. Sia l'elaborazione in tempo reale, sia in streaming richiedono una potenza di calcolo e risorse di larghezza di banda di rete significative.

Microbatching

Il metodo del microbatching crea un equilibrio tra elaborazione in batch e in tempo reale. Acquisisce dati in batch piccoli e frequenti, fornendo aggiornamenti quasi in tempo reale senza i vincoli di risorse tipici dell'elaborazione in tempo reale su vasta scala. Per ottimizzare il compromesso tra freschezza dei dati e prestazioni del sistema, sono necessarie un'attenta pianificazione e gestione.

Architettura lambda

Questo metodo di acquisizione combina sia l'elaborazione in batch, sia quella in tempo reale, utilizzando i punti di forza di ciascuna per fornire una soluzione completa per la data ingestion. L'architettura Lambda consente di elaborare grandi volumi di dati storici e di gestire contemporaneamente flussi di dati in tempo reale.

Strumenti di data ingestion

Gli strumenti di data ingestion offrono diverse soluzioni per soddisfare le varie esigenze e competenze tecniche.

Strumenti open source: strumenti che offrono accesso libero al codice sorgente del software, dando agli utenti il controllo completo e la possibilità di personalizzare lo strumento.

Strumenti proprietari: soluzioni sviluppate e concesse in licenza da fornitori di software, offrono funzioni predefinite e vari piani tariffari, ma potrebbero comportare il blocco da fornitore e costi di licenza continui.

Strumenti basati sul cloud: strumenti di acquisizione ospitati in un ambiente cloud che semplificano l'implementazione e la manutenzione e offrono scalabilità senza la necessità di investimenti iniziali in infrastrutture.

Strumenti on-premise: questi strumenti sono installati e gestiti su una rete cloud privata o locale che fornisce un maggiore controllo sulla sicurezza dei dati ma richiede investimenti in hardware e supporto IT costante.

Nel bilanciare le esigenze e le competenze, esistono diversi approcci per costruire pipeline di data ingestion:

Pipeline codificate a mano: queste pipeline su misura offrono il massimo controllo, ma richiedono una notevole esperienza di sviluppo.

Connettore e strumenti di trasformazione precostituiti: questo approccio fornisce un'interfaccia intuitiva ma richiede la gestione di più pipeline.

Piattaforme di integrazione dei dati: questa piattaforma offre una soluzione completa per tutte le fasi del percorso dei dati, ma richiede competenze di sviluppo per la configurazione e la manutenzione.

DataOps: questo approccio consiste nel promuovere la collaborazione tra ingegneri dei dati e consumatori di dati e nell'automatizzare parti del processo di data ingestion per liberare tempo prezioso.

Sfide nella data ingestion

Sebbene sia fondamentale per le pipeline di dati, il processo di data ingestion non è privo di complessità.

Sicurezza dei dati: una maggiore esposizione aumenta il rischio di violazioni di sicurezza per i dati sensibili. Il rispetto delle normative sulla sicurezza dei dati aggiunge complessità e costi.

Scalabilità e varietà: possono sorgere colli di bottiglia in ambito di prestazioni a causa del volume, della velocità e della varietà di dati in continua crescita.

Frammentazione dei dati: la mancanza di coerenza può ostacolare gli sforzi di analisi dei dati e complicare la creazione di una visione unificata dei dati. Quando i dati di origine vengono modificati senza un aggiornamento nel sistema di destinazione, si verifica una deviazione dello schema, che può interrompere i workflow.

Garanzia della qualità dei dati: la natura complessa dei processi di data ingestion può compromettere l'affidabilità dei dati.

Casi d'uso e applicazioni della data ingestion

La data ingestion è la base per sbloccare il potenziale dei dati all'interno delle organizzazioni.

Acquisizione di data lake nel cloud

Le soluzioni di data ingestion consentono alle aziende di raccogliere e trasferire vari dati in un data lake cloud centralizzato. La data ingestion di alta qualità è fondamentale in questo scenario, in quanto qualsiasi errore può compromettere il valore e l'affidabilità dei dati per l'analisi a valle e le iniziative di AI e apprendimento automatico.

Modernizzazione del cloud

Le organizzazioni che migrano sul cloud per iniziative di analisi avanzata e AI spesso devono affrontare sfide legate ai dati legacy, alle fonti di dati in silo e all'aumento del volume, della velocità e della complessità dei dati. Le moderne soluzioni di data ingestion spesso forniscono procedure guidate prive di codice che semplificano il processo di acquisizione dei dati da database, file, applicazioni e fonti di streaming.

Le soluzioni di data ingestion dati possono accelerare la modernizzazione del data warehouse facilitando la migrazione di massa di database on-premise, data warehouse e contenuti mainframe verso data warehouse basati su cloud. L'utilizzo delle tecniche CDC (Change Data Capture) con la data ingestion mantiene il data warehouse del cloud costantemente aggiornato con le informazioni più recenti.

Analytics in tempo reale

L'elaborazione in tempo reale dei flussi di dati apre le porte a nuove opportunità di guadagno. Ad esempio, le aziende di telecomunicazioni possono utilizzare i dati dei clienti in tempo reale per ottimizzare le strategie di vendita e di marketing. Allo stesso modo, i dati raccolti dai sensori IoT possono migliorare l'efficienza operativa, mitigare i rischi e generare preziosi insight analitici.

Per sbloccare la potenza dell'analisi in tempo reale, gli strumenti di data ingestion consentono la perfetta integrazione di dati in streaming in tempo reale (dati clickstream, dati dei sensori IoT, log delle macchine, feed dei social) in hub di messaggi o destinazioni di streaming, consentendo il trattamento dei dati in tempo reale quando si verificano gli eventi.

Soluzioni correlate

IBM watsonx.data™

Scopri IBM watsonx.data, uno storage dei dati ibrido e scalabile, progettato per i workload di AI e analisi. Offre accesso ai dati aperto, motori di query adatti allo scopo e integrazione con vari ambienti di dati, consentendo una gestione e una preparazione dei dati efficiente su qualsiasi configurazione cloud oppure on-premise.

Esplora IBM® watsonx.data

IBM® DataStage

IBM DataStage è uno strumento ETL ed ELT avanzato progettato per semplificare l'integrazione e la trasformazione dei dati in ambienti cloud e on-premise. Offre funzionalità di integrazione automatizzate, funzionalità di gestione dei dati migliorate e supporto per configurazioni ibride o multicloud.

Esplora IBM DataStage

IBM Manta Data Lineage

IBM Manta Data Lineage è una piattaforma progettata per aumentare la trasparenza e l'accuratezza della pipeline di dati. Automatizza la scansione e la mappatura dei flussi di dati, fornendo una visione completa dei dati dall'origine al consumo. Le funzioni principali includono la granularità a livello di colonna, la mitigazione dei rischi, la scalabilità, l'ottimizzazione della collaborazione e il supporto per oltre 50 tecnologie.

Esplora IBM Manta Data Lineage

Risorse

Guida completa alla data ingestion: tipi, processi e best practice

Esplora una guida completa alla data ingestion, che ne illustra l’importanza, i tipi e le best practice. Scopri l’intero processo, inclusi l’acquisizione, la convalida, la trasformazione e il caricamento dei dati, oltre al data discovery, per ottenere insight sulla gestione e l’utilizzo efficace di diverse fonti di dati.

La strategia di data ingestion è un fattore chiave per la qualità dei dati

Una strategia di data ingestion ben progettata è fondamentale per mantenere la qualità dei dati. Questa guida sottolinea l’importanza di osservare e gestire i dati quando entrano nei sistemi per prevenire errori e migliorare l’efficienza dei workflow dei dati.

L'importanza dell'integrazione dei dati e della data ingestion per l'AI aziendale

Scopri l’importanza di una integrazione dei dati e di una data ingestion efficienti per l’AI aziendale, evidenziando come pipeline di dati accurate siano fondamentali per l’efficacia del modello AI. Scopri le best practice per garantire la qualità e l’affidabilità dei dati per migliorare le prestazioni dell’AI.

Fai il passo successivo

Implementa oggi stesso l'osservabilità proattiva dei dati con IBM Databand, in modo da individuare un problema di integrità dei dati prima che lo facciano i tuoi utenti.

Esplora Databand

Prenota una demo live