Cos'è l'integrazione dei dati in tempo reale?

Immagine di un uomo con tablet che cammina in un data center

Autori

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

Cos'è l'integrazione dei dati in tempo reale?

L'integrazione dei dati in tempo reale prevede la cattura e l'elaborazione dei dati da più fonti non appena disponibili, per poi integrarli immediatamente in un sistema target.
 

Come per la tradizionale integrazione dei dati, l'integrazione dei dati in tempo reale funziona per combinare e armonizzare i dati che possono essere isolati o non coerenti in tutta l'organizzazione. Il processo include passaggi dalla data ingestion all'analisi dei dati e consente agli utenti di prendere decisioni più rapide e informate.

La differenza sta nella velocità della disponibilità dei dati. L'integrazione dei dati in tempo reale consente agli utenti di estrarre insight dai dati con un ritardo minimo, in genere entro pochi millisecondi.

L'accesso istantaneo a dati di alta qualità da un'ampia gamma di fonti (come database, fogli di calcolo, applicazioni e cloud service) e formati offre alle aziende l'agilità di reagire rapidamente ai cambiamenti. Promuove casi d'uso come la business intelligence (BI), l'AI generativa (gen AI), l'iper-personalizzazione e molto altro.

I tradizionali processi di integrazione dei dati, come l'elaborazione in batch, non sono in grado di supportare i crescenti volumi di dati e le esigenze di dati ad alta velocità delle imprese moderne. L'integrazione dei dati in tempo reale utilizza varie tecnologie di streaming e processi di dati in tempo reale, che vanno dalle soluzioni open source alle piattaforme complete di integrazione dei dati, progettate per funzionare in modo continuo e su larga scala.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Perché l'integrazione dei dati in tempo reale è importante?

I dati sono la forza trainante dell'innovazione, nonché un asset critico per le organizzazioni basate sui dati. Gli attuali volumi di dati sono in crescita: si prevede che la datasfera globale raggiunga i 393,9 zettabyte entro il 2028. I dati stanno inoltre diventando più distribuiti e diversificati, memorizzati in vari sistemi e repository, ambienti cloud e on-premise.

Gestire questa montagna di dati sempre più complessa è una sfida notevole. Le organizzazioni sono alle prese con i silos, l'obsolescenza dei dati (quando ci sono lacune temporali dovute al mancato aggiornamento dei dati), la governance dei dati e l'elevata latenza della rete.

Ad aggravare la sfida della moderna gestione dei dati ci sono le pressioni per essere agili e innovativi. I mercati moderni sono volatili e le organizzazioni sanno di necessitare dell'elaborazione dei dati in tempo reale per rispondere rapidamente ai cambiamenti. La Gen AI è emersa anche come una tecnologia essenziale per rimanere competitivi, con un aumento previsto del PIL globale pari al 7% entro i prossimi 10 anni.

Tuttavia, la gen AI richiede enormi quantità di dati di alta qualità per produrre risultati validi. Inoltre, per i casi d'uso in cui i modelli AI devono rispondere in tempo reale (come il rilevamento delle frodi o la logistica) è fondamentale che i dati siano forniti non appena raccolti. Attualmente, solo il 16% dei leader tecnologici è sicuro che le proprie attuali capacità a livello di cloud e dati siano in grado di supportare la gen AI.1

L'integrazione dei dati in tempo reale aiuta a soddisfare questa esigenza contemporanea di accesso ai dati, fornendo anche i benefici dell'integrazione dei dati, ovvero la riduzione dei silos e il miglioramento della qualità dei dati. Inoltre, aumenta l'efficienza operativa consentendo di ottenere insight più rapidi e un processo decisionale basato sui dati.

Mixture of Experts | 28 agosto, episodio 70

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Due tipi di dati in tempo reale

I dati in tempo reale vengono spesso suddivisi in due tipologie: dati in streaming e dati di eventi. Comprendere in che modo i tipi differiscono e si relazionano è critico per le organizzazioni che desiderano integrazione e insight in tempo reale.

Streaming dei dati

I dati in streaming sono dati in tempo reale che fluiscono continuamente da varie fonti, come dispositivi Internet of Things (IoT), mercati finanziari, attività sui social media o transazioni di e-commerce. Lo streaming dei dati è fondamentale per i big data e la real time analytics, l'intelligenza artificiale (AI) e il machine learning. È anche fondamentale per altri casi d'uso che richiedono informazioni continue e aggiornate.

Stream di eventi

Gli eventi sono una singola modifica, un'attività o un'azione importanti per un sistema, come la vendita di un prodotto, il trasferimento di denaro o il raggiungimento di una soglia prestabilita. Gli eventi correlati sono raggruppati insieme. L'erogazione continua di questi eventi raggruppati può essere considerata uno stream o, più specificamente, uno stream di eventi. Tuttavia, non tutte le istanze di data streaming contengono eventi.

Strumenti e metodi per l'integrazione dei dati in tempo reale

Esistono diversi strumenti e metodi di integrazione dei dati in tempo reale, tra cui:

  • Stream data integration (SDI)
  • Change data capture (CDC)
  • Integrazione di applicazioni
  • Virtualizzazione dei dati

Stream data integration (SDI)

A differenza dell'integrazione in batch, che integra snapshot di dati provenienti da varie fonti a intervalli specifici, la stream data integration (SDI) integra i dati in tempo reale non appena diventano disponibili. Consuma, elabora e carica costantemente flussi di dati in un sistema di destinazione per l'analisi. Queste funzionalità consentono l'analytics avanzata dei dati, così come il machine learning e altri casi d'uso per i dati in tempo reale, come il rilevamento delle frodi e l'analisi dell'IoT.

L'implementazione della SDI richiede pipeline di dati in streaming, che spostano milioni di record di dati tra sistemi aziendali con bassa latenza e alta velocità. Queste pipeline aiutano a garantire l'integrità dei dati riducendo significativamente il rischio di danneggiamento o duplicazione dei dati, problemi comuni quando si elaborano rapidamente grandi volumi di dati.

Le piattaforme d'integrazione dei dati come Apache Kafka e IBM StreamSets possono aiutare le organizzazioni a costruire pipeline di dati in streaming su misura per i loro specifici ecosistemi IT.

Change data capture (CDC)

La change data capture applica le modifiche via via che avvengono dalle fonti di dati, come database Microsoft SQL Server, Oracle o MongoDB, ai data warehouse, alle soluzioni ETL e ad altri repository di dati o sistemi di destinazione. Le modifiche possono includere cancellazioni, inserimenti e aggiornamenti dei dati. A differenza degli strumenti di replica dei dati, la CDC acquisisce e replica solo le modifiche, non l'intero set di dati.

In sostanza, la CDC aiuta a mantenere i sistemi aggiornati in tempo reale. Inviando solo i dati modificati, si riducono anche i costi dell'elaborazione dei dati, i tempi di caricamento dei dati e il traffico di rete.

Integrazione delle applicazioni

Poiché un'azienda media utilizza circa 1.200 applicazioni cloud per funzionare e ogni applicazione genera i propri dati, si sono creati i silos. Tuttavia, i workflow moderni richiedono flussi di dati in tempo reale tra applicazioni e sistemi. L'integrazione delle applicazioni, chiamata anche integrazione software, automatizza e semplifica i processi di trasferimento dei dati tra le applicazioni software per consentire l'integrazione dei dati in tempo reale o quasi in tempo reale.

Le aziende utilizzano spesso application programming interface (API) per creare e automatizzare i workflow di integrazione delle applicazioni. Un'API è un insieme di regole o protocolli che consentono alle applicazioni di comunicare tra loro in modo ottimale e scambiare dati.

Le aziende possono anche utilizzare webhook e middleware per facilitare l'integrazione delle applicazioni.

Virtualizzazione dei dati

La virtualizzazione dei dati crea un livello virtuale che fornisce una visione unificata dei flussi di dati in tempo reale provenienti da varie fonti, come i dati dei sensori e i log delle attrezzature. Questa visualizzazione aggregata elimina la necessità di spostare, duplicare o elaborare i dati in batch altrove. Queste funzionalità riducono notevolmente i tempi e i costi di integrazione, minimizzando al contempo il rischio di imprecisioni o perdite di dati.

Gli strumenti di virtualizzazione dei dati possono anche fornire un livello semantico, ovvero un'interfaccia di esperienza utente che converte i dati in termini significativi per prendere decisioni aziendali.

Inoltre, la virtualizzazione dei dati è una soluzione di integrazione dei dati sia per i dati in tempo reale che per quelli storici, che crea una visione completa dell'intero ecosistema di dati operativi di un'organizzazione. Questo ricco set di dati è ideale per addestrare i foundation model alla base della gen AI.

Altri tipi di integrazione dei dati

Esistono altri tipi di processi di integrazione dei dati che possono essere utilizzati in tandem con l'integrazione dei dati in tempo reale, a seconda delle esigenze di un'organizzazione.

  • Integrazione dei dati in batch: nell'integrazione in batch, i dati vengono raccolti e memorizzati all'interno di un gruppo. Quando è trascorso un determinato periodo di tempo o viene raccolta una determinata quantità di dati, i dati vengono spostati e integrati in un batch. Questo metodo è ideale per i workload ad alta intensità di calcolo e quando il tempo non è un fattore motivante.

  • Integrazione dei dati in microbatch: l'integrazione in microbatch è spesso considerata un'alternativa quasi in tempo reale alla tradizionale elaborazione in batch. Con questo metodo, i dati vengono elaborati in workload più piccoli e frequenti, generando insight quasi in tempo reale con una latenza inferiore.

  • Estrazione, trasformazione, caricamento (ETL): il processo di integrazione dei dati ETL combina, pulisce e organizza i dati provenienti da diverse fonti (come sistemi ERP e database) in un unico set di dati uniforme per l'archiviazione in un data warehouse, data lake o altro sistema di destinazione. Le pipeline di dati ETL possono rappresentare una scelta adeguata quando la qualità e la coerenza dei dati sono prioritarie, poiché il processo di trasformazione dei dati può includere rigorose fasi di pulizia e convalida.
  • Estrazione, caricamento, trasformazione (ELT): come l'ETL, anche l'integrazione dei dati ELT sposta i dati non elaborati da un sistema di origine a una risorsa di destinazione. Tuttavia, invece di pulire i dati all'inizio, carica i dati non elaborati direttamente nello storage per trasformarli in base alle necessità. Ciò consente una gestione dei dati più flessibile. L'ELT viene in genere utilizzato quando la velocità e la scalabilità sono critiche.

Sebbene questi tipi di integrazione dei dati siano tra i più comuni, l'elenco non è esaustivo. Ad esempio, alcune organizzazioni possono anche utilizzare metodi di integrazione federata, integrazione manuale e integrazione uniforme dell'accesso ai dati.

Casi d'uso per l'integrazione dei dati in tempo reale

L'integrazione dei dati in tempo reale è utile per molti settori e scenari. Alcuni casi d'uso comuni includono:

Intelligenza operativa

L'integrazione dei dati in tempo reale della supply chain, della produzione, della gestione dell'inventario e di altri processi operativi può migliorare gli sforzi di ottimizzazione dei processi. Se abbinate a strumenti di BI, le informazioni aggiornate possono essere visualizzate su dashboard, report e altre visualizzazioni per una visione intelligente e trasparente delle prestazioni complessive.

Personalizzazione del cliente

Le aziende che integrano le informazioni sui clienti provenienti dai customer relationship manager (CRM), dai social media e da altre fonti in tempo reale possono andare oltre la personalizzazione tradizionale e trovare un vantaggio competitivo. Gli insight in tempo reale consentono l'iper-personalizzazione, ovvero esperienze, prodotti o servizi altamente personalizzati in base al comportamento e alle preferenze individuali dei clienti.

Rilevazione di frodi

Le piattaforme di integrazione dei dati in tempo reale facilitano l'aggregazione perfetta di dati transazionali, comportamentali ed esterni sulle minacce. Gli analytics engine possono quindi inserire i dati e rilevare i problemi su larga scala, proteggendo le aziende da frodi e perdite finanziarie e migliorando al contempo il loro livello di conformità normativa.

Intelligenza artificiale

Grazie ai flussi di dati continuamente aggiornati, i modelli AI possono fare previsioni più accurate e in tempo reale. L'integrazione in tempo reale supporta anche l'automazione. Ad esempio, come parte delle loro funzionalità principali, i chatbot di robotic process automation (RPA) e i veicoli autonomi prendono decisioni in tempo reale.

Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM Databand

Scopri IBM Databand, software di osservabilità per pipeline di dati. Raccoglie automaticamente i metadati per creare linee di base cronologiche, rilevare anomalie e creare workflow per correggere i problemi di qualità dei dati.

Esplora Databand
Soluzioni di integrazione dei dati

Crea pipeline di dati resilienti, ad alte prestazioni e ottimizzate in termini di costi per le tue iniziative di AI generativa, real-time analytics, modernizzazione del data warehouse e per le tue esigenze operative con le soluzioni IBM per l'integrazione dei dati.

Scopri le soluzioni per l'integrazione dei dati
Fai il passo successivo

Scopri IBM DataStage, uno strumento ETL (Extract, Transform, Load) che offre un'interfaccia visiva per progettare, sviluppare e distribuire pipeline di dati. È disponibile come SaaS gestito su IBM Cloud, per il self-hosting e come componente aggiuntivo di IBM Cloud Pak for Data.

Esplora DataStage Esplora i servizi di analytics
Note a piè di pagina

1 "6 blind spots tech leaders must reveal," IBM Institute for Business Value. 20 agosto 2024.