Cos'è l'orchestrazione dei dati?

By Alice Gomstyn , Alexandra Jonker

Definizione di orchestrazione dei dati

L'orchestrazione dei dati consiste nella gestione e nel coordinamento dei flussi di dati tramite diversi sistemi, processi e strumenti. Aiuta a organizzare e ottimizzare le fasi della pipeline dati, inclusa la raccolta dati, l'ingestione, la trasformazione, l'integrazione e lo storage.

Grazie a un processo di orchestrazione dei dati di successo, le informazioni fluiscono in modo affidabile ed efficiente verso le varie destinazioni e sono pronte per l'analisi dei dati e altri usi al loro arrivo. Queste funzionalità di base la rendono una pratica fondamentale di gestione dei dati nell'era dei workload dei big data e del processo decisionale basato sui dati.

I data engineer si affidano a strumenti di orchestrazione dei dati e piattaforme di orchestrazione per semplificare lo spostamento dei dati e supportare la scalabilità delle iniziative di dati aziendali. L'automazione è centrale in molte soluzioni moderne di orchestrazione dei dati. Consente di eseguire le attività sui dati, come l'integrazione e la trasformazione dei dati, in un ordine logico senza l'intervento umano.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Perché le aziende necessitano dell'orchestrazione dei dati?

Per utilizzare la potenza dei loro crescenti volumi di dati, le aziende devono orientarsi in ecosistemi dati sempre più complessi. I loro dati provengono spesso da fonti diverse e in formati variabili.

Vengono inoltre comunemente memorizzati sia in repository basati su cloud che on-premise, come data lake e data warehouse, in tutto il mondo. In molte organizzazioni i dati vengono utilizzati con strumenti diversi da team e dipendenti differenti (CRM per i team di vendita, piattaforme di analytics per gli operatori di marketing, e così via). Secondo un sondaggio condotto da IDC nel 2024 tra tra leader IT e dei reparti aziendali, i dati operativi provengono in media da 35 diversi sistemi e sono integrati in 18 diversi repository di data analytics.¹

Questi ambienti dati così complessi sono soggetti a silos di dati, dati di bassa qualità e altri problemi che creano colli di bottiglia nelle pipeline di dati e introducono errori nelle analisi a valle. Un'efficace orchestrazione dei dati può aiutare le imprese a superare queste sfide e a sbloccare valore dai propri dati.

Quali sono i benefici dell'orchestrazione dei dati?

L'orchestrazione dei dati aiuta le aziende a utilizzare i dati per ottenere informazioni preziose, decisioni informate e innovazione. I benefici specifici includono:

Eliminazione dei silos di dati

Via via che le organizzazioni raccolgono enormi quantità di dati non elaborati, questi in gran parte si trasformano in dati isolati, intrappolati in sistemi eterogenei, dove sono noti e accessibili a un numero limitato di utenti. L'orchestrazione dei dati stabilisce la connettività tra fonti di dati diverse, eliminando i silos affinché i team possano accedere ai dati più rilevanti e utili della propria azienda per informare il processo decisionale.

Migliorare la qualità dei dati

L'incoerenza e l'obsolescenza dei dati sono i principali responsabili della riduzione della qualità dei dati. L'orchestrazione dei dati automatizza i controlli e i processi relativi alla di qualità dei dati, tra cui la trasformazione dei dati e la convalida dei dati, migliorando l'uniformità e la freschezza durante l'intero ciclo di vita dei dati.

Maggiore flessibilità e scalabilità

Via via che le organizzazioni raccolgono più dati o dati diversi, l'orchestrazione dei dati le aiuta ad adattare i workflow dei dati e a scalarne i processi. Questa flessibilità può essere cruciale per soddisfare le esigenze in evoluzione e raggiungere i risultati aziendali desiderati.

Accelerazione degli insight sui dati

Quando i dati sono accessibili, le organizzazioni possono eseguire l'analytics dei dati più velocemente, accelerando la generazione di insight. Inoltre, la moderna orchestrazione dei dati può consentire il monitoraggio dei dati in tempo reale per una risoluzione più rapida dei problemi, portando a una business intelligence più affidabile e tempestiva.

Supporto dell'innovazione AI

L'orchestrazione dei dati supporta set di dati AI-ready, ovvero aiuta a garantire che i dati soddisfino gli standard di qualità, accessibilità e fiducia necessari per alimentare le pipeline di intelligenza artificiale (AI) e machine learning (ML).

Migliore governance e conformità dei dati

Le soluzioni di orchestrazione dei dati possono includere strumenti di data lineage che monitorano la trasformazione e il flusso dei dati nel tempo. Questa funzionalità fornisce una traccia di audit dei dati e aiuta a garantire che siano memorizzati e processati in conformità con le policy di governance dei dati e i requisiti normativi.

Potenziamento della produttività dei team di dati

L'automazione di attività ripetitive tramite l'orchestrazione dei dati (vedi sotto) permette ai team di dati di concentrarsi su compiti di maggior valore, come il data modeling e l'analisi. Inoltre, la riduzione dei processi manuali attraverso l'automazione può ridurre il rischio di errore umano.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Vai all'episodio

In che modo l'orchestrazione dei dati è diversa dall'integrazione dei dati?

L'orchestrazione dei dati e l'integrazione dei dati sono concetti strettamente correlati ma non identici. Sebbene entrambi permettano il consolidamento e l'unificazione dei dati per i casi d'uso dell'analytics, l'integrazione dei dati è più dettagliata, mentre l'orchestrazione dei dati è una pratica generale.

L'orchestrazione dei dati ottimizza il movimento dei dati attraverso diversi sistemi e processi. L'integrazione dei dati è uno di questi processi, che utilizza diversi metodi (come estrazione, trasformazione e caricamento, o ETL) per combinare e armonizzare i dati provenienti da fonti diverse e poi caricarli in un sistema di destinazione.

Scopri di più sull'integrazione dei dati

Le 3 fasi dell'orchestrazione dei dati

L'orchestrazione dei dati aiuta le organizzazioni ad affrontare l'enorme complessità dei loro ecosistemi di dati. La pratica stessa è comunemente suddivisa in tre passaggi fondamentali:

Organizzazione: i dati vengono raccolti da una serie di fonti interne ed esterne e poi organizzati (spesso in una posizione centrale) in modo che siano pronti per la trasformazione.
Trasformazione: i dati non elaborati vengono convertiti in un formato unificato, puliti e convalidati per confermarne la coerenza e l'accuratezza.
Attivazione: i dati vengono resi disponibili per l'analisi, l'indirizzamento verso gli strumenti della dashboard e per altri scopi.

Funzioni chiave dell'orchestrazione dei dati

Alla base dei passaggi fondamentali dell'orchestrazione dei dati ci sono diverse funzioni chiave. Tra queste:

Definizione delle dipendenze tra le attività e sequenziamento delle attività
Automazione dei workflow dei dati
Monitoraggio e invio di avvisi

Definizione delle dipendenze delle attività e sequenziamento delle attività

L'orchestrazione dei dati spesso inizia con la definizione delle attività di elaborazione dei dati e del loro ordine di esecuzione nelle pipeline di dati e nei workflow. Aiuta a garantire che quando un'attività dipende dal risultato di un'altra attività, quest'ultima venga completata per prima. Questo tipo di sequenziamento delle attività, basato sulle dipendenze, aiuta le organizzazioni a evitare costosi fallimenti della pipeline.

Per progettare e organizzare le sequenze di attività, gli ingegneri dei dati utilizzano spesso grafi aciclici diretti, o DAG,in cui i nodi sono collegati da connessioni unidirezionali che non formano cicli. Nodi diversi in un DAG possono rappresentare diversi processi di dati, come data ingestion e trasformazione dei dati, e la sequenza in cui devono essere eseguiti. Gli archi che collegano i nodi rappresentano le dipendenze tra i processi.

Un'alternativa ai DAG per definire e ordinare le attività è un approccio orientato al codice. Un approccio diffuso orientato al codice utilizza il linguaggio di programmazione open-source Python per creare funzioni per la gestione dei workflow; questa configurazione è spesso considerata più adatta ad accogliere workflow dinamici.

Automazione dei workflow dii dati

L'orchestrazione dei dati moderna automatizza più workflow dei dati, come ETL, ELT (estrazione, caricamento, trasformazione) e la trasformazione dei dati all'interno dei data warehouse, al fine di garantire la coerenza e minimizzare o eliminare l'intervento umano. Una persona può avviare un'attività automatizzata sui dati, tuttavia le attività possono anche essere programmate attraverso tre tipi di trigger:²

Trigger basati sul tempo: le attività vengono eseguite a intervalli o orari prestabiliti.
Trigger basati sulle dipendenze: le attività vengono eseguite solo dopo che altre attività specificate sono state completate.
Attivazione basata su eventi: segnali provenienti dal mondo reale, come le chiamate API, lanciano un'attività.

Monitoraggio e invio di avvisi

Sebbene il monitoraggio delle pipeline di dati sia spesso considerato una pratica di data observability, svolge anche un ruolo nell'orchestrazione dei dati aiutando a garantire che i dati fluiscano e siano elaborati come previsto.

Le organizzazioni possono monitorare diversi tipi di metriche, tra cui metriche delle prestazioni come latenza e throughput, metriche di utilizzo delle risorse come l'utilizzo di CPU e memoria e metriche sulla qualità dei dati, come precisione, completezza e coerenza.³

Quando viene rilevato un problema nella pipeline di dati, come il fallimento di un'attività, gli strumenti di notifica possono inviare avvisi tempestivi ai team di dati affinché possano risolvere rapidamente il problema. Le soluzioni di orchestrazione possono anche consentire tentativi di ripetizione per mitigare i problemi; ad esempio, un’attività non riuscita può essere eseguita di nuovo automaticamente un numero specifico di volte prima che vengano inviate le notifiche.

Orchestrazione dei dati e altri tipi di orchestrazione

L'orchestrazione dei dati è simile ma notevolmente distinta da altri due tipi di orchestrazione, ovvero l'orchestrazione dei workflow e l'orchestrazione dei processi. Entrambe queste pratiche sono più ampie dell'orchestrazione dei dati, e l'orchestrazione dei dati può essere considerata una forma di entrambe.

L'orchestrazione del workflow si concentra sul coordinamento e la gestione di una serie di attività, sistemi e strumenti interconnessi per ottenere un risultato specifico. Enfatizza l'esecuzione end-to-end e l'integrazione dei workflow in ambienti diversi, aiutando le attività a svolgersi nell'ordine corretto, nel rispetto delle dipendenze.

L'orchestrazione dei processi si riferisce alla gestione e all'integrazione di più processi aziendali, che spesso coinvolgono workflow, persone e sistemi. Invece di concentrarsi sulla gestione del workflow, comporta il coordinamento end-to-end di interi processi aziendali, promuovendo l'allineamento con gli obiettivi organizzativi.

Piattaforme e strumenti per l'orchestrazione dei dati

Le organizzazioni e i team che si occupano di dati possono scegliere tra diverse soluzioni di orchestrazione dei dati, nel tentativo di ottimizzare il modo in cui elaborano i dati. La soluzione migliore per un’organizzazione dipenderà dalle sue priorità specifiche, come i costi (open source o commerciali), le esigenze di observability e le integrazioni con altre soluzioni di dati (strumenti di analytics come dbt o piattaforme dati basate su cloud come Snowflake).

Gli strumenti e le piattaforme di orchestrazione dei dati più diffusi offrono generalmente opzioni per connettersi ad altre soluzioni di dati, ma differiscono sotto altri aspetti. Di seguito, un approfondimento su diverse soluzioni di orchestrazione dei dati:

Apache Airflow
AWS Step Functions
Azure Data Factory
Dagster
Piattaforme IBM DataOps
Prefect

Apache Airflow

Apache Airflow, la soluzione di orchestrazione dei dati più celebre, è una piattaforma open source progettata principalmente per l'elaborazione in batch. Consente la pianificazione del workflow, dove i workflow vengono definiti come DAG. Airflow presenta un'architettura che supporta la scalabilità e l'esecuzione parallela, il che lo rende adatto alla gestione di pipeline complesse e ad alta intensità di dati.

AWS Step Functions

AWS Step Functions è un servizio di orchestrazione serverless di Amazon che offre un'interfaccia visiva per coordinare applicazioni distribuite e microservizi. È spesso consigliato alle organizzazioni che già si affidano all'infrastruttura Amazon, ma può anche integrarsi con applicazioni di terze parti.

Azure Data Factory

Azure Data Factory di Microsoft è un servizio di integrazione dati serverless completamente gestito che si integra nativamente con altri servizi Azure. Presenta un'interfaccia utente visiva per l'integrazione delle fonti di dati e l'orchestrazione di pipeline di dati ETL e ELT.

Dagster

Dagster è noto per il suo focus su observability e qualità dei dati, con funzionalità come il data lineage e il monitoraggio dei metadati. Le sue caratteristiche includono anche test locali e componenti riutilizzabili per supportare prodotti di dati AI-ready e pratiche moderne di ingegneria del software.

Strumenti e piattaforme IBM DataOps

IBM® offre una selezione di strumenti e piattaforme DataOps dotati di funzionalità di orchestrazione dei dati. IBM watsonx.data intelligence fornisce un catalogo dati per automatizzare la scoperta e la gestione della qualità dei dati. IBM watsonx.data integration offre un control plane unificato per la creazione di pipeline riutilizzabili. IBM Cloud Pak for Data utilizza la virtualizzazione dei dati, le pipeline e i connettori per combinare dati provenienti da fonti isolate, eliminando al contempo la necessità di spostamento fisico dei dati.

Prefect

Prefect è uno strumento di orchestrazione dei dati, disponibile in una versione open-source e in una soluzione gestita nel cloud con funzionalità aggiuntive per le aziende. A differenza di altre soluzioni di orchestrazione dei dati, Prefect non si basa sui DAG e adotta invece un approccio orientato al codice, che alcuni preferiscono per un'orchestrazione più dinamica.

Autori

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Rendering 3D di una spirale di diverse icone allineate, come una fotocamera, una manopola del volume e una lavagnetta

Leggi la guida per i Data Leader per scoprire come rendere i dati della tua organizzazione AI-ready.

Risorse

Rendering 3D di diverse icone allineate, come un microfono e una fotocamera

Gli agenti AI funzionano con i dati: i tuoi sono pronti?

I dati sono il tuo vantaggio competitivo. Scopri come sbloccarli in modo sicuro e ottenere un ROI misurabile dall'AI in questo breve webinar.

Cos'è la gestione dei dati

Techsplainers by IBM analizza gli elementi essenziali dei dati per l'AI, dai concetti chiave ai casi d'uso del mondo reale. Gli episodi chiari e rapidi ti aiutano ad apprendere rapidamente le nozioni fondamentali.

Rendering 3D di diverse icone allineate, come una manopola del volume e una cartellina

Unifica e accedi ai tuoi dati per scalare la tua AI

Scopri perché il percorso verso i dati AI-ready spesso inizia con un accesso efficace ai dati strutturati e non strutturati e quali problematiche possono ostacolare i leader dei dati.

Gli oneri legali si trasformano in insight strategici

Scopri come un agente legale basato su AI aiuta ad accelerare il processo decisionale, ridurre il lavoro manuale e migliorare la conformità normativa.

Due uomini che parlano tra loro in un podcast

AI Academy: sviluppare una strategia dei dati per l'AI aziendale

In questo episodio, Cathy Reese spiega come le organizzazioni necessitino attualmente di una strategia dei dati pronta per l’AI avanzata, utilizzando al meglio i loro dati di qualità superiore.

Rendering 3D di diverse icone allineate, come una fotocamera e aeroplani di carta

Il data lakehouse ibrido e aperto per l'AI

Semplifica l'accesso ai dati e automatizza la governance dei dati. Scopri la potenza dell'integrazione di una strategia di data lakehouse nella tua architettura di dati, con ottimizzazione dei costi dei workload e scalabilità dell'AI e dell'analytics, con tutti i tuoi dati, ovunque.

Report Cost of a Data Breach 2025

I costi delle violazioni dei dati non sono mai stati così elevati. Ottieni insight aggiornati sulle minacce alla cybersecurity e sul loro impatto finanziario sulle organizzazioni.

Rendering 3D di due righe di diverse icone come una fotocamera, una manopola del volume e una cartellina

La guida ai dati AI-ready per i leader dei dati

Scopri i passi concreti che i leader dei dati possono intraprendere per superare le sfide legate ai dati, creare le basi per una piattaforma dati affidabile e preparare i dati della tua organizzazione per l’AI.

Rendering 3D di diverse icone allineate, come la fotocamera, la manopola del volume e gli appunti

Come i vertici aziendali trasformano le informazioni in impatto

Esplora gli insight di 1.700 CDO in questo report intersettoriale per i leader dei dati.

Soluzioni correlate

IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets

IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data

Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics

Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.