Osservabilità della pipeline di dati: un modello per i data engineer

Vista aerea di persone che lavorano in un moderno ufficio

Autore

Eitan Chazbani

L'osservabilità della pipeline dati è la tua capacità di monitorare e comprendere lo stato di una pipeline dati in qualsiasi momento. In particolare, fornisce insight sugli stati interni della pipeline e su come interagiscono con gli output del sistema.

Crediamo che le pipeline di dati mondiali abbiano bisogno di una migliore osservabilità dei dati. Ma sfortunatamente, molto poco di ciò che accade oggi nell'ingegneria dei dati è osservabile. La maggior parte delle pipeline di dati sono costruite per spostare ma non per monitorare. Per misurare, ma non per tracciare. Trasformare, ma non raccontare. Il risultato è il famigerato caso della scatola chiusa.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Attenzione allo scenario della black box

Sai cosa entra. Sai cosa viene fuori. Ma cosa succede nel frattempo? E perché questa discrepanza? Purtroppo questi sono misteri che la maggior parte delle condutture non sono state costruite per risolvere. La maggior parte era progettata per lo scenario migliore.
Tuttavia, la realtà è ovviamente governata più strettamente dalla legge di Murphy e, sul lato output della scatola chiusa, spesso si vedono una serie di valori strani e colonne mancanti e criptiche. I data engineer hanno un bel grattacapo e si rendono conto che, per correggere, bisogna prima osservare.

Questa guida tratterà i seguenti punti:

  1. Cos'è l'osservabilità dei dati?
  2. Che cosa si intende per osservabilità della pipeline dei dati?
  3. Perché è importante l'osservabilità dei dati per le pipeline?
  4. Come implementi l'osservabilità per le pipeline di dati?
  5. In che modo le piattaforme di osservabilità dei dati possono aiutare?
AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Che cos'è l'osservabilità dei dati?

La parola "osservabilità" è un po' sulla bocca di tutti, ma probabilmente è meglio definirla: l'osservabilità dei dati è il termine generico per monitorare e migliorare lo stato di salute dei dati all'interno delle applicazioni e dei sistemi come le pipeline dei dati.

Osservabilità dei dati rispetto al monitoraggio: qual è la differenza?

Il "monitoraggio dei dati" ti consente di conoscere lo stato attuale della tua pipeline di dati o dei tuoi dati. Ti dice se i dati sono completi, accurati e aggiornati. Ti dice se le tue pipeline hanno avuto successo o meno. Il monitoraggio dei dati può mostrarti se le cose funzionano o meno, ma non fornisce molto contesto al di fuori di questo.

Pertanto, il monitoraggio è solo una delle funzioni dell'osservabilità. "Osservabilità dei dati" è un termine generico che include:

  • Monitoraggio: un dashboard che fornisce una vista operativa della pipeline o del sistema
  • Avviso: sia per gli eventi previsti che per le anomalie
  • Monitoraggio: possibilità di impostare e monitorare eventi specifici
  • Confronti: monitoraggio nel tempo, con avvisi per anomalie
  • Analisi: rilevamento automatico dei problemi che si adatta alla tua pipeline e allo stato di salute dei dati
  • Prossima azione migliore: azioni consigliate per correggere gli errori

Comprendendo non una sola attività (il monitoraggio) ma piuttosto un paniere di attività, l'osservabilità è molto più utile per gli ingegneri. L'osservabilità dei dati non si limita a descrivere il problema. Fornisce contesto e suggerimenti per aiutare a risolverlo.

"L'osservabilità dei dati va più a fondo del monitoraggio aggiungendo più contesto alle metriche di sistema, offrendo una visione più approfondita delle operazioni di sistema e indicando se gli ingegneri devono intervenire e applicare una correzione", spiega Evgeny Shulman, cofondatore e CTO di IBM® Databand. "In altre parole, mentre il monitoraggio ti dice che un microservizio sta consumando una determinata quantità di risorse, l'osservabilità ti dice che il suo stato attuale è associato a guasti critici e che devi intervenire".

Questo approccio proattivo è particolarmente importante quando si tratta di pipeline di dati.

Cos'è l'osservabilità della pipeline dati?

L'osservabilità della pipeline dati si riferisce alla capacità di monitorare e comprendere lo stato di una pipeline dati in qualsiasi momento, specialmente rispetto ai suoi stati interni, basandosi sugli output del sistema. Va oltre il monitoraggio di base per fornire una comprensione più profonda di come i dati si muovono e vengono trasformati in una pipeline, ed è spesso associato a metriche, registrazione e tracciamento delle pipeline di dati.

Le pipeline di dati spesso prevedono una serie di fasi in cui i dati vengono raccolti, trasformati e memorizzati. Questo può includere processi come l'estrazione di dati da diverse fonti, la pulizia dei dati, la trasformazione dei dati (come l'aggregazione) e il caricamento dei dati in un database o in un data warehouse. Ognuna di queste fasi può presentare comportamenti e potenziali problemi diversi che possono influire sulla qualità dei dati, l'affidabilità e le prestazioni complessive del sistema.

L'osservabilità fornisce insight su come funziona ogni fase della pipeline dati e su come il suo funzionamento interno si correla con tipi specifici di output, in particolare quelli che non forniscono i livelli richiesti di performance, qualità o accuratezza. Questi insight permettono ai team di data engineering di capire cosa è andato storto e di correggerlo.

Perché l'osservabilità dei dati è così importante per le pipeline?

L'osservabilità delle pipeline di dati è importante perché le pipeline sono passate da complicate a complesse, da molti sistemi concorrenti a molti sistemi interdipendenti.

Le pipeline sono essenziali per un settore in rapida espansione

È più probabile che mai che le applicazioni software non solo traggano beneficio dalle pipeline di dati, ma che si basino su di esse. E lo stesso vale per gli utenti finali. Quando grandi provider come AWS hanno interruzioni e i dashboard delle applicazioni di tutto il mondo scompaiono, puoi vedere i segnali intorno a te che la complessità crea dipendenze pericolose.

Attualmente, il settore dell'analytics ha un tasso di crescita annuo combinato del 12% all'anno. Entro il 2027, secondo Gartner, il suo valore sarà di ben 105 miliardi di dollari, circa la dimensione dell'economia dell'Ucraina. A questo ritmo, il volume dei dati aziendali aumenta attualmente del 62% ogni mese. Tutte quelle aziende che memorizzano e analizzano tutti quei dati? Stanno scommettendo il loro business su di esso e che i canali di dati che lo gestiranno continueranno a funzionare.

Il contesto è cruciale (e spesso mancante)

Una delle cause principali dei problemi di qualità dei dati e dei fallimenti delle pipeline sono le trasformazioni all'interno di queste pipeline. La maggior parte dell'architettura dei dati oggi è opaca: non puoi capire cosa succede all'interno. Le trasformazioni sono in atto, ma quando le cose non vanno come previsto, gli ingegneri dei dati non hanno molte informazioni sul perché.

Troppi team DataOps passano troppo tempo a cercare di diagnosticare problemi senza contesto. E se segui il primo istinto e utilizzi uno strumento di Application Performance Management per monitorare una pipeline DataOps, difficilmente si ottiene il risultato sperato.

L'osservabilità mantiene gli ingegneri sincronizzati (e fiduciosi)

"Le pipeline di dati si comportano in modo molto diverso rispetto alle applicazioni software e alle infrastrutture", afferma Evgeny. I team di ingegneria dei dati possono ottenere insight sullo stato dei lavori di alto livello (o DAG) e sulle prestazioni del database riepilogativo, ma non avranno visibilità sul giusto livello di informazioni di cui hanno bisogno per gestire le loro pipeline. Questo divario porta molti team a dedicare molto tempo a monitorare i problemi o a lavorare in uno stato di paranoia costante."

Avere un team di dati più grande e più specializzato può essere utile, ma può essere dannoso se questi membri del team non si coordinano. Un numero maggiore di persone che accedono ai dati ed eseguono le proprie pipeline e trasformazioni causa errori e influisce sulla stabilità dei dati.

Sempre più ingegneri oggi si preoccupano della stabilità dei dati e della loro idoneità all'uso da parte dei consumatori, all'interno e all'esterno dell'azienda. E così, sempre più team sono interessati all'osservabilità dei dati.

Come si implementa l'osservabilità per le pipeline di dati?

L'osservabilità dei dati funziona con la tua pipeline dati fornendo insight su come i tuoi dati fluiscono e vengono elaborati dall'inizio alla fine. Ecco una spiegazione più dettagliata di come funziona l'osservabilità dei dati all'interno della pipeline dati:

  • Data ingestion: l'osservabilità inizia dal punto in cui i dati vengono assorbiti nella pipeline. Può monitorare la quantità di dati ingeriti, la velocità di elaborazione e l'eventuale presenza di errori o ritardi.
  • Trattamento dei dati: mentre i dati si spostano attraverso varie fasi di trattamento, gli strumenti di osservabilità possono monitorare l'operazione di ciascuna fase. Questo include monitorare eventuali guasti, misurare la latenza, monitorare l'uso delle risorse e assicurarsi che i dati vengano trasformati correttamente.
  • Storage dei dati e consegna: l'osservabilità continua nella fase di storage e consegna. Può monitorare la rapidità con cui i dati vengono scritti nel database o nel data warehouse, assicurarsi che i dati vengano consegnati alle destinazioni corrette e avvisarti di eventuali problemi.
  • Rilevamento degli errori e risoluzione dei problemi: gli strumenti di osservabilità possono aiutare a identificare dove si sono verificati gli errori, le loro cause principali e persino a suggerire azioni di correzione. Questo è fondamentale per minimizzare il tempo di inattività e garantire l'affidabilità della tua pipeline dati.
  • Ottimizzazione delle prestazioni: monitorando le prestazioni della tua pipeline di dati, gli strumenti di osservabilità possono aiutare a identificare i colli di bottiglia e le opportunità di ottimizzazione. Questo può portare a un uso più efficiente delle risorse e a tempi di elaborazione più rapidi.
  • Rilevamento delle anomalie: l'osservabilità può aiutare a identificare anomalie che potrebbero indicare potenziali problemi o aree di miglioramento. Ad esempio, se i dati impiegano molto più tempo del solito a essere elaborati, ciò potrebbe indicare un problema con una particolare fase della pipeline.
  • Alert e report: gli strumenti di osservabilità spesso includono caratteristiche di allarme che possono avvisare in tempo reale di potenziali problemi, consentendo una risposta rapida. Spesso offrono anche caratteristiche di reporting complete che possono aiutarti a comprendere lo stato di salute e le prestazioni complessive della tua pipeline di dati.

Come le piattaforme di osservabilità dei dati possono aiutare

Le piattaforme di osservabilità dei dati forniscono insight che gli strumenti di monitoraggio da soli non possono offrire. Non ti dicono semplicemente cosa è andato storto, ma anche quali problemi sta causando e ti offrono indizi e persino le migliori soluzioni per correggerlo. Lo fa in modo continuo, senza che tu debba riprogettare le tue pipeline attuali o "cambiare il motore durante il volo", per così dire.

Perché gli ingegneri adottano piattaforme di osservabilità

  • Le tuoi pipeline di dati sono sistemi complessi. Richiedono un'architettura di osservabilità dei dati che conduca un'indagine costante.
  • Bisogna sapere dove le cose hanno fallito e perché. Una piattaforma di osservabilità fornisce un monitoraggio end-to-end proprio per questo scopo.
  • Hai bisogno di un modo per tenere traccia delle dipendenze downstream. Devi sapere, e non solo sperare, che la tua soluzione abbia risolto il problema alla radice.

Componenti di una piattaforma di osservabilità efficace per pipeline di dati

Le tue pipeline di dati sono sistemi complessi e richiedono un'architettura di osservabilità dei dati che conduca un'indagine costante. Hai bisogno di una piattaforma di osservabilità per il monitoraggio end-to-end, così da sapere dove le cose hanno fallito e perché. Hai bisogno di un modo per tracciare le dipendenze a valle, e sapere, e non solo sperare, che la tua soluzione abbia risolto il problema alla radice.

Una piattaforma di osservabilità dei dati dovrebbe includere:

  • Configurazione semplice: è necessario modificare la pipeline?
  • Monitoraggio end-to-end: è in grado di monitorare le dipendenze a valle?
  • L'architettura dell'osservabilità: fa qualcosa di più del semplice monitoraggio?
  • Impostazione della soglia: può eseguire il proprio rilevamento delle anomalie?
  • Amministrazione: può monitorare i dati a riposo?
  • Osservabilità dei dati open source: fornisce componenti open source che è possibile adattare?
  • Osservabilità dei sistemi distribuiti: è possibile osservare anche i sistemi distribuiti?

La piattaforma dovrebbe anche offrire numerose indicazioni prescrittive. Il campo dell'osservabilità dei dati e dell'ingegneria dei dati sta avanzando rapidamente, ed è uno dei modi migliori per trovare una piattaforma che si evolve velocemente quanto i tuoi problemi. Non è più sufficiente monitorare. Bisogna osservare, seguire, allertare e reagire.

Scopri come IBM Databand fornisce il monitoraggio delle pipeline di dati per rilevare rapidamente gli incidenti relativi ai dati, come esecuzioni e lavori non andati a buon fine, in modo da poter gestire la crescita della pipeline. Se desideri approfondire ulteriormente l'argomento, prenota subito una demo.

Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati Scopri watsonx.data