L'osservabilità della pipeline dati è la tua capacità di monitorare e comprendere lo stato di una pipeline dati in qualsiasi momento. In particolare, fornisce insight sugli stati interni della pipeline e su come interagiscono con gli output del sistema.
Crediamo che le pipeline di dati mondiali abbiano bisogno di una migliore osservabilità dei dati. Ma sfortunatamente, molto poco di ciò che accade oggi nell'ingegneria dei dati è osservabile. La maggior parte delle pipeline di dati sono costruite per spostare ma non per monitorare. Per misurare, ma non per tracciare. Trasformare, ma non raccontare. Il risultato è il famigerato caso della scatola chiusa.
Newsletter di settore
Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
Sai cosa entra. Sai cosa viene fuori. Ma cosa succede nel frattempo? E perché questa discrepanza? Purtroppo questi sono misteri che la maggior parte delle condutture non sono state costruite per risolvere. La maggior parte era progettata per lo scenario migliore.
Tuttavia, la realtà è ovviamente governata più strettamente dalla legge di Murphy e, sul lato output della scatola chiusa, spesso si vedono una serie di valori strani e colonne mancanti e criptiche. I data engineer hanno un bel grattacapo e si rendono conto che, per correggere, bisogna prima osservare.
Questa guida tratterà i seguenti punti:
La parola "osservabilità" è un po' sulla bocca di tutti, ma probabilmente è meglio definirla: l'osservabilità dei dati è il termine generico per monitorare e migliorare lo stato di salute dei dati all'interno delle applicazioni e dei sistemi come le pipeline dei dati.
Il "monitoraggio dei dati" ti consente di conoscere lo stato attuale della tua pipeline di dati o dei tuoi dati. Ti dice se i dati sono completi, accurati e aggiornati. Ti dice se le tue pipeline hanno avuto successo o meno. Il monitoraggio dei dati può mostrarti se le cose funzionano o meno, ma non fornisce molto contesto al di fuori di questo.
Pertanto, il monitoraggio è solo una delle funzioni dell'osservabilità. "Osservabilità dei dati" è un termine generico che include:
Comprendendo non una sola attività (il monitoraggio) ma piuttosto un paniere di attività, l'osservabilità è molto più utile per gli ingegneri. L'osservabilità dei dati non si limita a descrivere il problema. Fornisce contesto e suggerimenti per aiutare a risolverlo.
"L'osservabilità dei dati va più a fondo del monitoraggio aggiungendo più contesto alle metriche di sistema, offrendo una visione più approfondita delle operazioni di sistema e indicando se gli ingegneri devono intervenire e applicare una correzione", spiega Evgeny Shulman, cofondatore e CTO di IBM® Databand. "In altre parole, mentre il monitoraggio ti dice che un microservizio sta consumando una determinata quantità di risorse, l'osservabilità ti dice che il suo stato attuale è associato a guasti critici e che devi intervenire".
Questo approccio proattivo è particolarmente importante quando si tratta di pipeline di dati.
L'osservabilità della pipeline dati si riferisce alla capacità di monitorare e comprendere lo stato di una pipeline dati in qualsiasi momento, specialmente rispetto ai suoi stati interni, basandosi sugli output del sistema. Va oltre il monitoraggio di base per fornire una comprensione più profonda di come i dati si muovono e vengono trasformati in una pipeline, ed è spesso associato a metriche, registrazione e tracciamento delle pipeline di dati.
Le pipeline di dati spesso prevedono una serie di fasi in cui i dati vengono raccolti, trasformati e memorizzati. Questo può includere processi come l'estrazione di dati da diverse fonti, la pulizia dei dati, la trasformazione dei dati (come l'aggregazione) e il caricamento dei dati in un database o in un data warehouse. Ognuna di queste fasi può presentare comportamenti e potenziali problemi diversi che possono influire sulla qualità dei dati, l'affidabilità e le prestazioni complessive del sistema.
L'osservabilità fornisce insight su come funziona ogni fase della pipeline dati e su come il suo funzionamento interno si correla con tipi specifici di output, in particolare quelli che non forniscono i livelli richiesti di performance, qualità o accuratezza. Questi insight permettono ai team di data engineering di capire cosa è andato storto e di correggerlo.
L'osservabilità delle pipeline di dati è importante perché le pipeline sono passate da complicate a complesse, da molti sistemi concorrenti a molti sistemi interdipendenti.
È più probabile che mai che le applicazioni software non solo traggano beneficio dalle pipeline di dati, ma che si basino su di esse. E lo stesso vale per gli utenti finali. Quando grandi provider come AWS hanno interruzioni e i dashboard delle applicazioni di tutto il mondo scompaiono, puoi vedere i segnali intorno a te che la complessità crea dipendenze pericolose.
Attualmente, il settore dell'analytics ha un tasso di crescita annuo combinato del 12% all'anno. Entro il 2027, secondo Gartner, il suo valore sarà di ben 105 miliardi di dollari, circa la dimensione dell'economia dell'Ucraina. A questo ritmo, il volume dei dati aziendali aumenta attualmente del 62% ogni mese. Tutte quelle aziende che memorizzano e analizzano tutti quei dati? Stanno scommettendo il loro business su di esso e che i canali di dati che lo gestiranno continueranno a funzionare.
Una delle cause principali dei problemi di qualità dei dati e dei fallimenti delle pipeline sono le trasformazioni all'interno di queste pipeline. La maggior parte dell'architettura dei dati oggi è opaca: non puoi capire cosa succede all'interno. Le trasformazioni sono in atto, ma quando le cose non vanno come previsto, gli ingegneri dei dati non hanno molte informazioni sul perché.
Troppi team DataOps passano troppo tempo a cercare di diagnosticare problemi senza contesto. E se segui il primo istinto e utilizzi uno strumento di Application Performance Management per monitorare una pipeline DataOps, difficilmente si ottiene il risultato sperato.
"Le pipeline di dati si comportano in modo molto diverso rispetto alle applicazioni software e alle infrastrutture", afferma Evgeny. I team di ingegneria dei dati possono ottenere insight sullo stato dei lavori di alto livello (o DAG) e sulle prestazioni del database riepilogativo, ma non avranno visibilità sul giusto livello di informazioni di cui hanno bisogno per gestire le loro pipeline. Questo divario porta molti team a dedicare molto tempo a monitorare i problemi o a lavorare in uno stato di paranoia costante."
Avere un team di dati più grande e più specializzato può essere utile, ma può essere dannoso se questi membri del team non si coordinano. Un numero maggiore di persone che accedono ai dati ed eseguono le proprie pipeline e trasformazioni causa errori e influisce sulla stabilità dei dati.
Sempre più ingegneri oggi si preoccupano della stabilità dei dati e della loro idoneità all'uso da parte dei consumatori, all'interno e all'esterno dell'azienda. E così, sempre più team sono interessati all'osservabilità dei dati.
L'osservabilità dei dati funziona con la tua pipeline dati fornendo insight su come i tuoi dati fluiscono e vengono elaborati dall'inizio alla fine. Ecco una spiegazione più dettagliata di come funziona l'osservabilità dei dati all'interno della pipeline dati:
Le piattaforme di osservabilità dei dati forniscono insight che gli strumenti di monitoraggio da soli non possono offrire. Non ti dicono semplicemente cosa è andato storto, ma anche quali problemi sta causando e ti offrono indizi e persino le migliori soluzioni per correggerlo. Lo fa in modo continuo, senza che tu debba riprogettare le tue pipeline attuali o "cambiare il motore durante il volo", per così dire.
Le tue pipeline di dati sono sistemi complessi e richiedono un'architettura di osservabilità dei dati che conduca un'indagine costante. Hai bisogno di una piattaforma di osservabilità per il monitoraggio end-to-end, così da sapere dove le cose hanno fallito e perché. Hai bisogno di un modo per tracciare le dipendenze a valle, e sapere, e non solo sperare, che la tua soluzione abbia risolto il problema alla radice.
Una piattaforma di osservabilità dei dati dovrebbe includere:
La piattaforma dovrebbe anche offrire numerose indicazioni prescrittive. Il campo dell'osservabilità dei dati e dell'ingegneria dei dati sta avanzando rapidamente, ed è uno dei modi migliori per trovare una piattaforma che si evolve velocemente quanto i tuoi problemi. Non è più sufficiente monitorare. Bisogna osservare, seguire, allertare e reagire.
Scopri come IBM Databand fornisce il monitoraggio delle pipeline di dati per rilevare rapidamente gli incidenti relativi ai dati, come esecuzioni e lavori non andati a buon fine, in modo da poter gestire la crescita della pipeline. Se desideri approfondire ulteriormente l'argomento, prenota subito una demo.
Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.
Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.