Home
topics
Consolidamento dei dati
Data di pubblicazione: 28 novembre 2023
Autori: Phill Powell, Ian Smalley
Come suggerisce il termine, il consolidamento dei dati consiste nel riunire dati provenienti da varie origini e collocarli in un'unica posizione. Il consolidamento dei dati consente agli utenti di utilizzare i dati da un unico punto di accesso e favorisce la generazione di insight sui dati.
I dati vengono spesso definiti semplicemente “dati”, ovvero un’aggregazione di informazioni, come se ciascuna unità di dati fosse identica per struttura e scopo. Ma la realtà è ben diversa. Per la maggior parte delle organizzazioni, l'insieme dei dati non è come un carrello della spesa pieno di mele. Infatti, questo carrello è in genere pieno ma con molti o la maggior parte dei dati in formati diversi (mele, banane, arance, ecc.).
Poiché generalmente le organizzazioni data-driven si basano su molti tipi di dati provenienti da numerose origini, le aziende più lungimiranti stanno utilizzando strumenti di consolidamento dei dati per gestire in modo più efficiente i propri data warehouse pieni di informazioni.
Pur disponendo inizialmente di dati non elaborati, le aziende possono applicare la data analytics a tali informazioni e ricavarne insight di business intelligence. A questo punto, spetta all'organizzazione implementare efficacemente l'analisi dei dati nelle decisioni aziendali, ma potrà farlo beneficiando di un accesso ai dati più completo e immediato in grado di migliorare i processi decisionali.
Valuta il rischio e progetta le azioni necessarie per proteggere la tua attività.
Il consolidamento dei dati (spesso chiamato integrazione dei dati) offre diversi vantaggi chiave:
In termini di impatto complessivo, il più grande vantaggio a lungo termine del consolidamento dei dati è probabilmente la sua capacità di migliorare i processi decisionali di un’intera organizzazione, in tutti i dipartimenti e per tutte le funzioni, fornendo dati rilevanti a tutto il personale coinvolto. Il consolidamento dei dati può anche aiutare un'azienda a creare interazioni migliori con il pubblico, analizzando i dati complessivi dei clienti e basando le azioni aziendali su queste metriche.
Raccogliere i dati totali di un'organizzazione in un'unica posizione centrale offre un ulteriore vantaggio: apre la porta all'analisi dei dati che può mettere in luce notevoli inefficienze all'interno dell'azienda. Tali inefficienze sono come sanzioni finanziarie imposte a quell’organizzazione. Di conseguenza, mitigarle significa promuovere una riduzione dei costi. Inoltre, poiché il processo di consolidamento migliora la qualità dei dati, i sistemi informativi funzioneranno in modo più affidabile.
C'è un elemento che non viene spesso considerato: l'esatta quantità di tempo impiegato da tutti i membri di un'organizzazione per cercare le informazioni necessarie tra tutti i diversi asset di dati raccolti dall'azienda. Se tali risorse sono difficili da individuare, si perde ulteriore tempo. Consideriamo ora un'alternativa migliore: contenere tutti questi dati diversi in un unico repository centrale, come un data warehouse, riducendo le attività che richiedono molto tempo.
Anche se non strettamente legate al consolidamento dei dati, le operazioni di emergenza relative al disaster recovery saranno più agevoli se i dati di un'organizzazione si trovano in un repository centrale e se tali dati sono stati elaborati e puliti.
Per supportare i progetti di consolidamento dei dati viene utilizzato un numero crescente di metodi.
La tecnica di consolidamento dei dati più importante è nota come ETL (extract, transform and load). I processi ETL iniziano con gli strumenti ETL che estraggono informazioni dalle origini dati. Quindi i dati vengono trasformati in un formato informativo standard. Infine, vengono caricati in una destinazione selezionata.
Una controparte emergente della strategia ETL è chiamata ELT (extract, load and transform). La riorganizzazione delle fasi dell’ELT è fondamentale. Nell'ELT, i dati vengono estratti, quindi caricati in un tipo di area di staging. I dati rimangono qui mentre varie entità all'interno dell'organizzazione li studiano da diverse angolazioni, per poi trasformarli.
Mantenere tutti i dati in un unico repository centralizzato rappresenta un approccio pratico. È possibile ottenere un livello più elevato di sicurezza dei dati con l'uso di un data warehouse, che accetta i set di dati da vari sistemi di origine. Gli strumenti ETL possono quindi essere utilizzati per automatizzare i dati e consolidarli nel warehouse.
Il data warehousing viene utilizzato in parte per pulire o elaborare i dati. Un data lake, d'altro canto, è semplicemente un repository di dati che non offre nessuna delle funzionalità di trattamento dei dati. Un data lake è essenzialmente un luogo in cui collocare i dati mentre sono ancora nella loro forma più grezza. In genere, è qui che un'azienda può depositare dati oscuri.
È tutta una questione di proporzioni. Un data warehouse è progettato per accettare e archiviare tutti i dati. Un data mart è semplicemente un data warehouse più piccolo con un focus molto più ristretto. Pertanto, mentre un'azienda utilizza un data warehouse, un reparto o un gruppo all'interno di tale azienda potrebbe disporre di un data mart specifico per le sue esigenze.
Nell’era dell’automazione, scrivere codice manualmente potrebbe sembrare antiquato. Tuttavia, ci sono molte circostanze che richiedono un semplice lavoro di consolidamento dei dati. Tale lavoro viene svolto mediante la scrittura manuale di codice, eseguita da un data engineer. Il codice scritto dall'ingegnere aiuta a "raggruppare" i dati in un'unica posizione.
Un'altra soluzione di consolidamento dei dati che le aziende possono prendere in considerazione è la virtualizzazione dei dati, in cui i dati rimangono nei silos esistenti e vengono visualizzati attraverso un livello di virtualizzazione aggiunto a ciascuna origine dati. Sfortunatamente, questo metodo comporta dei limiti, inclusa la ridotta scalabilità.
L'enorme crescita dei big data continua a scuotere il mondo della tecnologia e lo farà ancora per qualche tempo. Relativamente al periodo dal 2022 al 2030, Acumen Research and Consulting prevede che il mercato dei Big Data continuerà a espandersi (link esterno a ibm.com) a un tasso di circa il 12,7% annuo. Secondo le sue previsioni, il mercato passerà da un valore di 163,5 miliardi di USD nel 2021 a un valore di 473,6 miliardi di USD nel 2030. Con l’espansione del mercato dei big data, cresce anche la necessità di un maggiore consolidamento dei dati.
L'automazione dei processi manuali relativi al consolidamento dei dati è un'altra area che negli ultimi anni ha registrato uno sviluppo intenso. Ciò avviene in un momento in cui c’è una relativa scarsità di talenti nella data science. È stato stimato che oltre il 60% delle ore di data science (link esterno a ibm.com) viene impiegato per pulire ed elaborare i dati durante i processi di consolidamento. Tali processi possono e devono essere automatizzati (e lo saranno sempre di più).
Anche la sicurezza dei dati rimane al centro dell'attenzione, a causa della continua e crescente minaccia di attacchi informatici o ransomware. In risposta, le organizzazioni scelgono opzioni come le pipeline di dati che offrono una maggiore sicurezza nello spostamento, l'archiviazione e l'analisi dei dati.
Allo stesso modo, un altro recente sviluppo testimonia il crescente interesse per la tutela della privacy dei consumatori, soprattutto in seguito a una serie di attacchi informatici di alto profilo che hanno portato alla diffusione di massa dei dati dei consumatori. Le data clean room vengono sempre più spesso utilizzate per interagire con i consumatori nel rispetto della loro privacy. Nelle data clean room, le interazioni sono strutturate in modo da limitare la quantità di informazioni sui consumatori che vengono raccolte dall'organizzazione.
Indipendentemente dalle tue priorità aziendali, IBM offre le soluzioni hardware e software necessarie per archiviare e proteggere le tue risorse chiave, incluso il software di gestione dello storage progettato per aiutarti a consolidare i dati e sfruttarli al meglio.
E se potessi utilizzare al meglio i tuoi dati, riducendo al contempo l'impronta di carbonio della tua organizzazione? Lo storage IBM FlashSystem consente di limitare il consumo di energia rendendo lo storage efficiente dal punto di vista energetico e fornendo allo storage funzionalità aggiuntive.
Ottieni le funzionalità di cui la tua azienda ha bisogno per andare oltre la semplice protezione e assicurare una vera resilienza dei dati. IBM Storage Defender fornisce visibilità per la resilienza dei dati end-to-end su workload primari e secondari.
Sfruttando la piattaforma dati globali di IBM Storage Scale, è possibile collegare i silos di dati in tutta l'organizzazione con un ecosistema aperto di opzioni di archiviazione, comprese le piattaforme di archiviazione non IBM, dall'edge al core al cloud.