La gestione dei dati è la pratica di assimilare, elaborare, proteggere e archiviare i dati di un'organizzazione, dove vengono poi utilizzati per il processo decisionale strategico per migliorare i risultati aziendali. Nel corso dell'ultimo decennio, gli sviluppi nell'ambito del cloud ibrido, dell'intelligenza artificiale, di Internet delle cose (IoT) e dell'edge computing hanno portato alla crescita esponenziale dei big data, creando ancora più complessità da gestire per le aziende. Di conseguenza, una disciplina di gestione dei dati all'interno di un'organizzazione è diventata una priorità crescente poiché questa crescita ha creato sfide significative, come i silos di dati, i rischi per la sicurezza ed i colli di bottiglia generali al processo decisionale. I team affrontano queste sfide senza esitazione con una serie di soluzioni di gestione dei dati, che mirano a pulire, unificare e proteggere i dati. Questo, a sua volta, permette ai leader di raccogliere informazioni dettagliate attraverso dashboard e altri strumenti di visualizzazione dei dati, consentendo decisioni aziendali informate. Permette inoltre ai team di data science di indagare su questioni più complesse, consentendo loro di sfruttare capacità analitiche più avanzate, comel'apprendimento automatico, per progetti dimostrativi. Se hanno successo nel fornire e migliorare i risultati aziendali, possono collaborare con i team pertinenti per scalare tali apprendimenti in tutta la loro organizzazione attraverso pratiche di automazione.
Gestione dei dati rispetto alla gestione dei dati master
Mentre la gestione dei dati si riferisce a un'intera disciplina, la gestione dei dati master ha un ambito più specifico in quanto si concentra sui dati transazionali, ad esempio i record di vendita. I dati sulle vendite in genere includono informazioni su clienti, sui venditori e sui prodotti. Questo tipo di dati consente alle aziende di determinare i prodotti e i mercati di maggior successo ed i clienti di maggior valore. Poichè i dati anagrafici sono comprensivi di informazioni di identificazione personale (PII), sono anche conformi a normative più severe, come il GDPR.
L'ambito di una disciplina di gestione dei dati è piuttosto ampio e una solida strategia di gestione dei dati in genere implementa i seguenti componenti per semplificare la strategia e le operazioni all'interno di un'organizzazione:
Elaborazione dati: All'interno di questa fase delciclo di vita della gestione dei dati, i dati grezzi vengono acquisiti da una vasta gamma di origini dati, come API Web, app mobili, dispositivi Internet of Things (IoT), moduli, sondaggi e altro ancora. Viene, quindi, solitamente elaborato o caricato, tramite tecniche di integrazione dei dati, come estrarre, trasformare, caricare (ETL) o estrarre, caricare, trasformare (ELT). Sebbene ETL sia stato storicamente il metodo standard per integrare e organizzare i dati in diversi set di dati, ELT è diventato sempre più popolare con l'emergere di piattaforme di dati cloud e la crescente domanda di dati in tempo reale. Indipendentemente dalla tecnica utilizzata per l'integrazione dei dati , i dati vengono solitamente filtrati, uniti o aggregati durante la fase di elaborazione dei dati per soddisfare i requisiti per lo scopo previsto, che può variare da una dashboard di business intelligence a un algoritmo di apprendimento automatico predittivo.
Archiviazione dei dati: Sebbene i dati possano essere archiviati prima o dopo la loro elaborazione, il tipo di dati e lo scopo di solito determinano il repository di archiviazione utilizzato. Ad esempio, i data warehouse richiedono uno schema definito per soddisfare requisiti specifici di analisi dell'output dei dati, come dashboard, visualizzazioni di dati, e altre attività di business intelligence . Questi requisiti di dati sono generalmente diretti e documentati da utenti aziendali in collaborazione con ingegneri di dati, che alla fine eseguiranno il modello di dati in funzione di quello definito. La struttura sottostante di un data warehouse è tipicamente organizzata come un sistema relazionale (cioè in un formato di dati strutturato), che estrae dati da database transazionali. Tuttavia, altri sistemi di archiviazione, come i data lake, incorporano i dati sia da sistemi relazionali che da sistemi non relazionali, diventando una sandbox per progetti di dati innovativi. I data lake avvantaggiano in particolare i data scientist, in quanto consentono loro di incorporare nei loro progetti di data science dati sia strutturati che non strutturati.
Governance dei dati: La governance dei dati è un insieme di processi standard e processi aziendali che assicurano che le risorse di dati siano sfruttate in modo efficace all'interno di un'organizzazione. Ciò include generalmente i processi relativi alla qualità dei dati, all'accesso ai dati, all'usabilità e alla sicurezza dei dati. Ad esempio, i consigli di governance dei dati tendono ad allinearsi sulle tassonomie per garantire che i metadati vengano aggiunti in modo coerente tra varie origini di dati. Questa tassonomia dovrebbe anche essere ulteriormente documentata tramite un catalogo di dati per rendere i dati più accessibili agli utenti, facilitando la democratizzazione dei dati tra le organizzazioni. I team di governance dei dati aiutano anche a definire ruoli e responsabilità per garantire che l'accesso ai dati sia fornito in modo appropriato; questo è particolarmente importante per mantenere la riservatezza dei dati.
La sicurezza dei dati: La sicurezza dei dati stabilisce barriere per proteggere le informazioni digitali da accessi non autorizzati, corruzione o furto. Man mano che la tecnologia digitale diventa una parte sempre più importante delle nostre vite, viene posto un maggiore controllo sulle pratiche di sicurezza delle aziende moderne per garantire che i dati dei clienti siano protetti dai criminali informatici o da incidenti di disaster recovery. Mentre la perdita di dati può essere devastante per qualsiasi azienda, le violazioni dei dati, in particolare, possono avere conseguenze costose sia dal punto di vista finanziario che del marchio. I team di sicurezza dei dati possono proteggere meglio i propri dati sfruttando la crittografia e il mascheramento dei dati all'interno della loro strategia di sicurezza dei dati.
Sebbene l'elaborazione dei dati, l'archiviazione dei dati, la governance dei dati e la sicurezza dei dati facciano tutti parte della gestione dei dati, il successo di uno qualsiasi di questi componenti dipende dall'architettura dei dati o dallo stack tecnologico di un'azienda. L'infrastruttura dati di un'azienda crea una pipeline per acquisire, elaborare, archiviare e accedere ai dati e ciò avviene integrando insieme questi sistemi. I servizi dati e le API raccolgono dati da sistemi legacy, data lake, data warehouse, database sql e app, fornendo una visione integrale delle prestazioni aziendali.
Ognuno di questi componenti, nel settore di gestione dei dati, sta subendo una grande quantità di cambiamenti in questo momento. Ad esempio, il passaggio dal sistema on-premise alle piattaforme cloud è una delle tecnologie più dirompenti del settore in questo momento. A differenza delle distribuzioni on-premise, i provider di storage cloud consentono agli utenti di creare cluster di grandi dimensioni secondo le necessità, richiedendo solo il pagamento per lo spazio di storage specificato. Ciò significa che se si ha bisogno di potenza di calcolo aggiuntiva per eseguire un lavoro in poche ore anziché in alcuni giorni, è possibile farlo facilmente su una piattaforma cloud acquistando nodi di calcolo aggiuntivi.
Questo passaggio alle piattaforme di dati cloud sta anche facilitando l'adozione dell'elaborazione dei dati in streaming. Strumenti, come Apache Kafka, consentono una maggiore elaborazione dei dati in tempo reale, consentendo ai consumatori di iscriversi ad argomenti per ricevere dati in pochi secondi. Tuttavia, l'elaborazione batch ha ancora i suoi vantaggi in quanto è più efficiente nell'elaborazione di grandi volumi di dati. Sebbene l'elaborazione batch rispetti una pianificazione prestabilita, ad esempio giornaliera, settimanale o mensile, è l'ideale per i dashboard delle prestazioni aziendali che in genere non richiedono dati in tempo reale.
Il cambiamento continua solo ad accelerare in questo settore. Più recentemente, sono emerse strutture di dati per aiutare con la complessità della gestione di questi sistemi di dati. Data Fabic sfruttano i sistemi intelligenti e automatizzati per facilitare l'integrazione end-to-end di varie pipeline di dati e ambienti cloud. Con lo sviluppo di una nuova tecnologia come questa, possiamo aspettarci che i leader aziendali acquisiscano una visione più integrale delle prestazioni aziendali poiché integrerà i dati tra le funzioni. L'unificazione dei dati tra risorse umane, marketing, vendite, catena di approvvigionamento, ecc. può solo fornire ai leader una migliore comprensione dei propri clienti.
Le organizzazioni sperimentano una serie di vantaggi quando avviano e mantengono iniziative di gestione dei dati:
Silos di dati ridotti: La maggior parte, se non tutte, le aziende sperimentano silos di dati all'interno della propria organizzazione. Diversi strumenti e framework di gestione dei dati, come data fabric e data lake, aiutano ad eliminare i silos di dati e le dipendenze dai proprietari dei dati. Ad esempio, i data fabric aiutano a rivelare potenziali integrazioni tra set di dati disparati tra funzioni, come risorse umane, marketing, vendite, ecc. I data lake, d'altra parte, acquisiscono dati grezzi da quelle stesse funzioni, rimuovendo le dipendenze ed eliminando i singoli proprietari di un determinato set di dati.
Conformità e sicurezza migliorate: I consigli di governance aiutano a posizionare le barriere per proteggere le aziende da multe e pubblicità negativa che possono verificarsi a causa della non conformità alle normative e alle politiche del governo. I passi falsi qui possono essere costosi sia dal punto di vista del marchio che dal punto di vista finanziario.
Esperienza cliente migliorata: Anche se questo vantaggio non sarà immediatamente visibile, prototipi di successo possono migliorare l'esperienza utente complessiva, consentendo ai team di comprendere e personalizzare meglio il percorso del cliente attraverso analisi nuove e approfondite.
Scalabilità: La gestione dei dati può aiutare le aziende a scalare, ma ciò dipende in gran parte dalla tecnologia e dai processi in atto. Ad esempio, le piattaforme cloud consentono una maggiore flessibilità, consentendo ai proprietari di dati di aumentare o ridurre la potenza di elaborazione secondo le necessità. Inoltre, i consigli di governance possono aiutare a garantire che le tassonomie definite vengano adottate man mano che una società cresce di dimensioni.
Scopri di più sulla famiglia di prodotti IBM® Db2® che comprende soluzioni operative e di immagazzinamento dei dati.
Scopri il valore della distribuzione di Db2 sulla piattaforma nativa per il cloud IBM® Cloud Pak for Data.
Esplora le partnership open source di IBM con MongoDB, EDB Postgres, DataStax e Cloudera.
Leggi il rapporto gratuito di 451 Research per scoprire come la gestione dei dati su una piattaforma unificata per dati, analisi e intelligenza artificiale può accelerare il tempo necessario ad ottenere informazioni dettagliate.
Scopri le best practice per garantire la qualità dei dati, l'accessibilità e la sicurezza come base per un'architettura di dati incentrata sull'intelligenza Artificiale (IA) (4.5 MB)