L'ambito di una disciplina di gestione dei dati è piuttosto ampio e una solida strategia di gestione dei dati in genere implementa i seguenti componenti per semplificare la strategia e le operazioni all'interno di un'organizzazione:
Elaborazione dati: All'interno di questa fase delciclo di vita della gestione dei dati, i dati grezzi vengono acquisiti da una vasta gamma di origini dati, come API Web, app mobili, dispositivi Internet of Things (IoT), moduli, sondaggi e altro ancora. Viene, quindi, solitamente elaborato o caricato, tramite tecniche di integrazione dei dati, come estrarre, trasformare, caricare (ETL) o estrarre, caricare, trasformare (ELT). Sebbene ETL sia stato storicamente il metodo standard per integrare e organizzare i dati in diversi set di dati, ELT è diventato sempre più popolare con l'emergere di piattaforme di dati cloud e la crescente domanda di dati in tempo reale. Indipendentemente dalla tecnica utilizzata per l'integrazione dei dati , i dati vengono solitamente filtrati, uniti o aggregati durante la fase di elaborazione dei dati per soddisfare i requisiti per lo scopo previsto, che può variare da una dashboard di business intelligence a un algoritmo di apprendimento automatico predittivo.
Archiviazione dei dati: Sebbene i dati possano essere archiviati prima o dopo la loro elaborazione, il tipo di dati e lo scopo di solito determinano il repository di archiviazione utilizzato. Ad esempio, i data warehouse richiedono uno schema definito per soddisfare requisiti specifici di analisi dell'output dei dati, come dashboard, visualizzazioni di dati, e altre attività di business intelligence . Questi requisiti di dati sono generalmente diretti e documentati da utenti aziendali in collaborazione con ingegneri di dati, che alla fine eseguiranno il modello di dati in funzione di quello definito. La struttura sottostante di un data warehouse è tipicamente organizzata come un sistema relazionale (cioè in un formato di dati strutturato), che estrae dati da database transazionali. Tuttavia, altri sistemi di archiviazione, come i data lake, incorporano i dati sia da sistemi relazionali che da sistemi non relazionali, diventando una sandbox per progetti di dati innovativi. I data lake avvantaggiano in particolare i data scientist, in quanto consentono loro di incorporare nei loro progetti di data science dati sia strutturati che non strutturati.
Governance dei dati: La governance dei dati è un insieme di processi standard e processi aziendali che assicurano che le risorse di dati siano sfruttate in modo efficace all'interno di un'organizzazione. Ciò include generalmente i processi relativi alla qualità dei dati, all'accesso ai dati, all'usabilità e alla sicurezza dei dati. Ad esempio, i consigli di governance dei dati tendono ad allinearsi sulle tassonomie per garantire che i metadati vengano aggiunti in modo coerente tra varie origini di dati. Questa tassonomia dovrebbe anche essere ulteriormente documentata tramite un catalogo di dati per rendere i dati più accessibili agli utenti, facilitando la democratizzazione dei dati tra le organizzazioni. I team di governance dei dati aiutano anche a definire ruoli e responsabilità per garantire che l'accesso ai dati sia fornito in modo appropriato; questo è particolarmente importante per mantenere la riservatezza dei dati.
La sicurezza dei dati: La sicurezza dei dati stabilisce barriere per proteggere le informazioni digitali da accessi non autorizzati, corruzione o furto. Man mano che la tecnologia digitale diventa una parte sempre più importante delle nostre vite, viene posto un maggiore controllo sulle pratiche di sicurezza delle aziende moderne per garantire che i dati dei clienti siano protetti dai criminali informatici o da incidenti di disaster recovery. Mentre la perdita di dati può essere devastante per qualsiasi azienda, le violazioni dei dati, in particolare, possono avere conseguenze costose sia dal punto di vista finanziario che del marchio. I team di sicurezza dei dati possono proteggere meglio i propri dati sfruttando la crittografia e il mascheramento dei dati all'interno della loro strategia di sicurezza dei dati.