Der Umfang einer Datenmanagementdisziplin ist recht groß, und eine solide Datenmanagementstrategie implementiert normalerweise die folgenden Bestandteile, um Strategie und Betrieb im gesamten Unternehmen zu optimieren:
Datenverarbeitung: In dieser Phase des Datenmanagementlebenszyklus werden Rohdaten aus einer Reihe von Datenquellen wie Web-APIs, mobilen Apps, IoT-Geräten (Internet of Things), Formularen, Umfragen und mehr erfasst. Sie werden dann normalerweise mit Datenintegrationsverfahren verarbeitet oder geladen, z. B. Extrahieren, Transformieren, Laden (ETL) oder Extrahieren, Laden, Transformieren (ELT). Während ETL in der Vergangenheit die Standardmethode zum Integrieren und Organisieren von Daten über verschiedene Datenbestände hinweg war, erfreut sich ELT mit dem Aufkommen von Cloud-Datenplattformen und der steigenden Nachfrage nach Echtzeitdaten wachsender Beliebtheit. Unabhängig vom verwendeten Verfahren für die Datenintegration , werden die Daten in der Regel während der Datenverarbeitung gefiltert, zusammengeführt oder aggregiert, um die Anforderungen für den beabsichtigten Zweck zu erfüllen, der von einem Business-Intelligence-Dashboard bis zu einem prädiktiven maschinellen Lernalgorithmus reichen kann.
Datenspeicherung: Während Daten vor oder nach der Datenverarbeitung gespeichert werden können, bestimmen die Art der Daten und deren Zweck normalerweise das genutzte Speicherrepository. Beispielsweise ist für Data Warehousing ein definiertes Schema erforderlich, um bestimmte Datenanalyseanforderungen für Datenausgaben wie Dashboards, Datenvisualisierungen und andere Business-Intelligence -Aufgaben zu erfüllen. Diese Datenanforderungen werden in der Regel von Geschäftsanwendern in Zusammenarbeit mit Dateningenieuren gesteuert und dokumentiert, die letztendlich das definierte Datenmodell ausführen. Die zugrunde liegende Struktur eines Data Warehouse ist typischerweise als relationales System organisiert (d. h. in einem strukturierten Datenformat), das Daten aus Transaktionsdatenbanken bezieht. Aber auch andere Speichersysteme, wie z. B. Data Lakes, integrieren Daten aus relationalen und nicht relationalen Systemen und werden damit zu einer Sandbox für innovative Datenprojekte. Data Lakes kommen insbesondere Data Scientists zugute, da sie es ihnen ermöglichen, sowohl strukturierte als auch unstrukturierte Daten in ihre Data Science-Projekte zu integrieren.
Datengovernance: Datengovernance bezeichnet eine Reihe von Standards und Geschäftsprozessen, die sicherstellen, dass Datenbestände in einem Unternehmen effektiv genutzt werden. Dies umfasst im Allgemeinen Prozesse rund um Datenqualität, Datenzugriff, Benutzerfreundlichkeit und Datensicherheit. Datengovernance-Councils richten sich in der Regel nach Taxonomien, um sicherzustellen, dass Metadaten konsistent über verschiedene Datenquellen hinweg aufgenommen werden. Diese Taxonomie sollte auch über einen Datenkatalog weiter dokumentiert werden, um die Daten für Benutzer zugänglicher zu machen und die Demokratisierung von Daten in Unternehmen zu erleichtern. Datengovernance-Teams helfen auch bei der Definition von Rollen und Verantwortlichkeiten, um sicherzustellen, dass der Datenzugriff in angemessenem Umfang bereitgestellt wird; dies ist besonders wichtig, um den Datenschutz zu wahren.
Datensicherheit: Die Datensicherheit setzt Leitplanken, um digitale Informationen vor unbefugtem Zugriff, Beschädigung oder Diebstahl zu schützen. Da digitale Technologie ein immer größerer Teil unseres Lebens wird, werden die Sicherheitspraktiken moderner Unternehmen genauer unter die Lupe genommen, um sicherzustellen, dass Kundendaten vor Cyberkriminellen oder Disaster-Recovery-Vorfällen geschützt sind. Während Datenverlust für jedes Unternehmen verheerend sein kann, können insbesondere Datenschutzverletzungen sowohl aus finanzieller als auch aus Markensicht kostspielige Folgen haben. Datensicherheitsteams können ihre Daten besser schützen, indem sie Verschlüsselung und Datenmaskierung im Rahmen ihrer Datensicherheitsstrategie nutzen.