Heutzutage erzeugen Unternehmen ständig wachsende Datenberge, die mehr als 400 Millionen Terabytes pro Tag umfassen. Viele dieser Daten können sich als äußerst wertvoll erweisen, aber nur, wenn Unternehmen sie verstehen und erfolgreich nutzen können.
Als Teil einer effektiven Datenverwaltung hilft die Datenkuratierung Unternehmen, wichtige Erkenntnisse aus Unternehmensdaten abzuleiten und diese Erkenntnisse für die Entscheidungsfindung zu nutzen. Gut kuratierte Daten werden auch als entscheidend für die Verbesserung der Leistung von Künstliche Intelligenz (KI)-Initiativen angesehen und tragen dazu bei, die Einhaltung gesetzlicher Vorschriften zur Datenverwaltung und Datenschutz zu gewährleisten.
Außerhalb des Unternehmens ist die Datenpflege ein wichtiger Prozess in der Forschung und im akademischen Umfeld. Zum Beispiel kann die Kuratierung von Forschungsdaten die gemeinsame Nutzung und Archivierung von Daten durch Entwickler, Wissenschaftler, medizinisches Fachpersonal und andere Forscher verbessern.
Der Prozess der Datenpflege kann manuell oder mit Hilfe von Automatisierung durchgeführt werden, mit Software, die für die Durchführung von Kuratierungsaktivitäten in großem Maßstab entwickelt wurde.
Im Kern ermöglicht die Datenpflege Unternehmen, ihre Daten zu nutzen, um einen Mehrwert zu schaffen. Aber es hilft ihnen auch, das exponentielle Datenwachstum zu bewältigen, effektive und verantwortungsvolle KI-Initiativen zu unterstützen, die Einhaltung gesetzlicher Vorschriften zu gewährleisten und die Nutzbarkeit der Daten sicherzustellen.
Das exponentielle Wachstum des Datenvolumens hat dazu geführt, dass Unternehmen heute mehr geschäftsrelevante Daten als je zuvor haben. Einige Unternehmen haben Datensätze mit Terabytes oder Petabytes an Informationen aus einer Vielzahl von Datenquellen angehäuft. Auf Makroebene wurden im Jahr 2024 weltweit schätzungsweise 149 Zettabyte an Daten generiert und diese Zahl wird sich bis 2028 voraussichtlich mehr als verdoppeln.
Die Qualitätssicherung und Datenermittlung bei solch beispiellos großen und komplexen Datensätzen, die als „Big Data“ bekannt sind, ist keine einfache Aufgabe. Sie ist jedoch von entscheidender Bedeutung, da sich Unternehmensdaten zunehmend als Quelle für wertvolle Erkenntnisse erweisen. Die Kommentierung und Organisation von Daten für datengestützte Entscheidungsfindung kann Unternehmen in allen Branchen einen Wettbewerbsvorteil verschaffen und ihre Leistung steigern.
Die Bewältigung der Herausforderungen in Bezug auf Datenqualität und Benutzerfreundlichkeit ist besonders dringlich geworden, da die Unternehmen KI-gestützte Funktionen als strategische Notwendigkeit betrachten. KI-Systeme haben das Potenzial, das Geschäft zu verändern und die Produktivität zu steigern, aber ihr Datenbedarf ist erheblich: Sie benötigen hochwertige Daten, um effektiv arbeiten zu können.
Daten von geringer Qualität können zu einer schlechten Modellleistung führen, ein „Garbage in, garbage out“-Szenario. Datensätze mit Datenqualitätsproblemen wie fehlenden Werten, Sonderfällen oder Inkonsistenzen können die Analyse verzerren und zu falschen Ausgaben führen.
Die Datenpflege trägt auch zur Einhaltung gesetzlicher Vorschriften bei, insbesondere im Zusammenhang mit KI. Viele Branchen, insbesondere diejenigen, die mit sensiblen Daten umgehen, wie das Gesundheitswesen oder Finanzdienstleistungen, müssen sich mit einer sich ständig weiterentwickelnden Landschaft von Vorschriften auseinandersetzen, die ihnen vorschreiben, wie sie Daten erfassen, verarbeiten, speichern und sichern.
Effektive Praktiken zur Datenpflege tragen dazu bei, dass die Daten in Übereinstimmung mit diesen Regeln erfasst, gespeichert, verarbeitet und gekennzeichnet werden. Der EU AI Act verlangt zum Beispiel, dass KI-Systeme mit hohem Risiko strenge Data-Governance-Praktiken anwenden, um sicherzustellen, dass die Trainings-, Validierungs- und Testdaten bestimmte Qualitätskriterien erfüllen. So ist zum Beispiel eine wirksame Steuerung des Datenerfassungsprozesses unerlässlich.
Die Datenpflege ist auch der Schlüssel, um die Wiederverwendbarkeit hochwertiger Datensätze zu gewährleisten. So können Unternehmen beispielsweise durch Datenpflege ein zentrales Glossar erstellen und pflegen, das speziell auf das Unternehmen zugeschnitten ist. Durch diese Single-Source-of-Truth (SSOT) können Benutzer im gesamten Unternehmen Daten besser verstehen und nutzen. Wenn die Daten zugänglich und allgemein nutzbar sind, ist es wahrscheinlicher, dass die Nutzer sie immer wieder nutzen, um Erkenntnisse zu gewinnen.
Während die Praktiken der Datenpflege von Unternehmen zu Unternehmen variieren können, haben Forscher gemeinsame Kuratierungsaktivitäten von Datenkuratoren, Dateningenieuren, Data Scientists, Data Stewards und anderen Datenverwaltungsexperten über den Lebenszyklus von Big Data identifiziert.1 Dazu gehören:
Festlegen von Strategien und Kriterien für die Datenerfassung, -produktion und -aufnahme. Die Datenaufnahme umfasst die Datenakquisition aus verschiedenen Quellen, darunter strukturierte Datenbanken und Anwendungsprogrammierschnittstellen (APIs) sowie Datenbanken für unstrukturierte Daten. Bei der Planung der Datenpflege kann auch die Data Governance berücksichtigt werden, die zur Gewährleistung der Datenintegrität und Datensicherheit beiträgt.
Erstellen, Sammeln, Bewahren und Pflegen von Metadaten, d. h. Informationen, die einen Datenpunkt oder Datensatz beschreiben, wie z. B. Autor, Erstellungsdatum oder Dateigröße. Eine erfolgreiche Metadatenverwaltung kann dazu beitragen, Daten besser auffindbar zu machen, die Rückverfolgung der Datenabstammung zu ermöglichen und die Interoperabilität von Systemen zu verbessern.
Beschäftigung mit Datenaufbereitungsmethoden. Zum Beispiel ist Datenbereinigung der Prozess der Identifizierung und Korrektur von Fehlern und Inkonsistenzen in Rohdaten. Datenkonvertierung ist die Konvertierung sauberer Rohdaten in ein für Analysen verwendbares Format. Und die Anonymisierung sensibler Daten trägt dazu bei, den Datenschutz und die Einhaltung gesetzlicher Vorschriften zu gewährleisten.
Bewertung und Validierung der Datenqualität, Rückverfolgung der Datenherkunft und Gewährleistung des Schutzes sensibler Daten. Die Datenqualität kann durch Metriken wie Genauigkeit, Vollständigkeit und Konsistenz kategorisiert werden. In der Zwischenzeit kann die Verfolgung der Datenherkunft dazu beitragen, die Vertrauenswürdigkeit von Daten zu bestätigen und sicherzustellen, dass die erforderlichen Nutzungsgenehmigungen von den Datenanbietern eingeholt wurden.
Übertragung von Daten aus Datenverarbeitungseinheiten in Datenbestände und Datenspeichersysteme, wie Data Lakes und Data Warehouses. Bei der Datenaufbewahrung müssen möglicherweise verschiedene Arten von Daten gespeichert und die Datensicherheit gewährleistet werden.
Daten durchsuchbar und zugänglich machen durch die Entwicklung von Taxonomien, die Standardisierung von Metadaten und die Etablierung von Datenabrufmethoden.
Manuelle Prozesse können die Datenpflege zu einem langsamen, mühsamen und ineffizienten Unterfangen machen. Die richtigen Data Governance- und Datenverwaltung-Lösungen können Unternehmen jedoch dabei helfen, Datenpflege-Workflows zu automatisieren und Datenpipelines zu optimieren.
Führende Lösungen können Funktionen wie diese enthalten:
Ein Datenkatalog ist ein detailliertes Bestand aller Daten-Assets in einem Unternehmen, das Datenexperten helfen soll, die benötigten Daten schnell zu finden. Verwaltete Datenkataloge nutzen Datenklassifizierungs- und Maskierungsfunktionen, um eine sichere Datenverarbeitung zu ermöglichen.
Glossare mit branchenspezifischen Geschäftsvokabularen können die Datenklassifizierung, die Einhaltung von Vorschriften und andere Governance-Aktivitäten verbessern.
Große Sprachmodelle (Large Language Models, LLMs) können für die Anreicherung von Metadaten eingesetzt werden, indem sie großen Mengen von Datenbeständen auf einmal mehr Kontext, Etiketten oder Beschreibungen hinzufügen.
Intelligente Suche kann den Datenzugriff verbessern und Silos beseitigen. Mit KI können Benutzer Informationen unabhängig vom Format von überall (innerhalb oder außerhalb des Unternehmens) extrahieren und die benötigten Daten schnell und einfach finden.
Die Datenkuratierung spielt in verschiedenen Bereichen und Disziplinen eine wichtige Rolle. Anwendungsfälle sind beispielsweise:
Kuratierte Daten können dazu beitragen, Fortschritte und Durchbrüche bei der Behandlung von Krankheiten voranzutreiben. So hat beispielsweise eine US-amerikanische Gesundheitsklinik kürzlich eine Partnerschaft mit einer KI-Gesundheitsdatenplattform angekündigt, um Datensätze zu kuratieren, die sich auf Multiple Sklerose (MS), eine chronische neurologische Erkrankung, konzentrieren.
Ziel des Projekts, das Daten von über 3.000 Patienten umfasst, ist es, datengestützte Erkenntnisse über Krankheitssubtypen, Krankheitsverlauf und mehr zu gewinnen.2
Die Datenpflege kann dazu beitragen, dass Unternehmen, die KI einsetzen, dies im Einklang mit den geltenden Vorschriften und Anforderungen tun.
Zum Beispiel hat die Versicherungsbranche KI und maschinelles Lernen in großem Umfang zur Modernisierung eingesetzt. Aber die regulatorische Landschaft rund um die Einführung von KI in der Branche ist komplex und dynamisch. Einschlägige Gesetze wie die Solvabilität-II-Richtlinie enthalten strenge Richtlinien für Versicherer in Bezug auf die „Hinlänglichkeit und Qualität der relevanten Daten für Underwriting- und Reservierungsprozesse“. Diese Vorschriften verlangen auch, dass die Daten, die zum Testen und Trainieren von KI-Systemen verwendet werden, vollständig, genau und angemessen sind.3
Digitale und stationäre Einzelhändler bereiten ihre Kundendaten häufig auf, indem sie Segmentierungsprozesse durchführen und die Kunden anhand ihrer Eigenschaften, Verhaltensweisen und Vorlieben in Gruppen einteilen. Dies ermöglicht es Einzelhändlern, verschiedene Kundengruppen mit Werbeaktionen, Produktempfehlungen und anderen personalisierten Marketingmaßnahmen effektiver anzusprechen.
Eine Analyse von E-Mail-Marketingkampagnen im Einzelhandel ergab beispielsweise, dass segmentierte E-Mails 15 % häufiger gelesen wurden als nicht segmentierte.4
Aktivieren Sie Daten für KI und Analytik mit intelligenter Katalogisierung und Richtlinienverwaltung. IBM Knowledge Catalog ist eine Data-Governance-Software, die einen Datenkatalog zur Automatisierung von Datenerkennung, Datenqualitätsmanagement und Datenschutz bereitstellt.
Wandeln Sie Rohdaten schnell in umsetzbare Erkenntnisse um, vereinheitlichen Sie Data Governance, Datenqualität, -herkunft und -freigabe und stellen Sie Ihren Datennutzern zuverlässige und kontextualisierte Daten zur Verfügung.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.
1 „Big data curation framework: Curation actions and challenges“. Journal of Information Science. 11. November 2022.
2 „Exclusive: Century Heath, Nira Medical partner to provide AI-curated EHR data“. MobiHealthNews. 14. Januar 2025.
3 „Consultation Paper: On Opinion on Artificial Intelligence Governance and Risk Management“. European Insurance and Occupational Pensions Authority (EIOPA). 10. Februar 2025
4 „Sophisticated email segmentation boosts open rates, engagement: report“. Retail Dive. Abgerufen am 28. März 2025.