Datenkatalog
Ein Datenkatalog nutzt Metadaten und Datenmanagementtools, um eine Bestandsaufnahme von Datenbeständen innerhalb eines Unternehmens zu erstellen, die es den Benutzern ermöglicht, Informationen schnell und einfach zu finden und auf sie zuzugreifen.
Schwarzer und blauer Hintergrund
Datenkatalog

Ein Datenkatalog ist eine detaillierte Bestandsaufnahme aller Datenbestände in einem Unternehmen, die Datenfachleuten dabei hilft, schnell die am besten geeigneten Daten für jeden analytischen oder geschäftlichen Zweck zu finden.

Relevante Produkte

IBM Watson Knowledge Catalog

IBM Cloud Pak for Data

Was ist ein Datenkatalog?

Ein Datenkatalog nutzt Metadaten – also Daten, die Daten beschreiben oder zusammenfassen – um eine informative und durchsuchbare Bestandsaufnahme aller Datenbestände in einem Unternehmen zu erstellen. Diese Datenbestände können folgende Arten von Daten umfassen (sind aber nicht darauf beschränkt):

  • Strukturierte Daten (Tabellen)
  • Unstrukturierte Daten, einschließlich Dokumente, Webseiten, E-Mails, Social-Media-Inhalte, mobile Daten, Bilder, Audio und Video
  • Berichte und Abfrageergebnisse
  • Datenvisualisierungen und Dashboards
  • Modelle für maschinelles Lernen
  • Verbindungen zwischen Datenbanken

Diese Bestandsaufnahme ermöglicht es Datenanwendern– Datenanalysten, Datenwissenschaftlern, Datenverwaltern und anderen Datenfachleuten mit Zugriff auf Unternehmensdaten –, alle verfügbaren Datenbestände eines Unternehmens zu durchsuchen und sich die für ihre Analyse- oder Geschäftszwecke am besten geeigneten Daten zu beschaffen.

Ein Datenkatalog umfasst in der Regel Funktionen zum Sammeln und kontinuierlichen Anreichern – oder zur Pflege –der Metadaten, die mit den einzelnen Datenbeständen verknüpft sind, um die korrekte Identifizierung, Bewertung und Nutzung des jeweiligen Datenbestands zu erleichtern. Der Katalog bietet außerdem Tools, die Benutzern Folgendes ermöglichen:

  • Suche im Katalog
  • Automatisierte Ermittlung potenziell relevanter Daten, nach denen jedoch nicht gezielt gesucht wurde
  • Regelung der Verwendung der Daten in Übereinstimmung mit den branchenspezifischen oder staatlichen Vorschriften
Was sind Metadaten?

Aufbauend auf der obenstehenden Kurzdefinition sind Metadaten Daten, die einen Datenbestand beschreiben oder Informationen über den Bestand liefern, die wiederum das Auffinden, die Bewertung und das Verständnis erleichtern.

Das klassische oder am häufigsten verwendete Beispiel für Metadaten ist der Karten- oder Online-Katalog einer Bibliothek.  Dabei enthält jede Karte oder jeder Eintrag Informationen über ein Buch oder eine Publikation (z. B. Titel, Autor, Thema, Erscheinungsdatum, Ausgabe, Aufbewahrungsort in der Bibliothek und Zusammenfassung), die es dem Leser erleichtern, die jeweilige Publikation zu finden und zu bewerten. Zum Beispiel: Ist die Publikation aktuell oder veraltet? Bietet die Publikation die Informationen, die ich suche? Ist der Autor jemand, dem ich vertraue oder dessen Arbeit ich mag?

Es gibt viele Kategorien von Metadaten, aber ein Datenkatalog befasst sich hauptsächlich mit drei Kategorien: technische Metadaten, Prozess-Metadaten und geschäftliche Metadaten.

Technische Metadaten


Technische Metadaten
 (auch strukturelle Metadaten genannt) beschreiben, wie die Daten organisiert sind und den Nutzern angezeigt werden, indem sie die Struktur der Datenobjekte beschreiben, z. B. Tabellen, Spalten, Zeilen, Indizes und Verbindungen. Technische Metadaten geben Datenfachleuten Informationen darüber, wie sie mit den Daten arbeiten müssen, z. B. ob sie mit den Daten so arbeiten können, wie sie sie vorfinden, oder ob sie sie für Analyse- oder Integrationszwecke umwandeln müssen.

Prozess-Metadaten


Prozess-Metadaten 
(auch administrative Metadaten genannt) beschreiben die Umstände der Erstellung des Datenbestands und wann, wie und von wem auf ihn zugegriffen, er verwendet, aktualisiert oder geändert wurde. Sie sollten außerdem beschreiben, wer die Erlaubnis hat, auf die Daten zuzugreifen und sie zu nutzen.

Prozess-Metadaten liefern Informationen über die Historie und den zeitlichen Verlauf des Datenbestands, die einem Analysten helfen können zu entscheiden, ob der Datenbestand für die zu erledigende Aufgabe aktuell genug ist, ob er aus einer zuverlässigen Quelle stammt, ob er von vertrauenswürdigen Personen aktualisiert wurde usw. Prozess-Metadaten können auch zur Fehlerbehebung von Abfragen verwendet werden. In zunehmendem Maße werden Prozess-Metadaten ausgewertet, um Informationen über Software-Benutzer oder -Kunden zu erhalten, z. B. welche Software sie verwenden und wie gut der Service ist, den sie erhalten.

Geschäftliche Metadaten


Geschäftliche Metadaten 
(manchmal auch als externe Metadaten bezeichnet) beschreiben die geschäftlichen Aspekte des Datenbestands – den geschäftlichen Wert, den er für das Unternehmen hat, seine Eignung für einen bestimmten Zweck oder verschiedene Zwecke, Informationen über die Einhaltung gesetzlicher Vorschriften und mehr. Geschäftliche Metadaten ermöglichen es Datenfachleuten und Anwendern im operativen Geschäft, in der gleichen Sprache über Datenbestände zu sprechen.

Als Mindestanforderung sollte ein Datenkatalog das Auffinden (oder Sammeln) und Organisieren aller vorhandenen Metadaten, die mit einem beliebigen Datenbestand in Ihrem Unternehmen verbunden sind, erleichtern. Er sollte außerdem Tools bereitstellen, mit denen Datenexperten diese Metadaten pflegen und mit Tags, Assoziationen, Bewertungen, Anmerkungen und anderen Informationen und Kontexten anreichern können, die es den Nutzern ermöglichen, die Daten schneller zu finden, sie zu nutzen und ihnen zu vertrauen.

Datenkatalog-Tools – worauf Sie achten sollten

Ein Datenkatalog erfordert eine beträchtliche Investition in Bezug auf Software, sowie Zeit und Aufwand seitens der Datenanwender – eine Investition, die die meisten Unternehmen nur einmal tätigen wollen. Achten Sie bei der Bewertung von Datenkataloglösungen daher auf die folgenden Funktionen (zusätzlich zu den obengenannten Funktionen zur Verwaltung der Metadaten):

  • Ein hervorragendes „Daten-Einkaufserlebnis", das die Datenentdeckung einschließt: Das Ziel eines Datenkatalogs ist es, dass alle Ihre Datenbenutzer die Daten, die sie benötigen, selbst finden können. Sie sollten ein Sucherlebnis erwarten, das dem von Netflix, Amazon oder anderen beliebten kommerziellen Online-Erlebnissen entspricht, bei dem jeder beliebige Nutzer schnell Ergebnisse auf der Grundlage der gesuchten Metadaten finden kann und außerdem relevante Empfehlungen und/oder Warnungen auf der Grundlage von Bewertungen und Rezensionen anderer Nutzer erhält.
  • Vereinfachte Compliance: Die beständige Einhaltung von Datenvorschriften ist heutzutage fast unmöglich; aktuell haben 107 Länder Vorschriften zum Schutz personenbezogener Daten erlassen. Ein Datenkatalog sollte die Einhaltung von Vorschriften vereinfachen, indem er ein Profil von Datenbeständen erstellt, ihre Relevanz für bestimmte Vorschriften ableitet und sie automatisch klassifiziert und für spätere Bezugnahme kennzeichnet. Funktionen des maschinellen Lernens sind hier eine große Arbeitserleichterung.
  • Verbindungen zu einer Vielzahl von Datenquellen: Um als unternehmensweite Bestandsaufnahme von Datenbeständen zu dienen, muss ein Datenkatalog mit allen Datenbeständen in Ihrem Unternehmen verbunden sein. Achten Sie darauf, dass Verbindungen zu allen Arten von Datenbeständen bestehen, die bereits jetzt vorhanden sind, und stellen Sie sicher, diese Verbindungen auch in Zukunft weiter auszubauen. Suchen Sie außerdem nach einem Katalog, den Sie überall dort einsetzen können, wo sich Ihre Daten befinden – vor Ort oder in einer öffentlichen, privaten, Hybrid- oder Hybrid-Multicloud- Umgebung.
  • Unterstützung für Qualität und Governance, um vertrauenswürdige Daten zu gewährleisten: Ein Datenkatalog sollte sich nahtlos in Ihre Qualitäts- und Governance-Programme und -Tools integrieren lassen, einschließlich Regeln für Datenqualität, Geschäftsglossare und Workflows.
  • Unterstützung für „erklärbare KI": Zunehmend ist Data Governance für die Verwaltung von Modellen der künstlichen Intelligenz (KI) verantwortlich – und zwar nicht nur für das Verständnis der verwendeten Daten, sondern auch dafür, wie verschiedene Inputs Entscheidungen und Ergebnisse beeinflussen. Stellen Sie daher sicher, dass der von Ihnen gewählte Datenkatalog die Kennzeichnung und Aufbereitung von Datenbeständen für optimale Nutzung und Transparenz in Ihren KI-Modellen unterstützt.
Vorteile eines Datenkatalogs

Wenn Datenfachleute sich selbst die Daten beschaffen können, die sie benötigen, ohne dass die IT-Abteilung eingreifen muss, ohne dass sie auf den Rat von Experten oder Kollegen angewiesen sind und ohne dass sie sich auf die Daten beschränken müssen, die sie kennen, und ohne dass sie sich um Governance und Compliance kümmern müssen, profitiert das gesamte Unternehmen davon.

  • Besseres Verständnis von Daten durch verbesserten Kontext: Analysten sind in der Lage, detaillierte Beschreibungen von Daten zu finden, einschließlich Kommentaren von anderen Datenanwendern, und besser zu verstehen, wie die Daten für das Unternehmen relevant sind.
  • Gesteigerte betriebliche Effizienz: Ein Datenkatalog schafft eine optimale Arbeitsteilung zwischen Nutzern und der IT-Abteilung – die Datennutzer können schneller auf die Daten zugreifen und sie analysieren, und die IT-Mitarbeiter haben mehr Zeit, sich auf Aufgaben mit höherer Priorität zu konzentrieren.
  • Geringeres Risiko: Analysten können sich darauf verlassen, dass sie mit Daten arbeiten, die sie für den gegebenen Zweck verwenden dürfen, und dass sie dabei die Branchen- und Datenschutzvorschriften einhalten. Außerdem können sie Anmerkungen und Metadaten schnell überprüfen, um leere Felder oder falsche Werte zu erkennen, die die Analyse beeinträchtigen können.
  • Mehr Erfolg bei Datenmanagement-Initiativen: Je schwieriger es für Datenanalysten ist, Daten zu finden, auf sie zuzugreifen, sie aufzubereiten und ihnen zu vertrauen, desto unwahrscheinlicher ist es, dass Business Intelligence (BI)-Initiativen und Big Data-Projekte erfolgreich sein werden.
  • Bessere Daten und bessere Analysen in kürzerer Zeit – ein klarer Wettbewerbsvorteil: Datenfachleute können schnell auf Probleme, Herausforderungen und Chancen mit Analysen und Antworten reagieren, die auf allen am besten geeigneten, kontextbezogenen Daten innerhalb des Unternehmens basieren.

Ein Datenkatalog kann Ihrem Unternehmen außerdem dabei helfen, spezifische technische und geschäftliche Herausforderungen zu meistern und die Ziele des Unternehmens zu erreichen. Ein Datenkatalog bietet Analysten einen umfassenden Überblick über ihre Kunden und kann so dabei helfen, neue Möglichkeiten für Cross-Selling, Up-Selling, gezielte Werbeaktionen und vieles mehr zu entdecken. Durch die Förderung, Vereinfachung oder Automatisierung der Governance kann ein Datenkatalog Ihnen helfen, eine Data Lake Governance zu implementieren, die Datensümpfe verhindert und ein Richtlinien-Framework für die Entwicklung, Bereitstellung und Überwachung von KI-Modellen mit Fokus auf Fairness, Verantwortlichkeit, Sicherheit und Transparenz bietet.

Datenkatalog und IBM Cloud

IBM Watson Knowledge Catalog ist ein offener und intelligenter Datenkatalog für Governance, Qualität und Zusammenarbeit für Unternehmensdaten und KI-Modelle. Er hilft Datenanwendern, Datenbestände, Datensätze, Analysemodelle und ihre Beziehungen zu anderen Mitgliedern Ihres Unternehmens schnell zu entdecken, zu pflegen, zu kategorisieren und gemeinsam zu nutzen.

Watson Knowledge Catalog basiert auf dem IBM Cloud Pak for Data und dient Dateningenieuren, Datenverwaltern, Datenwissenschaftlern und Geschäftsanalysten als zentrale Informationsquelle für den Self-Service-Zugriff auf Daten, denen sie vertrauen können. Er bietet außerdem Data Governance, Datenqualität und aktives Richtlinienmanagement, um Ihr Unternehmen dabei zu unterstützen, vertrauliche Daten zu schützen und zu verwalten, die Datenherkunft zu verfolgen, Data Lakes zu verwalten und sich auf Ihren Weg in die Welt der KI vorzubereiten.

Erfahren Sie mehr über die IBM Lösungen zur Datenkatalogisierung und legen Sie noch heute los, indem Sie Ihr IBM Cloud-Konto erstellen.

Zugehörige Lösungen
Watson Knowledge Catalog

Aktivieren Sie geschäftlich sofort nutzbare Daten für KI und Analysen – mit intelligenter Katalogisierung und unterstützt durch aktives Metadaten- und Richtlinienmanagement

Watson Knowledge Catalog kennenlernen
IBM Cloud Pak for Data

Automatisieren Sie die Entdeckung, Katalogisierung und Anreicherung von Daten in einer hybriden Daten- und Cloud-Landschaft, um die Relevanz für die Benutzer zu erhöhen. Bieten Sie mehr Menschen Zugriff auf Daten, die für Ihr Unternehmen sofort nutzbar sind.

IBM Cloud Pak for Data kennenlernen
Ressourcen zum Thema Datenkatalog Ein umfassender Leitfaden für den modernen Datenkatalog

Erfahren Sie mehr über die Automatisierungsmöglichkeiten eines Datenkatalogs und wie Unternehmen neue Geschäftsmodelle entwickeln und sich auf KI vorbereiten.

Die Forrester Wave™, 4. Quartal 2020

Erfahren Sie, warum Forrester den IBM Watson Knowledge Catalog in „The Forrester Wave™: Machine Learning Data Catalogs“ als „Leader“ bezeichnet hat.

Meistern Sie die Herausforderungen des Datenschutzes mit einem intelligenten Datenkatalog

Datenschutzverletzungen haben weitreichende Folgen. Planen Sie voraus – mit einem Datenkatalog.