Ein Datenkatalog ist eine detaillierte Bestandsaufnahme aller Datenbestände in einem Unternehmen, die Datenfachleuten dabei hilft, schnell die am besten geeigneten Daten für jeden analytischen oder geschäftlichen Zweck zu finden.
IBM Watson Knowledge Catalog
IBM Cloud Pak for Data
Ein Datenkatalog nutzt Metadaten – also Daten, die Daten beschreiben oder zusammenfassen – um eine informative und durchsuchbare Bestandsaufnahme aller Datenbestände in einem Unternehmen zu erstellen. Diese Datenbestände können folgende Arten von Daten umfassen (sind aber nicht darauf beschränkt):
Diese Bestandsaufnahme ermöglicht es Datenanwendern– Datenanalysten, Datenwissenschaftlern, Datenverwaltern und anderen Datenfachleuten mit Zugriff auf Unternehmensdaten –, alle verfügbaren Datenbestände eines Unternehmens zu durchsuchen und sich die für ihre Analyse- oder Geschäftszwecke am besten geeigneten Daten zu beschaffen.
Ein Datenkatalog umfasst in der Regel Funktionen zum Sammeln und kontinuierlichen Anreichern – oder zur Pflege –der Metadaten, die mit den einzelnen Datenbeständen verknüpft sind, um die korrekte Identifizierung, Bewertung und Nutzung des jeweiligen Datenbestands zu erleichtern. Der Katalog bietet außerdem Tools, die Benutzern Folgendes ermöglichen:
Aufbauend auf der obenstehenden Kurzdefinition sind Metadaten Daten, die einen Datenbestand beschreiben oder Informationen über den Bestand liefern, die wiederum das Auffinden, die Bewertung und das Verständnis erleichtern.
Das klassische oder am häufigsten verwendete Beispiel für Metadaten ist der Karten- oder Online-Katalog einer Bibliothek. Dabei enthält jede Karte oder jeder Eintrag Informationen über ein Buch oder eine Publikation (z. B. Titel, Autor, Thema, Erscheinungsdatum, Ausgabe, Aufbewahrungsort in der Bibliothek und Zusammenfassung), die es dem Leser erleichtern, die jeweilige Publikation zu finden und zu bewerten. Zum Beispiel: Ist die Publikation aktuell oder veraltet? Bietet die Publikation die Informationen, die ich suche? Ist der Autor jemand, dem ich vertraue oder dessen Arbeit ich mag?
Es gibt viele Kategorien von Metadaten, aber ein Datenkatalog befasst sich hauptsächlich mit drei Kategorien: technische Metadaten, Prozess-Metadaten und geschäftliche Metadaten.
Technische Metadaten (auch strukturelle Metadaten genannt) beschreiben, wie die Daten organisiert sind und den Nutzern angezeigt werden, indem sie die Struktur der Datenobjekte beschreiben, z. B. Tabellen, Spalten, Zeilen, Indizes und Verbindungen. Technische Metadaten geben Datenfachleuten Informationen darüber, wie sie mit den Daten arbeiten müssen, z. B. ob sie mit den Daten so arbeiten können, wie sie sie vorfinden, oder ob sie sie für Analyse- oder Integrationszwecke umwandeln müssen.
Prozess-Metadaten (auch administrative Metadaten genannt) beschreiben die Umstände der Erstellung des Datenbestands und wann, wie und von wem auf ihn zugegriffen, er verwendet, aktualisiert oder geändert wurde. Sie sollten außerdem beschreiben, wer die Erlaubnis hat, auf die Daten zuzugreifen und sie zu nutzen.
Prozess-Metadaten liefern Informationen über die Historie und den zeitlichen Verlauf des Datenbestands, die einem Analysten helfen können zu entscheiden, ob der Datenbestand für die zu erledigende Aufgabe aktuell genug ist, ob er aus einer zuverlässigen Quelle stammt, ob er von vertrauenswürdigen Personen aktualisiert wurde usw. Prozess-Metadaten können auch zur Fehlerbehebung von Abfragen verwendet werden. In zunehmendem Maße werden Prozess-Metadaten ausgewertet, um Informationen über Software-Benutzer oder -Kunden zu erhalten, z. B. welche Software sie verwenden und wie gut der Service ist, den sie erhalten.
Geschäftliche Metadaten (manchmal auch als externe Metadaten bezeichnet) beschreiben die geschäftlichen Aspekte des Datenbestands – den geschäftlichen Wert, den er für das Unternehmen hat, seine Eignung für einen bestimmten Zweck oder verschiedene Zwecke, Informationen über die Einhaltung gesetzlicher Vorschriften und mehr. Geschäftliche Metadaten ermöglichen es Datenfachleuten und Anwendern im operativen Geschäft, in der gleichen Sprache über Datenbestände zu sprechen.
Als Mindestanforderung sollte ein Datenkatalog das Auffinden (oder Sammeln) und Organisieren aller vorhandenen Metadaten, die mit einem beliebigen Datenbestand in Ihrem Unternehmen verbunden sind, erleichtern. Er sollte außerdem Tools bereitstellen, mit denen Datenexperten diese Metadaten pflegen und mit Tags, Assoziationen, Bewertungen, Anmerkungen und anderen Informationen und Kontexten anreichern können, die es den Nutzern ermöglichen, die Daten schneller zu finden, sie zu nutzen und ihnen zu vertrauen.
Ein Datenkatalog erfordert eine beträchtliche Investition in Bezug auf Software, sowie Zeit und Aufwand seitens der Datenanwender – eine Investition, die die meisten Unternehmen nur einmal tätigen wollen. Achten Sie bei der Bewertung von Datenkataloglösungen daher auf die folgenden Funktionen (zusätzlich zu den obengenannten Funktionen zur Verwaltung der Metadaten):
Wenn Datenfachleute sich selbst die Daten beschaffen können, die sie benötigen, ohne dass die IT-Abteilung eingreifen muss, ohne dass sie auf den Rat von Experten oder Kollegen angewiesen sind und ohne dass sie sich auf die Daten beschränken müssen, die sie kennen, und ohne dass sie sich um Governance und Compliance kümmern müssen, profitiert das gesamte Unternehmen davon.
Ein Datenkatalog kann Ihrem Unternehmen außerdem dabei helfen, spezifische technische und geschäftliche Herausforderungen zu meistern und die Ziele des Unternehmens zu erreichen. Ein Datenkatalog bietet Analysten einen umfassenden Überblick über ihre Kunden und kann so dabei helfen, neue Möglichkeiten für Cross-Selling, Up-Selling, gezielte Werbeaktionen und vieles mehr zu entdecken. Durch die Förderung, Vereinfachung oder Automatisierung der Governance kann ein Datenkatalog Ihnen helfen, eine Data Lake Governance zu implementieren, die Datensümpfe verhindert und ein Richtlinien-Framework für die Entwicklung, Bereitstellung und Überwachung von KI-Modellen mit Fokus auf Fairness, Verantwortlichkeit, Sicherheit und Transparenz bietet.
IBM Watson Knowledge Catalog ist ein offener und intelligenter Datenkatalog für Governance, Qualität und Zusammenarbeit für Unternehmensdaten und KI-Modelle. Er hilft Datenanwendern, Datenbestände, Datensätze, Analysemodelle und ihre Beziehungen zu anderen Mitgliedern Ihres Unternehmens schnell zu entdecken, zu pflegen, zu kategorisieren und gemeinsam zu nutzen.
Watson Knowledge Catalog basiert auf dem IBM Cloud Pak for Data und dient Dateningenieuren, Datenverwaltern, Datenwissenschaftlern und Geschäftsanalysten als zentrale Informationsquelle für den Self-Service-Zugriff auf Daten, denen sie vertrauen können. Er bietet außerdem Data Governance, Datenqualität und aktives Richtlinienmanagement, um Ihr Unternehmen dabei zu unterstützen, vertrauliche Daten zu schützen und zu verwalten, die Datenherkunft zu verfolgen, Data Lakes zu verwalten und sich auf Ihren Weg in die Welt der KI vorzubereiten.
Erfahren Sie mehr über die IBM Lösungen zur Datenkatalogisierung und legen Sie noch heute los, indem Sie Ihr IBM Cloud-Konto erstellen.
Aktivieren Sie geschäftlich sofort nutzbare Daten für KI und Analysen – mit intelligenter Katalogisierung und unterstützt durch aktives Metadaten- und Richtlinienmanagement
Automatisieren Sie die Entdeckung, Katalogisierung und Anreicherung von Daten in einer hybriden Daten- und Cloud-Landschaft, um die Relevanz für die Benutzer zu erhöhen. Bieten Sie mehr Menschen Zugriff auf Daten, die für Ihr Unternehmen sofort nutzbar sind.
Erfahren Sie mehr über die Automatisierungsmöglichkeiten eines Datenkatalogs und wie Unternehmen neue Geschäftsmodelle entwickeln und sich auf KI vorbereiten.
Erfahren Sie, warum Forrester den IBM Watson Knowledge Catalog in „The Forrester Wave™: Machine Learning Data Catalogs“ als „Leader“ bezeichnet hat.
Datenschutzverletzungen haben weitreichende Folgen. Planen Sie voraus – mit einem Datenkatalog.