Was ist ein Datenkatalog?

Großformatiges Foto der Beinecke Rare Book and Manuscript Library der Yale University

Autoren

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

Was ist ein Datenkatalog?

Ein Datenkatalog ist ein detailliertes Inventar von Datenbeständen innerhalb einer Organisation. Es hilft Benutzern, Daten einfach zu entdecken, zu verstehen, zu verwalten, zu kuratieren und darauf zuzugreifen.

Mithilfe von Metadaten und Datenverwaltungstools organisieren Datenkataloge Datenbestände, damit Benutzer (z. B. Datenanalysten, Datenwissenschaftler und Datenverantwortliche) schnell die richtigen Daten für ihre analytischen oder geschäftlichen Anwendungsfälle finden können. Viele Datenkataloge unterstützen die Suche in natürlicher Sprache, so dass die Benutzer Daten finden können, ohne Code oder SQL-Abfragen schreiben zu müssen.

Datenkataloge umfassen in der Regel eine breite Palette von Datenassets, darunter:

Ein leistungsfähiger Datenkatalog umfasst auch Funktionen zur Verwaltung von Metadaten zum Erfassen und kuratieren der Metadaten jedes Assets. Diese Funktionen können die Identifizierung, Auswertung und effektive Nutzung von Daten erleichtern. Der Katalog sollte auch Data-Governance-Tools bieten, um die DatenqualitätDatenintegrität  und Datensicherheit zu gewährleisten .

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und darüber hinaus auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Was sind Metadaten?

Metadaten sind „Daten über Daten“. Es handelt sich dabei um Informationen über Daten, die vom Inhalt der Daten selbst unabhängig sind, z. B. Autor, Erstellungsdatum oder Dateigröße. Metadaten erleichtern die Suche, Organisation und Verwendung von Daten.

Ein klassisches Beispiel für Metadaten ist der Zettelkatalog oder Online-Katalog in einer Bibliothek. In diesen Katalogen enthält jede Karte oder jeder Eintrag Informationen über ein Buch: Titel, Autor, Thema, Erscheinungsdatum, Ausgabe, Standort in der Bibliothek oder eine Zusammenfassung.

Diese Informationen erleichtern es den Lesern, das Buch zu finden und zu bewerten: Ist es aktuell oder veraltet? Enthält es die Informationen, nach denen ich suche? Ist der Autor jemand, dem ich vertraue oder dessen Arbeit ich mag? In gleicher Weise erleichtern Metadaten den Datennutzern das Auffinden und die Bewertung der Daten ihres Unternehmens.

Verschiedene Arten von Metadaten erfüllen unterschiedliche Funktionen. Datenkataloge befassen sich in der Regel mit mehreren Klassen von Metadaten, darunter:

Technische Metadaten

Technische Metadaten beschreiben die technischen Details der Daten, z. B. Dateityp, Kodierungsinformationen, Schemata und Speicherort. Dies informiert die Benutzer darüber, wie sie mit den Daten arbeiten können - zum Beispiel, wenn sie für die Analyse umgewandelt werden müssen.

Operative Metadaten

Operative Metadaten beschreiben die Umstände der Erstellung und Verwendung des Datenbestands. Sie enthalten z. B. Informationen darüber, wann, wie und von wem auf sie zugegriffen wurde, wie sie verwendet, aktualisiert oder geändert wurden.

Administrative Metadaten

Administrative Metadaten definieren Richtlinien zur Datennutzung und -aufbewahrung. Diese Art von Metadaten wird bei der Data Governance verwendet und kann Unternehmen bei der Einhaltung rechtlicher, regulatorischer und interner Richtlinien helfen.

Geschäftliche Metadaten

Geschäftliche Metadaten beschreiben den geschäftlichen Kontext eines Assets und seine Relevanz für das Unternehmen. Diese Metadaten sind sowohl für Datenexperten als auch für Geschäftsanwender leicht zu verstehen.

In der Regel verfügt ein Datenkatalog über Tools zur Metadatenverwaltung, um Metadaten zu kuratieren und mit Tags, Assoziationen, Bewertungen und Anmerkungen anzureichern.

Mixture of Experts | 28. August, Folge 70

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Warum sind Datenkataloge wichtig?

Moderne Unternehmen beherbergen zunehmend komplexe Datenumgebungen. Die Daten können aus verschiedenen Cloud-Umgebungen und lokalen Systemen sowie aus verschiedenen Teams, Regionen und Plattformen stammen. Ein Datenkatalog macht es jedem Benutzer leicht, all diese Daten mit geringem technischen Aufwand zu finden, auszuwerten und zu nutzen.

Betrachten Sie diese Analogie: Digitale Bibliothekssysteme ersparen den Lesern die Zeit und Mühe, auf der Suche nach einem bestimmten Buch die Regale abzulaufen. Ein Datenkatalog dient einem ähnlichen Zweck, indem er den Benutzern hilft, die benötigten Daten schnell zu finden, anstatt sie in riesigen, unorganisierten Datensätzen stöbern zu lassen. Ein besserer Datenzugang verbessert die Effizienz von Initiativen zur Erkenntnisgewinnung im gesamten Unternehmen erheblich – so wie ein digitaler Bibliothekskatalog die Leser schneller auf die erste Seite des gewünschten Buches bringt.

Datenkataloge spielen auch bei der Data Governance, der Risikominderung und der Einhaltung von Vorschriften eine entscheidende Rolle, insbesondere bei der Vermeidung von Verstößen. Die Möglichkeiten in diesem Bereich reichen von der automatischen Datenklassifizierung für sensible Daten bis hin zu Benachrichtigungen bei der Entdeckung von Datenanomalien.

Mithilfe von Datenkatalogen können Datenexperten unabhängig auf Daten zugreifen, ohne auf IT-Teams oder Datentechniker angewiesen zu sein oder Compliance- und Governance-Probleme zu riskieren. Diese Faktoren schaffen eine agile, autarke Datenumgebung, von der das gesamte Unternehmen profitiert.

Datenkatalog vs. Data Dictionary

Datenkataloge und Datenwörterbücher dienen unterschiedlichen Zwecken, wirken aber zusammen, um Daten besser nutzbar zu machen.

Ein Datenkatalog bietet einen umfassenden Überblick über alle Datenbestände in einem Unternehmen. Er bietet einen geschäftlichen Kontext, der Benutzern hilft, Datensätze zu entdecken und zu bewerten.

Im Gegensatz dazu definiert ein Datenwörterbuch die Struktur und den Inhalt der einzelnen Datensätze. Es enthält Details wie Feldnamen, Datentypen, zulässige Werte, Bereiche und Formate. Es sorgt auch dafür, dass Datenfelder in verschiedenen Datenprojekten, Dateien und Programmen standardisiert sind.

Was sind die Vorteile eines Datenkatalogs?

Datenkataloge bieten eine Reihe von Vorteilen, die das Auffinden, die Verwaltung und die Nutzung von Daten in einem Unternehmen unterstützen:

Beschleunigte Datenanalyse

Datenkataloge ermöglichen Self-Service-Analysen, mit denen Datenanalysten leichter Daten finden, abrufen, aufbereiten und ihnen vertrauen können, wodurch der gesamte Prozess der Datenanalyse beschleunigt wird.

Betriebliche Effizienz

Indem sie eine optimale Arbeitsteilung zwischen Benutzern und IT schaffen, verringern Datenkataloge unnötige Engpässe. Datenanwender können unabhängig auf Daten zugreifen und diese analysieren, sodass sich die IT-Teams auf strategische Aufgaben mit hoher Priorität konzentrieren können.

Verbesserte datengesteuerte Entscheidungsfindung

Mit zentralisierten, kontextbezogenen und vertrauenswürdigen Daten können Datenexperten schneller reagieren und fundiertere Entscheidungen treffen, was ihnen hilft die Kennzahlen für Business Intelligence (BI) und Big Data zu erfüllen.

Verringertes regulatorisches Risiko

Durch die Förderung, Vereinfachung und Automatisierung von Governance geben Datenkataloge den Analysten die Gewissheit, dass sie mit den Daten arbeiten, zu deren Verwendung sie berechtigt sind, und dass diese Daten mit den Branchen- und Datenschutzbestimmungen im Einklang stehen.

Verbesserte Silos

Datenkataloge können große Mengen isolierter Daten aus allen Datenquellen eines Unternehmens (z. B. Data Warehouses, Data Lakes und Data Lakehouses) vereinheitlichen. Das Aufbrechen dieser Silos fördert einen breiteren Datenzugang und die Zusammenarbeit zwischen den verschiedenen Stakeholdern.

Was sind die wichtigsten Tools und Funktionen des Datenkatalogs?

Moderne Datenkataloge bieten eine breite Palette von Tools und Funktionen, die den Datennutzern helfen, Unternehmensdaten verantwortungsvoll zu finden, zu verstehen und zu nutzen. Zu den Hauptmerkmalen gehören:

  • Datenerkennung: Ein Datenkatalog sollte es allen Datennutzern ermöglichen, schnell und einfach relevante Daten zu finden. Das Sucherlebnis sollte intuitiv und benutzerfreundlich sein, ähnlich wie bei Netflix, Amazon oder anderen Verbraucherplattformen.

  • Metadatenmanagement: Eine effektives Metadatenmanagement erhöht die Suchbarkeit und Auffindbarkeit von Datenkatalogen. Ein starker Datenkatalog sorgt dafür, dass Metadaten gut strukturiert, zugänglich und verwertbar sind.

  • Datenabstammung: Mithilfe von Metadaten sollte ein Datenkatalog den Lebenszyklus von Daten visualisieren und eine transparente End-to-End-Ansicht ihrer Herkunft, ihrer Veränderungen und ihres Ziels innerhalb der Datenpipeline bieten.

  • Data Governance: Ein effizienter Datenkatalog lässt sich nahtlos in Governance-Richtlinien und -Tools integrieren, einschließlich Regeln zur Datenqualität, Geschäftsglossare und Workflows.

  • Daten-Profiling: Moderne Datenkataloge enthalten Profiling-Tools, die Daten überprüfen und dann durch Bereinigung und Validierung zur Aufrechterhaltung der Datenqualitätsstandards beitragen können.

  • Datenschutz: Um die Datensicherheit und den Schutz sensibler Daten zu gewährleisten, sollte ein Katalog Zugriffskontrollen und Benutzerberechtigungen durchsetzen und die Einhaltung von Vorschriften wie der Datenschutz-Grundverordnung (DSGVO) unterstützen.

  • Integration: Ein Datenkatalog sollte über Crawler, Konnektoren oder Programmierschnittstellen (APIs) mit dem Ökosystem eines Unternehmens verbunden sein – einschließlich Data Warehouse, BI-Tools und anderen Plattformen.

  • Unterstützung für künstliche Intelligenz (KI): Daten sind der Schlüssel zum Erfolg von KI-Modellen. Moderne Unternehmensdatenkataloge helfen dabei, Datensätze für optimale Modellleistung und Transparenz zu kennzeichnen und vorzubereiten.

Was ist ein KI-Datenkatalog?

Ein KI-Datenkatalog nutzt fortschrittliche Technologien wie Automatisierung, künstliche Intelligenz und maschinelles Lernen, um herkömmliche Datenkatalogfunktionen zu verbessern und zu optimieren. Zu den Hauptmerkmalen eines KI-Datenkatalogs können gehören:

Automatisierte Metadatenanreicherung

Gestützt durch Datenerkenntnisse können KI-gestützte Datenkataloge die Anreicherung technischer Metadaten in Echtzeit über Tausende von Datenbeständen hinweg automatisieren.

Automatisierte Daten-Governance

Mithilfe fortschrittlicher Datenklassifizierung können KI-Datenkataloge vertrauliche Daten identifizieren und kennzeichnen und anschließend Datenschutz- und Sicherheitsregeln wie Zugriffskontrollen durchsetzen.

Intelligente Suche

Mit der intelligenten Suche können KI-Datenkataloge die Verarbeitung natürlicher Sprache nutzen, um Benutzeranfragen zu erweitern und zu verbessern und so relevantere Ergebnisse und Erkenntnisse zu erzielen.

Weiterführende Lösungen
IBM Knowledge Catalog

Aktivieren Sie Daten für KI und Analytik mit intelligenter Katalogisierung und Richtlinienverwaltung. IBM Knowledge Catalog ist eine Data-Governance-Software, die einen Datenkatalog zur Automatisierung von Datenerkennung, Datenqualitätsmanagement und Datenschutz bereitstellt.

Mehr zum Knowledge Catalog
IBM Data-Intelligence-Lösungen

Wandeln Sie Rohdaten schnell in umsetzbare Erkenntnisse um, vereinheitlichen Sie Data Governance, Datenqualität, -herkunft und -freigabe und stellen Sie Ihren Datennutzern zuverlässige und kontextualisierte Daten zur Verfügung.

Datenintelligenzlösungen entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Finden, verstehen, kuratieren und greifen Sie auf Daten, Assets und ihre Beziehungen zu – egal, ob sie sich in der Cloud befinden oder lokal gespeichert sind. IBM Knowledge Catalog ist eine Data-Governance-Software, die einen Datenkatalog zur Automatisierung von Datenerkennung, Datenqualitätsmanagement und Datenschutz bereitstellt.

Mehr zum IBM Knowledge Catalog Data-Intelligence-Lösungen entdecken