Metadaten sind Informationen, z. B. Autor, Erstellungsdatum oder Dateigröße, die einen Datenpunkt oder Datensatz beschreiben. Metadaten können die Funktionen eines Datensystems verbessern und die Suche nach, Organisation und Nutzung von Daten erleichtern.
Die einfache Definition von Metadaten ist „Daten über Daten“. Das heißt, sie liefern Details über Daten, die vom Inhalt der Daten selbst getrennt sind. Eine Tabelle mit den letzten Kundenbestellungen stellt beispielsweise einen Datensatz dar, während Informationen über diesen Datensatz, z. B. wer der Eigentümer ist oder um welche Art von Datei es sich handelt, die Metadaten sind.
Verschiedene Arten von Metadaten erfüllen unterschiedliche Funktionen. Zu den beschreibenden Metadaten für ein Dokument können beispielsweise der Autor, das Erstellungsdatum, die Dateigröße und Schlüsselwörter gehören. Technische Metadaten für eine relationale Datenbank können die Struktur von Tabellen, Datentypen und Beziehungen zwischen Tabellen beschreiben.
Angesichts der gewaltigen Datenmengen, mit denen Unternehmen heute umgehen, sind Metadaten unverzichtbar. Sie verbessern den Datenzugriff und erleichtern die Navigation in großen Datensätzen und die Umwandlung von Rohinformationen in umsetzbare Erkenntnisse. So kann beispielsweise ein Einzelhandelsunternehmen mithilfe von Metadaten schnell Verkaufsdaten für einen bestimmten Monat, gefiltert nach Produktkategorie und Region, finden, ohne seine gesamten Daten durchsuchen zu müssen.
Metadaten sind auch für die Data Governance und Datenverwaltung von entscheidender Bedeutung. So hat Gartner festgestellt, dass Unternehmen, die bei der IT-Modernisierung keinen metadatenbasierten Ansatz verfolgen, bis zu 40 % mehr für die Datenverwaltung ausgeben müssen.1
Systeme wie Datenbanken, Digital Libraries und Content-Management-Plattformen sind für das Sortieren, Abrufen und Verwalten von Daten auf Metadaten angewiesen. Durch eine bessere Organisation der Daten können Unternehmen ihren Wert für wichtige Geschäftsinitiativen maximieren. Dazu gehören Projekte zu Business Intelligence (BI), künstlicher Intelligenz (KI) und maschinellem Lernen (ML).
Metadaten tragen auch zur Gewährleistung der Datenqualität und Datenintegrität bei. Sie ermöglichen die Rückverfolgung der Datenabstammung und unterstützen die Einhaltung von Vorschriften wie der Datenschutz-Grundverordnung (DSGVO) und dem California Consumer Privacy Act (CCPA).
Metadaten können sich mitunter ein wenig Meta anfühlen. Um es konkreter zu machen, denken Sie an ein Buch. Bei den Metadaten handelt es sich hier um den Autor, den Titel, das Veröffentlichungsdatum und das Inhaltsverzeichnis. Diese Informationen liefern nicht die eigentlichen Daten, d. h. den Text des Buches, sondern wesentliche Informationen zur Einordnung des Buches und zum Verständnis seiner Herkunft.
So wie ein Bibliothekar oder Forscher Tausende von Titeln anhand des Namens eines Autors durchsuchen kann, können Data Scientists oder andere Benutzer große Datensätze anhand von Metadaten durchsuchen.
Ohne diese Informationen würden die Benutzer auf riesige Datenmengen stoßen, die Hunderttausenden nicht kategorisierten Textseiten entsprechen, ohne die Möglichkeit zum Sortieren oder Ordnen. Mit anderen Worten, die Daten wie die Bücher würden jeden Kontext und jede Funktion verlieren.
Es gibt verschiedene Arten von Metadaten, die alle unterschiedliche Aspekte von Daten beschreiben. Verschiedene Arten von Metadaten können zum Beispiel den Inhalt einer Computerdatei, ihre Struktur oder ihre Berechtigungen beschreiben.
Zu den häufigsten Arten von Metadaten gehören:
Beschreibende Metadaten liefern grundlegende Informationen zu Daten wie Dateititel, Autor, Schlüsselwörter und Zusammenfassung.
Beschreibende Metadaten werden häufig in Social-Media-Plattformen, Suchmaschinen und Datenkatalogen verwendet, da sie die Suche nach Daten erleichtern. Auf LinkedIn beispielsweise können beschreibende Metadaten – wie die Berufsbezeichnung, Bildung und Fähigkeiten eines Benutzers – beim Sortieren und Identifizieren von Profilen unterstützen.
Semantische Metadaten sind zwar technisch gesehen eher ein Framework als ein Metadatentyp, können aber beschreibende Metadaten ergänzen. Semantische Metadaten definieren Beziehungen zwischen Datenpunkten und fügen kontextbezogene Bedeutung hinzu.
Wenn ein Datensatz beispielsweise den Begriff „Automobil“ enthält, können semantische Metadaten Klarheit darüber schaffen, wie „Automobil“ mit anderen Begriffen wie „Fahrzeug“ oder „SUV“ zusammenhängt.
Strukturelle Metadaten definieren, wie Datenelemente organisiert und miteinander in Beziehung gesetzt werden. Auf einer Website legen strukturelle Metadaten beispielsweise fest, wie die Startseite auf andere Unterseiten verlinkt ist, und kategorisieren sie in Abschnitte.
Strukturelle Metadaten unterstützen Systeme auch bei der Organisation komplexer Daten, ähnlich wie ein Inhaltsverzeichnis den Leser durch ein Buch führt.
Taxonomien – organisierte Systeme zur Kategorisierung von Daten – enthalten oft die Grundlage für strukturelle Metadaten. Ein Einzelhändler könnte beispielsweise eine Taxonomie verwenden, um verschiedene Produkte zu klassifizieren, indem er „Mobiltelefone“ unter „Elektronik“ und „T-Shirts“ unter „Bekleidung“ einfügt.
Administrative Metadaten enthalten Informationen über Dateneigentum, Zugriffsberechtigungen und Aufbewahrungsrichtlinien. Hier kann zum Beispiel detailliert beschrieben werden, wer die Daten erstellt hat, wer sie ändern kann und wie lange sie zu speichern sind.
Administrative Metadaten können auch dazu beitragen, die Einhaltung rechtlicher und organisatorischer Vorschriften sicherzustellen, indem sie den Datenzugriff dokumentieren und Aufbewahrungsfristen verwalten. Darüber hinaus spielen sie eine kritische Rolle bei der Verwaltung von beibehaltenen Metadaten und tragen dazu bei, dass die Daten im Laufe der Zeit zugänglich und nutzbar bleiben.
Technische Metadaten beschreiben die technischen Einzelheiten einer Datendatei, wie etwa Dateityp, Codierungsinformationen und Speicherort. Zu den technischen Metadaten eines Bildes können beispielsweise Auflösung, Dateigröße, Dateiformat und Farbprofil gehören.
Technische Metadaten tragen auch dazu bei, dass Daten auf verschiedenen Systemen und Plattformen, wie Content-Management-Systemen oder Cloud-Speicherlösungen, korrekt gespeichert, verarbeitet und angezeigt werden.
Technische Metadaten enthalten beispielsweise wichtige Informationen, die verschiedene Systeme und Umgebungen zur genauen Interpretation und Darstellung von Daten benötigen, z. B. die richtige Auflösung für die Anzeige eines Bildes.
Beibehaltene Metadaten tragen dazu bei, die langfristige Nutzbarkeit und Zugänglichkeit von Daten zu gewährleisten. Sie enthalten Einzelheiten über das letzte Backup eines Datensatzes und Strategien für die Aufbewahrung von Daten, z. B. die Portierung von Daten in neue Formate im Zuge der Technologie Weiterentwicklung, um ein Veralten zu verhindern.
Beispielsweise könnte ein Gesundheitsdienstleister beibehaltene Metadaten für die Konvertierung von Patientendatensätzen aus Altsystemen in moderne Formate für elektronische Gesundheitsakten (EHR) verwenden, um einen kontinuierlichen Zugriff und die Einhaltung von Vorschriften zu gewährleisten.
Beibehaltene Metadaten sind in Branchen wie dem Gesundheitswesen und Rechtswesen von entscheidender Bedeutung, in denen Unternehmen Daten zur Einhaltung bestimmter Regeln und Vorschriften über längere Zeiträume aufbewahren müssen.
Da Metadaten für die Organisation, die Suche und den Zugriff auf Daten entscheidend sind, spielen sie bei jedem Schritt des Datenverwaltungsprozesses, von der Erstellung und der Speicherung bis zum Abruf und der Archivierung von Daten, eine entscheidende Rolle.
Im Folgenden finden Sie eine Aufschlüsselung, wie sich Metadaten in jeden Schritt des Lebenszyklus der Datenverwaltung einfügen.
Mit der Datenerstellung geht fast immer auch die Erstellung von Metadaten einher, entweder manuell oder automatisch.
Wenn jemand beispielsweise ein digitales Foto macht, zeichnen die meisten Digitalkameras automatisch Metadaten wie Kameramodell, Datum und Uhrzeit auf.
In ähnlicher Weise können Benutzer beim Hochladen eines Datensatzes in einen Datenspeicher auch manuell beschreibende Metadaten hinzufügen, um die Durchsuchbarkeit zu verbessern.
Metadaten bieten Unternehmen eine Struktur für die Kategorisierung, Beschreibung und Organisation großer Datenmengen. Auf diese Weise können Unternehmen Daten logischer und kohärenter speichern.
In relationalen Datenbanken geben Metadaten beispielsweise an, wie Tabellen verknüpft sind, sodass die Analyse erleichtert wird.
Metadaten können unstrukturierten Daten Kennzeichnungen, Beschreibungen oder Tags hinzufügen, damit Systeme Dateien und Datensätze effizienter sortieren können. Metadaten unterstützen auch die Versionskontrolle, indem sie Änderungen und die Herkunft der Dateien verfolgen.
Metadaten erleichtern die Durchsuchbarkeit und Abrufbarkeit der gespeicherten Daten. Anstatt große Mengen an Informationen manuell zu durchsuchen, können Benutzer mithilfe von Metadaten wie Schlüsselwörtern, Dateibeschreibungen oder Erstellungsdaten schnell bestimmte Daten finden.
Metadaten-Tags in einem Content-Management-System können Benutzern beispielsweise dabei helfen, Inhalte nach Veröffentlichungsdatum, Autor oder Thema zu sortieren. Suchmaschinen sind für die Einstufung und Bereitstellung relevanter Webseiten auf die in HTML-Headern eingebetteten Metadaten, wie Titel-Tags und Beschreibungen, angewiesen.
Sobald Daten das Ende ihrer aktiven Nutzung erreichen, unterstützen Metadaten bei der ordnungsgemäßen Archivierung und langfristigen Aufbewahrung.
Beibehaltene Metadaten dokumentieren wichtige Einzelheiten wie Dateiformat, Zugriffsberechtigungen, Datum der letzten Änderung und Backup-Verlauf.
Durch die Verfolgung dieser Einzelheiten können Unternehmen sicherstellen, dass archivierte Daten jahrelang oder sogar jahrzehntelang nutzbar bleiben und gleichzeitig die gesetzlichen Standards einhalten.
Standards und Schemata von Metadaten tragen zur Gewährleistung der Konsistenz von Datensätzen bei und erleichtern Systemen und Benutzern das Verständnis und die gemeinsame Nutzung von Daten.
Ein Metadatenstandard legt fest, wie Metadaten über verschiedene Systeme hinweg strukturiert und verwendet werden sollen. Zwei weithin anerkannte Metadatenstandards sind Dublin Core und ISO 19115.
Ein Metadatenschema ist ein Blueprint für die Implementierung von Metadatenstandards. Es trägt zur Organisation, Formatierung und einheitlichen Verwendung von Metadatenelementen bei. Ein auf Dublin Core basierendes Schema würde zum Beispiel vorschreiben, wie Elemente wie „Titel“ und „Betreff“ zur Gewährleistung der Konsistenz auf verschiedenen Plattformen formatiert werden sollten.
Metadaten sind von entscheidender Bedeutung für Systeme und Technologien, auf die sich Menschen täglich verlassen, von Suchmaschinen bis hin zu KI-Modellen. Insbesondere unterstützen Metadaten Folgendes:
Unternehmen verfügen heute über gewaltige Datenmengen, aber das bedeutet nicht viel, wenn die Mitarbeiter diese Daten nicht nutzen können. Laut dem IBM Data Differentiator werden sogar 68 % der Unternehmensdaten nie analysiert. Der Grund liegt häufig in der Unkenntnis der Mitarbeiter oder in Silos, die ihnen den Zugang zu den Informationen verwehren.
Metadaten ermöglichen Benutzern das einfache Navigieren in komplexen Datenlandschaften. Metadaten unterstützen die Organisation, Kennzeichnung, Filterung und Sortierung von Datensätzen, damit Benutzer und Systeme die benötigten Informationen schnell abrufen können. Ohne eine angemessene Verwaltung der Metadaten wäre die systemübergreifende Suche nach den richtigen Daten wie die sprichwörtliche Suche nach der Nadel im Heuhaufen.
Unternehmen erfassen Daten aus verschiedenen Quellen – Apps, Websites, digitale und physische Geschäfte, Kundenportale und mehr. Die Konsolidierung all dieser Informationen wird als Datenintegration bezeichnet und kann eine große Herausforderung darstellen.
Metadaten unterstützen bei der Standardisierung von Datenformaten und der Zuordnung von Beziehungen zwischen Datensätzen, sodass Daten nahtlos zwischen Systemen fließen können. Die Integration ist besonders für die Datenanalyse und Business Intelligence (BI) wichtig, wo genaue Erkenntnisse von den Daten verschiedener Plattformen abhängen, die miteinander arbeiten.
Ein Einzelhandelsunternehmen könnte beispielsweise Metadaten zur Verknüpfung von Kundenkaufdaten aus Online- und Geschäftstransaktionen verwenden. Auf diese Weise kann das Unternehmen die Datensätze gemeinsam analysieren, um genauere und fundiertere Einkaufsvorhersagen zu treffen. Sie können sogar zur Optimierung der Bestandsverwaltung und Unterstützung neuer Marketingstrategien beitragen.
Projekte im Bereich der künstlichen Intelligenz und des maschinellen Lernens sind für ein akkurates Training und genaue Ergebnisse auf saubere, gut organisierte Daten angewiesen. Metadaten unterstützen diesen Prozess, indem sie die Daten kennzeichnen und kategorisieren, was den Modellen beim Lernen hilft und den nötigen Kontext für Erkenntnisse liefert.
Außerdem ist die Datenaufbereitung für diese Technologien oft ein langwieriger Prozess. Nach Angaben von Gartner verbringen Kunden rund 90 % ihrer Zeit mit der Datenaufbereitung, in komplexen Branchen sogar 94 %.1 Eine effiziente Metadatenverwaltung kann dazu beitragen, den Datenaufbereitungsprozess zu optimieren und es Unternehmen zu ermöglichen, sich auf die Analyse statt auf die Datenbereinigung zu konzentrieren.
Unternehmen verfügen über große Datenmengen, die von Kundentransaktionen und Produktbeständen bis hin zu internen Prozessen und eigenen Forschungsarbeiten reichen. Diese Daten müssen in einer kohärenten Datenarchitektur organisiert werden, damit Benutzer und Anwendungen bei Bedarf darauf zugreifen können.
Metadaten sind die Grundlage der Datenarchitektur. Sie dienen als Blueprint, der vorgibt, wie die Daten organisiert, gespeichert und systemübergreifend abgerufen werden. Sie liefern Informationen, die den effizienten Betrieb von Datenpipelines unterstützen, den Datenfluss im System standardisieren und die Skalierbarkeit verbessern.
Metadaten können auch Redundanzen minimieren, indem sie die Beziehungen zwischen Datensätzen abbilden, sodass Unternehmen die gleichen Daten nicht an mehreren Orten speichern müssen.
Metadaten werden branchenübergreifend zur Verbesserung der Organisation, Zugänglichkeit und Verwaltung von Daten verwendet. Zu den Anwendungen von Metadaten in der Praxis gehören:
Unter Metadatenverwaltung versteht man die Organisation, Optimierung und Nutzung von Metadaten zur Verbesserung der Zugänglichkeit und Qualität der Daten eines Unternehmens. Zu den gemeinsamen Schwerpunkten der Metadatenverwaltung gehören die Standardisierung von Metadatenformaten, die Festlegung von Data-Governance-Richtlinien und die Automatisierung der Metadatenerstellung.
Metadaten-Repositorys sind für diesen Prozess oft entscheidend. Sie dienen als zentraler Bezugspunkt, um sicherzustellen, dass die Metadaten systemübergreifend konform und aktuell sind.
Auch bei der Metadatenverwaltung kommt häufig Automatisierung durch Vorlagen und APIs zum Einsatz, um manuelle Fehler zu reduzieren und die Metadatenverarbeitung zu beschleunigen. Durch Automatisierung können auch große Datensätze effizienter und fehlerfreier verarbeitet werden.
Die Metadatenverwaltung unterstützt und optimiert die Datenverwaltung. Darüber hinaus unterstreicht der Siegeszug der KI – und die wesentliche Rolle von Metadaten bei maschinellem Lernen und KI-Systemen – die wachsende Bedeutung der Metadatenverwaltung.
1 State of Metadata Management: Aggressively Pursue Metadata to Enable AI and Generative AI, Gartner, 4. September 2024.
Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.
Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.