Mein IBM Anmelden Abonnieren

Startseite

Themen

Dark Data

Was ist Dark Data?

Was ist Dark Data?

Erkunden Sie die Dark-Data-Lösung von IBM Für KI-Updates anmelden
Illustration mit Collage aus Piktogrammen von Wolken, Kreisdiagramm, Diagrammpiktogrammen
Was ist Dark Data?

Was ist Dark Data?

Laut Gartner handelt es sich bei Dark Data um die Informations-Assets, die Unternehmen im Rahmen ihrer regulären Geschäftstätigkeit sammeln, verarbeiten und speichern. Grundsätzlich nutzen Sie diese aber nicht für andere Zwecke wie Analysen, Geschäftsbeziehungen und direkte Monetarisierung.1

Die meisten Unternehmen speichern heutzutage riesige Mengen an Dark Data. In der globalen Umfrage von Splunk unter mehr als 1.300 Geschäfts- und IT-Entscheidungsträgern gaben 60 Prozent der Befragten an, dass die Hälfte oder mehr der Daten ihres Unternehmens als „dunkel“ gelten. Ein ganzes Drittel der Befragten gab an, dass der Anteil bei 75 Prozent oder mehr liegt.2

Dark Data sammelt sich an, weil Unternehmen davon überzeugt sind, dass es sinnvoll ist, alle Informationen, die sie erfassen können, in großen Data Lakes zu speichern. Das liegt zum Teil an der Einführung kostengünstiger Speicher, die es einfach machen, die Speicherung großer Datenmengen zu rechtfertigen – für den Fall, dass sie eines Tages wertvoll werden.

Letztendlich verwenden die meisten Unternehmen nicht einmal einen Bruchteil dessen, was sie speichern, weil das Speichersystem die Metadaten-Labels nicht ordnungsgemäß dokumentiert, einige der Daten in einem Format vorliegen, das von den integrierten Tools nicht gelesen werden kann, oder die Daten nicht über eine Abfrage abgerufen werden können.

Dark Data sind ein wesentlicher limitierender Faktor bei der Erstellung guter Datenanalysen, da die Qualität jeder Datenanalyse von der Menge an Informationen abhängt, die den Analysetools sowohl zeitnah als auch in allen Einzelheiten zur Verfügung stehen.

Zusätzlich verursacht Dark Data Verbindlichkeiten, erhebliche Speicherkosten und verpasste Marktchancen, da Teams nicht erkennen, welche Daten ihnen potenziell zur Verfügung stehen.

Warum KI-Governance eine geschäftliche Notwendigkeit für die Skalierung von KI in Unternehmen ist

Erfahren Sie mehr über die Hindernisse bei der Einführung von KI, insbesondere über das Fehlen von Lösungen für KI-Governance und -Risikomanagement.

Ähnliche Inhalte Registrieren und IDC-Bericht lesen
Warum Daten „dunkel” werden

Warum Daten „dunkel” werden

Es gibt zahlreiche Gründe dafür, dass die Daten eines Unternehmens nicht mehr verfügbar sind. Dazu gehören:

  • Mangelndes Bewusstsein: Daten, die im Rahmen des normalen Geschäftsbetriebs gewonnen werden, werden oft nicht genutzt, weil Unternehmen sich ihrer Existenz entweder nicht bewusst sind oder ihren Wert oder ihre Relevanz nicht verstehen.

  • Daten in Silos: Wenn verschiedene Unternehmensabteilungen Daten unabhängig voneinander sammeln und speichern, kann dies zu deren Fragmentierung und Isolation führen. Diese Datensilos sind möglicherweise für andere Teams, die die Daten möglicherweise sehr wertvoll fänden, nicht zugänglich oder sichtbar.

  • Fehlende Data Governance: Ohne ein solides Data Governance-Framework können Unternehmen Schwierigkeiten haben, Daten in ihrem gesamten Ökosystem effektiv zu verwalten und zu verfolgen. Dies führt dazu, dass Daten unorganisiert, verloren gehen und unbrauchbar werden.

  • Altsysteme: Wenn Unternehmen ihre Software und Hardware aktualisieren, werden ältere Systeme möglicherweise ausgemustert oder verlieren an Bedeutung. Daten, die in diesen Altsystemen gespeichert sind, werden „dunkel“, wenn sie nicht in die modernen Analyse-Tools des Unternehmens integriert werden können.

  • Unvollständige Datenintegration: Unvollständige oder ineffektive Prozesse zur Datenintegration können zu Datenlücken und Inkonsistenzen führen. Das kann dazu führen, dass bestimmte Datensätze nicht zugänglich sind oder nicht richtig mit anderen Datenquellen verknüpft sind.

  • Wechselnde Geschäftsprioritäten: Wenn sich die Geschäftsprioritäten ändern, können bestimmte Datensätze an Relevanz verlieren oder aus dem Fokus geraten. Daten, die früher aktiv genutzt wurden, können in Vergessenheit geraten, wenn sich die Ziele des Unternehmens ändern.

  • Begrenzte Ressourcen und Kompetenzen: Unternehmen mit begrenzten Ressourcen können der Datenerfassung und -speicherung Vorrang vor der Datenanalyse einräumen. Unzureichende Datenkompetenz unter den Mitarbeitern kann zudem die Erkennung und Nutzung wertvoller Daten behindern.

  • Probleme mit der Datenqualität: Eine schlechte Datenqualität, wie ungenaue oder unvollständige Daten, kann dazu führen, dass Daten nicht berücksichtigt oder ignoriert werden. Daten, die als unzuverlässig eingestuft werden, werden weniger wahrscheinlich genutzt, wodurch sie effektiv „unsichtbar“ werden.

  • Einhaltung von Vorschriften: Viele Compliance- und Verwaltungsstandards zwingen Unternehmen dazu, strenge Vorschriften für die Aufbewahrungsdauer sensibler Daten einzuhalten. Oftmals bewahren sie diese Daten auch noch lange nach Ablauf der vorgeschriebenen Frist auf, weil sie nicht nachverfolgen können, welche vertraulichen Daten vernichtet werden sollten.

  • Redundante, veraltete, triviale (ROT) Daten: ROT-Daten entstehen, wenn Mitarbeiter mehrere Kopien derselben, veraltete und irrelevante Informationen speichern, die dem Unternehmen nicht dabei helfen, seine Ziele zu erreichen.
Typen von Dark Data

Typen von Dark Data

Hinsichtlich ihrer Auffindbarkeit für zeitnahe und vollständige Datenanalyse-Initiativen kann es sich bei Dark Data um strukturierte Daten, unstrukturierte Daten oder halbstrukturierte Daten handeln.   

Strukturierte Daten sind Informationen, die vor der Speicherung in klar definierte Tabellen- oder Datenbankfelder eingefügt werden.

Server-Protokolldateien, Internet der Dinge (IoT)-Sensordaten, Kundenbeziehungsmanagement (CRM)-Datenbanken und ERP-Systeme sind Beispiele für Dark Data, die aus strukturierten Datenquellen erstellt werden.

Obwohl die meisten Arten sensibler Daten, wie elektronische Kontoauszüge, Krankenakten und verschlüsselte Kundeninformationen, in der Regel in strukturierter Form vorliegen, ist deren Einsicht und Kategorisierung aufgrund von Berechtigungsproblemen schwierig.

Im Gegensatz zu strukturierten Daten enthalten unstrukturierte Daten Informationen, die nicht in Datenbanken oder Tabellenkalkulationen organisiert werden können, um sie ohne Konvertierung, Kodierung, Tiering und Strukturierung zu analysieren.

E-Mail-Korrespondenzen, PDFs, Textdokumente, Social-Media-Beiträge, Aufzeichnungen von Call-Centern, Chat-Protokolle und Überwachungsvideos sind Beispiele für Dark Data, die aus unstrukturierten Datenquellen entstehen.

Halbstrukturierte Daten sind unstrukturierte Daten, die einige Informationen in definierten Datenfeldern enthalten. Obwohl sie sich nicht so gut wie strukturierte Daten zur Datenerkennung von Dark Data eignen, können sie durchsucht oder katalogisiert werden.

Beispiele hierfür sind HTML-Code, Rechnungen, Grafiken, Tabellen und XML-Dokumente.

Die Kosten von Dark Data

Die Kosten von Dark Data

Die Kosten für die Speicherung von Dark Data können hoch sein und weit über die direkten finanziellen Kosten für die Speicherung von Dark Data hinausgehen. Zu den direkten und indirekten Kosten gehören:

Kosten für die Datenspeicherung

Die Speicherung von Daten, auch wenn sie nicht aktiv genutzt werden, erfordert eine physische oder digitale Speicherinfrastruktur. Dazu können Server, Rechenzentren, Cloud-Speicherlösungen und Backup-Systeme gehören. Je mehr Daten in Ihrem Ökosystem vorhanden sind, desto mehr Datenspeicher-Kapazität benötigen Sie. Dies führt zu höheren Infrastrukturkosten.

Haftungskosten

In den letzten Jahren haben Regierungen eine Vielzahl globaler Datenschutzgesetze eingeführt, die für alle Daten gelten – selbst für Daten, die ungenutzt in Analyse-Repositories liegen.

Opportunitätskosten

Viele Unternehmen verpassen Chancen, weil sie diese Daten nicht nutzen. Obwohl die Bereinigung von Dark Data, die aufgrund von Risiken und Kosten nicht nutzbar sind, sinnvoll ist, lohnt es sich, zunächst zu analysieren, welche Daten verfügbar sind, um festzustellen, welche davon möglicherweise nützlich sind.

Ineffizienzkosten

Die Verwaltung großer Datenmengen, einschließlich Dark Data, kann die Prozesse zur Datenabfrage und -analyse verlangsamen. Mitarbeiter verbringen möglicherweise mehr Zeit mit der Suche nach relevanten Informationen, was zu einer geringeren Produktivität und höheren Arbeitskosten führt.

Risikokosten

Dunkle Daten bergen Risiken in Bezug auf unzureichende Cybersicherheit, Datenschutzverletzungen, Compliance-Verstöße und Datenverlust. Diese Risiken können zu Imageschäden und finanziellen Folgen führen.

Datenqualitätsprobleme und Dark Data

Datenqualitätsprobleme und Dark Data

Manchmal kommt es aufgrund von Datenqualitätsprobleme zur Entstehung von Dark Data.

Ein Transkript einer Audioaufnahme wird beispielsweise automatisch erstellt, aber die KI, die das Transkript erstellt hat, macht einige Fehler bei der Transkription. Jemand bewahrt die Abschrift jedoch in der Annahme auf, dass er das Problem irgendwann lösen wird – was jedoch nie geschieht.

Wenn Unternehmen versuchen, Daten von schlechter Qualität zu bereinigen, übersehen sie manchmal die Ursache des Problems. Ohne das richtige Verständnis ist es unmöglich sicherzustellen, dass das Datenqualitätsproblem künftig nicht mehr auftritt.

Diese Situation wird dann zu einem Teufelskreis, da Unternehmen nicht einfach Richtlinien zum Löschen für Dark Data anwenden, die ungenutzt herumliegen. Stattdessen werden sie weiterhin speichern und tragen so zu einem zunehmenden Datenqualitätsproblem bei.

Glücklicherweise gibt es drei Schritte für das Datenqualitätsmanagement, die Unternehmen ergreifen können, um dieses Problem zu beheben:

  1. Analysieren und identifizieren Sie die Ist-Situation: Um Probleme zu priorisieren, müssen zunächst alle aktuellen Probleme, bestehenden Datenstandards und geschäftlichen Auswirkungen identifiziert werden.

  2. Verhindern Sie, dass schlechte Daten erneut auftreten: Als Nächstes sollten Sie die Ursache jedes Problems ermitteln und Ressourcen einsetzen, um das Problem nachhaltig zu lösen, damit es nicht erneut auftritt.

  3. Kommunizieren Sie regelmäßig: Teilen Sie mit, was passiert, was das Team tut, welche Auswirkungen diese Arbeit hat und wie diese Bemühungen mit den Geschäftszielen zusammenhängen.
Wie man Licht ins Dunkel bringt

Wie man Licht ins Dunkel bringt

Trotz aller Kosten und Datenqualitätsprobleme, die mit Dark Data einhergehen, gibt es auch Vorteile. Wie Splunk es ausdrückt: „Dark Data können eine der größten ungenutzten Ressourcen eines Unternehmens sein.“3

Durch einen proaktiven Ansatz bei der Verwaltung von Dark Data können Unternehmen Licht ins Dunkel bringen. Dies reduziert nicht nur Verbindlichkeiten und Kosten, sondern gibt den Teams auch die Ressourcen an die Hand, die sie benötigen, um Erkenntnisse aus verborgenen Daten zu gewinnen.

Wenn es darum geht, mit Dark Data umzugehen und sie möglicherweise für bessere datengestützte Entscheidungen zu nutzen, gibt es mehrere Best Practices, die befolgt werden sollten:

Brechen Sie Silos auf

Dark Data entstehen oft aufgrund von Datensilos innerhalb des Unternehmens. Ein Team erstellt Daten, die für ein anderes Team nützlich sein könnten, aber das andere Team weiß nichts davon. Das Aufbrechen dieser Silos macht diese Daten für das Team verfügbar, das sie benötigt. Es kommt zu einer Bereitstellung von enormen Wert.

Verbessern Sie die Datenverwaltung

Es ist wichtig zu verstehen, welche Daten im Unternehmen vorhanden sind. Zunächst werden alle Daten innerhalb des Unternehmens klassifiziert, um einen vollständigen und genauen Überblick zu erhalten. Auf dieser Grundlage können Teams mit der besseren Organisation ihrer Daten beginnen, um es den einzelnen Teammitgliedern zu erleichtern, die benötigten Daten zu finden und zu nutzen.

Legen Sie Data-Governance-Richtlinien fest

Die Einführung einer Data-Governance-Richtlinien kann langfristig zur Verbesserung der Situation beitragen. Diese Richtlinie sollte festlegen, wie alle eingehenden Daten überprüft werden, und klare Richtlinien dafür enthalten, was gespeichert (und wie es organisiert werden sollte, um eine klare Datenverwaltung zu gewährleisten), archiviert oder vernichtet werden sollte. Ein wichtiger Teil dieser Richtlinie besteht darin, genau festzulegen, welche Daten wann vernichtet werden sollten. Eine konsequente Data Governance und regelmäßige Überprüfung der Praktiken können dazu beitragen, die Menge ungenutzter Dark Data zu minimieren.

Verwenden Sie ML- und KI-Tools für die Datenanalyse

Um Dark Data zu entdecken, können maschinelles Lernen (ML) und künstliche Intelligenz (KI) die schwere Aufgabe der Kategorisierung von Dark Data übernehmen, indem sie Daten analysieren, die wertvolle Erkenntnisse enthalten können. Zusätzlich kann die maschinelle Lernautomatisierung bei der Einhaltung von Datenschutzbestimmungen helfen, indem sie automatisch sensible Informationen aus gespeicherten Daten entfernt.

Weiterführende Produkte

Weiterführende Produkte

IBM Databand

IBM Databand ist eine Observability-Software für Datenpipelines und Warehouses, die Metadaten automatisch erfasst, um protokollierte Referenzwerte zu erstellen, Unregelmäßigkeiten zu erkennen und eine Triage von Alerts auszuführen, damit Probleme mit der Datenqualität behoben werden können.

Databand erkunden

IBM DataStage

IBM DataStage unterstützt ETL- und ELT-Muster und ermöglicht eine flexible und nahezu Echtzeit-Datenintegration sowohl On-Premise als auch in der Cloud.

Mehr zu DataStage

IBM Knowledge Catalog

IBM Knowledge Catalog ist ein intelligenter Datenkatalog für das Zeitalter der KI, mit dem Sie Daten, Wissensressourcen und ihre Beziehungen abrufen, kuratieren, kategorisieren und teilen können – wo auch immer sie sich befinden.

Mehr zum Knowledge Catalog
Ressourcen

Ressourcen

Was ist Data Science?

Erfahren Sie, wie Data Science geschäftliche Erkenntnisse offenlegen, die digitale Transformation beschleunigen und eine datengesteuerte Entscheidungsfindung ermöglichen kann.

Was ist künstliche Intelligenz (KI)?

Erfahren Sie, was KI ist, welche verschiedenen Typen es gibt, wie KI entstanden ist und warum generative KI die Einführung von KI in Unternehmen dramatisch beschleunigt hat.

6 Säulen der Datenqualität und wie Sie Ihre Daten verbessern können

Erfahren Sie, warum hochwertige Daten für fundierte Entscheidungen, genaue Analysen und die Entwicklung effektiver Strategien unerlässlich sind.

Was macht man mit Dark Data?

Jedes Unternehmen sammelt Dark Data. Erfahren Sie, wie Management-Tools aus einer kostspieligen Belastung eine wertvolle Ressource voller ungenutzter Möglichkeiten machen können.

Machen Sie den nächsten Schritt

Implementieren Sie noch heute die proaktive Daten-Observability mit IBM Databand, um Probleme beim Datenzustand zu erkennen, bevor es Ihren Benutzern auffällt.

Databand erkunden Buchen Sie eine Live-Demo
Fußnoten

1 Gartner Glossary (Link befindet sich außerhalb von ibm.com), Gartner

2 The State of Dark Data (Link befindet sich außerhalb von ibm.com), Splunk, 2019

3 Dark Data: Discovery, Uses & Benefits of Hidden Data (Link befindet sich außerhalb von ibm.com), Splunk, 03. August 2023