Was ist Datenerkennung?

Definition der Datenerkennung

Datenerkennung ist der Prozess des Sammelns, Auswertens und Erkundens von Daten aus verschiedenen, oft verteilten Quellen. Auf diese Weise können Unternehmen verborgene oder isolierte Daten erkennen und sicherstellen, dass alle relevanten Informationen berücksichtigt werden.

Bei der Datenerkennung identifizieren und extrahieren Datenexperten Rohdaten aus den Datenbanken, Anwendungen, internen Dateien und anderen Repositorys eines Unternehmens. Sie untersuchen die Eigenschaften, das Format, die Herkunft, die Qualität und die potenziellen Verwendungszwecke der Daten – ein Prozess, der als Datenprofilierung bezeichnet wird – und schaffen damit die Grundlage für eine erfolgreiche Datenaufnahme. Die bei der Datenerkennung gewonnenen Erkenntnisse werden genutzt, um Geschäftsentscheidungen in Bereichen wie Strategien, Customer Experience und Lieferkette zu treffen und zu optimieren.

Die explorative Datenanalyse (EDA) ist ein weit verbreiteter Ansatz zur Datenerkennung. In der EDA werden statistische Methoden und Algorithmen eingesetzt, um Datensätze zu untersuchen und deren Hauptmerkmale zusammenzufassen. Diese Erkenntnisse helfen Data Scientists dabei, Datenquellen optimal aufzubereiten und daraus wertvolle Erkenntnisse abzuleiten.

Neben der Unterstützung von Unternehmen, alle ihre Datenquellen zu identifizieren und zu nutzen, erhöht die Datenerkennung auch die Datensicherheit, verbessert die Datengenauigkeit und unterstützt die Einhaltung bestimmter Datenschutzbestimmungen. Durch den Einsatz von künstlicher Intelligenz (KI) und maschinelles Lernen (ML) gewinnen Unternehmen zusätzliche Transparenz und Kontrolle über ihre Datenbestände.

Würde Ihr Team den nächsten Zero-Day rechtzeitig erkennen?

Schließen Sie sich Führungskräften im Bereich Sicherheit an, die von den kuratierten Nachrichten zu KI, Cybersicherheit, Daten und Automatisierung im Think Newsletter profitieren. Lernen Sie schnell von Experten-Tutorials und Erläuterungen, die direkt in Ihren Posteingang geliefert werden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

https://www.ibm.com/de-de/privacy

Datenerkennung vs. traditionelle Datenanalyse

Auf den ersten Blick scheinen Datenerkennung und Datenanalyse dasselbe zu bezeichnen. Es handelt sich jedoch um unterschiedliche Datenverwaltungsprozesse, die am besten zusammen funktionieren.

Die Datenerkennung erfolgt oft zuerst. Es ist eine Erkundungsphase, die Unternehmen dabei hilft, alle verfügbaren Daten zu finden und zu verstehen – einschließlich Informationen, die isoliert oder verborgen sind. Die Analysten wissen in dieser Phase möglicherweise noch nicht genau, nach welchen Daten sie suchen.

Sobald sie die Daten gefunden haben, können sie mit der Datenanalyse beginnen. Bei diesem Prozess werden spezielle Techniken und Abfragen eingesetzt, um die Daten zu interpretieren und aussagekräftige Erkenntnisse zu gewinnen.

Eine Analogie verdeutlicht den Unterschied: Datenerkennung ist vergleichbar mit der Suche nach Zutaten in Ihrer Küche, einschließlich derer, die im hinteren Teil des Schranks versteckt sind. Bei der Datenanalyse werden die Zutaten verwendet, die Sie gefunden haben, um eine nahrhafte, hochwertige Mahlzeit zuzubereiten. Je gründlicher Ihre Recherche, desto besser das Ergebnis.

Warum ist die Datenerkennung wichtig?

Daten sind für moderne Unternehmen von entscheidender Bedeutung. Jeden Tag sammeln sie enorme Mengen an Informationen aus einem wachsenden Ökosystem von Quellen, die sich über Abteilungen, Geschäftsbereiche und Regionen erstrecken. Diese Daten werden von verschiedenen Benutzern verarbeitet und über unterschiedliche Datenspeicher und Mitarbeitergeräte verteilt.

Aber wenn Daten überall sind, wird es schwieriger, sie zu finden, abzurufen und zu verwenden. Tatsächlich wird geschätzt, dass 68 % der Unternehmensdaten nicht verwendet wird. Wenn nicht alle Arten von Daten analysiert werden, führt dies zu verpassten Erkenntnissen und ungenutzten Chancen. Was wäre zum Beispiel, wenn der Schlüssel zur Verbesserung der Kundenbindung in Meetingnotizen und E-Mail-Threads versteckt ist, das Vertriebsteam sich aber ausschließlich auf Daten aus dem Customer Relationship Management (CRM)-System verlässt?

Nicht zu wissen, welche Daten Sie haben und wo sie sich befinden, setzt das Unternehmen auch Risiken aus, wie etwa der Nichteinhaltung der wachsenden Liste von Datenschutzbestimmungen für personenbezogene Daten. Die Datenerkennung ist jedoch sowohl ein Datenschutz- als auch ein Datensicherheitsproblem. Wenn Sie nicht wissen, wo sich Ihre sensiblen Daten befinden, können Sie sie auch nicht angemessen schützen.  

Vorteile der Datenerkennung

Datenerkennung hilft Unternehmen, alle verfügbaren Daten zu erkunden und zu nutzen, was die folgenden Vorteile unterstützt:

  • Verbesserte Entscheidungsfindung
  • Verbesserte Datengenauigkeit und -qualität
  • Verstärkte Datensicherheit
  • Vollständige Compliance
Verbesserte Entscheidungsfindung

Durch das Aufspüren ungenutzter Daten eröffnet die Datenerkennung neue Wege zur Datenexploration. Stakeholder können versteckte Muster und Korrelationen, umsetzbare Erkenntnisse und neue Markttrends entdecken. Dadurch können Unternehmen fundiertere Entscheidungen treffen und die Leistung optimieren, um betriebliche Effizienz zu erreichen.

Verbesserte Datengenauigkeit und -qualität

Mit einem ganzheitlichen Überblick über den Datenbestand des Unternehmens ist es für Datenanalysten einfacher, Probleme mit der Datenqualität wie inkonsistente Daten oder Sonderfälle in Datensätzen zu erkennen. Ein höheres Maß an Genauigkeit kann dazu beitragen, falsch positive und negative Ergebnisse bei der Datenklassifizierung zu minimieren.

Verstärkte Datensicherheit

Datenerkennung hilft sicherzustellen, dass alle sensiblen Daten innerhalb eines Unternehmens (wie personenbezogene Daten (PII) und geistiges Eigentum) identifiziert und lokalisiert werden. Dies erleichtert es Sicherheitsteams, individuelle Cybersicherheitsmaßnahmen anzuwenden. (Weitere Informationen finden Sie unter: „Datenerkennung in der Datensicherheit“.)

Vollständige Compliance

Wenn Unternehmen wissen, wo sich alle Daten befinden, können diese die Datenabstammung nachvollziehen und spezifische Regeln für den Schutz, die gemeinsame Nutzung und den Zugriff auf sensible Informationen anwenden. Beispielsweise kann Datenerkennung Unternehmen dabei helfen festzustellen, wann Daten unter die Datenschutz-Grundverordnung (DSGVO) oder den California Consumer Privacy Act (CCPA) fallen.

Datenerkennung in der Datensicherheit

Unerkannte und unkontrollierte Daten – oft auch Schattendaten genannt – stellen ein erhebliches Sicherheitsrisiko dar, insbesondere wenn sie sensible Informationen enthalten. Laut dem IBM Data Breach Kostenreport 2024 machen Datenschutzverletzungen mit Schattendaten ein Drittel aller Vorfälle aus und verursachen durchschnittliche Kosten von 5,27 Millionen US-Dollar – 16 % mehr als die im Bericht berechneten durchschnittlichen Kosten einer Datenschutzverletzung.

Von zentraler Bedeutung für die Sicherung aller Unternehmensdaten ist das Verständnis, wie und wo diese in das Netzwerk gelangen und wie und wo sie geteilt und gespeichert werden. Robuste Datenerkennungsprozesse sind daher entscheidende Elemente sowohl der Datensicherheit als auch des Datenschutzes. Der Einsatz von KI und ML zum Trainieren von Systemen zur automatischen Identifizierung von Dateien mit sensiblen Daten kann diese Bemühungen verstärken.

Datenerkennungspraktiken können auch dazu beitragen, die gesamte Angriffsfläche eines Unternehmens zu verringern. Eine Angriffsfläche umfasst alle Schwachstellen, Wege und Methoden eines Unternehmens, die Hacker nutzen können, um unbefugten Zugriff auf sensible Daten zu erlangen oder einen Cyberangriff zu starten. Durch die Datenerkennung werden ungenutzte oder doppelte Daten entfernt, sodass nur die wichtigsten sensiblen Daten übrig bleiben. Unternehmen können dann Prioritäten setzen und Ihre Datensicherheitsmaßnahmen auf diese kritischen Assets anpassen.

Wie funktioniert die Datenerkennung?

Datenerkennung ist eine Kombination aus technischen Prozessen, Tools und Strategien, die in die folgenden Schritte unterteilt werden können:

  • Zieldefinition
  • Datenerfassung und -integration
  • Data preparation
  • Datenvisualisierung
  • Datenanalyse

Zielerfassung

Dieser erste Schritt besteht typischerweise darin, die Ziele des Datenerkennungsprozesses zu definieren. Diese Ziele sollten mit der allgemeinen Datenstrategie des Unternehmens übereinstimmen. Hier arbeiten die Unternehmensleitung und die Führungsverantwortlichen der Geschäftsbereiche zusammen, um festzulegen, welche Erkenntnisse sie gewinnen möchten, was die Datenexploration erleichtert.

Datenerfassung und -integration

Anschließend werden Daten aus verschiedenen Quellen mithilfe von Extraktionsmethoden wie Datenbankabfragen, dem Abrufen von Remote-Dateien oder dem Abrufen von Daten über Programmierschnittstellen (APIs) gesammelt. Die gesammelten Daten werden aufgenommen, integriert und in ein einheitliches, konsistentes Format umgewandelt, um in einem Datenkatalog (einem detaillierten Bestand an Datenbeständen innerhalb eines Unternehmens) gespeichert zu werden.

Datenaufbereitung

Sobald die Daten erfasst und zusammengeführt wurden, durchlaufen sie verschiedene Qualitätssicherungsprozesse, um sicherzustellen, dass die Daten frei von Fehlern, Inkonsistenzen und anderen Problemen mit der Datenintegrität sind. Diese Vorbereitung kann Datenvalidierung, Datenbereinigung und Standardisierungstechniken umfassen.

Datenvisualisierung

Datenteams können visuelle Darstellungen der aufbereiteten Daten erstellen – wie Diagramme, Schaubilder, Dashboards und Infografiken –, die komplexe Datenbeziehungen in benutzerfreundlichen Oberflächen darstellen.

Datenanalyse

Datenvisualisierungstools unterstützen möglicherweise sogar Self-Service-Analysen. Diese Tools ermöglichen es Benutzern ohne technische Kenntnisse, auf Visualisierungen zuzugreifen und sie zu analysieren, was dazu beiträgt, die datengesteuerte Entscheidungsfindung zu verbessern. In dieser Phase können auch erweiterte Analysen genutzt werden, die prädiktive Modellierung und andere umfassende Techniken zur Erstellung von Prognosen verwenden.

Während des gesamten Prozesses trägt eine starke Data Governance dazu bei, Datenintegrität und Datensicherheit zu gewährleisten. So können Richtlinien, Standards und Verfahren für Datenerhebung, Besitz, Speicher, Verarbeitung und Nutzung definiert und implementiert werden.

KI- und ML-Tools zur Datenerkennung

Der Einsatz von KI, ML und natürlicher Sprachverarbeitung (NLP) bei der Datenermittlung erhöht sowohl die Geschwindigkeit als auch die Intelligenz des Prozesses. Diese Technologien bieten Unternehmen mehr Transparenz und Kontrolle über ihre Daten. Wichtige Beispiele und Anwendungsfälle sind:

  • Automatisierte Datenerkennung: Diese Tools scannen Netzwerkgeräte und Datenspeicher automatisch und indexieren neue Daten und Metadaten nahezu in Echtzeit für eine schnellere Identifikation von Assets.

  • Automatisierte Datenklassifizierung: Diese Funktionalität automatisiert die Kennzeichnung neuer Daten anhand vordefinierter Regeln, wie z. B. Sensibilitätsstufen, Datenzugriffskontrollen und Compliance-Regeln.

  • Intelligente Suche: Die KI-gestützte Suche nutzt NLP, um Suchanfragen der Benutzer zu interpretieren, deren Absicht zu verstehen und anschließend relevante Datenergebnisse zu liefern. KI-Assistenten können Intuitive, natürlichsprachliche Anleitungen bereitstellen.

  • NLP für unstrukturierte Daten: NLP-Tools, einschließlich großer Sprachmodelle (LLMs), können strukturierte Daten aus unstrukturierten Datenquellen wie Dokumenten, E-Mails und Chat-Transkripten extrahieren.

Die Integration von KI, ML und NLP in den Datenerkennungs-Workflow beschleunigt die Erkenntniszeit, erhöht die Genauigkeit und kann zur Stärkung der Einhaltung gesetzlicher Vorschriften beitragen. Da die Datenmengen immer weiter wachsen, wird KI-gestützte Datenerkennung zu einer wesentlichen Funktion und einem Wettbewerbsvorteil werden.

Autor

Alexandra Jonker

Staff Editor

IBM Think

Weiterführende Lösungen
Lösungen zu Datensicherheit und Datenschutz

Schützen Sie Ihre Daten in mehreren Umgebungen, erfüllen Sie Datenschutzauflagen und verringern Sie die Komplexität von Betriebsabläufen.

    Mehr über Datensicherheitslösungen
    IBM Guardium

    Entdecken Sie IBM Guardium, eine Datensicherheitssoftware-Reihe, die sensible On-Premises- und Cloud-Daten schützt.

     

      Entdecken Sie IBM Guardium
      Datensicherheitsservices

      IBM bietet umfassende Datensicherheitsservices zum Schutz von Unternehmensdaten, Anwendungen und KI.

      Mehr über Datensicherheitsservices
      Machen Sie den nächsten Schritt

      Schützen Sie die Daten Ihres Unternehmens über Hybrid Clouds hinweg und vereinfachen Sie Compliance-Anforderungen mit Datensicherheitslösungen.

      Mehr über Datensicherheitslösungen Buchen Sie eine Live-Demo