Was ist Datenanreicherung?

Autoren

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Was ist Datenanreicherung?

Datenanreicherung ist eine Technik zur Verbesserung der Datenqualität und Benutzerfreundlichkeit, indem Datensätze mit zusätzlichen Informationen aus internen oder externen Quellen ergänzt werden.

 

Unternehmen erfassen mehr Daten als je zuvor, doch oft fehlt diesen Daten der Kontext oder die Bedeutung. Die Datenanreicherung hilft dabei, diese Lücken zu schließen und das Verständnis vorhandener Datenpunkte zu verbessern, egal ob sie in Form von Rohdaten oder als strukturierter Datensatz vorliegen. Die Erweiterung von Daten auf diese Weise kann einen Datensatz von undurchschaubar in aufschlussreich umwandeln und Unternehmen befähigen, fundiertere Entscheidungen zu treffen.

Verfahren zur Datenanreicherung sind häufig Teil der Datenverwaltungs- und Stammdatenverwaltungsprogramme eines Unternehmens. Es gibt verschiedene Arten der Datenanreicherung, die Unternehmen je nach ihren Geschäftsanforderungen und Datenquellen anwenden, wie z. B. die demografische, firmenbezogene und geografische Anreicherung. Während Datenteams die Datenanreicherung manuell durchführen können, helfen künstliche Intelligenz (KI) und Automatisierung bei der Optimierung von Datenanreicherungsprozessen.

Häufige Anwendungsfälle für die Datenanreicherung finden sich innerhalb der Marketingstrategie, aber Datenanreicherungsprozesse können auch in Bereichen wie Cybersicherheit, Gesundheitswesen und Stadtplanung eine Rolle spielen. Die Datenanreicherung hat sich auch als zunehmend wertvoll erwiesen, um die Leistung von Modellen des maschinellen Lernens zu verbessern. Sie liefert Kontext und vollständigere Daten für genauere Vorhersagen.

Warum ist die Datenanreicherung wichtig?

Stellen Sie sich eine Leinwand vor, die nur teilweise bemalt ist, deren untere Hälfte mit blauen Pinselstrichen bedeckt ist, die einen Ozean darstellen, während in der Mitte ein paar merkwürdige, goldene Flecken schweben. Sobald das Gemälde jedoch fertig ist, ist klar, dass diese Flecken Lichtspiegelungen darstellen – das fertige Gemälde zeigt die Sonne, die über dem Wasser untergeht.

Eine unvollendete Leinwand kann zwar an sich schon ein Kunstwerk sein, aber sie hat auch das Potenzial für mehr. Dasselbe gilt für Datensätze, die durch Datenanreicherung verbessert werden.

Wenn zum Beispiel eine Tabelle mit Kundendaten, die nur Namen und Telefonnummern enthält, mit E-Mail-Adressen angereichert wird, wird sie zu einem leistungsfähigeren Instrument für die Kontaktaufnahme. Wenn ein Datensatz mit Adressen mit geografischen Koordinaten angereichert wird, kann er tiefere Erkenntnisse in die Flächennutzung eines Viertels geben.

Da Unternehmen weiterhin riesige Mengen an Roh- und unstrukturierten Daten generieren und sammeln, hat die Datenanreicherung an Dringlichkeit gewonnen. Mehr Roh- und unstrukturierte Daten bedeuten mehr Lücken und fehlenden Kontext innerhalb der Datensätze. Durch Datenanreicherung können Unternehmen diese Daten jedoch mit anderen Datenpunkten korrelieren, die ihnen mehr Bedeutung verleihen und so eine höhere Rendite auf ihre Datenressourcen erzielen.

Was sind die Vorteile der Datenanreicherung?

Die Datenanreicherung bedeutet eine Vielzahl von Vorteilen, darunter:

  • Höhere Datengenauigkeit: Durch Datenanreicherung können Lücken in den vorhandenen Daten geschlossen werden, wie z. B. unvollständige Adressen oder fehlende Berufsbezeichnungen.
 
  • Größeres Vertrauen: Wenn Sie verschiedene Dimensionen von Daten sehen – z.B. einen Datensatz von Geschäftsnamen, angereichert mit Branchen – können Sie den Benutzern das Vertrauen geben, dass sie auf die richtigen Datenpunkte für ihre Zwecke zugreifen.
 
 
  • Erkenntnisse zur Entscheidungsfindung: Umfassende Datensätze, die durch Datenanreicherung erzielt werden, können Unternehmen dabei helfen, neue Muster und Chancen im Zusammenhang mit Marktanforderungen, Preisgestaltung und mehr zu entdecken. So dienen beispielsweise Erkenntnisse über Kundenbedürfnisse als Grundlage für gezielte Marketingmaßnahmen, die auf den Präferenzen der Kunden basieren.
 
AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Was ist der Unterschied zwischen Datenanreicherung und Datenverbesserung?

Die Begriffe „Datenanreicherung“ und „Datenverbesserung“ werden oft synonym verwendet, es handelt sich jedoch um unterschiedliche Prozesse. Beide Ansätze verbessern zwar die Datenqualität, die Datenverbesserung konzentriert sich allerdings stärker auf die Arbeit mit den vorhandenen Daten, während die Datenanreicherung das Hinzufügen neuer, zusätzlicher Datenpunkte zu einem Datensatz zum Ziel hat.

Bei der Datenverbesserung gehören das Bereinigen und Aktualisieren von Daten zu den Kernfunktionen. Es kann erforderlich sein, einige neue Daten hinzuzufügen, um fehlende Werte in einer Spalte zu ergänzen oder veraltete Informationen zu aktualisieren, die Menge der neu eingeführten Daten entspricht jedoch nicht dem Umfang der Datenanreicherung.

Durch die Datenanreicherung werden häufig neue Felder zu bestehenden Datensätzen hinzugefügt. Wie bei der Datenanreicherung ist auch die Datenbereinigung Teil des Prozesses, sie erfolgt jedoch in Vorbereitung auf das Hinzufügen neuer Informationen. (Siehe „Wichtige Schritte zur Datenanreicherung“ weiter unten.)

Arten der Datenanreicherung

Unternehmen verwenden in der Regel eine oder mehrere der folgenden Arten der Datenanreicherung, um Informationen zu ihren bestehenden Datensätzen hinzuzufügen:

  • Verhaltensdatenanreicherung: Daten zum Kundenverhalten und zur Interaktion mit Produkten, Dienstleistungen und verschiedenen Kommunikationskanälen, einschließlich mobiler Apps und Social-Media-Konten.
 
  • Anreicherung von Kontaktdaten: Informationen zur Anreicherung von Kontaktlisten, einschließlich Telefonnummern, E-Mail-Adressen, Geschäftszugehörigkeiten und Social-Media-Profilen.
 
  • Demografische Anreicherung: Merkmale wie Alter, Geschlecht, Ethnie, Familienstand und Einkommen. Auch als soziodemografische Anreicherung bezeichnet.
 
  • Firmografische Anreicherung: Details über ein Unternehmen, wie Branche, Größe, Umsatz und Standort.
 
  • Geografische Anreicherung: Informationen über den Standort einer Entität, wie Adresse, Postleitzahl, Land und geografische Koordinaten.
 
  • Psychografische Anreicherung: Daten über den Lebensstil, die Interessen, Einstellungen und Überzeugungen einer Person.
 
  • Technographische Anreicherung: Daten zu den von einer Einzelperson oder Unternehmen verwendeten Technologien, einschließlich Anwendungen, Tools, Hardware, Software und IT-Infrastruktur.

Wichtige Schritte zur Datenanreicherung

Der Prozess der Datenanreicherung kann je nach Unternehmen variieren, es gibt jedoch einige gängige Schritte:

Datenbereinigung

Bereinigung des für die Anreicherung vorgesehenen Datensatzes durch Techniken wie Standardisierung (Sicherstellung von konstanten Formaten) und Datendeduplizierung.

Identifizierung von Möglichkeiten zur Anreicherung

Bestimmung, welche Arten von Informationen dem Datensatz hinzugefügt werden sollten.

Datenbeschaffung

Bestimmung der Quellen für die neuen Daten und Entscheidung zwischen internen und externen Quellen, je nach Bedarf.

Datenintegration

Hinzufügen neuer Daten mithilfe von Tools wie Software zur Datenintegration zu den Zieldatensätzen.

Welche Datenquellen werden für die Datenanreicherung verwendet?

Unternehmen können die Datenanreicherung mit internen Daten durchführen, einschließlich First-Party-Daten (Daten, die direkt von Kunden erfasst werden) sowie Daten aus Drittquellen.

Unternehmen, die Daten aus internen Quellen nutzen möchten, könnten auf Hindernisse stoßen: isolierte Datensilos. Zum Glück können diese Silos mithilfe von Datenintegration durchbrochen werden, dem Prozess, Daten aus verteilten Quellen zusammenzuführen und sie in einheitliche und nutzbare Formate umzuwandeln. Beispielsweise können Unternehmen einen Kundendatensatz anreichern, indem sie Daten aus Customer Relationship Management Systemen (CRM) und Marketingdatenbanken integrieren.

Unternehmen können auch auf externe Datenquellen zurückgreifen, und zwar auf kostenlose, öffentliche Datenquellen und Drittanbieter. Zu den öffentlichen Datenquellen gehören Datensätze der Regierung (z. B. Volkszählungsdaten, Beschäftigungsberichte), während Drittanbieter von Daten eine Reihe von Daten sammeln und verkaufen, darunter Kontakt-, demografische und firmografische Daten. Bei der Auswahl von Drittanbieterdaten sollten Unternehmen nur mit vertrauenswürdigen Quellen und Anbietern zusammenarbeiten, um sicherzugehen, dass die Daten korrekt und aktuell sind und ihren Qualitätsstandards entsprechen.

Alle im Rahmen der Datenanreicherung beschafften und gespeicherten Daten sollten gemäß Datenschutz- und Sicherheitsvorschriften wie der DSGVO und dem Health Insurance Portability and Accountability Act (HIPAA) verwaltet werden. 

Tools zur Datenanreicherung

Mit der Zunahme datengestützter Entscheidungsfindung und KI-bezogener Datenbedürfnisse hat sich die Nachfrage nach hochwertigen Daten und damit Tools zur Datenanreicherung verstärkt. Der globale Markt für Datenanreicherungslösungen wird voraussichtlich bis 2030 einen Wert von fast 4,6 Milliarden USD erreichen, gegenüber etwa 2,4 Milliarden USD im Jahr 2023.

Die Einführung von KI fördert nicht nur die Nutzung von Datenanreicherungslösungen, sie bildet gleichzeitig die Grundlage für einige der fortschrittlichsten Tools zur Datenanreicherung. Zu den gängigen Tools und Lösungen zur Datenanreicherung gehören:

  • Datenintegrationslösungen: Datenintegrationslösungen unterstützen ETL-Prozesse (Extrahieren, Transformieren, Laden), die sowohl die Datenanreicherung als auch die Datenbereinigung und andere Datenmodifikationen umfassen. (Es ist wichtig, anzumerken, dass Datenintegrationslösungen Daten auch nach der Anreicherung operationalisieren können, indem sie die angereicherten Daten zur Analyse in Data Warehouses und andere Zielsysteme laden.)
 
  • Offene Data Lakehouses: Führende Data Lakehouse-Lösungen können die Aufnahme und Anreicherung von unstrukturierten Daten automatisieren und sie mit strukturierten Daten zusammenführen.
 
 
  • Agentenbasierte Workflow-Lösungen zur Datenanreicherung: KI-Agenten können Datenanreicherungsprozesse weiter optimieren. Bei einem Modell der agentenbasierten Datenanreicherung erstellt ein Benutzer eine Tabelle und löst eine Anwendungsprogrammierschnittstelle (API) aus, um relevante Echtzeitdaten aus dem Internet zu finden und aufzunehmen. Die neuen Informationen werden von einem LLM verarbeitet und dann zur Tabelle hinzugefügt.1

Anwendungsfälle für Datenanreicherung

Die Datenanreicherung findet in einer Vielzahl von Bereichen und Branchen Anwendung.

Marketing und Vertrieb

Marketing- und Vertriebsteams nutzen die Datenanreicherung häufig, insbesondere Verhaltensdatenanreicherung, demografische Anreicherung und firmografische Anreicherung. Sie nutzen aufbereitete Daten, um Kundenprofile zu erstellen, Segmentierungsstrategien zu unterstützen, individuelle Marketingkampagnen zu erstellen und personalisierte Customer Experiences zu bieten.

Stadtplanung

Hochwertige räumliche Daten sind entscheidend für Stadtplanung und -entwicklung. Eine Form der geografischen Anreicherung, die als Geokodierung bekannt ist, leitet Breiten- und Längengradangaben aus Adressen ab und hilft Stadtplanern so, Standorte genauer zu identifizieren.

Gesundheitswesen und Biowissenschaften

Wearables, Gesundheits- und Fitness-Apps sowie andere Technologien zur Gesundheitsüberwachung dienen als neue Informationsquellen zur Anreicherung von Patienten- und Forschungsdatensätzen. Eine solche Anreicherung kann medizinischen Fachkräften helfen, die Patientenversorgung zu verbessern und Forscher bei der Entdeckung wichtiger Muster und Erkenntnisse unterstützen.

Cybersicherheit

Daten zu Sicherheitsvorfällen können mit Informationen wie physischen Standorten (geografische Anreicherung) und den verwendeten Geräten (technographische Anreicherung) angereichert werden, um die Bewertung von Cybersicherheitsrisiken und Sicherheitslücken zu verbessern.

Weiterführende Lösungen
IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden
IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

  1. Lösungen für Datenmanagement erkunden
  2. IBM watsonx.data entdecken