Veröffentlicht: 26. Juni 2024
Mitwirkende: Tim Mucci, Cole Stryker
Die Datenaufnahme ist der Prozess des Sammelns und Importierens von Datendateien aus verschiedenen Quellen in eine Datenbank zur Speicherung, Verarbeitung und Analyse. Das Ziel der Datenaufnahme besteht darin, Daten für die Verwendung innerhalb des Unternehmens zu bereinigen und in einem zugänglichen und einheitlichen, zentralen Repository zu speichern.
Zu den Datenquellen gehören Finanzsysteme, externe Datenanbieter, Social-Media-Plattformen, IoT-Geräte, SaaS-Apps, lokale Geschäftsanwendungen wie Enterprise Resource Planning (ERP) und Customer Relationship Management (CRM).
Diese Quellen enthalten sowohl strukturierte als auch unstrukturierte Daten. Sobald Daten aufgenommen wurden, können sie in Data Lakes, Data Warehouses, Data Lakehouses, Data Marts, relationalen Datenbanken und Dokumentenspeichersystemen gespeichert werden. Unternehmen nehmen Daten auf, damit sie dann für Business-Intelligence-Aufgaben, aber auch für maschinelles Lernen, prädiktive Modellierung und Anwendungen mit künstlicher Intelligenz genutzt werden können.
Viele Tools zur Datenaufnahme automatisieren diesen Prozess und organisieren Rohdaten in geeigneten Formaten für eine effiziente Analyse durch Datenanalysesoftware. Die Datenaufnahme erfordert in der Regel Fachkenntnisse in Data Science und Programmiersprachen wie Python. Die Daten werden bereinigt und in ein einheitliches Format umgewandelt, indem ein ETL-Verfahrenzum Extrahieren, Transformieren und Laden oder ein ELT-Verfahren verwendet wird, um den Datenlebenszyklus effektiv zu verwalten.
Mit vielfältigen und zahlreichen Big-Data-Quellen hilft Automatisierungssoftware dabei, den Aufnahmeprozess an bestimmte Umgebungen und Anwendungen anzupassen. Oft mit Funktionen zur Datenaufbereitung für sofortige oder spätere Analysen mithilfe von Business Intelligence und Analyseprogrammen.
Der Leitfaden für Datenverantwortliche veranschaulicht, wie sich einzelne Datenbanktypen für die Anforderungen eines Unternehmens eignen, je nachdem, ob es den Schwerpunkt auf Analysen, KI oder Anwendungsleistung legt.
Was ist Datenintegration?
Die Datenaufnahme bildet den ersten Schritt bei der Verarbeitung von Daten und der Nutzung der großen Datenmengen, die Unternehmen heute sammeln. Mit einem gut geplanten Datenaufnahmeverfahren wird die Genauigkeit und Zuverlässigkeit der Daten sichergestellt, die in die Analytics Engine eingespeist werden, damit Datenteams effizient arbeiten können. Drei Hauptgründe zeigen, warum die Datenaufnahme wichtig ist:
Moderne Unternehmen nutzen ein vielfältiges Datenökosystem. Jede Quelle hat ihr eigenes Format und ihre eigene Struktur. Ein effektives Datenaufnahmeverfahren erfasst Daten aus diesen aufgeteilten Quellen und ermöglicht so einen umfassenderen Überblick über Abläufe, Kunden und Markttrends. Es entstehen ständig neue Datenquellen, und das Volumen und die Geschwindigkeit der Datengenerierung nehmen stetig zu. Ein gut durchdachter Datenaufnahmeprozess kann diese Änderungen berücksichtigen und so sicherstellen, dass die Datenarchitektur robust und anpassungsfähig bleibt.
Ohne ein zuverlässiges Datenaufnahmeverfahren wären Unternehmen nicht in der Lage, die umfangreichen Datensätze zu erfassen und aufzubereiten, die für eine eingehende Analyse erforderlich sind. Unternehmen setzen diese Analysen ein, um bestimmte unternehmerische Herausforderungen anzugehen und aus den Daten gewonnene Erkenntnisse in umsetzbare Strategien umzusetzen.
Der Anreicherungsprozess beinhaltet verschiedene Validierungen und Prüfungen, um die Einheitlichkeit und Genauigkeit der Daten zu gewährleisten. Dazu gehört die Datenbereinigung, d. h. die Feststellung und das Entfernen von beschädigten, ungenauen oder irrelevanten Datenpunkten. Die Datenaufnahme erleichtert die Transformation durch Standardisierung, Normalisierung und Anreicherung. Durch die Standardisierung wird sichergestellt, dass Daten in einem einheitlichen Format vorliegen, während die Normalisierung Redundanzen beseitigt. Bei der Anreicherung werden bestehende Datensätze um relevante Informationen für mehr Kontext und Tiefe ergänzt, was letztlich den Wert der Daten für die Analyse erhöht.
Bei der Datenaufnahme werden Rohdaten aus verschiedenen Quellen übernommen und für die Analyse vorbereitet. Diese mehrstufige Pipeline stellt sicher, dass die Daten zugänglich, genau, konsistent und für Business Intelligence nutzbar sind. Sie ist entscheidend für die Unterstützung von SQL-basierten Analysen und anderen Verarbeitungsworkloads.
Datenerkennung: Die Erkundungsphase, in der die im Unternehmen verfügbaren Daten ermittelt werden. Das Grundverständnis der Datenlandschaft, der Struktur, der Qualität und der möglichen Verwendungszwecke bildet die Basis für eine erfolgreiche Datenaufnahme.
Datenakquisition: Sobald die Datenquellen identifiziert sind, beinhaltet die Datenakquisition das Sammeln der Daten. Dabei werden Daten aus vielen Quellen abgerufen: von strukturierten Datenbanken und Anwendungsprogrammierschnittstellen (APIs) bis hin zu unstrukturierten Formaten wie Tabellen oder Papierdokumenten. Die Schwierigkeit liegt in der Bewältigung der unterschiedlichen Datenformate und potenziell großen Datenmengen sowie in der Gewährleistung der Datenintegrität während des gesamten Erfassungsprozesses.
Datenüberprüfung: Nach der Erfassung der Daten erfolgt die Validierung für mehr Genauigkeit und Konsistenz. Die Daten werden auf Fehler, Inkonsistenzen und Missing Values geprüft. Durch verschiedene Prüfungen, wie z. B. Datentypvalidierung, Bereichsvalidierung und Eindeutigkeitsprüfung, werden die Daten bereinigt und zuverlässig für die weitere Verarbeitung vorbereitet.
Datenkonvertierung: An dieser Stelle werden die validierten Daten in ein für die Analyse geeignetes Format umgewandelt. Dazu kann Normalisierung (Beseitigung von Redundanzen), Aggregation (Zusammenfassung von Daten) und Standardisierung (einheitliche Formatierung) gehören. Ziel ist es, die Daten leichter verständlich und analysierbar zu machen.
Laden von Daten: Im letzten Schritt werden die transformierten Daten an den angegebenen Speicherort verschoben, in der Regel ein Data Warehouse oder ein Data Lake, wo sie für Analysen und Berichte zur Verfügung stehen. Dieser Ladevorgang kann je nach den spezifischen Anforderungen in Batches oder in Echtzeit durchgeführt werden. Das Laden von Daten bildet den Abschluss der Datenaufnahme-Pipeline, bei der die Daten für fundierte Entscheidungen und die Generierung wertvoller Business Intelligence vorbereitet werden.
Bei der Datenaufnahme ist die Sicherstellung der Qualität von größter Bedeutung.
Data Governance dient der Aufrechterhaltung der Datenqualität während der Erfassung, indem Richtlinien und Standards für die Datenverarbeitung festgelegt werden. Dadurch wird sichergestellt, dass aufgrund festgelegter Rollen und Zuständigkeiten eine gewisse Transparenz gegeben ist. Umsetzung von Metriken und Überwachungssystemen zur Erfassung und Bearbeitung von Problemen, Erleichterung der Einhaltung von Vorschriften wie GDPR oder HIPAA und Förderung der Einheitlichkeit durch Standardisierung von Datendefinitionen und -formaten.
Die Datenaufnahme bricht Datensilos auf und macht Informationen für alle Mitarbeiter des Unternehmens, die sie benötigen, leicht zugänglich. Die automatisierte Datenerfassung und die Verwendung von Cloud-Speichern gewährleisten Datensicherheit und Zugang zu wertvollen Erkenntnissen.
Die Datenaufnahme bricht Datensilos auf und macht Informationen für verschiedene Abteilungen und Funktionsbereiche leicht zugänglich. Das fördert eine datengesteuerte Arbeitsweise, bei der jeder die aus dem Datenökosystem des Unternehmens gewonnenen Erkenntnisse nutzen kann.
Die Datenaufnahme vereinfacht die oft komplexe Aufgabe der Erfassung und Bereinigung von Daten aus verschiedenen Quellen mit unterschiedlichen Formaten und Strukturen. Unternehmen können ihre Datenverwaltungsprozesse optimieren, indem sie diese Daten in einem einheitlichen Format in einem zentralen System zusammenführen.
Eine effektive Pipeline für die Datenaufnahme mit geringer Latenz kann große Datenmengen sehr schnell verarbeiten, einschließlich der Aufnahme in Echtzeit.
Unternehmen reduzieren den Zeit- und Ressourcenaufwand, der normalerweise für manuelle Datenaggregation erforderlich ist, indem sie die Datenerfassung und -bereinigung durch Datenaufnahme automatisieren. Darüber hinaus können serviceorientierte Lösungen für die Datenaufnahme weitere Kostenvorteile bieten, da keine Vorabinvestitionen in die bestehende Infrastruktur erforderlich sind.
Ein gut durchdachter Datenaufnahmeprozess ermöglicht es Unternehmen jeder Größe, ständig wachsende Datenmengen zu verarbeiten und zu analysieren. Skalierbarkeit ist für Unternehmen auf Wachstumskurs unerlässlich. Die Möglichkeit, ansteigende Datenmengen mühelos zu verwalten, ermöglicht es den Unternehmen, auch bei einer Erweiterung ihrer Datenlandschaft wertvolle Erkenntnisse zu gewinnen.
Durch die Verwendung von Cloud-Speicher für Rohdaten bieten Datenaufnahmelösungen bei Bedarf einen einfachen und sicheren Zugriff auf umfangreiche Informationssätze. Dadurch entfallen die Beschränkungen der physischen Speicherung und die Unternehmen können ihre Daten jederzeit und überall nutzen.
Datenaufnahme, Extrahieren, Transformieren, Laden (ETL) und Extrahieren, Laden, Transformieren (ELT) haben ein gemeinsames Ziel, aber unterschiedliche Ansätze.
Datenaufnahme und Datenintegration haben unterschiedliche Zwecke innerhalb der Datenpipeline.
Datenaufnahme: Das ist die Eingabe von Daten aus verschiedenen Quellen, mit dem Hauptaugenmerk auf der erfolgreichen Übertragung von Daten mit minimaler Transformation, um die ursprüngliche Struktur der Daten zu erhalten.
Datenintegration: Der Schwerpunkt liegt auf der Umwandlung und Vereinheitlichung von Daten aus verschiedenen Quellen, bevor sie in ein Zielsystem, in der Regel ein Data Warehouse oder ein Data Lake, eingespeist werden. Die Datenintegration kann Datenbereinigung, -standardisierung und -anreicherung beinhalten, um die Einheitlichkeit und Genauigkeit des gesamten Datensatzes zu gewährleisten.
Die Datenaufnahme umfasst verschiedene Methoden, um Daten aus unterschiedlichen Quellen in ein bestimmtes System zu bringen.
Bei dieser Methode werden Daten über einen bestimmten Zeitraum gesammelt (tägliche Verkaufsberichte, monatliche Finanzberichte), bevor sie vollständig verarbeitet werden. Die Batch-Verarbeitung gilt als einfach, zuverlässig und mit minimalen Beeinträchtigungen der Systemleistung, da sie für ruhige Zeiten geplant werden kann. Für Echtzeitanwendungen ist sie jedoch nicht ideal.
Mit dieser Methode erhält man sofort Erkenntnisse und kann schneller Entscheidungen treffen, da die Daten in dem Moment aufgenommen werden, in dem sie generiert werden, was eine umgehende Analyse und etwaige Aktionen ermöglicht. Sie ist ideal für zeitlich begrenzte Anwendungen wie Betrugserkennung oder Aktienhandelsplattformen, bei denen sofortige Entscheidungen von größter Bedeutung sind.
Daten-Streaming ist der Echtzeitverarbeitung sehr ähnlich, mit dem Unterschied, dass die erfassten Daten verwendet und kontinuierlich analysiert werden, sobald sie eintreffen. Sowohl die Echtzeitverarbeitung als auch Daten-Streaming erfordern erhebliche Rechenleistung und Netzwerkbandbreitenressourcen.
Diese Methode schafft ein Gleichgewicht zwischen Batch- und Echtzeitverarbeitung. Sie nimmt Daten in kleinen, regelmäßigen Batches auf und bietet so zeitnahe Aktualisierungen ohne die Ressourcenbeschränkungen einer umfassenden Echtzeitverarbeitung. Um das Verhältnis zwischen Datenaktualität und Systemleistung zu optimieren, ist eine sorgfältige Planung und Verwaltung erforderlich.
Diese Aufnahmemethode kombiniert sowohl die Batch- als auch die Echtzeitverarbeitung, indem sie die Stärken der beiden Methoden nutzt, um eine umfassende Lösung für die Datenaufnahme zu bieten. Die Lambda-Architektur ermöglicht die Verarbeitung großer Mengen historischer Daten bei gleichzeitiger Abwicklung von Daten-Streams in Echtzeit.
Tools zur Datenaufnahme bieten vielfältige Lösungen, um unterschiedlichen Anforderungen und technischem Know-how gerecht zu werden.
Open Source-Tools: Sie bieten kostenlosen Zugriff auf den Quellcode der Software und geben Benutzern die volle Kontrolle sowie die Möglichkeit, das Tool anzupassen.
Geschützte Tools: Das sind Lösungen, die von Softwareanbietern entwickelt und lizenziert werden. Sie bieten vorgefertigte Funktionen und verschiedene Preispläne, können aber mit Herstellerbindung und laufenden Lizenzkosten verbunden sein.
Cloud-basierte Tools: Aufnahme-Tools, die in einer Cloud-Umgebung untergebracht sind, die Bereitstellung und Wartung vereinfachen und Skalierbarkeit bieten, ohne dass Vorabinvestitionen in die Infrastruktur erforderlich sind.
Lokale Tools: Sie werden in einem lokalen oder privaten Cloud-Netzwerk installiert und verwaltet, bieten eine bessere Kontrolle über die Datensicherheit, erfordern aber Investitionen in Hardware und laufenden IT-Support.
Um Anforderungen und Fachwissen in Einklang zu bringen, gibt es mehrere Ansätze für den Aufbau von Datenaufnahme-Pipelines:
Manuell programmierte Pipelines: Diese maßgeschneiderten Pipelines bieten ein Höchstmaß an Kontrolle, erfordern jedoch erhebliche Entwicklungskenntnisse.
Vorgefertigte Konnektoren und Transformationswerkzeuge: Diese Methode bietet eine benutzerfreundliche Schnittstelle, erfordert aber die Verwaltung mehrerer Pipelines.
Plattformen zur Datenintegration: Sie bieten eine umfassende Lösung für alle Phasen der Datenreise, erfordern jedoch Entwicklungskompetenz für die Einrichtung und Wartung.
DataOps: Bei diesem Ansatz geht es darum, die Zusammenarbeit zwischen Dateningenieuren und Datenkonsumenten zu fördern und Teile der Datenaufnahme zeitsparend zu automatisieren.
Die Datenaufnahme ist zwar grundlegend für Datenpipelines, aber auch komplex.
Datensicherheit: Durch die erhöhte Gefährdung steigt das Risiko von Sicherheitsverletzungen bei vertraulichen Daten. Die Einhaltung von Datensicherheitsbestimmungen erhöht die Komplexität und die Kosten.
Skalierbarkeit und Vielfalt: Leistungsengpässe entstehen durch die ständig wachsende Menge, Geschwindigkeit und Vielfalt der Daten.
Datenfragmentierung: Uneinheitlichkeit kann die Datenanalyse behindern und die Erstellung einer einheitlichen Datenansicht erschweren. Wenn sich Quelldaten ändern, ohne dass eine Aktualisierung im Zielsystem erfolgt, führt dies zu einer Schemaabweichung, die Workflows stören kann.
Sicherung der Datenqualität: Die Komplexität der Datenaufnahme kann die Zuverlässigkeit der Daten beeinträchtigen.
Die Datenaufnahme bildet die Grundlage für die Ausschöpfung des Potenzials von Daten in Unternehmen.
Mit Lösungen zur Datenaufnahme können Unternehmen verschiedene Daten sammeln und in ein zentrales Data Lake in der Cloud übertragen. Eine erstklassige Dateneingabe ist in diesem Szenario von entscheidender Bedeutung, da Fehler den Wert und die Zuverlässigkeit der Daten für nachgelagerte Analysen und KI-/ Machine-Learning-Initiativen beeinträchtigen können.
Unternehmen, die im Rahmen von fortschrittlichen Analyse- und KI-Initiativen in die Cloud migrieren, sind häufig mit diesen Herausforderungen konfrontiert: veraltete Daten, isolierte Datenquellen und zunehmendes Datenvolumen, -geschwindigkeit und -komplexität. Moderne Lösungen für die Datenaufnahme bieten oft codefreie Assistenten, die den Prozess der Datenaufnahme aus Datenbanken, Dateien, Streaming-Quellen und Anwendungen optimieren.
Lösungen zur Datenaufnahme können die Modernisierung von Data Warehouses beschleunigen, indem sie die Massenmigration von lokalen Datenbanken, Data Warehouses und Mainframe-Inhalten in cloudbasierte Data Warehouses erleichtern. Mithilfe von Change Data Capture (CDC)-Techniken mit Datenaufnahme wird das Cloud Data Warehouse ständig mit den neuesten Informationen aktualisiert.
Die Verarbeitung von Echtzeit-Daten-Streams eröffnet neue Umsatzmöglichkeiten. Beispielsweise können Telekommunikationsunternehmen Kundendaten in Echtzeit nutzen, um Vertriebs- und Marketingstrategien zu optimieren. Gleichermaßen können die von IoT-Sensoren erfassten Daten die betriebliche Effizienz verbessern, Risiken mindern und wertvolle analytische Erkenntnisse liefern.
Um das Potenzial von Echtzeitanalysen zu erschließen, ermöglichen Datenaufnahme-Tools die nahtlose Integration von Echtzeit-Streaming-Daten (Clickstream-Daten, IoT-Sensordaten, Maschinenprotokolle, Social-Media-Feeds) in Message Hubs oder Streaming-Ziele, sodass die Datenverarbeitung in Echtzeit erfolgen kann, sobald Ereignisse auftreten.
Entdecken Sie IBM watsonx.data, einen skalierbaren, hybriden Datenspeicher, der für KI- und Analyse-Workloads entwickelt wurde. Die Lösung bietet einen uneingeschränkten Datenzugriff, maßgeschneiderte Abfrage-Engines und die Integration in verschiedene Datenumgebungen. So wird eine effiziente Datenaufbereitung und -verwaltung in jeder Cloud- oder On-Premises-Konfiguration ermöglicht.
IBM DataStage ist ein fortschrittliches ETL- und ELT-Tool, das die Datenintegration und -transformation in Cloud- und lokalen Umgebungen vereinfacht. Es bietet automatisierte Integrationsfunktionen, verbesserte Funktionen zur Datenverwaltung und Unterstützung für Hybrid- oder Multicloud-Set-ups.
IBM Manta Data Lineage ist eine Plattform, die zur Erhöhung der Transparenz und Genauigkeit von Datenpipelines entwickelt wurde. Sie automatisiert das Scannen und Zuordnen von Datenflüssen und bietet einen umfassenden Überblick über die Daten vom Ursprung bis zur Nutzung. Zu den wichtigsten Funktionen gehören Granularität auf Spaltenebene, Risikominderung, Skalierbarkeit, verbesserte Zusammenarbeit und Unterstützung für über 50 Technologien.
Erkunden Sie einen umfassenden Leitfaden zur Datenaufnahme, der ihre Bedeutung, ihre Typen und ihre Best Practices behandelt. Erfahren Sie mehr über den gesamten Prozess, einschließlich Datenermittlung, -erfassung, -validierung, -umwandlung und -übermittlung, um einen Einblick in die erfolgreiche Verwaltung und Nutzung verschiedener Datenquellen zu erhalten.
Eine solide Strategie für die Datenaufnahme ist für die Datenqualität von entscheidender Bedeutung. In diesem Leitfaden wird die Bedeutung der Erfassung und Verwaltung von Daten bei der Eingabe in Systeme hervorgehoben, um Fehler zu vermeiden und die Effizienz der Daten-Workflows zu verbessern.
Erfahren Sie, wie wichtig eine zuverlässige Datenaufnahme und -integration für die Unternehmens-KI ist und wie präzise Datenpipelines für die Effektivität von KI-Modellen unerlässlich sind. Lernen Sie Best Practices kennen, um die Datenqualität und -zuverlässigkeit sicherzustellen und die KI-Leistung zu verbessern.