Was ist Datenakquisition?

Blaue, durcheinandergewürfelte Punkte und Linien, die sich zur rechten Seite hin erstrecken

Autoren

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

Was ist Datenakquisition?

Datenakquisition ist der Prozess der Beschaffung von Daten aus verschiedenen Quellen mit verschiedenen Methoden. Es stellt einen entscheidenden Schritt in der Datenaufnahme-Pipeline dar, gefolgt von Datenvalidierung, Transformation und Laden.
 

Die Grundlagen moderner Unternehmen – wie die datengesteuerte Entscheidungsfindung, Datenanalyse und künstliche Intelligenz (KI) – hängen alle von der Verfügbarkeit großer Mengen hochwertiger Daten ab. Bei der Datenakquisition werden die Daten abgerufen, die diese fundierten Entscheidungen und Technologien ermöglichen. Das Konzept mag einfach erscheinen, aber die Erfassung von Daten kann komplex sein, besonders im Zeitalter von Big Data.

Heutige Datensätze sind massiv und komplex. Sie können Terabytes oder Petabytes umfassen, in strukturierten oder unstrukturierten Formaten vorliegen und aus unterschiedlichen Quellen stammen. Diese Komplexität bringt Herausforderungen hinsichtlich der Verwaltung von Datenmengen, Governance und Sicherheit während des gesamten Akquisitionsprozesses mit sich.

Wenn der Datenakquisitionsprozess jedoch effektiv durchgeführt wird, kann er als Quelle hochwertiger Informationen für strategische Initiativen dienen. Tatsächlich ergab eine Studie der Harvard Business Review, dass Unternehmen, die Big Data und KI erfolgreich einsetzen, ihre Mitbewerber in wichtigen Geschäftskennzahlen wie Betriebseffizienz, Umsatzwachstum und Customer Experience übertreffen.1

Alternative Definition von Datenakquisition

Der Begriff „Datenakquisition“ kann sich auch speziell auf die Erfassung physikalischer oder elektrischer Signale beziehen, die reale Bedingungen messen – in der Regel Sensordaten. Beispiele hierfür sind Temperaturmessungen, Druck und andere physikalische Phänomene.

Diese Signale werden mithilfe von Datenakquisitionsgeräten (DAQ-Geräten) verarbeitet und in nutzbare digitale Werte umgewandelt. Diese Verwendung ist in Bereichen wie Umweltüberwachung, industrielle Automatisierung und wissenschaftliche Forschung weit verbreitet.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben sich angemeldet.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Was sind die vier Methoden der Datenakquisition?

Nach Angaben des US Geological Survey gibt es vier Methoden zur Datenbeschaffung:2

  • Erfassen neuer Daten
  • Konvertieren oder Transformieren von Altdaten
  • Gemeinsame Nutzung oder Austausch von Daten
  • Einkaufsdaten
Erfassen neuer Daten

Das Erfassen von Daten umfasst die Generierung von Originaldaten durch direkte Mittel wie Umfragen, Interviews, Sensoren oder Geräte des Internet der Dinge (IoT). Unternehmen nutzen diesen Ansatz häufig für die Marktforschung oder die operative Überwachung.

Konvertieren oder Transformieren von Altdaten

Diese Methode konzentriert sich darauf, die Altdaten eines Unternehmens abzurufen und in ein standardisiertes, nutzbares Format zu konvertieren. Dieser Prozess kann von einfachen Feldkonvertierungen (z. B. Datumsangaben) bis hin zu komplexen Normalisierungen reichen, die möglicherweise fortgeschrittene Kenntnisse im Bereich Data Science erfordern.

Gemeinsame Nutzung oder Austausch von Daten

Datenaustausch bezeichnet die Übertragung von Daten zwischen Systemen und Unternehmen. Dies kann durch Open-Data-Programme der Regierung, städtische Datenaustauschplattformen und kommerzielle Datenanbieter geschehen. Zu den technischen Austauschmechanismen gehören Anwendungsprogrammierschnittstellen (APIs), Dateiübertragungen, Streaming-Pipelines und cloudbasierte Plattformen.

Einkaufsdaten

Unternehmen können externe Daten auch über Daten-Marktplätze erwerben. Diese Plattformen schließen die Lücke zwischen Käufern und Verkäufern, indem sie kommerzielle Verfügbarkeit, Zugänglichkeit und skalierbare Nutzen bieten. Ihre kuratierten, einsatzbereiten Datenprodukte können dazu beitragen, den Aufwand für die Datenerfassung zu reduzieren.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Allgemeine Datenquellen

Unternehmen können Daten aus einer scheinbar unbegrenzten Anzahl von Quellen sammeln. Daten können sowohl strukturiert als auch unstrukturiert und entweder intern oder extern sein. Einige der gängigsten Datenquellen sind:

  • Business Anwendungen: Daten aus Ressourcenplanung (ERP), Kundenbeziehungsmanagement (CRM) und anderen Systemen

  • Soziale Medien: Echtzeit-Interaktionsdaten von Social-Media-Plattformen

  • Offene Daten: Datensätze akademischer Einrichtungen und Regierungen, die für Forschung und politische Entscheidungsfindung verwendet werden

  • Öffentliche Daten: Daten von Regierungen und Unternehmen, wie z. B. Umfrage- und Wirtschaftsdaten

  • Transaktionsdaten: Verkaufsunterlagen, Rechnungen und Zahlungsinformationen

  • Umfragen: Daten, die durch Kunden-Feedback oder Forschungsfragebögen gesammelt werden

  • Web-Analyse: Daten aus Website-Interaktionen, wie Seitenaufrufe und Konversionen

  • IoT-Geräte: Echtzeitdaten von verbundenen Geräten, wie intelligenten Zählern oder Haushaltsgeräten

Herausforderungen und Überlegungen zur Datenakquisition

Unternehmen, die Daten erfassen, müssen während des gesamten Erfassungsprozesses mehrere Überlegungen im Auge behalten:

  • Datenschutz und -sicherheit
  • Datenqualität
  • Datenkompatibilität
  • Geschäftsanforderungen vs. Kosten

Datenschutz und -sicherheit

Datenschutz – auch als Informationsschutz bekannt – ist das Konzept, dass Menschen die Kontrolle darüber haben sollten, wie Unternehmen ihre personenbezogenen Daten erfassen, speichern und verwenden. Bei der Datenerfassung können Unternehmen Benutzerinformationen wie E-Mail-Adressen oder biometrische Authentifizierungsdaten erfassen. Es ist von entscheidender Bedeutung, dass sie vor der Verarbeitung dieser Daten die Zustimmung der Nutzer einholen, sie vor Missbrauch schützen und den Nutzern Tools zur aktiven Verwaltung dieser Daten zur Verfügung stellen.

Viele Unternehmen sind gesetzlich verpflichtet, diese Praktiken gemäß Vorschriften wie der Datenschutz-Grundverordnung (DSGVO) zu befolgen. Auch ohne formelle Datenschutzgesetze hat die Umsetzung von Datenschutzmaßnahmen jedoch Vorteile. Oft tragen die Praktiken und Tools, die Privatsphäre der Benutzer schützen, auch dazu bei, digitale Informationen vor unbefugtem Zugriff, Beschädigung oder Diebstahl zu schützen.

Datenqualität

Die Sicherstellung der Datenqualität sollte für Unternehmen, die Daten aus einer Vielzahl von Quellen beziehen, oberste Priorität haben. Datenqualität bezieht sich darauf, wie gut ein Datensatz die Kriterien für Genauigkeit, Vollständigkeit, Gültigkeit, Konsistenz, Eindeutigkeit, Aktualität und Relevanz für den vorgesehenen Zweck erfüllt. Hochwertige Daten unterstützen eine genaue, faire und effektive Entscheidungsfindung, die mit den Geschäftszielen übereinstimmt.

Die Bedeutung der Datenqualitätskontrolle geht über den täglichen Betrieb hinaus. Hochwertige Trainingsdaten sind der Schlüssel für eine effektive Einführung von künstlicher Intelligenz und Automatisierung. Das bekannte KI-Sprichwort „Garbage in, garbage out“ (Müll rein, Müll raus) trifft jedoch allgemein zu – Daten von schlechter Qualität führen in jedem Anwendungsfall zu Ergebnissen von schlechter Qualität.

Datenkompatibilität

Wenn Unternehmen Datensätze aus verschiedenen Quellen erwerben, müssen sie vor dem Laden in ihre Systeme alle Kompatibilitätsprobleme beheben. Datenbereinigung und Standardisierung können sicherstellen, dass Daten einem einheitlichen Format und einer einheitlichen Struktur entsprechen, wodurch sie leichter zu verstehen und zu analysieren sind. Beispielsweise enthalten Straßennamen häufig Richtungen, etwa Norden oder Westen. Die Standardisierung würde diese Werte in „N“ oder „W“ formatieren.

Unternehmen in stark regulierten Branchen (wie Finanzen oder Gesundheitswesen) könnten mit zusätzlichen Datenstandardsregeln und Vorschriften konfrontiert werden. Der Health Insurance Portability and Accountability Act (HIPAA) hat beispielsweise Standardcodesätze für Diagnosen und Verfahren festgelegt und damit eine gemeinsame Sprache für Gesundheitsdaten geschaffen.

Geschäftliche Anforderungen vs. Kosten

Vor der Beschaffung von Daten sollten Unternehmen ihren Datenbedarf ermitteln und prüfen, ob die Anschaffungskosten gerechtfertigt sind. Zusätzlich zu den Kosten für die Datenbereinigung und -standardisierung sollten Unternehmen die Preise, Lizenzgebühren (falls zutreffend) und alle zusätzlichen Kosten berücksichtigen, die in den Kaufverträgen aufgeführt sind.

Eine effiziente Datenakquisition erfordert auch eine robuste Dateninfrastruktur, die Daten verarbeiten, verwalten und speichern kann. Unternehmen müssen möglicherweise in Bereiche wie Datenspeicher, Analytik, Sicherheit und Governance investieren, um sicherzustellen, dass die erfassten Daten ordnungsgemäß gespeichert, verwaltet und genutzt werden.

Ist Datenakquisition dasselbe wie Datenerfassung?

Obwohl sie oft synonym verwendet werden, haben Datenakquisition und Datenerfassung unterschiedliche Bedeutungen.

Die Datenerfassung ist der Prozess der Sammlung von Rohdaten direkt aus verschiedenen Quellen, der in der Regel von Data Scientists und Analysten durchgeführt wird. Im Gegensatz dazu ist Datenakquisition ein weiter gefasster Begriff, der auch die Datenerfassung mit einschließt. Es umfasst jedoch auch die Beschaffung von Daten durch zusätzliche Methoden wie Partnerschaften, Lizenzvereinbarungen, Datenkäufe und die Umwandlung von Altdaten.

Was ist Datenakquisition im maschinellen Lernen?

Laut 72 % der leistungsstärksten CEOs hängt ein Wettbewerbsvorteil von der fortschrittlichsten generativen KI ab. Aber selbst die ausgefeiltesten Algorithmen des maschinellen Lernens sind nur so effektiv wie die Daten, mit denen sie trainiert werden. Hochwertige Daten sind für KI-Systeme unerlässlich, um zu lernen, sich anzupassen und einen echten Mehrwert zu liefern.

In der Praxis kann es jedoch eine Herausforderung sein, genügend relevante Daten zu beschaffen, um KI-Modelle zu trainieren. Datenschutzbedenken, hohe Kosten und rechtliche oder regulatorische Einschränkungen können den Zugang zu wertvollen Datenakquisition und -quellen wie Web Scraping oder öffentlichen Datensätzen einschränken. In einigen Fällen können Vorschriften die Erhebung bestimmter Arten von Daten für KI-Anwendungsfälle gänzlich untersagen.

Um diese Hindernisse zu überwinden, greifen viele Unternehmen auf synthetische Daten zurück – künstlich generierte Daten, die reale Daten nachahmen. Synthetische Daten werden mithilfe statistischer Methoden oder fortschrittlicher Technologien der künstlichen Intelligenz wie Deep Learning und generativer KI erstellt und bieten mehrere Vorteile: größere Anpassungsmöglichkeiten, effizientere Erfassung, erhöhter Datenschutz und insgesamt reichhaltigere Daten.

Weiterführende Lösungen
IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden
IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden IBM watsonx.data entdecken
Fußnoten

1Big on data: Study shows why data-driven companies are more profitable than their peers“, Harvard Business Review Studie, die für Google Cloud durchgeführt wurde, 24. März 2023.

2Data Acquisition Methods“, The US Geological Survey.