Die Grundlagen moderner Unternehmen – wie die datengesteuerte Entscheidungsfindung, Datenanalyse und künstliche Intelligenz (KI) – hängen alle von der Verfügbarkeit großer Mengen hochwertiger Daten ab. Bei der Datenakquisition werden die Daten abgerufen, die diese fundierten Entscheidungen und Technologien ermöglichen. Das Konzept mag einfach erscheinen, aber die Erfassung von Daten kann komplex sein, besonders im Zeitalter von Big Data.
Heutige Datensätze sind massiv und komplex. Sie können Terabytes oder Petabytes umfassen, in strukturierten oder unstrukturierten Formaten vorliegen und aus unterschiedlichen Quellen stammen. Diese Komplexität bringt Herausforderungen hinsichtlich der Verwaltung von Datenmengen, Governance und Sicherheit während des gesamten Akquisitionsprozesses mit sich.
Wenn der Datenakquisitionsprozess jedoch effektiv durchgeführt wird, kann er als Quelle hochwertiger Informationen für strategische Initiativen dienen. Tatsächlich ergab eine Studie der Harvard Business Review, dass Unternehmen, die Big Data und KI erfolgreich einsetzen, ihre Mitbewerber in wichtigen Geschäftskennzahlen wie Betriebseffizienz, Umsatzwachstum und Customer Experience übertreffen.1
Der Begriff „Datenakquisition“ kann sich auch speziell auf die Erfassung physikalischer oder elektrischer Signale beziehen, die reale Bedingungen messen – in der Regel Sensordaten. Beispiele hierfür sind Temperaturmessungen, Druck und andere physikalische Phänomene.
Diese Signale werden mithilfe von Datenakquisitionsgeräten (DAQ-Geräten) verarbeitet und in nutzbare digitale Werte umgewandelt. Diese Verwendung ist in Bereichen wie Umweltüberwachung, industrielle Automatisierung und wissenschaftliche Forschung weit verbreitet.
Branchen-Newsletter
Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.
Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.
Nach Angaben des US Geological Survey gibt es vier Methoden zur Datenbeschaffung:2
Das Erfassen von Daten umfasst die Generierung von Originaldaten durch direkte Mittel wie Umfragen, Interviews, Sensoren oder Geräte des Internet der Dinge (IoT). Unternehmen nutzen diesen Ansatz häufig für die Marktforschung oder die operative Überwachung.
Diese Methode konzentriert sich darauf, die Altdaten eines Unternehmens abzurufen und in ein standardisiertes, nutzbares Format zu konvertieren. Dieser Prozess kann von einfachen Feldkonvertierungen (z. B. Datumsangaben) bis hin zu komplexen Normalisierungen reichen, die möglicherweise fortgeschrittene Kenntnisse im Bereich Data Science erfordern.
Datenaustausch bezeichnet die Übertragung von Daten zwischen Systemen und Unternehmen. Dies kann durch Open-Data-Programme der Regierung, städtische Datenaustauschplattformen und kommerzielle Datenanbieter geschehen. Zu den technischen Austauschmechanismen gehören Anwendungsprogrammierschnittstellen (APIs), Dateiübertragungen, Streaming-Pipelines und cloudbasierte Plattformen.
Unternehmen können externe Daten auch über Daten-Marktplätze erwerben. Diese Plattformen schließen die Lücke zwischen Käufern und Verkäufern, indem sie kommerzielle Verfügbarkeit, Zugänglichkeit und skalierbare Nutzen bieten. Ihre kuratierten, einsatzbereiten Datenprodukte können dazu beitragen, den Aufwand für die Datenerfassung zu reduzieren.
Unternehmen können Daten aus einer scheinbar unbegrenzten Anzahl von Quellen sammeln. Daten können sowohl strukturiert als auch unstrukturiert und entweder intern oder extern sein. Einige der gängigsten Datenquellen sind:
Unternehmen, die Daten erfassen, müssen während des gesamten Erfassungsprozesses mehrere Überlegungen im Auge behalten:
Datenschutz – auch als Informationsschutz bekannt – ist das Konzept, dass Menschen die Kontrolle darüber haben sollten, wie Unternehmen ihre personenbezogenen Daten erfassen, speichern und verwenden. Bei der Datenerfassung können Unternehmen Benutzerinformationen wie E-Mail-Adressen oder biometrische Authentifizierungsdaten erfassen. Es ist von entscheidender Bedeutung, dass sie vor der Verarbeitung dieser Daten die Zustimmung der Nutzer einholen, sie vor Missbrauch schützen und den Nutzern Tools zur aktiven Verwaltung dieser Daten zur Verfügung stellen.
Viele Unternehmen sind gesetzlich verpflichtet, diese Praktiken gemäß Vorschriften wie der Datenschutz-Grundverordnung (DSGVO) zu befolgen. Auch ohne formelle Datenschutzgesetze hat die Umsetzung von Datenschutzmaßnahmen jedoch Vorteile. Oft tragen die Praktiken und Tools, die Privatsphäre der Benutzer schützen, auch dazu bei, digitale Informationen vor unbefugtem Zugriff, Beschädigung oder Diebstahl zu schützen.
Die Sicherstellung der Datenqualität sollte für Unternehmen, die Daten aus einer Vielzahl von Quellen beziehen, oberste Priorität haben. Datenqualität bezieht sich darauf, wie gut ein Datensatz die Kriterien für Genauigkeit, Vollständigkeit, Gültigkeit, Konsistenz, Eindeutigkeit, Aktualität und Relevanz für den vorgesehenen Zweck erfüllt. Hochwertige Daten unterstützen eine genaue, faire und effektive Entscheidungsfindung, die mit den Geschäftszielen übereinstimmt.
Die Bedeutung der Datenqualitätskontrolle geht über den täglichen Betrieb hinaus. Hochwertige Trainingsdaten sind der Schlüssel für eine effektive Einführung von künstlicher Intelligenz und Automatisierung. Das bekannte KI-Sprichwort „Garbage in, garbage out“ (Müll rein, Müll raus) trifft jedoch allgemein zu – Daten von schlechter Qualität führen in jedem Anwendungsfall zu Ergebnissen von schlechter Qualität.
Wenn Unternehmen Datensätze aus verschiedenen Quellen erwerben, müssen sie vor dem Laden in ihre Systeme alle Kompatibilitätsprobleme beheben. Datenbereinigung und Standardisierung können sicherstellen, dass Daten einem einheitlichen Format und einer einheitlichen Struktur entsprechen, wodurch sie leichter zu verstehen und zu analysieren sind. Beispielsweise enthalten Straßennamen häufig Richtungen, etwa Norden oder Westen. Die Standardisierung würde diese Werte in „N“ oder „W“ formatieren.
Unternehmen in stark regulierten Branchen (wie Finanzen oder Gesundheitswesen) könnten mit zusätzlichen Datenstandardsregeln und Vorschriften konfrontiert werden. Der Health Insurance Portability and Accountability Act (HIPAA) hat beispielsweise Standardcodesätze für Diagnosen und Verfahren festgelegt und damit eine gemeinsame Sprache für Gesundheitsdaten geschaffen.
Vor der Beschaffung von Daten sollten Unternehmen ihren Datenbedarf ermitteln und prüfen, ob die Anschaffungskosten gerechtfertigt sind. Zusätzlich zu den Kosten für die Datenbereinigung und -standardisierung sollten Unternehmen die Preise, Lizenzgebühren (falls zutreffend) und alle zusätzlichen Kosten berücksichtigen, die in den Kaufverträgen aufgeführt sind.
Eine effiziente Datenakquisition erfordert auch eine robuste Dateninfrastruktur, die Daten verarbeiten, verwalten und speichern kann. Unternehmen müssen möglicherweise in Bereiche wie Datenspeicher, Analytik, Sicherheit und Governance investieren, um sicherzustellen, dass die erfassten Daten ordnungsgemäß gespeichert, verwaltet und genutzt werden.
Obwohl sie oft synonym verwendet werden, haben Datenakquisition und Datenerfassung unterschiedliche Bedeutungen.
Die Datenerfassung ist der Prozess der Sammlung von Rohdaten direkt aus verschiedenen Quellen, der in der Regel von Data Scientists und Analysten durchgeführt wird. Im Gegensatz dazu ist Datenakquisition ein weiter gefasster Begriff, der auch die Datenerfassung mit einschließt. Es umfasst jedoch auch die Beschaffung von Daten durch zusätzliche Methoden wie Partnerschaften, Lizenzvereinbarungen, Datenkäufe und die Umwandlung von Altdaten.
Laut 72 % der leistungsstärksten CEOs hängt ein Wettbewerbsvorteil von der fortschrittlichsten generativen KI ab. Aber selbst die ausgefeiltesten Algorithmen des maschinellen Lernens sind nur so effektiv wie die Daten, mit denen sie trainiert werden. Hochwertige Daten sind für KI-Systeme unerlässlich, um zu lernen, sich anzupassen und einen echten Mehrwert zu liefern.
In der Praxis kann es jedoch eine Herausforderung sein, genügend relevante Daten zu beschaffen, um KI-Modelle zu trainieren. Datenschutzbedenken, hohe Kosten und rechtliche oder regulatorische Einschränkungen können den Zugang zu wertvollen Datenakquisition und -quellen wie Web Scraping oder öffentlichen Datensätzen einschränken. In einigen Fällen können Vorschriften die Erhebung bestimmter Arten von Daten für KI-Anwendungsfälle gänzlich untersagen.
Um diese Hindernisse zu überwinden, greifen viele Unternehmen auf synthetische Daten zurück – künstlich generierte Daten, die reale Daten nachahmen. Synthetische Daten werden mithilfe statistischer Methoden oder fortschrittlicher Technologien der künstlichen Intelligenz wie Deep Learning und generativer KI erstellt und bieten mehrere Vorteile: größere Anpassungsmöglichkeiten, effizientere Erfassung, erhöhter Datenschutz und insgesamt reichhaltigere Daten.
Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.
Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.
1 „Big on data: Study shows why data-driven companies are more profitable than their peers“, Harvard Business Review Studie, die für Google Cloud durchgeführt wurde, 24. März 2023.
2 „Data Acquisition Methods“, The US Geological Survey.