Ein Datensatz ist eine Sammlung von Daten, die in der Regel in Tabellen, Arrays oder bestimmten Formaten – wie CSV oder JSON – organisiert sind, um eine einfache Abfrage und Analyse zu ermöglichen. Datensätze sind unverzichtbar für Datenanalysen, maschinelles Lernen (ML), künstliche Intelligenz (KI) und andere Anwendungen, die zuverlässige, zugängliche Daten benötigen.
Unternehmen sammeln heute große Datenmengen aus verschiedenen Quellen, einschließlich Kundeninteraktionen, Finanztransaktionen, IoT-Geräten und Social-Media-Plattformen.
Um den Geschäftswert all dieser Daten zu erschließen, müssen sie oft in Datensätzen organisiert werden: organisierte Sammlungen, die Informationen für Analysen und Anwendungen zugänglich machen.
Verschiedene Arten von Datensätzen speichern Daten auf unterschiedliche Weise. Beispielsweise ordnen strukturierte Datensätze Datenpunkte oft in Tabellen mit definierten Zeilen und Spalten an. Unstrukturierte Datensätze können verschiedene Formate wie Textdateien, Bilder und Audio enthalten.
Zwar beinhalten nicht alle Datensätze strukturierte Daten, aber sie haben immer eine gewisse allgemeine Struktur, egal ob es sich um definierte Schemata oder lose organisierte Syntax in semistrukturierten Datenformaten wie JSON oder XML handelt.
Beispiele für Datensätze sind:
Unternehmen verwenden und pflegen häufig mehrere Datensätze zur Unterstützung verschiedener Geschäftsinitiativen, einschließlich Datenanalyse und Business Intelligence (BI).
Insbesondere Big Data ist auf riesige, komplexe Datensätze angewiesen, um einen Mehrwert zu schaffen. Wenn diese Datensätze mithilfe von Big-Data-Analyse richtig gesammelt, verwaltet und analysiert werden, können sie dazu beitragen, neue Erkenntnisse zu gewinnen und eine datengestützte Entscheidungsfindung zu ermöglichen.
In den letzten Jahren hat der Aufstieg der künstlichen Intelligenz (KI) und des maschinellen Lernens den Fokus auf Datensätze weiter verstärkt. Unternehmen benötigen umfangreiche, gut organisierte Trainingsdaten, um genaue Modelle für maschinelles Lernen zu entwickeln und Vorhersagealgorithmen zu verfeinern.
Laut Gartner geben 61 % der Unternehmen an, dass sie ihr Daten- und Analysemodell aufgrund der Auswirkungen von KI-Technologien weiterentwickeln oder überdenken müssen.1
Obwohl der Begriff „Datensatz“ oft weit gefasst verwendet wird, bestimmen bestimmte Eigenschaften, ob eine Datensammlung einen Datensatz darstellt. Im Allgemeinen haben Datensätze drei grundlegende Merkmale: Variablen, Schemata und Metadaten.
Nicht alle Datensammlungen sind Datensätze. Wahllose Ansammlungen von Datenpunkten ohne Bezug zueinander stellen in der Regel keinen Datensatz dar, wenn sie nicht angemessen organisiert und strukturiert sind, um eine sinnvolle Analyse zu ermöglichen.
Ebenso können Programmierschnittstellen (APIs), Datenbanken und Tabellenkalkulationsprogramme zwar mit Datensätzen interagieren oder diese enthalten, sind aber nicht unbedingt selbst Datensätze.
APIs ermöglichen die Kommunikation von Anwendungen miteinander, was manchmal den Zugriff auf und den Austausch von Datensätzen erfordert. Datenbanken und Tabellenkalkulationen sind Container für Informationen, die Datensätze enthalten können.
Unternehmen arbeiten im Allgemeinen mit drei Haupttypen von Datensätzen, die in der Regel nach der Art der Daten, mit denen sie arbeiten, klassifiziert werden:
Unternehmen kombinieren häufig mehrere Arten von Datensätzen, um umfassende Datenanalysestrategien zu unterstützen. Ein Einzelhandelsunternehmen könnte beispielsweise strukturierte Verkaufsdaten neben unstrukturierten Kundenreviews und semistrukturierten Web-Analysen analysieren, um bessere Erkenntnisse über das Verhalten und die Vorlieben der Kunden zu erhalten.
Strukturierte Datensätze organisieren Informationen in vordefinierten Formaten, in der Regel Tabellen mit klar definierten Zeilen und Spalten. Diese Datensätze sind grundlegend für viele entscheidende Geschäftsprozesse, etwa Kundenbeziehungsmanagement (CRM) und Bestandsmanagement.
Da strukturierte Datensätze konsistenten Schemata folgen, ermöglichen sie schnelle Abfragen und zuverlässige Analysen. Dies macht sie ideal für Business-Intelligence-Tools und Berichtssysteme, die präzise, quantifizierbare Daten benötigen.
Häufige Beispiele für strukturierte Datensätze sind:
Unstrukturierte Datensätze enthalten Informationen, die nicht traditionellen Datenmodellen oder starren Schemata entsprechen. Diese Datensätze erfordern zwar ausgefeiltere Verarbeitungswerkzeuge, aber sie enthalten oft umfangreiche Erkenntnisse, die strukturierte Datenformate nicht erfassen können.
Unternehmen verlassen sich auf unstrukturierte Datensätze, um Modelle für künstliche Intelligenz und maschinelles Lernen zu unterstützen. Diese Datensätze liefern die vielfältigen, realen Daten, die zum Trainieren von KI-Modellen und zur Entwicklung erweiterter Analysefunktionen erforderlich sind.
Häufige Beispiele für unstrukturierte Datensätze sind:
Semistrukturierte Datensätze schließen die Lücke zwischen strukturierten und unstrukturierten Daten. Sie folgen zwar keinen starren Schemata, enthalten aber eine definierte Syntax oder Markierungen, um Informationen in flexiblen, aber dennoch parsierbaren Formaten zu organisieren.
Dieser hybride Ansatz macht semistrukturierte Datensätze wertvoll für moderne Datenintegrationsprojekte und -anwendungen, die verschiedene Datentypen verarbeiten und gleichzeitig eine gewisse Organisationsstruktur beibehalten müssen.
Häufige Beispiele für semistrukturierte Datensätze sind:
Unternehmen sammeln Daten aus verschiedenen Quellen, um Datensätze zu erstellen, die verschiedene Geschäftsinitiativen unterstützen. Datenquellen können sowohl die Qualität als auch den Nutzen von Datensätzen direkt bestimmen.
Zu den häufigsten Datenquellen gehören:
Daten-Repositorys sind zentralisierte Datenspeicher. Proprietäre Daten-Repositorys enthalten oft sensible oder kritische Daten wie Kundendaten, Finanztransaktionsdaten oder Metriken, die Wettbewerbsvorteile bieten.
Andere Daten-Repositorys sind öffentlich zugänglich. Auf einer Plattform wie GitHub sind beispielsweise neben Code auch Open-Source-Datensätze zu finden. Forscher und Unternehmen können diese öffentlichen Datensätze nutzen, um offen an Modellen für maschinelles Lernen und Data Science-Projekten zusammenzuarbeiten.
Datenbanken sind digitale Daten-Repositorys, die für die sichere Speicherung und das einfache Abrufen von Daten bei Bedarf optimiert sind.
Eine Datenbank kann einen einzelnen Datensatz oder mehrere Datensätze enthalten. Benutzer können relevante Datenpunkte schnell extrahieren, indem sie Datenbankabfragen ausführen, die spezielle Sprachen wie Structured Query Language (SQL) verwenden.
APIs verbinden Softwareanwendungen, damit sie kommunizieren können. Datennutzer können APIs verwenden, um Daten in Echtzeit aus verbundenen Quellen wie Webdiensten und digitalen Plattformen zu erfassen und zur Verwendung an andere Apps und Repositorys weiterzuleiten.
Data Scientists erstellen häufig automatisierte Pipelines zur Datenerfassung mithilfe von Sprachen wie Python, das robuste Bibliotheken für die API-Integration und Datenverarbeitung bietet. Beispielsweise könnte ein Analysesystem für den Einzelhandel diese automatisierten Pipelines nutzen, um kontinuierlich Daten zu Kundenkäufen und Bestände aus E-Commerce-Shops und Bestandsmanagementsystemen zu erfassen.
Websites wie Data.gov und offene Dateninitiativen auf Stadtebene wie New York City Open Data bieten kostenlosen Zugang zu Datensätzen mit Metriken aus den Bereichen Gesundheitswesen, Verkehrs und Umwelt. Forscher können diese Datensätze nutzen, um alles von Verkehrsmustern bis hin zu Trends im öffentlichen Gesundheitswesen zu untersuchen.
Von der Förderung künstlicher Intelligenz bis hin zu datengestützten Erkenntnissen sind Datensätze die Grundlage für verschiedene wichtige geschäftliche und technologische Initiativen.
Zu den häufigsten Anwendungen von Datensätzen gehören:
Künstliche Intelligenz (KI) hat das Potenzial, für viele Unternehmen ein entscheidendes Alleinstellungsmerkmale zu sein.
Laut dem IBM Institute for Business Value glauben 72 % der erfolgreichsten CEOs, dass ihr Wettbewerbsvorteil davon abhängt, über die fortschrittlichste generative KI zu verfügen. Diese hochmodernen KI-Systeme sind auf umfangreiche Datensätze – sowohl gelabelte als auch nicht gelabelte – angewiesen, um Modelle effektiv zu trainieren.
Mit umfassenden Trainingsdaten können Unternehmen KI-Systeme entwickeln, die komplexe Aufgaben erfüllen. Dazu gehören:
Data Scientists und Datenanalysten nutzen Datensätze, um wertvolle Erkenntnisse zu gewinnen und interdisziplinäre Entdeckungen zu machen. Da Unternehmen mehr Daten als je zuvor sammeln, ist die Datenanalyse von entscheidender Bedeutung für die Prüfung von Hypothesen, die Identifizierung von Trends und die Aufdeckung von Beziehungen, die strategische Entscheidungen beeinflussen.
Auf folgende Arten unterstützen Datensätze die Datenanalyse:
Unternehmen nutzen Business Intelligence (BI), um Erkenntnisse aus Datensätzen zu gewinnen und Entscheidungen in Echtzeit zu treffen.
BI-Tools können dabei helfen, verschiedene Arten von Daten zu analysieren, um Trends zu erkennen, die Leistung zu überwachen und neue Chancen zu entdecken. Zu den Anwendungen gehören:
Der Umgang mit großen und komplexen Datensätzen für jede Initiative kann verschiedene Herausforderungen und Überlegungen mit sich bringen. Einige der wichtigsten sind:
Alle Links befinden sich außerhalb von ibm.com.
1 Unternehmen entwickeln ihre D&A-Betriebsmodelle aufgrund von KI-Technologien weiter, Gartner, 29. April 2024.
Erhalten Sie einzigartige Einblicke in die sich entwickelnde Geschäftswelt der ABI-Lösungen und hebt die wichtigsten Ergebnisse, Annahmen und Empfehlungen für Führungskräfte im Bereich Daten und Analysen hervor.
Vereinfachen Sie den Datenzugriff und automatisieren Sie die Data Governance. Entdecken Sie die Vorteile einer Data-Lakehouse-Strategie für Ihre Datenarchitektur, einschließlich der Kostenoptimierung Ihrer Workloads und der Skalierung von KI und Analysen, mit all Ihren Daten, überall.
Erkunden Sie den Leitfaden für Datenexperten zum Aufbau eines datengestützten Unternehmens und zur Förderung von geschäftlichen Vorteilen.
Erfahren Sie, wie ein offener Data-Lakehouse-Ansatz vertrauenswürdige Daten und eine schnellere Durchführung von Analysen und KI-Projekten ermöglichen kann.
Mit diesen vier Schritten verknüpfen Sie Ihre Daten- und Analysestrategie mit Ihren Geschäftszielen.
Erfahren Sie mehr darüber, warum Herausforderungen im Bereich Business Intelligence weiterhin bestehen könnten und was dies für die Nutzer in einem Unternehmen bedeutet.
Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.
Wir stellen vor: Cognos Analytics 12.0, KI-gestützte Erkenntnisse für eine bessere Entscheidungsfindung.