Was ist ein Datensatz?

10. Dezember 2024

Autoren

Matthew Kosinski

Enterprise Technology Writer

Was ist ein Datensatz?

Ein Datensatz ist eine Sammlung von Daten, die in der Regel in Tabellen, Arrays oder bestimmten Formaten – wie CSV oder JSON – organisiert sind, um eine einfache Abfrage und Analyse zu ermöglichen. Datensätze sind unverzichtbar für Datenanalysen, maschinelles Lernen (ML), künstliche Intelligenz (KI) und andere Anwendungen, die zuverlässige, zugängliche Daten benötigen.

Unternehmen sammeln heute große Datenmengen aus verschiedenen Quellen, einschließlich Kundeninteraktionen, Finanztransaktionen, IoT-Geräten und Social-Media-Plattformen.

Um den Geschäftswert all dieser Daten zu erschließen, müssen sie oft in Datensätzen organisiert werden: organisierte Sammlungen, die Informationen für Analysen und Anwendungen zugänglich machen.

Verschiedene Arten von Datensätzen speichern Daten auf unterschiedliche Weise. Beispielsweise ordnen strukturierte Datensätze Datenpunkte oft in Tabellen mit definierten Zeilen und Spalten an. Unstrukturierte Datensätze können verschiedene Formate wie Textdateien, Bilder und Audio enthalten.

Zwar beinhalten nicht alle Datensätze strukturierte Daten, aber sie haben immer eine gewisse allgemeine Struktur, egal ob es sich um definierte Schemata oder lose organisierte Syntax in semistrukturierten Datenformaten wie JSON oder XML handelt.

Beispiele für Datensätze sind:

  • Kundenservice-Datensätze, die Support-Interaktionen und Lösungen aufzeichnen
  • Produktionsdatensätze zur Überwachung der Leistungsmetriken von Equipment
  • Datensätze, die Transaktionsmuster und Verbraucherverhalten analysieren
  • Marketing-Datensätze, die die Effektivität und das Engagement von Kampagnen messen

Unternehmen verwenden und pflegen häufig mehrere Datensätze zur Unterstützung verschiedener Geschäftsinitiativen, einschließlich Datenanalyse und Business Intelligence (BI).

Insbesondere Big Data ist auf riesige, komplexe Datensätze angewiesen, um einen Mehrwert zu schaffen. Wenn diese Datensätze mithilfe von Big-Data-Analyse richtig gesammelt, verwaltet und analysiert werden, können sie dazu beitragen, neue Erkenntnisse zu gewinnen und eine datengestützte Entscheidungsfindung zu ermöglichen.

In den letzten Jahren hat der Aufstieg der künstlichen Intelligenz (KI) und des maschinellen Lernens den Fokus auf Datensätze weiter verstärkt. Unternehmen benötigen umfangreiche, gut organisierte Trainingsdaten, um genaue Modelle für maschinelles Lernen zu entwickeln und Vorhersagealgorithmen zu verfeinern.

Laut Gartner geben 61 % der Unternehmen an, dass sie ihr Daten- und Analysemodell aufgrund der Auswirkungen von KI-Technologien weiterentwickeln oder überdenken müssen.1

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Was ein Datensatz ist – und was nicht

Obwohl der Begriff „Datensatz“ oft weit gefasst verwendet wird, bestimmen bestimmte Eigenschaften, ob eine Datensammlung einen Datensatz darstellt. Im Allgemeinen haben Datensätze drei grundlegende Merkmale: Variablen, Schemata und Metadaten.

  • Variablen stellen die spezifischen Attribute oder Merkmale dar, die im Datensatz untersucht werden. In einem Verkaufsdatensatz können die Variablen beispielsweise die Produkt-ID, den Preis und das Kaufdatum umfassen. Variablen dienen oft als Eingaben für Algorithmen des maschinellen Lernens und statistische Analysen.
  • Schemata definieren die Struktur eines Datensatzes, einschließlich der Beziehungen und der Syntax zwischen seinen Variablen. Das Schema eines tabellarischen Datensatzes könnte zum Beispiel die Formate und Spaltenüberschriften des Datensatzes beschreiben, z. B. „Datum“, „Betrag“ und „Kategorie“. Ein JSON-Schema kann verschachtelte Datenstrukturen wie Kundenprofile mit Attributen wie „Name“, „E-Mail-Adresse“ und einer Reihe von „Bestellverlauf“-Objekten beschreiben.
  • Metadaten sind Daten über Daten, die wesentlichen Kontext zu einem Datensatz liefern, einschließlich Details zu Herkunft, Zweck und Verwendungsrichtlinien. Diese Informationen tragen dazu bei, dass Datensätze interpretierbar bleiben und sich effektiv in andere Systeme integrieren lassen.

Nicht alle Datensammlungen sind Datensätze. Wahllose Ansammlungen von Datenpunkten ohne Bezug zueinander stellen in der Regel keinen Datensatz dar, wenn sie nicht angemessen organisiert und strukturiert sind, um eine sinnvolle Analyse zu ermöglichen.

Ebenso können Programmierschnittstellen (APIs), Datenbanken und Tabellenkalkulationsprogramme zwar mit Datensätzen interagieren oder diese enthalten, sind aber nicht unbedingt selbst Datensätze.

APIs ermöglichen die Kommunikation von Anwendungen miteinander, was manchmal den Zugriff auf und den Austausch von Datensätzen erfordert. Datenbanken und Tabellenkalkulationen sind Container für Informationen, die Datensätze enthalten können.

Arten von Datensätzen

Unternehmen arbeiten im Allgemeinen mit drei Haupttypen von Datensätzen, die in der Regel nach der Art der Daten, mit denen sie arbeiten, klassifiziert werden:

  • Strukturierte Datensätze
  • Unstrukturierte Datensätze
  • Semistrukturierte Datensätze

Unternehmen kombinieren häufig mehrere Arten von Datensätzen, um umfassende Datenanalysestrategien zu unterstützen. Ein Einzelhandelsunternehmen könnte beispielsweise strukturierte Verkaufsdaten neben unstrukturierten Kundenreviews und semistrukturierten Web-Analysen analysieren, um bessere Erkenntnisse über das Verhalten und die Vorlieben der Kunden zu erhalten.

Strukturierte Datensätze

Strukturierte Datensätze organisieren Informationen in vordefinierten Formaten, in der Regel Tabellen mit klar definierten Zeilen und Spalten. Diese Datensätze sind grundlegend für viele entscheidende Geschäftsprozesse, etwa Kundenbeziehungsmanagement (CRM) und Bestandsmanagement.

Da strukturierte Datensätze konsistenten Schemata folgen, ermöglichen sie schnelle Abfragen und zuverlässige Analysen. Dies macht sie ideal für Business-Intelligence-Tools und Berichtssysteme, die präzise, quantifizierbare Daten benötigen.

Häufige Beispiele für strukturierte Datensätze sind:

  • In Excel-Tabellen organisierte Finanzdatensätze mit definierten Feldern für Daten, Beträge und Kategorien
  • Kundendatenbanken mit standardisierten Formaten für Kontaktinformationen und Kaufhistorie
  • Bestandssysteme, die Produktmengen, Standorte und Bewegungen verfolgen
  • Sensordatenströme, die einheitliche Metriken für die Überwachung von Equipment und die vorausschauende Wartung bereitstellen

Unstrukturierte Datensätze

Unstrukturierte Datensätze enthalten Informationen, die nicht traditionellen Datenmodellen oder starren Schemata entsprechen. Diese Datensätze erfordern zwar ausgefeiltere Verarbeitungswerkzeuge, aber sie enthalten oft umfangreiche Erkenntnisse, die strukturierte Datenformate nicht erfassen können.

Unternehmen verlassen sich auf unstrukturierte Datensätze, um Modelle für künstliche Intelligenz und maschinelles Lernen zu unterstützen. Diese Datensätze liefern die vielfältigen, realen Daten, die zum Trainieren von KI-Modellen und zur Entwicklung erweiterter Analysefunktionen erforderlich sind.

Häufige Beispiele für unstrukturierte Datensätze sind:

  • Textdokumente wie E-Mails, Berichte und Webseiten
  • Bilder und Videos, die zum Trainieren von Modellen für maschinelles Lernen verwendet werden
  • Audio-Aufnahmen aus realen Anwendungen
  • Chatprotokolle und Transkripte des Kundenservice

Semistrukturierte Datensätze

Semistrukturierte Datensätze schließen die Lücke zwischen strukturierten und unstrukturierten Daten. Sie folgen zwar keinen starren Schemata, enthalten aber eine definierte Syntax oder Markierungen, um Informationen in flexiblen, aber dennoch parsierbaren Formaten zu organisieren.

Dieser hybride Ansatz macht semistrukturierte Datensätze wertvoll für moderne Datenintegrationsprojekte und -anwendungen, die verschiedene Datentypen verarbeiten und gleichzeitig eine gewisse Organisationsstruktur beibehalten müssen.

Häufige Beispiele für semistrukturierte Datensätze sind: 

  • JSON-, HTML- und XML-Dateien, die in Webanwendungen und APIs verwendet werden
  • Protokolldateien, die sowohl formatierte Felder als auch Text in freier Form enthalten
  • Öffentliche Datensätze, die mehrere Datenformate kombinieren, um eine breitere Zugänglichkeit zu gewährleisten
Mixture of Experts | Podcast

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Quellen der Datensätze

Unternehmen sammeln Daten aus verschiedenen Quellen, um Datensätze zu erstellen, die verschiedene Geschäftsinitiativen unterstützen. Datenquellen können sowohl die Qualität als auch den Nutzen von Datensätzen direkt bestimmen.

Zu den häufigsten Datenquellen gehören:

  • Daten-Repositorys
  • Datenbanken
  • Anwendungsprogrammierschnittstellen (APIs)
  • Öffentliche Datenplattformen

Daten-Repositorys

Daten-Repositorys sind zentralisierte Datenspeicher. Proprietäre Daten-Repositorys enthalten oft sensible oder kritische Daten wie Kundendaten, Finanztransaktionsdaten oder Metriken, die Wettbewerbsvorteile bieten.

Andere Daten-Repositorys sind öffentlich zugänglich. Auf einer Plattform wie GitHub sind beispielsweise neben Code auch Open-Source-Datensätze zu finden. Forscher und Unternehmen können diese öffentlichen Datensätze nutzen, um offen an Modellen für maschinelles Lernen und Data Science-Projekten zusammenzuarbeiten.

Datenbanken

Datenbanken sind digitale Daten-Repositorys, die für die sichere Speicherung und das einfache Abrufen von Daten bei Bedarf optimiert sind.

Eine Datenbank kann einen einzelnen Datensatz oder mehrere Datensätze enthalten. Benutzer können relevante Datenpunkte schnell extrahieren, indem sie Datenbankabfragen ausführen, die spezielle Sprachen wie Structured Query Language (SQL) verwenden.

Anwendungsprogrammierschnittstellen (APIs)

APIs verbinden Softwareanwendungen, damit sie kommunizieren können. Datennutzer können APIs verwenden, um Daten in Echtzeit aus verbundenen Quellen wie Webdiensten und digitalen Plattformen zu erfassen und zur Verwendung an andere Apps und Repositorys weiterzuleiten.

Data Scientists erstellen häufig automatisierte Pipelines zur Datenerfassung mithilfe von Sprachen wie Python, das robuste Bibliotheken für die API-Integration und Datenverarbeitung bietet. Beispielsweise könnte ein Analysesystem für den Einzelhandel diese automatisierten Pipelines nutzen, um kontinuierlich Daten zu Kundenkäufen und Bestände aus E-Commerce-Shops und Bestandsmanagementsystemen zu erfassen.

Öffentliche Datenplattformen

Websites wie Data.gov und offene Dateninitiativen auf Stadtebene wie New York City Open Data bieten kostenlosen Zugang zu Datensätzen mit Metriken aus den Bereichen Gesundheitswesen, Verkehrs und Umwelt. Forscher können diese Datensätze nutzen, um alles von Verkehrsmustern bis hin zu Trends im öffentlichen Gesundheitswesen zu untersuchen.

Anwendungsfälle für Datensätze

Von der Förderung künstlicher Intelligenz bis hin zu datengestützten Erkenntnissen sind Datensätze die Grundlage für verschiedene wichtige geschäftliche und technologische Initiativen.

Zu den häufigsten Anwendungen von Datensätzen gehören:

  • Künstliche Intelligenz (KI) und maschinelles Lernen (ML)
  • Datenanalyse und Erkenntnisse
  • Business Intelligence (BI)

Künstliche Intelligenz (KI) und maschinelles Lernen (ML)

Künstliche Intelligenz (KI) hat das Potenzial, für viele Unternehmen ein entscheidendes Alleinstellungsmerkmale zu sein.

Laut dem IBM Institute for Business Value glauben 72 % der erfolgreichsten CEOs, dass ihr Wettbewerbsvorteil davon abhängt, über die fortschrittlichste generative KI zu verfügen. Diese hochmodernen KI-Systeme sind auf umfangreiche Datensätze – sowohl gelabelte als auch nicht gelabelte – angewiesen, um Modelle effektiv zu trainieren.

Mit umfassenden Trainingsdaten können Unternehmen KI-Systeme entwickeln, die komplexe Aufgaben erfüllen. Dazu gehören:

  • Computer Vision: Anhand gelabelter Bilddatensätze kann KI lernen, Objekte, Gesichter und visuelle Muster zu erkennen. Computer Vision treibt Innovationen bei autonomen Fahrzeugen, medizinischen Bildgebungsanalysen und vielem mehr voran. Beispielsweise können KI-Systeme im Gesundheitswesen Datensätze von medizinischen Scans analysieren, um frühe Anzeichen einer Krankheit mit hoher Genauigkeit zu erkennen.
  • Vorausschauende Analyse: Die vorausschauende Analyse stützt sich auf strukturierte Datensätze, um Modelle zu trainieren, die reale Ergebnisse vorhersagen, etwa Immobilienpreise und Verbrauchernachfrage. Diese Regressionsmodelle analysieren historische Datenmuster, um genaue Vorhersagen zu treffen. So können sie beispielsweise durch die Analyse jahrelanger Verkaufsdaten die saisonale Nachfrage vorhersehen und Lagerbestände optimieren.
  • Forschung: KI-Systeme können riesige Datensätze verarbeiten, um neue Erkenntnisse zu gewinnen und Innovationen zu beschleunigen. Beispielsweise können Pharmaunternehmen mithilfe von KI molekulare Datensätze analysieren und vielversprechende neue Medikamente schneller identifizieren als mit herkömmlichen Methoden.

Datenanalyse und Erkenntnisse

Data Scientists und Datenanalysten nutzen Datensätze, um wertvolle Erkenntnisse zu gewinnen und interdisziplinäre Entdeckungen zu machen. Da Unternehmen mehr Daten als je zuvor sammeln, ist die Datenanalyse von entscheidender Bedeutung für die Prüfung von Hypothesen, die Identifizierung von Trends und die Aufdeckung von Beziehungen, die strategische Entscheidungen beeinflussen.

Auf folgende Arten unterstützen Datensätze die Datenanalyse:

  • Mustererkennung: Eine erweiterte Analyse großer Aggregate von Datensätzen kann versteckte Trends, Korrelationen und Anomalien aufdecken, die Unternehmen nutzen können, um Chancen zu erkennen und Risiken zu mindern. So können Einzelhandelsunternehmen beispielsweise durch die Analyse von Transaktionsdaten Einkaufstrends während der Weihnachtszeit aufdecken.
  • Datenvisualisierung: Visualisierungstools verwandeln komplexe Datensätze in klare und umsetzbare Erkenntnisse, indem sie Diagramme, Grafiken und Dashboards verwenden, um Daten leichter zugänglich zu machen. Ein Unternehmen könnte beispielsweise interaktive Dashboards verwenden, um Trends bei Verkäufen und Umsätzen anzuzeigen, damit Führungskräfte Leistungsmetriken schnell erfassen und fundierte Entscheidungen treffen können.
  • Statistische Analyse: Mithilfe strenger statistischer Methoden können Data Scientists Rohdatensätze in quantifizierbare Erkenntnisse umwandeln, die dabei helfen, die Signifikanz zu messen und Ergebnisse zu validieren. So können Finanzanalysten beispielsweise wichtige Metriken aus Datensätzen berechnen, um die Marktleistung zu bewerten.
  • Hypothesen-Test: Data Scientists können experimentelle Datensätze verwenden, um Theorien zu validieren und potenzielle Lösungen zu bewerten, und so evidenzbasierte Unterstützung für Geschäfts- und Forschungsentscheidungen bieten. Beispielsweise könnte ein Pharmaunternehmen Datensätze klinischer Studien analysieren, um die Wirksamkeit eines neuen Arzneimittels zu bestimmen.

Business Intelligence (BI)

Unternehmen nutzen Business Intelligence (BI), um Erkenntnisse aus Datensätzen zu gewinnen und Entscheidungen in Echtzeit zu treffen.

BI-Tools können dabei helfen, verschiedene Arten von Daten zu analysieren, um Trends zu erkennen, die Leistung zu überwachen und neue Chancen zu entdecken. Zu den Anwendungen gehören:

  • Echtzeit-Überwachung: Mit Metrik-Datensätzen und Key Performance Indicators (KPIs) erhalten Unternehmen einen kontinuierlichen Überblick über die betriebliche Effizienz und Systemleistung. Logistikunternehmen nutzen beispielsweise die Echtzeitüberwachung während der Hauptsaison an Feiertagen, um Lieferzeiten zu verfolgen und Verzögerungen schnell zu beheben.
  • Analyse des Kundenverhaltens: Transaktions- und Engagement-Datensätze können dabei helfen, Erkenntnisse über Kaufmuster und Kundenpräferenzen zu gewinnen. Unternehmen können diese Erkenntnisse dann nutzen, um gezielte Marketingstrategien zu entwickeln und die Customer Experience an allen Kontaktpunkten zu verbessern.
  • Zeitreihenanalyse: Mit Hilfe von sequenziellen und historischen Datensätzen können Unternehmen Leistungstrends und -muster im Laufe der Zeit besser verfolgen. Energieversorger analysieren beispielsweise Zeitreihendaten, um Spitzenlasten bei der Stromnachfrage vorherzusagen und sich darauf vorzubereiten, und so die Zuverlässigkeit des Netzes und den Kundenservice zu verbessern.
  • Optimierung der Lieferkette: Integrierte Datensätze können Unternehmen dabei helfen, ihre Logistik und das Lieferantenmanagement zu optimieren. So können Einzelhändler beispielsweise Bestände, Versanddaten und Leistungskennzahlen von Lieferanten analysieren, um die Bestandsaufstockung zu optimieren und die Transportkosten zu senken.

Überlegungen zu Datensätzen

Der Umgang mit großen und komplexen Datensätzen für jede Initiative kann verschiedene Herausforderungen und Überlegungen mit sich bringen. Einige der wichtigsten sind:

  • Datenqualität: Die Aufrechterhaltung der Datenintegrität und -qualität in Datensätzen ist von entscheidender Bedeutung. Ist dies nicht gegeben, kann es passieren, dass unvollständige oder ungenaue Daten zu irreführenden Ergebnissen führen. Beispielsweise kann ein neuer Datensatz mit inkonsistenten Formaten in den verschiedenen Spalten Workflows stören und die Analyse verzerren. Validierungstechniken wie die Standardisierung von Formaten und die Entfernung von Duplikaten können dazu beitragen, Genauigkeit und Konsistenz bei der Skalierung von Datensätzen zu gewährleisten.
  • Interoperabilität und Datenintegration: Die Integration von Datensätzen aus verschiedenen Quellen oder Formaten kann eine Herausforderung darstellen, wie z. B. die Zusammenführung von CSV-Dateien mit JSON-Daten. Die Erstellung eines einheitlichen Schemas oder die Standardisierung von Datenformaten kann dabei helfen, diese Herausforderungen zu meistern und Datenstrukturen aufeinander abzustimmen, um die Systemkompatibilität zu gewährleisten.
Fußnoten

Alle Links befinden sich außerhalb von ibm.com.

Unternehmen entwickeln ihre D&A-Betriebsmodelle aufgrund von KI-Technologien weiter, Gartner, 29. April 2024. 

Weiterführende Lösungen
Analysetools und -lösungen

Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.

Analyselösungen entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
IBM Cognos Analytics

Wir stellen vor: Cognos Analytics 12.0, KI-gestützte Erkenntnisse für eine bessere Entscheidungsfindung.

Cognos Analytics erkunden
Machen Sie den nächsten Schritt

Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.

Analyselösungen entdecken Analyse-Services entdecken