„Strukturiert“ und „unstrukturiert“ sind Begriffe, die zur Klassifizierung von Daten auf Grundlage ihres Formats und ihrer Schemaregeln bzw. deren Fehlens verwendet werden.
Strukturierte Daten haben ein festes Schema und passen genau in Zeilen und Spalten, wie z. B. Namen und Telefonnummern. Unstrukturierte Daten haben kein festes Schema und können ein komplexeres Format haben, wie z. B. Audiodateien und Webseiten.
Nachfolgend die wichtigsten Bereiche, in denen sich strukturierte und unstrukturierte Daten unterscheiden:
Lesen Sie weiter, um einen umfassenden Überblick über die Definitionen, Anwendungsfälle und Vorteile von strukturierten und unstrukturierten Daten zu erhalten.
Branchen-Newsletter
Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.
Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.
Strukturierte Daten werden in einem klaren, vordefinierten Format organisiert. Die standardisierte Natur strukturierter Daten macht sie für Datenanalyse-Tools, Maschinenlernalgorithmen und menschliche Benutzer leicht entschlüsselbar.
Strukturierte Daten können sowohl quantitative Daten (wie Preise oder Umsatzzahlen) als auch qualitative Daten (wie Daten, Namen, Adressen und Kreditkartennummern) umfassen. Als strukturierte Daten gilt beispielsweise ein Finanzbericht mit Firmennamen, Ausgabenwerten und Berichtszeitraum, die in Zeilen und Spalten organisiert sind.
Strukturierte Daten werden in der Regel in Tabellenformaten wie Excel-Tabellen und relationalen Datenbanken (oder SQL-Datenbanken) gespeichert. Benutzer können strukturierte Daten in einem relationalen Datenbankmanagementsystem (RDBMS) mithilfe der strukturierten Abfragesprache (Structured Query Language, SQL) effizient eingeben, suchen und bearbeiten. Die 1974 von IBM entwickelte strukturierte Abfragesprache ist die Programmiersprache, die zur Verwaltung strukturierter Daten verwendet wird.
Anwendungsfälle für strukturierte Daten sind:
Die Vorteile von strukturierten Daten liegen in der einfachen Nutzung und im einfachen Zugriff:
Die Herausforderungen bei strukturierten Daten liegen in der Unflexibilität der Daten:
Unstrukturierte Daten haben kein vordefiniertes Format. Unstrukturierte Datensätze sind in der Regel groß (denken Sie an Terabytes oder Petabytes an Daten) und machen 90 % aller von Unternehmen erzeugten Daten aus. Dieses hohe Volumen ist auf das Aufkommen von Big Data zurückzuführen – den massiven, komplexen Datensätzen aus dem Internet und anderen vernetzten Technologien.1
Unstrukturierte Daten können sowohl textuelle als auch nicht-textuelle Daten und sowohl qualitative (Kommentare in sozialen Medien) als auch quantitative (in Text eingebettete Zahlen) Daten enthalten.
Beispiele für unstrukturierte Daten aus Textdatenquellen sind:
Beispiele für nichttextuelle unstrukturierte Daten sind:
Da unstrukturierte Daten kein vordefiniertes Datenmodell haben, lassen sie sich nicht einfach mit herkömmlichen Datentools und Methoden verarbeiten und analysieren.
Sie werden am besten in nicht-relationalen oder NoSQL-Datenbanken oder in Data Lakes verwaltet, die für die Verarbeitung riesiger Mengen von Rohdaten in jedem Format ausgelegt sind.
Oft werden maschinelles Lernen, fortgeschrittene Analytik und natürliche Sprachverarbeitung (NLP) eingesetzt, um wertvolle Erkenntnisse aus unstrukturierten Daten zu gewinnen.
Anwendungsfälle sind beispielsweise:
Die Vorteile von unstrukturierten Daten liegen im Datenformat, in der Geschwindigkeit und in der Speicherung:
Die Herausforderungen bei unstrukturierten Daten liegen in der Expertise und den verfügbaren Ressourcen:
Die KI kann große Datenmengen schnell verarbeiten. Dies ist eine Schlüsselfunktion für Unternehmen, die große Mengen unstrukturierter Daten in umsetzbare Erkenntnisse umwandeln wollen.
Mit maschinellem Lernen und der Verarbeitung natürlicher Sprache (NLP) können KI-Algorithmen unstrukturierte Daten durchsuchen, um Muster zu finden und in Echtzeit Vorhersagen oder Empfehlungen zu treffen. Unternehmen können diese analytischen Modelle dann in bestehende Dashboards oder Programmierschnittstellen (APIs) integrieren, um die Entscheidungsfindung zu automatisieren.
Halbstrukturierte Daten sind die „Brücke“ zwischen strukturierten und unstrukturierten Daten. Sie sind nützlich für Web Scraping und Datenintegration.
Halbstrukturierte Daten haben kein vordefiniertes Datenmodell. Sie verwenden jedoch Metadaten (zum Beispiel Tags und semantische Markierungen), um bestimmte Datenmerkmale zu identifizieren und Daten in Datensätze und voreingestellte Felder einzuteilen. Mit Metadaten lassen sich halbstrukturierte Daten letztlich besser katalogisieren, durchsuchen und analysieren als unstrukturierte Daten.
Beispiele für halbstrukturierte Daten sind JavaScript Object Notation (JSON), kommagetrennte Werte (CSV) und eXtensible Markup Language (XML)-Dateien. Ein häufiger zitiertes Beispiel ist E-Mail, bei der einige Datenabschnitte ein standardisiertes Format haben (z. B. Kopfzeilen und Betreffzeilen), aber unstrukturierte Dateninhalte innerhalb dieser Abschnitte.
Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.
Wir stellen vor: Cognos Analytics 12.0, KI-gestützte Erkenntnisse für eine bessere Entscheidungsfindung.