Unstrukturierte Daten sind Informationen, die kein vordefiniertes Format haben. Unstrukturierte Datensätze sind enorm groß (oft Terabytes oder Petabytes an Daten) und enthalten 90 % aller von Unternehmen generierten Daten.1
Die Verbreitung unstrukturierter Daten wird durch ihre vielfältigen und umfangreichen Datenquellen vorangetrieben – darunter Textdokumente, soziale Medien, Bild- und Audiodateien, Instant Messages und Smart Devices. Fast alle heute generierten neuen Daten sind unstrukturiert: Jede versendete Nachricht, jedes hochgeladene Foto und jeder ausgelöste Sensor trägt zum wachsenden Datenvolumen bei.
Im Gegensatz zu strukturierten Daten (die über ein vordefiniertes Datenmodell verfügen) lassen sich unstrukturierte Daten nicht ohne Weiteres in die festen Schemata herkömmlicher Datenbanken einfügen. Stattdessen werden unstrukturierte Daten häufig in Dateisystemen, nicht-relationalen (oder NoSQL-Datenbanken) oder in Data Lakes gespeichert.
Die Komplexität unstrukturierter Daten und ihre uneinheitliche Datenstruktur erfordern zudem ausgefeiltere Methoden der Datenanalyse. Technologien wie maschinelles Lernen (ML) und Verarbeitung natürlicher Sprache (NLP) werden häufig eingesetzt, um Erkenntnisse aus unstrukturierten Datensätzen zu gewinnen.
In der jüngeren Vergangenheit galten unstrukturierte Daten als Dark Data. Die Herausforderungen unstrukturierter Daten (d. h. das Volumen und die mangelnde Einheitlichkeit) machten sie für viele Anwendungsfälle unbrauchbar.
Heutzutage verfügen Unternehmen mit einer Fülle von unstrukturierten Daten jedoch über ein wichtiges strategisches Asset. In Kombination bieten strukturierte und unstrukturierte Daten einen vollständigen Überblick über die Daten im gesamten Unternehmen. Und was zum aktuellen Zeitpunkt besonders relevant ist: dass unstrukturierte Daten Unternehmen dabei unterstützen können, das volle Potenzial der generativen KI (GenAI) freizuschalten.
Die meisten unstrukturierten Daten sind Textdaten: E-Mail-Nachrichten, Word-Dokumente, PDFs, Blogeinträge und Social-Media-Beiträge. Zu den unstrukturierten Textdaten gehören auch Anrufprotokolle und Nachrichtentextdateien, z. B. von Microsoft Teams oder Slack.
Unstrukturierte Daten können jedoch auch nicht-textuell sein. Häufige Beispiele für nicht-textuelle unstrukturierte Daten sind Bilddateien (wie JPEG, GIF und PNG), Multimediadateien, Videodateien, mobile Aktivitäten und Sensordaten von Geräten aus dem Internet der Dinge (IoT).
Daten werden oft als strukturiert, unstrukturiert oder halbstrukturiert kategorisiert, basierend auf ihrem Format und ihren Schemaregeln. Wie der Name schon sagt, haben halbstrukturierte Daten Attribute sowohl von strukturierten als auch von unstrukturierten Daten. Hier finden Sie einen kurzen Überblick über die einzelnen Datentypen:
Strukturierte Daten
Unstrukturierte Daten
Halbstrukturierte Daten
Unstrukturierte Daten stellen den Löwenanteil aller in einem Unternehmen generierten Daten dar. Sie sind vielfältig, flexibel und liefern Erkenntnisse, von denen einige in strukturierten Datensätzen möglicherweise nicht vorhanden sind. Strukturierte Daten sind zwar nach wie vor enorm wertvoll, doch die meisten Unternehmen verfügen heute über riesige Bestände an unstrukturierten Daten, die weitgehend ungenutzt bleiben.
Unstrukturierte Daten sind auch für die moderne KI von entscheidender Bedeutung. Unstrukturierte Daten (in Form von öffentlichen und internen, proprietären Daten) können zum Trainieren von KI-Modellen und zur Verbesserung der Modellleistung verwendet werden.
Mit den richtigen Tools können unstrukturierte Daten eine Vielzahl von Anwendungsfall bieten, z. B.:
Generative KI basiert auf Deep-Learning-Modellen, die Muster und Beziehungen in riesigen Datenmengen identifizieren und kodieren. Unstrukturierte Daten, die in der Regel aus dem Internet stammen, eignen sich gut, um die extrem hohen Mengen an umfangreichen, unbeschrifteten Daten bereitzustellen, die für das Training erforderlich sind.
RAG ist eine Architektur zur Optimierung der Leistung eines generativen KI-Modells, indem es Zugriff auf zusätzliche externe Wissensdatenbanken erhält, beispielsweise auf die unstrukturierten Daten eines Unternehmens. Dieser Prozess hilft dabei, Modelle an branchenspezifische Anwendungsfälle anzupassen, damit sie bessere Antworten geben können.
Die Sentimentanalyse analysiert große Textmengen, um festzustellen, ob sie eine positive, negative oder neutrale Stimmung ausdrücken. Als Instrument zum Verständnis des Kundenverhaltens nutzt die Sentimentanalyse die umfangreichen unstrukturierten Textdaten, die von Kunden über digitale Kanäle generiert werden.
Unternehmen nutzen vorausschauende Analysen, um anhand historischer Daten zukünftige Ergebnisse zu prognostizieren und Risiken und Chancen zu identifizieren. Beispielsweise könnte eine Gesundheitsorganisation Gesundheitsdaten (unstrukturierte Textdaten) auswerten, um zu erfahren, wie eine bestimmte Krankheit diagnostiziert und behandelt wurde, und auf Grundlage der Ergebnisse ein Vorhersagemodell erstellen.
Ein Chatbot auf Unternehmensniveau kann die unstrukturierten Textdaten aus seinen Gesprächen mit Kunden oder Mitarbeitern analysieren und daraus Erkenntnisse gewinnen. Normalerweise wird die Analyse mithilfe von Techniken wie der Verarbeitung natürlicher Sprache (NLP) und maschinellem Lernen durchgeführt. Erkenntnisse aus den analysierten Textdaten können Aufschluss über das Kundenverhalten geben und die Leistung des Chatbots verbessern.
Anwendungsfall im Zusammenhang mit künstlicher Intelligenz für unstrukturierte Daten rückt zunehmend in den Mittelpunkt von Unternehmen, die KI-Innovation einsetzen. Betrachten Sie Gen AI, die Technologie hinter ChatGPT und anderen viralen KI-Apps. Ausgangspunkt ist ein Foundation Model, in der Regel ein Large Language Model (LLM).
Die Erstellung eines Foundation Models beinhaltet das Training eines Deep Learning-Algorithmus anhand riesiger Mengen unstrukturierter Daten, in der Regel aus dem Internet. Diese unstrukturierten Daten sind reichhaltig und vielfältig und vermitteln KI-Modellen Kontext und Nuancen.
Unstrukturierte Trainingsdaten können jedoch recht allgemein gehalten sein, anstatt spezifisch für einen Bereich oder ein Unternehmen, und möglicherweise veraltet sein. Das endgültige Modell könnte Schwierigkeiten haben, auf Prompts zu reagieren, die Domain-spezifische Antworten erfordern.
Um solche Herausforderungen zu bewältigen, können Unternehmen ein vorab trainiertes Modell auf verschiedene Weise an einen bestimmten Anwendungsfall oder eine bestimmte Aufgabe anpassen. Eine Methode, die Feinabstimmung, passt ein Foundation Model an, indem es anhand eines kleineren, aufgabenspezifischen Datensatzes trainiert wird. Dies erfordert hochwertige, strukturierte Daten – oft proprietäre Daten oder spezialisiertes, bereichsspezifisches Wissen.
Eine andere Methode, Retrieval Augmented Generation (RAG), kann jedoch auch unstrukturierte Daten einbeziehen. Während LLMs Informationen in der Regel aus ihren Trainingsdaten beziehen, fügt RAG dem KI-Workflow eine Komponente zur Informationsgewinnung hinzu, die relevante Daten sammelt und an das Modell weiterleitet, um die Antwortqualität zu verbessern. Diese Daten können interne, unstrukturierte Datensätze umfassen.
Im Vergleich zur Feinabstimmung gewährleistet RAG zeitnähere und präzisere Ergebnisse, da es während der Erstellung der Antwort ständig die neuesten Informationen abruft. Dadurch können KI-Initiativen von zeitlich starren und generischen zu maßgeschneiderten, relevanten und wirkungsvollen Initiativen weiterentwickelt werden.
Wie strukturierte Daten erfordern auch unstrukturierte Daten eine angemessene Data Governance und Datenverwaltung, bevor sie für KI verwendet werden können. Sie müssen klassifiziert, hinsichtlich ihrer Datenqualität bewertet, nach personenbezogene Daten gefiltert und dedupliziert werden.
Mit den richtigen Tools und sogar mit Hilfe von KI können Unternehmen ihre unstrukturierten Daten umwandeln und nutzbar machen. Zu wissen, wie man aus dem Datenchaos effektiv Ordnung schafft, ist heute ein Wettbewerbsvorteil – und ein Katalysator für generative KI in Unternehmen.
Unstrukturierte Daten werden in der Regel im nativen Format gespeichert, was die Speicheroptionen erweitert. Einige gängige Datenspeicher-Umgebungen für unstrukturierte Daten sind:
Objektspeicher (oder objektbasierter Speicher) speichert Daten als Objekte, also einfache, in sich geschlossene Repositorys, die die Daten, Metadaten und eine eindeutige Identifikationsnummer enthalten.Diese Architektur eignet sich ideal für die Speicherung, Archivierung, Sicherung und Verwaltung großer Mengen statischer, unstrukturierter Daten. Cloudbasierter Objektspeicher wird häufig verwendet, um die Speicherkosten und die Datennutzung von KI-Workloads zu optimieren.
Data Lakes sind Datenspeicherumgebungen, die für die Verarbeitung großer Mengen von Rohdaten in beliebigen Datenformaten konzipiert sind – insbesondere für die Flut von Big Data, die durch mit dem Internet verbundene Apps und Services entsteht. Sie nutzen Cloud Computing, um die Datenspeicherung skalierbarer und kostengünstiger zu gestalten. In der Regel verwenden Data Lakes cloudbasierte Objektspeicher wie Azure Blob Storage, Google Cloud Storage oder IBM® Cloud Object Storage.
Data Lakehouses gelten als die nächste Evolutionsstufe der Datenverwaltung, da sie die besten Eigenschaften von Data Lakes und Data Warehouses kombinieren. Sie bieten schnelle, kostengünstige Speichermöglichkeiten mit der Flexibilität, Datenanalysen und KI-/ML-Workloads zu unterstützen. Data Lakehouses unterstützen auch die Datenaufnahme in Echtzeit, die für KI-Anwendungen zur Unterstützung der Entscheidungsfindung in Echtzeit von entscheidender Bedeutung ist.
Structured Query Language (SQL) ist eine standardisierte, domainspezifische Programmiersprache, die zum Speichern, Bearbeiten und Abrufen von Daten verwendet wird. Eine NoSQL- oder Non-SQL-Datenbank ist dafür ausgelegt, Daten außerhalb traditioneller SQL-Datenbankstrukturen ohne Schema zu speichern. NoSQL-Datenbanken bieten die Geschwindigkeit und Skalierbarkeit, die für die Verwaltung großer, unstrukturierter Datensätze erforderlich sind. Beispiele hierfür sind MongoDB, Redis und HBase.
Sobald unstrukturierte Daten gespeichert sind, müssen sie oft verarbeitet werden, um effektiv für nachgelagerte Anwendungsfälle genutzt zu werden, wie zum Beispiel für Business Intelligence oder unstrukturierte Datenanalysen.
Einige Unternehmen verwenden Open-Source-Frameworks, um große, unstrukturierte Datensätze zu verarbeiten. Beispielsweise wird Apache Hadoop häufig in Data-Lake-Architekturen integriert, um die Stapelverarbeitung unstrukturierter und halbstrukturierter Daten (wie Audio-Streams und Social-Media-Sentiments) zu ermöglichen. Apache Spark ist ein weiteres Open-Source-Framework für die Verarbeitung großer Datenmengen. Spark verwendet jedoch In-Memory-Verarbeitung und ist blitzschnell, sodass es sich besser für maschinelles Lernen und KI-Anwendungen eignet.
Es gibt auch moderne Datenintegrationsplattformen, die speziell für die Verarbeitung strukturierter und unstrukturierter Daten entwickelt wurden. Diese vielseitigen Integrationstools nehmen Rohdaten automatisch auf, organisieren sie und verschieben die verarbeiteten Daten anschließend in die Zieldatenbanken. Diese Funktionen reduzieren die zeitintensive manuelle Arbeit von Data-Science-Teams, die mit der Aufbereitung von unstrukturierten Daten für die KI betraut sind, erheblich.
Es gibt verschiedene Tools und Technologien, die Unternehmen nutzen können, um Erkenntnisse aus ihren unstrukturierten Daten zu gewinnen.
KI-Analysetools basieren auf der Fähigkeit künstlicher Intelligenz, große Datenmengen schnell zu verarbeiten. Dies ist entscheidend für Unternehmen, die wertvolle Erkenntnisse aus riesigen unstrukturierten Datensätzen gewinnen möchten. Mit maschinellem Lernen und der Verarbeitung natürlicher Sprache können KI-Algorithmen unstrukturierte Daten durchsuchen, um Muster zu finden, Echtzeitprognosen zu erstellen oder Empfehlungen auszusprechen. Diese analytischen Modelle können auch in bestehende Dashboards oder APIs integriert werden, um die Entscheidungsfindung zu automatisieren.
Text Mining nutzt Naïve Bayes, Support Vector Machines (SVM) und andere Deep-Learning-Algorithmen, um Unternehmen dabei zu unterstützen, versteckte Zusammenhänge in unstrukturierten Daten zu erkunden und aufzudecken. Für das Text Mining werden eine Vielzahl von Techniken eingesetzt, wie Informationsabruf, Informationsextraktion, Data Mining und Verarbeitung natürlicher Sprache.
NLP nutzt maschinelles Lernen, um Computern dabei zu helfen, die menschliche Sprache zu verstehen und mithilfe dieser zu kommunizieren. Im Zusammenhang mit der Analyse unstrukturierter Daten ermöglicht NLP die Gewinnung von Erkenntnissen aus unstrukturierten Textdaten, wie beispielsweise Kundenbewertungen und Social-Media-Beiträgen. Es kann zur Verbesserung des Text Mining eingesetzt werden, indem es fortschrittliche Sprachverarbeitungs- und Sprachverständnisfunktionen wie Sentimentanalyse bietet.
Mit IBM Datenbanklösungen können Sie verschiedene Workload-Anforderungen in der Hybrid Cloud erfüllen.
Erfahren Sie mehr über IBM Db2: eine relationale Datenbank, die hohe Leistung, Skalierbarkeit und Zuverlässigkeit für das Speichern und Verwaltung strukturierter Daten bietet. Die Lösung ist als SaaS in der IBM Cloud oder als Self-Hosting-Option verfügbar.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.
1 „Untapped value: What every executive needs to know about unstructured data“, IDC, August 2023.