Die 3 zentralen Herausforderungen unstrukturierter Daten überwinden

1. Mai 2025

Autoren

Dinesh Nirmal

SVP

IBM Software

Alice Gomstyn

IBM Content Contributor

Vertrauenswürdige Daten sind für Unternehmen von entscheidender Bedeutung, damit ihre Initiativen zur generativen KI erfolgreich sind. Unternehmen haben Schwierigkeiten, eine möglicherweise wertvolle Quelle für Erkenntnisse zu nutzen: unstrukturierte Daten. Etwa 90 % der von Unternehmen produzierten Daten sind unstrukturiert. Wertvolle Informationen werden in E-Mails, PDF-Dokumenten, Videodateien und anderen Formaten gespeichert.1

Die gute Nachricht ist, dass sich entwickelnde Lösungen und Ansätze Unternehmen in die Lage versetzen können, unstrukturierte Daten zu organisieren, auf sie zuzugreifen und Informationen daraus abzuleiten. Think-Mitarbeiterin Alice Gomstyn hat sich mit Dinesh Nirmal, dem Senior Vice President von IBM Software, zusammengesetzt, um darüber zu sprechen, wie Unternehmen das Potenzial von Datenbeständen erschließen können, die früher als unerreichbar galten.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Gomstyn: Vor welchen Herausforderungen stehen Unternehmen, wenn es um die Nutzung ihrer unstrukturierten Daten geht?

Nirmal: Bei unstrukturierten Daten gibt es drei zentrale Herausforderungen. Skalierbarkeit ist eine davon. Wie lassen sie sich skalieren und wie verwalten Sie sie? Zweitens: Wie stellen Sie sicher, dass eine generative KI-Leistung und -Genauigkeit mit ihr verbunden ist? Und der dritte Punkt betrifft die Korrelation von unstrukturierten und strukturierten Daten, um einen Mehrwert aus diesen Daten zu ziehen.

Gomstyn: Können Sie die Herausforderung der Skalierbarkeit näher erläutern und was nötig ist, um diese Herausforderung zu meistern?

Nirmal: Unstrukturierte Daten sind insofern komplexer, als sie Hunderte von Feldern enthalten können, von denen einige Massenfelder oder sichere Felder sein können. Wenn Sie diese Dokumente aufnehmen, ist es wichtig, dass es sich um eine kontrollierte Aufnahme handelt und die Daten in einem kontrollierten Speicher wie einem Data Lakehouse gespeichert werden.

Sie brauchen auch Governance in Ihrer Datenpipeline. Wie bringen Sie Observability und Überwachung ein? Wenn es eine Abweichung in der Pipeline oder eine Änderung in der Pipeline gibt, wie können Sie diese schnell erkennen und beheben? Diese Pipelines können komplex und lang sein, und Sie möchten sicherstellen, dass Sie durchgehend die richtigen Ergebnisse, Ausführungszeiten, Leistungen und Genauigkeiten erhalten. Sie benötigen Tools, um sicherzustellen, dass Sie Pipelines erstellen, steuern und überwachen können.

Für Unternehmen geht es auch um Sicherheit. Um sicherzustellen, dass die Daten nicht verloren gehen, wird Datensicherheit zu einem kritischen Faktor. Wir verfügen über Datensicherheitstools, die sicherstellen, dass die Daten verschlüsselt sind. Wenn Sie also skalieren, müssen Sie sicherstellen, dass die Governance und die Sicherheit, die Sie auf der strukturierten Seite haben, auch für die unstrukturierte Seite gelten.

Gomstyn: Was ist mit der zweiten zentralen Herausforderung: die Leistung generativer KI-Modelle zu erreichen?

Nirmal: Hier liegt eine große Chance, denn generative KI kann nur dann erfolgreich sein, wenn wir diesen Modellen kontrollierte, vertrauenswürdige Daten für das Training und Prompting zur Verfügung stellen können.

Governance-Tools ermöglichen auch den Zugriff auf Daten. Mithilfe von Governance-Tools wie Datenkatalogen kann ich meinen Data Scientists und Prompt Engineers unstrukturierte Daten zur Verfügung stellen, damit sie ihre Modelle durch Prompt-Tuning mit Hilfe dieser unstrukturierten Daten anpassen können.

Governance und Innovation gehen Hand in Hand. Wenn Sie wirklich innovativ sind und einen Self-Service für Daten anbieten wollen, dann muss die Governance vorhanden sein, damit Sie den Self-Service durchführen können. Aus Sicht der Datenprodukte ist die Bereitstellung dieses Self-Service für die Daten das erste Element, das Sie priorisieren müssen.

Mixture of Experts | 25. April, Folge 52

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Gomstyn: Wie meistern Sie die dritte Herausforderung der Korrelation strukturierter und unstrukturierter Daten?

Nirmal: Die aktuelle Geschäftswelt ist so, dass, wenn Sie unstrukturierte Daten in Form eines Dokuments haben, Sie das Dokument in mehrere Teile teilen oder unterteilen und es als Einbetten in einer Vektordatenbank speichern müssen.

Die Herausforderung besteht darin, dass Sie an Genauigkeit verlieren, weil Sie nicht wissen, wo Sie die Daten aufteilen. Nehmen wir an, Sie haben mitten in einer Tabelle ein Stück abgeschnitten oder entfernt. Wenn Sie den Tisch zurückbringen, bringen Sie die Hälfte des Tisches mit, und Sie haben die Genauigkeit des Tisches verloren.

Was können wir tun? Wir speichern nicht nur die Daten in einer Vektor-DB, sondern auch die transaktionalen Aspekte dieses Dokuments in einer transaktionalen Datenbank. Und wenn Sie eine Abfrage in natürlicher Sprache haben, vergleichen Sie beide Seiten, um zu sagen: Wie bringe ich die Daten zusammen, um eine bessere Genauigkeit und Leistung dafür zu erhalten? Hier kommen RAG SQL oder Graph RAG ins Spiel – Sie können sie verwenden, um ein höheres Maß an Genauigkeit zu erreichen. Genau darum geht es, wenn Sie sicherstellen wollen, dass Sie die Daten zwischen der Transaktionsdatenbank und der Vektor-DB abgleichen.

Gomstyn: Was sind die wichtigsten Fähigkeiten und Kompetenzen, die IT-Führungskräfte entwickeln müssen, um unstrukturierte Daten effektiv zu verwalten?

Nirmal: Data Engineering ist das wichtigste Element im Bereich der unstrukturierten Daten. Auf der strukturierten Seite ist Data Engineering eine gut organisierte Disziplin, aber auf der unstrukturierten Seite hat sie sich nicht wirklich durchgesetzt, weil es eine enorme Menge an Daten gibt.

Aber jetzt kommen Governance, Sicherheit und all diese Dinge auf die unstrukturierte Seite der Dinge. Wir brauchen Data Engineers, die die Daten buchstäblich entwickeln, um sie als Datenpipelines verfügbar zu machen. Wir brauchen sie, um Datenprodukte für unstrukturierte Daten zu erstellen und jedem Data Scientist und jedem Engineer Self-Service zur Verfügung zu stellen. Die Fähigkeiten, die Data Engineers auf der Seite der strukturierten Daten einsetzen, können auch auf der unstrukturierten Seite verwendet werden. Sie werden nur in einem viel, viel größeren Maßstab angewendet.

Gomstyn: Wie messen Sie den Erfolg von Pilotprojekten mit unstrukturierten Daten?

Nirmal: Die wirkliche Rendite ergibt sich, wenn der Endnutzer im Unternehmen einen Mehrwert erhält. Ich rufe zum Beispiel meine Telefongesellschaft an, und ein Kundenbetreuer ist in der Leitung. Wenn ich eine Frage stelle, müssen sie die Antwort nachschlagen, bevor sie sie mir geben.

Mit generativer KI kann ich das jetzt online tun. Ich kann einem Assistenten oder einem Chatbot, der auf ein unstrukturiertes Datenformat wie ein Rechnungsdokument zugreifen kann, einfach eine einfache Frage stellen. Innerhalb von 15 Sekunden erhalte ich eine Antwort mit einer Zusammenfassung meiner Rechnung oder Informationen über mein Konto. Sehen Sie, wie viel Zeit ich gespart habe. Ich musste nicht 15 Minuten auf einen Anruf warten, bis jemand den Anruf entgegennahm. Ich habe sie einfach übrig. Generative KI hat das für mich als Endbenutzer ermöglicht.

Alles dreht sich um die Produktivität, die Zeitersparnis und die Optimierung, die generative KI mit sich bringt, insbesondere bei unstrukturierten Daten.

Dieses Interview wurde aus Gründen der Klarheit und Länge bearbeitet und gekürzt.

Weiterführende Lösungen
Datenbanksoftware und -lösungen

Mit IBM Datenbanklösungen können Sie verschiedene Workload-Anforderungen in der Hybrid Cloud erfüllen.

Datenbank-Lösungen erkunden
Cloudnativ-Datenbank mit IBM Db2

Erfahren Sie mehr über IBM Db2: eine relationale Datenbank, die hohe Leistung, Skalierbarkeit und Zuverlässigkeit für das Speichern und Verwaltung strukturierter Daten bietet. Die Lösung ist als SaaS in der IBM Cloud oder als Self-Hosting-Option verfügbar.

Db2 entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Mit IBM Datenbanklösungen können Sie verschiedene Workload-Anforderungen in der Hybrid Cloud erfüllen.

Datenbank-Lösungen erkunden IBM Db2 entdecken