Daten sind der Kraftstoff, der die KI-Motoren zum Brummen bringt. Und viele Unternehmen nutzen die Fundgrube an unstrukturierten Daten, die ihnen zur Verfügung steht, nicht voll aus, weil sie nicht wissen, wie sie den Tank füllen sollen.
Aus diesem Grund ziehen Unternehmen, die über Tools zur Verarbeitung unstrukturierter Daten verfügen, die Aufmerksamkeit der Investoren auf sich. Erst letzten Monat gab es für Salesforce eine bedeutende Übernahme, um seine Agentforce-Plattform zu betreiben – nur eine von mehreren jüngsten Investitionen in Anbieter für unstrukturierte Daten.
„Generative KI hat die Bedeutung von unstrukturierten Daten, insbesondere von Dokumenten, für RAG sowie für LLM-Fine-Tuning und traditionelle Analyse für maschinelles Lernen, Business Intelligence und Data Engineering noch vergrößert“, sagt Edward Calvesbert, Vice President of Product Management bei IBM watsonx und einer der internen Datenexperten von IBM. „Die meisten täglich generierten Daten sind unstrukturiert und stellen die größte neue Chance dar.“
Wir wollten mehr darüber erfahren, welches Potenzial unstrukturierte Daten für die KI bergen. Wir haben uns daher mit Calvesbert und Dave Donahue, dem Leiter der Strategie des Data Science-Unternehmens Unstructured, das im März eine Investitionsrunde in Höhe von 40 Millionen US-Dollar mit IBM, Nvidia und Databricks abgeschlossen hat, zusammengesetzt, um ihre Meinung zur Bedeutung unstrukturierter Daten und zu den nächsten Schritten zu erfahren.
Edward Calvesbert, IBM: Unstrukturierte Daten – Sprache, Bilder usw. – sind die „neuen“ Daten, die Foundation Models als Grundlage dienen und bei deren Interpretation geholfen werden kann. Deshalb stehen sie derzeit im Fokus. Aber genau wie strukturierte Daten müssen auch unstrukturierte Daten verwaltet werden, d. h. klassifiziert, auf ihre Qualität geprüft, nach personenbezogenen Informationen und anstößigen Inhalten gefiltert und dedupliziert werden. Erfolgreiche Strategien wenden daher viele der traditionellen Datenverwaltungsfunktionen zur Verwaltung unstrukturierter Daten auf unstrukturierte Daten an.
Dave Donahue, Unstructured: Unstrukturierte Daten sind nicht von Natur aus wertvoller als strukturierte Daten, aber im Allgemeinen produzieren große Unternehmen viermal so viele unstrukturierte Daten wie strukturierte Daten. Die Frage ist also: Möchten Sie bei der Implementierung von KI mehr von Ihren Daten verwenden, insbesondere menschlich erzeugte unstrukturierte Daten? Die Antwort sollte ein klares „Ja“ sein.
Calvesbert: „Gut genug“ ist ein sich ständig veränderndes Ziel und hängt vom jeweiligen Anwendungsfall ab. Eine Wissensdatenbank für RAG zur Verbesserung der semantischen Suche, der Fragen und Antworten sowie der Zusammenfassung für Kundensupport erfordert, dass die Dokumentenwissensdatenbank vollständig, genau und aktuell ist. Für das Fine-Tuning eines Modells werden Daten benötigt, die von Menschen kuratiert wurden und Beispiele für Prompt-/Antwortpaare enthalten. Dokumente, die in Tabellen oder Graphdatenbanken verarbeitet werden, um analytische Anwendungsfälle zu ermöglichen, erfordern eine effektive Extraktion von Entitäten oder Werten. In fast allen Fällen müssen die Daten im Kontext des Lebenszyklus des Anwendungsfalls klassifiziert, gefiltert und verwaltet werden.
Donahue: Auf Unternehmensebene sind „gute“ Daten sauber, strukturiert und aufbereitet. Diese Vorverarbeitungspipeline sollte den Informationsverlust zwischen dem Originalinhalt und der LLM-fertigen Version minimieren. Mit Unstructured können Unternehmen ihre unstrukturierten Daten in ein standardisiertes Format umwandeln, unabhängig vom Dateityp, und sie mit zusätzlichen Metadaten anreichern. Dies ermöglicht es Unternehmen, die drei Hauptprobleme zu bewältigen, mit denen sie bei der Verwendung von LLMs zu kämpfen haben: Sie sind in der Zeit eingefroren, sie neigen dazu, Dinge zu erfinden, und sie wissen nichts über Ihr spezifisches Unternehmen.
Calvesbert: Ein großer Telekommunikationskunde, mit dem wir zusammenarbeiteten, begann mit einer internen Wissensdatenbank für Kundensupport-Agenten, was die Zeit für eine Antwort an die Kunden verkürzte und die Genauigkeit dieser Antwort verbesserte. Es verbreitete sich organisch, wie ein Lauffeuer, im Call-Center, woraufhin das Unternehmen einen Schritt zurücktreten und an der Governance und der Leistung arbeiten musste. Intern haben wir einen Anwendungsfall für Marketingautomatisierung implementiert, bei dem die Markenrichtlinien und Beispiele von IBM verwendet wurden, um neue Marketinginhalte zu generieren und diese hinsichtlich Qualität und Tonalität zu kuratieren.
Donahue: Wir arbeiten mit einem globalen Unternehmen für Konsumgüter zusammen, um ihnen bei der Entwicklung neuer Produktideen zu helfen. Sie fragen sich vielleicht: „Was hat das mit unstrukturierten Daten zu tun?“ Historisch gesehen hätten Marketing- und Produktteams Monate gebraucht, um Berge von Verkaufsdaten, Produktfeedback-Informationen und demografischen Informationen zu analysieren, um neue Ideen oder Konzepte zu entwickeln, die sie mit den Endnutzern in diesen spezifischen Märkten testen können. Was wäre, wenn wir diesen Prozess von Monaten auf Stunden verkürzen könnten? Was wäre, wenn wir neue Produktideen generieren könnten, die auf Daten basieren, die die Teams schnell testen könnten?
Das ist die Power, Ihre unstrukturierten Daten zu nutzen, um Geschäftswert zu schaffen. Jetzt nutzt dieses Konsumgüterunternehmen seine Daten für mehrere seiner Marken, um neue Produktideen zu entwickeln und zu testen und auf den Markt zu bringen.
Calvesbert: Jedes Unternehmen hat Dokumente – denken Sie daran, was neuen Mitarbeitern zur Einarbeitung zur Verfügung gestellt wird – und das reicht aus, um mit RAG und semantischer Suche zu beginnen.
Laut Donahue sind 80 % der Daten eines Unternehmens unstrukturiert, egal ob es sich um E-Mails, Memos, interne Messaging-Plattformen (wie Slack oder Microsoft Teams) oder Geschäftspräsentationen handelt. Die Frage ist: Was wollen Sie mit diesen Daten machen? Effizienzen für Entwickler schaffen, die derzeit ähnliche Datenbereinigungsarbeiten durchführen? Neue Produktideen auf der Grundlage von Verkaufs- und Marketingdaten entwickeln? Es gibt unzählige Möglichkeiten und Chancen für KI. Identifizieren Sie ein Ziel. Identifizieren Sie die benötigten Daten. Fangen Sie klein an.
Calvesbert: Ich denke, Lakehouse-Architekturen und offene Tabellenformate, insbesondere Iceberg, sind zum Mainstream und zur dominierenden Datenverwaltung für neue Daten/Workloads geworden. Vektorfunktionen sind in vielen operativen/analytischen Datenbanken nativ integriert, sodass KI-Workloads in bestehende Anwendungen eingebunden werden können. Wir sehen zunehmend, dass die Branche erkennt, dass RAG allein für bestimmte Anwendungsfälle nicht ausreicht, die zusätzliche Kontextualisierung auf Grundlage nicht offensichtlicher Beziehungen (GraphRAG) und verbesserter Präzision durch transaktionale Datensätze (SQL-RAG) erfordern. Die Kunden erkennen auch, dass die Implementierung eines Benutzer-Autorisierungsmodells, das die mit unternehmensweiten Content-Management-Systemen bestehenden Zugriffskontrollen berücksichtigt, eine entscheidende Herausforderung für die Skalierung von generativer KI im gesamten Unternehmen darstellt.
Donahue: Wir sehen, dass die Teams für Data Science und maschinelles Lernen enger mit den Teams für Datentechnik zusammenarbeiten. Im Zuge des Aufstiegs von Data-Warehousing- und Business-Intelligence-Anwendungen im letzten Jahrzehnt sind Data-Engineering-Teams entstanden, die historisch gesehen in der Welt von SQL, strukturierten Datenbanken und Business-Analytics-Prozessen gearbeitet haben, die für Datenanalysten und C-Suite-Nutzer konzipiert wurden. Da Unternehmen verstärkt auf LLMs setzen, ist der Bedarf an großen Mengen vorverarbeiteter Daten explosionsartig gestiegen. Diese Personen arbeiten jedoch in der Regel in der Welt von Python, Vektordatenbanken und schnellen und kurzlebigen Benutzeroberflächen. Wir gehen davon aus, dass Data-Engineering-Teams im Laufe der Zeit zunehmend die Verantwortung für die Bereitstellung von unternehmensweit einsetzbaren Daten für die generative KI-Teams übernehmen werden.
Calvesbert: Ich denke, die Kunden wollen ihre Datenbestände und die damit verbundenen Kosten und Risiken vereinfachen. Aus diesem Grund werden Multi-Modell-Datenbanken und Multi-Engine-Lakehouse-Architekturen auch weiterhin erfolgreich mit isolierten Datenbanken um Workloads konkurrieren, da Kunden bestrebt sind, ihre Daten auf einer reduzierten Anzahl von Plattformen zu konsolidieren. Text-zu-SQL-Modelle werden immer besser, was die Hürde für die Arbeit mit Daten für ein breites Anwendungsspektrum jenseits von Business Intelligence drastisch senken wird.
In ähnlicher Weise wird die zunehmende Verbreitung von Agenten Daten in ein explosionsartig wachsendes Volumen und eine Vielzahl automatisierter Workflows integrieren. Einige dieser agentischen Workflows werden viele Aktivitäten von Wissensarbeitern revolutionieren und spannende neue Möglichkeiten schaffen. Stellen Sie sich vor, dass Sie ein internes oder externes Gespräch mit einem Kunden bearbeiten und es sofort den Produkten in einem Katalog oder dem Opportunity-Datensatz in einem CRM-System zuordnen können, einschließlich einer automatischen Bewertung des Fortschrittsstatus und der Abschlusswahrscheinlichkeit.
Donahue: Im Gegensatz zum modernen Daten-Stack, in dem Snowflake, BigQuery und Databricks die „Datengravitation“ im Bereich des Data Warehousing etabliert haben, ist uns das Gleiche für unstrukturierte Daten noch nicht gelungen. Und da sie viermal so umfangreich sind wie strukturierte Daten und jedes Jahr exponentiell wachsen, könnte die Bedeutung der nächsten Generation von Speicherlösungen für LLMs nicht größer sein. Es ist noch unklar, welche Kombination aus Vektor, Graph, Objekt oder anderen Speicherarten dominierend wird und welche Anbieter in jeder Kategorie sich durchsetzen werden, aber die Gewinner werden in den nächsten 18 bis 24 Monaten wahrscheinlich klar sein.