KI und die Zukunft der unstrukturierten Daten

Ingenieur in einem Serverraum

Daten sind der Kraftstoff, der die KI-Motoren zum Brummen bringt. Und viele Unternehmen nutzen die Fundgrube an unstrukturierten Daten, die ihnen zur Verfügung steht, nicht voll aus, weil sie nicht wissen, wie sie den Tank füllen sollen.

Aus diesem Grund ziehen Unternehmen, die über Tools zur Verarbeitung unstrukturierter Daten verfügen, die Aufmerksamkeit der Investoren auf sich. Erst letzten Monat gab es für Salesforce eine bedeutende Übernahme, um seine Agentforce-Plattform zu betreiben – nur eine von mehreren jüngsten Investitionen in Anbieter für unstrukturierte Daten.

Generative KI hat die Bedeutung von unstrukturierten Daten, insbesondere von Dokumenten, für RAG sowie für LLM-Fine-Tuning und traditionelle Analyse für maschinelles Lernen, Business Intelligence und Data Engineering noch vergrößert“, sagt Edward Calvesbert, Vice President of Product Management bei IBM watsonx und einer der internen Datenexperten von IBM. „Die meisten täglich generierten Daten sind unstrukturiert und stellen die größte neue Chance dar.“

Wir wollten mehr darüber erfahren, welches Potenzial unstrukturierte Daten für die KI bergen. Wir haben uns daher mit Calvesbert und Dave Donahue, dem Leiter der Strategie des Data Science-Unternehmens Unstructured, das im März eine Investitionsrunde in Höhe von 40 Millionen US-Dollar mit IBM, Nvidia und Databricks abgeschlossen hat, zusammengesetzt, um ihre Meinung zur Bedeutung unstrukturierter Daten und zu den nächsten Schritten zu erfahren.

F: Sind die unstrukturierten Daten eines Unternehmens bei der Implementierung von KI wertvoller als strukturierte Daten?

Edward Calvesbert, IBM: Unstrukturierte Daten – Sprache, Bilder usw. – sind die „neuen“ Daten, die Foundation Models als Grundlage dienen und bei deren Interpretation geholfen werden kann. Deshalb stehen sie derzeit im Fokus. Aber genau wie strukturierte Daten müssen auch unstrukturierte Daten verwaltet werden, d. h. klassifiziert, auf ihre Qualität geprüft, nach personenbezogenen Informationen und anstößigen Inhalten gefiltert und dedupliziert werden. Erfolgreiche Strategien wenden daher viele der traditionellen Datenverwaltungsfunktionen zur Verwaltung unstrukturierter Daten auf unstrukturierte Daten an.

Dave Donahue, Unstructured: Unstrukturierte Daten sind nicht von Natur aus wertvoller als strukturierte Daten, aber im Allgemeinen produzieren große Unternehmen viermal so viele unstrukturierte Daten wie strukturierte Daten. Die Frage ist also: Möchten Sie bei der Implementierung von KI mehr von Ihren Daten verwenden, insbesondere menschlich erzeugte unstrukturierte Daten? Die Antwort sollte ein klares „Ja“ sein.

F: Damit KI erfolgreich sein kann, benötigt sie offensichtlich „gute“ Daten. Aber wie sieht das in der Praxis aus?

Calvesbert: „Gut genug“ ist ein sich ständig veränderndes Ziel und hängt vom jeweiligen Anwendungsfall ab. Eine Wissensdatenbank für RAG zur Verbesserung der semantischen Suche, der Fragen und Antworten sowie der Zusammenfassung für Kundensupport erfordert, dass die Dokumentenwissensdatenbank vollständig, genau und aktuell ist. Für das Fine-Tuning eines Modells werden Daten benötigt, die von Menschen kuratiert wurden und Beispiele für Prompt-/Antwortpaare enthalten. Dokumente, die in Tabellen oder Graphdatenbanken verarbeitet werden, um analytische Anwendungsfälle zu ermöglichen, erfordern eine effektive Extraktion von Entitäten oder Werten. In fast allen Fällen müssen die Daten im Kontext des Lebenszyklus des Anwendungsfalls klassifiziert, gefiltert und verwaltet werden.

Donahue: Auf Unternehmensebene sind „gute“ Daten sauber, strukturiert und aufbereitet. Diese Vorverarbeitungspipeline sollte den Informationsverlust zwischen dem Originalinhalt und der LLM-fertigen Version minimieren. Mit Unstructured können Unternehmen ihre unstrukturierten Daten in ein standardisiertes Format umwandeln, unabhängig vom Dateityp, und sie mit zusätzlichen Metadaten anreichern. Dies ermöglicht es Unternehmen, die drei Hauptprobleme zu bewältigen, mit denen sie bei der Verwendung von LLMs zu kämpfen haben: Sie sind in der Zeit eingefroren, sie neigen dazu, Dinge zu erfinden, und sie wissen nichts über Ihr spezifisches Unternehmen.

F: Können Sie uns einen Anwendungsfall erläutern, bei dem ein Unternehmen auf einer Goldmine an unstrukturierten Daten saß, aber nicht herausgefunden hatte, wie es diese mit KI nutzen konnte? Welchen Unterschied hat die Implementierung von KI gemacht?

Calvesbert: Ein großer Telekommunikationskunde, mit dem wir zusammenarbeiteten, begann mit einer internen Wissensdatenbank für Kundensupport-Agenten, was die Zeit für eine Antwort an die Kunden verkürzte und die Genauigkeit dieser Antwort verbesserte. Es verbreitete sich organisch, wie ein Lauffeuer, im Call-Center, woraufhin das Unternehmen einen Schritt zurücktreten und an der Governance und der Leistung arbeiten musste. Intern haben wir einen Anwendungsfall für Marketingautomatisierung implementiert, bei dem die Markenrichtlinien und Beispiele von IBM verwendet wurden, um neue Marketinginhalte zu generieren und diese hinsichtlich Qualität und Tonalität zu kuratieren.

Donahue: Wir arbeiten mit einem globalen Unternehmen für Konsumgüter zusammen, um ihnen bei der Entwicklung neuer Produktideen zu helfen. Sie fragen sich vielleicht: „Was hat das mit unstrukturierten Daten zu tun?“ Historisch gesehen hätten Marketing- und Produktteams Monate gebraucht, um Berge von Verkaufsdaten, Produktfeedback-Informationen und demografischen Informationen zu analysieren, um neue Ideen oder Konzepte zu entwickeln, die sie mit den Endnutzern in diesen spezifischen Märkten testen können. Was wäre, wenn wir diesen Prozess von Monaten auf Stunden verkürzen könnten? Was wäre, wenn wir neue Produktideen generieren könnten, die auf Daten basieren, die die Teams schnell testen könnten?

Das ist die Power, Ihre unstrukturierten Daten zu nutzen, um Geschäftswert zu schaffen. Jetzt nutzt dieses Konsumgüterunternehmen seine Daten für mehrere seiner Marken, um neue Produktideen zu entwickeln und zu testen und auf den Markt zu bringen.

F: Wenn ein Unternehmen nicht genügend unstrukturierte Daten hat, kann es dann trotzdem KI implementieren? Was sollten dann die nächsten Schritte sein?

Calvesbert: Jedes Unternehmen hat Dokumente – denken Sie daran, was neuen Mitarbeitern zur Einarbeitung zur Verfügung gestellt wird – und das reicht aus, um mit RAG und semantischer Suche zu beginnen.

Laut Donahue sind 80 % der Daten eines Unternehmens unstrukturiert, egal ob es sich um E-Mails, Memos, interne Messaging-Plattformen (wie Slack oder Microsoft Teams) oder Geschäftspräsentationen handelt. Die Frage ist: Was wollen Sie mit diesen Daten machen? Effizienzen für Entwickler schaffen, die derzeit ähnliche Datenbereinigungsarbeiten durchführen? Neue Produktideen auf der Grundlage von Verkaufs- und Marketingdaten entwickeln? Es gibt unzählige Möglichkeiten und Chancen für KI. Identifizieren Sie ein Ziel. Identifizieren Sie die benötigten Daten. Fangen Sie klein an.

F: Haben Sie im vergangenen Jahr interessante Trends im Bereich Daten und Datenverwaltung festgestellt?

Calvesbert: Ich denke, Lakehouse-Architekturen und offene Tabellenformate, insbesondere Iceberg, sind zum Mainstream und zur dominierenden Datenverwaltung für neue Daten/Workloads geworden. Vektorfunktionen sind in vielen operativen/analytischen Datenbanken nativ integriert, sodass KI-Workloads in bestehende Anwendungen eingebunden werden können. Wir sehen zunehmend, dass die Branche erkennt, dass RAG allein für bestimmte Anwendungsfälle nicht ausreicht, die zusätzliche Kontextualisierung auf Grundlage nicht offensichtlicher Beziehungen (GraphRAG) und verbesserter Präzision durch transaktionale Datensätze (SQL-RAG) erfordern. Die Kunden erkennen auch, dass die Implementierung eines Benutzer-Autorisierungsmodells, das die mit unternehmensweiten Content-Management-Systemen bestehenden Zugriffskontrollen berücksichtigt, eine entscheidende Herausforderung für die Skalierung von generativer KI im gesamten Unternehmen darstellt.

Donahue: Wir sehen, dass die Teams für Data Science und maschinelles Lernen enger mit den Teams für Datentechnik zusammenarbeiten. Im Zuge des Aufstiegs von Data-Warehousing- und Business-Intelligence-Anwendungen im letzten Jahrzehnt sind Data-Engineering-Teams entstanden, die historisch gesehen in der Welt von SQL, strukturierten Datenbanken und Business-Analytics-Prozessen gearbeitet haben, die für Datenanalysten und C-Suite-Nutzer konzipiert wurden. Da Unternehmen verstärkt auf LLMs setzen, ist der Bedarf an großen Mengen vorverarbeiteter Daten explosionsartig gestiegen. Diese Personen arbeiten jedoch in der Regel in der Welt von Python, Vektordatenbanken und schnellen und kurzlebigen Benutzeroberflächen. Wir gehen davon aus, dass Data-Engineering-Teams im Laufe der Zeit zunehmend die Verantwortung für die Bereitstellung von unternehmensweit einsetzbaren Daten für die generative KI-Teams übernehmen werden.

F: Welche Prognosen stellen Sie für die Datentrends im Jahr 2025 und darüber hinaus vor?

Calvesbert: Ich denke, die Kunden wollen ihre Datenbestände und die damit verbundenen Kosten und Risiken vereinfachen. Aus diesem Grund werden Multi-Modell-Datenbanken und Multi-Engine-Lakehouse-Architekturen auch weiterhin erfolgreich mit isolierten Datenbanken um Workloads konkurrieren, da Kunden bestrebt sind, ihre Daten auf einer reduzierten Anzahl von Plattformen zu konsolidieren. Text-zu-SQL-Modelle werden immer besser, was die Hürde für die Arbeit mit Daten für ein breites Anwendungsspektrum jenseits von Business Intelligence drastisch senken wird.

In ähnlicher Weise wird die zunehmende Verbreitung von Agenten Daten in ein explosionsartig wachsendes Volumen und eine Vielzahl automatisierter Workflows integrieren. Einige dieser agentischen Workflows werden viele Aktivitäten von Wissensarbeitern revolutionieren und spannende neue Möglichkeiten schaffen. Stellen Sie sich vor, dass Sie ein internes oder externes Gespräch mit einem Kunden bearbeiten und es sofort den Produkten in einem Katalog oder dem Opportunity-Datensatz in einem CRM-System zuordnen können, einschließlich einer automatischen Bewertung des Fortschrittsstatus und der Abschlusswahrscheinlichkeit.

Donahue: Im Gegensatz zum modernen Daten-Stack, in dem Snowflake, BigQuery und Databricks die „Datengravitation“ im Bereich des Data Warehousing etabliert haben, ist uns das Gleiche für unstrukturierte Daten noch nicht gelungen. Und da sie viermal so umfangreich sind wie strukturierte Daten und jedes Jahr exponentiell wachsen, könnte die Bedeutung der nächsten Generation von Speicherlösungen für LLMs nicht größer sein. Es ist noch unklar, welche Kombination aus Vektor, Graph, Objekt oder anderen Speicherarten dominierend wird und welche Anbieter in jeder Kategorie sich durchsetzen werden, aber die Gewinner werden in den nächsten 18 bis 24 Monaten wahrscheinlich klar sein.

Autor

Antonia Davison

Staff Writer

Blick von oben auf einen Geschäftsmann, der in einem Büro im Innenhof ein Mobiltelefon benutzt

Erkenntnisse, die Sie sich nicht entgehen lassen sollten. Abonnieren Sie unsere Newsletter.

Gehen Sie über den Hype hinaus mit Expertennachrichten zu KI, Quantencomputing, Cloud, Sicherheit und vielem mehr.

Abonnieren Sie noch heute