Auf der Think diese Woche vereinfacht IBM den Daten-für-KI-Stack radikal.
IBM gibt eine Vorschau auf die bedeutende Weiterentwicklung von watsonx.data, die Unternehmen dabei helfen kann, ihre Daten KI-fähig zu machen und eine offene, hybride Datengrundlage sowie eine unternehmensgerechte Verwaltung strukturierter und unstrukturierter Daten zu bieten.
Das Ergebnis? Vierzig Prozent genauere KI als herkömmliches RAG, laut Tests mit IBM watsonx.data.1 Zu den Produkten und Funktionen, die voraussichtlich im Juni auf den Markt kommen, gehören:
watsonx.data Integration und watsonx.data intelligence werden als eigenständige Produkte verfügbar sein, und ausgewählte Funktionen werden auch über watsonx.data verfügbar sein – das maximiert die Wahl und Modularität für den Kunden.
Um diese Produkte zu ergänzen, kündigte IBM kürzlich seine Absicht an, DataStax zu übernehmen, das sich durch die Nutzung unstrukturierter Daten für generative KI auszeichnet. Mit DataStax können Kunden auf zusätzliche Vektorsuchfunktionen zugreifen.
Basierend auf internen Tests, bei denen die Antwortkorrektheit von KI-Modellausgaben mithilfe der watsonx.data Premium Edition Retrieval Layer mit rein vektorbasiertem RAG für drei gängige Anwendungsfälle mit IBM-eigenen Datensätzen verglichen wurde, wobei der gleiche Satz ausgewählter Open-Source-Modelle zur Einbettung, Bewertung und zusätzlicher Variablen verwendet wurde. Die Ergebnisse können variieren.
Unternehmen stehen vor einem großen Hindernis für präzise und leistungsfähige generative KI – insbesondere agentische KI. Aber das Hindernis ist nicht das, was die meisten Führungskräfte denken.
Das Problem sind nicht die Inferenzkosten oder das schwer fassbare „perfekte“ Modell. Das Problem sind die Daten.
Unternehmen benötigen vertrauenswürdige, unternehmensspezifische Daten, damit agentische KI einen echten Mehrwert schaffen kann – die unstrukturierten Daten in E-Mails, Dokumenten, Präsentationen und Videos. Schätzungen zufolge waren im Jahr 2022 90 % der von Unternehmen generierten Daten unstrukturiert, IBM geht jedoch davon aus, dass nur 1 % in LLMs enthalten ist.
Es kann enorm schwierig sein, unstrukturierte Daten zu nutzen. Sie sind hochgradig verteilt und dynamisch, in verschiedenen Formaten eingeschlossen, es fehlen übersichtliche Beschriftungen und man benötigt oft zusätzlichen Kontext, um sie vollständig zu interpretieren. Herkömmliche Retrieval-Augmented-Generation (RAG) ist bei der Extraktion ihres Wertes ineffektiv und kann unstrukturierte und strukturierte Daten nicht richtig kombinieren.
Gleichzeitig kann der Daten-für-KI-Stack durch eine Reihe unzusammenhängender Tools komplex und schwerfällig werden. Unternehmen jonglieren mit Data Warehouses, Data Lakes und Tools für Data Governance und Datenintegration. Der Stack kann sich genauso verwirrend anfühlen wie die unstrukturierten Daten, die er verwalten soll.
Viele Unternehmen gehen das eigentliche Problem nicht an. Sie konzentrieren sich ausschließlich auf die Anwendungsschicht der generativen KI und nicht auf die darunter liegende wesentliche Datenschicht. Solange Unternehmen ihre Datenbasis nicht verbessern, werden KI-Agenten und andere generative KI-Initiativen nicht ihr volles Potenzial ausschöpfen können.
Die neuen Funktionen von IBM ermöglichen es Unternehmen, unstrukturierte (und strukturierte) Daten aufzunehmen, zu verwalten und abzurufen – und von dort aus genaue, leistungsfähige generative KI zu skalieren.
Newsletter „Neues von IBM“
Erhalten Sie die wichtigsten Produkt- und Funktionsankündigungen, einschließlich aktueller Video-Chats zu Produkten sowie Schulungsangebote von IBM und unseren Schulungspartnern. Weitere Informationen in der IBM Datenschutzerklärung.