Open-Source-Tools zur Datenaufbereitung für große Sprachmodelle

Ein männlicher Kollege spricht mit einer Kollegin, die auf Daten in einem Diagramm zeigt

Große Open-Source-Sprachmodelle (LLMs) erfreuen sich großer Beliebtheit, weil sie es jedem erleichtern, sie zu modifizieren und zu verwenden. Die Nutzen von Open Source gehen jedoch verloren, wenn die Aufbereitung der zum Trainieren und Optimieren der Modelle benötigten Daten teuer und zeitaufwändig ist.

„Jedes Gespräch in der KI beginnt mit Modellen und endet in Wirklichkeit mit Daten", sagt Petros Zerfos, Principal Research Scientist für Data Engineering für generative KI bei IBM Research. Für Unternehmen bedeutet das oft, dass KI-Teams mehr Zeit mit der Vorbereitung der Daten für die Modelle verbringen als mit den Modellen selbst, sagt Zerfos.

Die Lösung? Einige große Technologieunternehmen nutzen Open-Source-Tools zur Datenaufbereitung. Zum Beispiel erleichtern das Data Prep Kit von IBM und der NVIDIA NeMo Curator Unternehmen jeder Größe die Schulung und Feinabstimmung von LLMs, sodass sie schneller und kostengünstiger von KI-Anwendungen profitieren können.

Die Datenherausforderung

Bei der Entwicklung und Bereitstellung von LLMs und KI-Anwendungen stellt die Datenaufbereitung einen der größten Engpässe dar. Tatsächlich gaben 79 % der in Gartners Bericht „Explore Data-Centric AI Solutions to Streamline AI Development“ aus dem Jahr 2023 befragten KI-Teams in Unternehmen an, dass die häufigste strategische Aufgabe, die sie ausführen, die Datenaufbereitung und Generierung von Daten ist.

Die Datenaufbereitung erfolgt in der Regel in zwei wichtigen Phasen der Entwicklung von LLMs. In der Vortrainingsphase werden die Modelle mit Hunderten von Terabytes an Daten trainiert, damit sie einfaches Englisch verstehen und genügend Wissen und Nuancen in verschiedenen Bereichen erwerben können. Laut Zerfos benötigt das Vortraining von Modellen von Grund auf Hunderte von Mitarbeitern und Millionen von Dollar, sodass nur sehr große Unternehmen – oder einige wenige gut kapitalisierte Startups – über die nötigen Ressourcen verfügen.

In der zweiten Phase der Datenaufbereitung verwenden KI-Teams kleinere Mengen gezielter Daten, um LLMs durch Feinabstimmung zu optimieren, damit sie genauere und relevantere Texte erzeugen können. Einige sehr große Unternehmen mit umfangreichen Ressourcen führen beide Phasen durch, die meisten Unternehmen konzentrieren sich jedoch auf die Datenaufbereitung, um bereits von anderen erstellte Modelle feinabzustimmen.

Open-Source-Tools zur Datenaufbereitung

Mehrere Unternehmen, darunter IBM und NVIDIA, haben kürzlich Tools als Open Source veröffentlicht, um Entwicklern bei der mühsamen Aufgabe der Datenaufbereitung von unstrukturierten Daten zu helfen. Das Data Prep Kit von IBM ist eine Bibliothek von Modulen, die ein Entwickler in seine Pipeline integrieren kann, um Daten entweder in der Vortrainings- oder Feinabstimmungsphase zu kuratieren.  Die Module arbeiten mit Quelldokumenten, die unstrukturierte Daten wie Text (z. B. eine PDF) und Code (HTML) enthalten, und können zum Kommentieren, Transformieren und Filtern der Daten verwendet werden.

„Das IBM-Team hat diese Tools als Open Source veröffentlicht, um sie Unternehmen jeder Größe zugänglich zu machen“, sagt Zerfos. „Der Entwickler muss nichts Besonderes tun, egal ob er es auf einem Laptop, einem Server oder einem Cluster ausführt“, sagt er. „Es kann auch auf jeder Cloud-Infrastruktur ausgeführt werden.“

Seit dem Start im Mai 2024 experimentieren Entwickler mit dem Data Prep Kit Framework und seinen Modulen, die über GitHub zugänglich sind. Mehrere Mitglieder der KI Alliance, einer Community, zu der sowohl große als auch kleine Technologieunternehmen gehören, haben laut Zerfos begonnen zu testen, wie bestimmte Module Training und Feinabstimmung optimieren und beschleunigen können.

Der KI-Hardware- und Software-Riese NVIDIA hat kürzlich auch eine Reihe von Datenvorbereitungsmodulen als Open Source veröffentlicht, um die Genauigkeit generativer KI-Modelle zu verbessern. Der NVIDIA NeMo Curator verarbeitet Text-, Bild- und Videodaten in großem Maßstab. Es stellt außerdem vorgefertigte Pipelines zur Erzeugung synthetischer Daten bereit, um generative KI-Systeme anzupassen und zu bewerten.

Eine der Aufgaben, die NVIDIAs NeMo Curator zu beschleunigen verspricht, ist die Deduplizierung. Beim Herunterladen von Daten aus riesigen Web-Crawling-Quellen wie Common Crawl stößt das Modell typischerweise sowohl auf Dokumente, die exakte Duplikate voneinander sind, als auch auf Dokumente, die nahezu identisch sind. 

Mit einer kommenden Version des NeMo Curator, so sagen es die Entwickler des Tools, können Unternehmen diese Deduplizierungsaufgabe zwanzigmal schneller und fünfmal günstiger abschließen als bisher. 

Zweifellos macht die Veröffentlichung dieser Tools als Open Source sie einem breiteren Publikum zugänglich. KI-Unternehmensteams benötigen jedoch immer noch ein gewisses Maß an Fähigkeiten und Schulungen, um aus diesen Tools Nutzen zu ziehen, warnen Experten wie Mark A. Beyer, ein angesehener VP Analyst bei Gartner.

„Wenn man jemandem einfach nur ein Werkzeug ohne Anleitung, Methoden und Funktionen zur Verfügung stellt, die dessen Anwendung unterstützen, artet das schnell in Experimente aus“, sagt er. „Es kann vier- bis fünfmal länger dauern als die einfache Nutzung vorhandener Tools.“

Für die Zukunft sieht Ben Lorica, Moderator des Podcasts The Data Exchange, großes Potenzial für Datenaufbereitung, da Unternehmen ihre Nutzung multimodaler Daten erhöhen – auch wenn es noch früh ist.

„Da Ihre Anwendungen zusätzlich zu Text immer mehr Video- und Audiodaten benötigen, benötigen Sie ein Tool, mit dem Sie größere Datensätze skalieren und verwenden und von Ihrer Hardware profitieren können“, sagt er. „Vor allem in der Agentenwelt werden Daten ein Unterscheidungsmerkmal sein. Sie möchten zur richtigen Zeit Zugriff auf die richtigen Daten haben.“