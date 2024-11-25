Mehrere Unternehmen, darunter IBM und NVIDIA, haben kürzlich Tools als Open Source veröffentlicht, um Entwicklern bei der mühsamen Aufgabe der Datenaufbereitung von unstrukturierten Daten zu helfen. Das Data Prep Kit von IBM ist eine Bibliothek von Modulen, die ein Entwickler in seine Pipeline integrieren kann, um Daten entweder in der Vortrainings- oder Feinabstimmungsphase zu kuratieren. Die Module arbeiten mit Quelldokumenten, die unstrukturierte Daten wie Text (z. B. eine PDF) und Code (HTML) enthalten, und können zum Kommentieren, Transformieren und Filtern der Daten verwendet werden.

„Das IBM-Team hat diese Tools als Open Source veröffentlicht, um sie Unternehmen jeder Größe zugänglich zu machen“, sagt Zerfos. „Der Entwickler muss nichts Besonderes tun, egal ob er es auf einem Laptop, einem Server oder einem Cluster ausführt“, sagt er. „Es kann auch auf jeder Cloud-Infrastruktur ausgeführt werden.“

Seit dem Start im Mai 2024 experimentieren Entwickler mit dem Data Prep Kit Framework und seinen Modulen, die über GitHub zugänglich sind. Mehrere Mitglieder der KI Alliance, einer Community, zu der sowohl große als auch kleine Technologieunternehmen gehören, haben laut Zerfos begonnen zu testen, wie bestimmte Module Training und Feinabstimmung optimieren und beschleunigen können.

Der KI-Hardware- und Software-Riese NVIDIA hat kürzlich auch eine Reihe von Datenvorbereitungsmodulen als Open Source veröffentlicht, um die Genauigkeit generativer KI-Modelle zu verbessern. Der NVIDIA NeMo Curator verarbeitet Text-, Bild- und Videodaten in großem Maßstab. Es stellt außerdem vorgefertigte Pipelines zur Erzeugung synthetischer Daten bereit, um generative KI-Systeme anzupassen und zu bewerten.

Eine der Aufgaben, die NVIDIAs NeMo Curator zu beschleunigen verspricht, ist die Deduplizierung. Beim Herunterladen von Daten aus riesigen Web-Crawling-Quellen wie Common Crawl stößt das Modell typischerweise sowohl auf Dokumente, die exakte Duplikate voneinander sind, als auch auf Dokumente, die nahezu identisch sind.

Mit einer kommenden Version des NeMo Curator, so sagen es die Entwickler des Tools, können Unternehmen diese Deduplizierungsaufgabe zwanzigmal schneller und fünfmal günstiger abschließen als bisher.

Zweifellos macht die Veröffentlichung dieser Tools als Open Source sie einem breiteren Publikum zugänglich. KI-Unternehmensteams benötigen jedoch immer noch ein gewisses Maß an Fähigkeiten und Schulungen, um aus diesen Tools Nutzen zu ziehen, warnen Experten wie Mark A. Beyer, ein angesehener VP Analyst bei Gartner.

„Wenn man jemandem einfach nur ein Werkzeug ohne Anleitung, Methoden und Funktionen zur Verfügung stellt, die dessen Anwendung unterstützen, artet das schnell in Experimente aus“, sagt er. „Es kann vier- bis fünfmal länger dauern als die einfache Nutzung vorhandener Tools.“

Für die Zukunft sieht Ben Lorica, Moderator des Podcasts The Data Exchange, großes Potenzial für Datenaufbereitung, da Unternehmen ihre Nutzung multimodaler Daten erhöhen – auch wenn es noch früh ist.

„Da Ihre Anwendungen zusätzlich zu Text immer mehr Video- und Audiodaten benötigen, benötigen Sie ein Tool, mit dem Sie größere Datensätze skalieren und verwenden und von Ihrer Hardware profitieren können“, sagt er. „Vor allem in der Agentenwelt werden Daten ein Unterscheidungsmerkmal sein. Sie möchten zur richtigen Zeit Zugriff auf die richtigen Daten haben.“