Wir stehen an der Schwelle einer KI-Revolution. In den letzten zehn Jahren entstand aus einer gewaltigen Kollision von Datenverfügbarkeit und reiner Rechenleistung Deep Learning, wodurch eine Vielzahl beeindruckender KI-Funktionen ermöglicht wurde. Aber wir standen vor einer paradoxen Herausforderung: Automatisierung ist arbeitsintensiv. Es klingt wie ein Witz, ist es aber nicht, wie jeder wissen dürfte, der schon einmal versucht hat, Geschäftsprobleme mit KI zu lösen.
Herkömmliche KI-Tools sind zwar leistungsstark, aber oft teuer, zeitaufwändig und schwierig in der Anwendung. Daten müssen mühsam gesammelt, kuratiert und mit aufgabenspezifischen Anmerkungen versehen werden, um KI-Modelle zu trainieren. Die Erstellung eines Modells erfordert spezielle, seltene Fähigkeiten und jede neue Aufgabe erfordert die Wiederholung des Prozesses. Infolgedessen haben sich Unternehmen hauptsächlich auf die Automatisierung von Aufgaben mit riesigen Datenmengen und hohem geschäftlichem Nutzen konzentriert und alles andere vernachlässigt. Doch das beginnt sich zu ändern.
Das Aufkommen von Transformatoren und selbstüberwachten Lernmethoden hat es uns ermöglicht, riesige Mengen an unbeschrifteten Daten zu nutzen und damit den Weg für große vortrainierte Modelle zu ebnen, die auch als „Foundation Models“ bezeichnet werden. Diese großen Modelle haben die Kosten und den Arbeitsaufwand für die Automatisierung gesenkt.
Foundation Models bieten eine leistungsstarke und vielseitige Grundlage für eine Vielzahl von KI-Anwendungen. Mithilfe von Foundation Models können wir Aufgaben mit begrenzten annotierten Daten und minimalem Aufwand schnell erledigen; in einigen Fällen genügt es, die anstehende Aufgabe zu beschreiben, um das Modell dazu zu bringen, sie zu lösen.
Aber diese leistungsstarken Technologien bergen auch neue Risiken und Herausforderungen für Unternehmen. Viele der heutigen Modelle werden mit Datensätzen unbekannter Qualität und Herkunft trainiert, was zu beleidigenden, voreingenommenen oder faktisch falschen Antworten führt. Die größten Modelle sind teuer, ihr Training und Betrieb ist energieintensiv und ihr Einsatz ist komplex.
Wir bei IBM entwickeln einen Ansatz, der die zentralen Herausforderungen bei der Nutzung von Foundation Models für Unternehmen angeht. Heute haben wir watsonx.ai angekündigt, das Gateway von IBM zu den neuesten KI-Tools und -Technologien auf dem Markt. Ein Beweis dafür, wie schnell sich dieser Bereich entwickelt, ist, dass einige Tools erst wenige Wochen alt sind und wir gerade, während ich dies schreibe, schon wieder neue hinzufügen.
Was in watsonx.ai enthalten ist – ein Teil der größeren watsonx-Angebote von IBM, die diese Woche angekündigt wurden – ist vielfältig und wird sich weiterentwickeln, aber unser übergeordnetes Versprechen bleibt dasselbe: wir wollen sichere, unternehmensfähige Automatisierungsprodukte bereitstellen.
Im Rahmen unserer laufenden Arbeit bei IBM möchten wir unsere Kunden dabei unterstützen, schneller von diesem neuen Paradigma der KI zu profitieren. Im Folgenden beschreibe ich unsere Arbeit zur Entwicklung einer Suite der von IBM trainierten Foundation Models der Unternehmensklasse, einschließlich unseres Ansatzes für Daten- und Modellarchitekturen. Außerdem werde ich unser neues Portfolio und unsere neuen Tools vorstellen, mit denen Unternehmen Lösungen auf der Grundlage von Foundation Models entwickeln und bereitstellen können, wobei sie neben unseren eigenen Modellen auch auf einen umfangreichen Katalog von Open-Source-Modellen zurückgreifen können.
Die Datenqualität ist wichtig. Ein KI-Modell, das auf voreingenommenen oder toxischen Daten trainiert ist, wird naturgemäß dazu neigen, voreingenommene oder toxische Ausgaben zu erzeugen. Dieses Problem wird im Zeitalter der Foundation Models noch verschärft, da die Daten, die zur Entwicklung von Trainings- und Schulmodellen verwendet werden, in der Regel aus vielen Quellen stammen und so umfangreich sind, dass kein Mensch sie vernünftigerweise alle durchforsten könnte.
Da Daten der Treibstoff sind, der die Foundation Models antreibt, haben wir bei IBM uns darauf konzentriert, alles, was in unsere Modelle einfließt, sorgfältig zu kuratieren. Wir haben KI-Tools entwickelt, um unsere Daten streng auf Hass und vulgäre Ausdrucksweise, Lizenzbeschränkungen und Voreingenommenheit zu filtern. Wenn anstößige Daten gefunden werden, entfernen wir diese, trainieren das Modell neu und filtern erneut.
Datenpflege ist eine Aufgabe, die nie wirklich abgeschlossen wird. Wir entwickeln und optimieren weiterhin neue Methoden zur Verbesserung der Datenqualität und der Kontrollen, um den sich ständig ändernden gesetzlichen und regulatorischen Anforderungen gerecht zu werden. Wir haben ein durchgängiges Framework entwickelt, um die bereinigten Rohdaten, die verwendeten Methoden und die Modelle, die jeder Datenpunkt berührt hat, zu verfolgen.
Wir sammeln weiterhin hochwertige Daten, um einige der drängendsten geschäftlichen Herausforderungen in verschiedenen Bereichen wie Finanzwesen, Recht, Cybersicherheit und Nachhaltigkeit anzugehen. Derzeit streben wir mehr als 1 Terabyte kuratierten Text für das Trainieren unserer Foundation Models an und fügen gleichzeitig kuratierten Softwarecode, kuratierte Satellitendaten sowie IT-Netzwerkereignisdaten und -protokolle hinzu.
IBM Research entwickelt außerdem Techniken, um Vertrauen während des gesamten Lebenszyklus des Foundation Model zu integrieren, Voreingenommenheit zu minimieren und die Modellsicherheit zu verbessern. Unsere Arbeit in diesem Bereich umfasst FairIJ, mit dem voreingenommene Datenpunkte in Daten, die zur Modellabstimmung verwendet werden, identifiziert werden können, so dass diese herausgenommen werden können. Andere Methoden, wie die sogenannte Fairness-Neuprogrammierung, ermöglichen es uns, Voreingenommenheit in einem Modell zu mindern, selbst nachdem es trainiert wurde.
Das neue Studio watsonx.ai von IBM bietet eine Suite von Foundation Models, die darauf abzielen, einen Mehrwert für Unternehmen zu schaffen. Sie wurden in eine Reihe von Produkten von IBM integriert, die den Kunden von IBM in den kommenden Monaten zur Verfügung gestellt werden.
Da wir wissen, dass es keine Einheitslösung für alle gibt, entwickeln wir eine Familie von Sprach- und Code-Foundation Models unterschiedlicher Größe und Architektur. Jede Modellfamilie hat einen geologischen Codenamen – Granite, Sandstone, Obsidian und Slate –, der die neuesten Innovationen von IBM Research und der offenen Forschungsgemeinschaft zusammenführt. Jedes Modell kann für eine Reihe von Unternehmensaufgaben angepasst werden.
Unsere Granite-Modelle basieren auf einer ausschließlich decoderbasierten, GPT-ähnlichen Architektur für generative Aufgaben. Die Sandstone-Modelle arbeiten mit einer Encoder-Decoder-Architektur und eignen sich gut für die Feinabstimmung auf spezifische Aufgaben. Sie sind austauschbar mit den beliebten T5-Modellen von Google. Obsidian-Modelle nutzen eine neue modulare Architektur, die von IBM Research entwickelt wurde und eine hohe Inferenzleistung sowie Leistungsniveaus für eine Vielzahl von Aufgaben bietet. Slate bezeichnet eine Familie von Encoder-Only-Modellen (RoBERTa-basiert), die zwar nicht generativ sind, aber viele NLP-Aufgaben in Unternehmen schnell und effektiv erledigen. Alle Modelle von watsonx.ai werden auf dem kuratierten, unternehmensorientierten Data Lake von IBM auf unserem eigens entwickelten cloudnativen KI-Supercomputer Vela trainiert.
Effizienz und Nachhaltigkeit sind zentrale Designprinzipien für watsonx.ai. Bei IBM Research haben wir neue Technologien für effizientes Modelltraining erfunden, darunter unseren „LiGO“-Algorithmus, der kleine Modelle recycelt und zu größeren „wachsen“ lässt. Mit dieser Methode können im Vergleich zur Schulung eines neuen Modells zwischen 40 % und 70 % Zeit, Kosten und CO2-Ausstoß eingespart werden. Um die Inferenzgeschwindigkeiten zu verbessern, nutzen wir unsere fundiertes Fachwissen in Quantisierung, d. h. der Verkleinerung von Modellen von 32-Bit-Gleitkommaarithmetik auf viel kleinere ganzzahlige Bitformate. Die Reduzierung der KI-Modellgenauigkeit bringt enorme Effizienzvorteile, ohne zu Einbußen bei der Genauigkeit zu führen. Wir hoffen, diese komprimierten Modelle bald auf unserem KI-optimierten Chip, dem IBM® AIU, ausführen zu können.
Das letzte Puzzleteil des Foundation Model ist die Entwicklung einer benutzerfreundlichen Software zur Anpassung und Bereitstellung der Modelle. Der auf RedHat OpenShift basierende hybride, cloudnative Inference Stack von IBM wurde für das Trainieren und Bereitstellen von Foundation Models optimiert. Unternehmen können die Flexibilität von OpenShift nutzen, um Modelle von überall aus zu betreiben – auch lokal.
Wir haben in watsonx.ai eine Suite von Tools entwickelt, die Kunden eine benutzerfreundliche Oberfläche und entwicklerfreundliche Bibliotheken für den Aufbau von Foundation Model-basierten Lösungen bieten. Unser Prompt Lab ermöglicht es Benutzern, KI-Aufgaben schnell mit nur wenigen gekennzeichneten Beispielen durchzuführen. Das Tuning Studio ermöglicht eine schnelle und robuste Modellanpassung anhand eigener Daten auf Basis modernster effizienter Feinabstimmungstechniken, die von IBM Research entwickelt wurden.
Zusätzlich zu den eigenen Modellen von IBM bietet watsonx.ai nahtlosen Zugriff auf einen breiten Katalog von Open Source-Modellen, mit denen Unternehmen experimentieren und schnell iterieren können. Im Rahmen einer neuen Partnerschaft mit Hugging Face wird IBM Tausende von Open-Source Foundation Models, Datensätzen und Bibliotheken von Hugging Face auf watsonx.ai anbieten. Hugging Face wird wiederum alle proprietären und Open-Access-Modelle und -Tools von IBM auf watsonx.ai anbieten.
Um ein neues Modell zu testen, wählen Sie es einfach aus einem Dropdown-Menü aus. Weitere Informationen über das Studio erhalten Sie hier.
Foundation Models verändern die Landschaft der KI, und die Fortschritte der letzten Jahre haben sich immer weiter beschleunigt. Wir bei IBM freuen uns darauf, die Grenzen dieses sich rasant entwickelnden Feldes mitzugestalten und Innovationen in echten Unternehmenswert umzusetzen.
