Größer ist nicht immer besser: Wie hybride KI-Muster kleinere Sprachmodelle ermöglichen

Mehrere blaue, rosa und lila Würfel

Seitdem große Sprachmodelle (LLMs) in den allgemeinen Sprachgebrauch eingedrungen sind, haben die Menschen entdeckt, wie man Apps nutzt, die darauf zugreifen. Moderne KI-Tools können generieren, erstellen, zusammenfassen, übersetzen, klassifizieren und sich sogar unterhalten. Tools im Bereich der generativen KI ermöglichen es uns, Antworten auf Prompts zu generieren, nachdem wir aus bestehenden Artefakten gelernt haben.

Ein Bereich, in dem es bisher wenig Innovationen gegeben hat, ist Edge Computing und Geräte mit eingeschränkten Funktionen. Wir sehen einige Versionen von KI-Apps, die lokal auf Mobilgeräten mit integrierten Sprachübersetzungsfunktionen laufen, aber wir sind noch nicht an dem Punkt angelangt, an dem LLMs außerhalb von Cloud-Providern einen Mehrwert generieren.

Es gibt jedoch auch kleinere Modelle, die das Potenzial haben, generative KI-Funktionen auf mobilen Geräten zu entwickeln. Lassen Sie uns diese Lösungen aus der Perspektive eines hybriden KI-Modells betrachten.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Die Grundlagen von LLMs

LLMs sind eine spezielle Klasse von KI-Modellen, die dieses neue Paradigma vorantreiben. Verarbeitung natürlicher Sprache (NLP) ermöglicht diese Funktionen. Um LLMs zu schulen, nutzen Entwickler riesige Datenmengen aus verschiedenen Quellen, einschließlich des Internets. Die Milliarden von verarbeiteten Parametern machen sie so groß.

LLMs kennen sich zwar mit einer Vielzahl von Themen aus, sind aber ausschließlich auf die Daten beschränkt, mit denen sie ausgebildet wurden. Das bedeutet, dass sie nicht immer „aktuell“ oder korrekt sind. Aufgrund ihrer Größe werden LLMs typischerweise in der Cloud gehostet, was die Bereitstellung leistungsstarker Hardware mit vielen GPUs erfordert.

Dies bedeutet, dass Unternehmen, die Informationen aus ihren privaten oder geschützten Geschäftsdaten gewinnen möchten, LLMs nicht ohne Weiteres einsetzen können. Um konkrete Fragen zu beantworten, Zusammenfassungen zu erstellen oder Kurzberichte zu verfassen, müssen sie ihre Daten in öffentliche LLMs einbeziehen oder eigene Modelle erstellen. Die Methode, mit der eigene Daten an das LLM angehängt werden, wird als Retrieval Augmentation Generation oder RAG-Muster bezeichnet. Es handelt sich um ein generative KI-Designmuster, das dem LLM externe Daten hinzufügt.

AI Academy

Wählen Sie das richtige KI-Modell für Ihren Anwendungsfall

Größer ist nicht immer besser, wenn es um KI-Modelle geht. Erfahren Sie, wie Sie die richtige Lösung für Ihre Geschäftsanforderungen finden. Holen Sie sich anschließend den Leitfaden, der Ihnen hilft, aktiv zu werden.

Ist kleiner besser?

Unternehmen, die in spezialisierten Bereichen wie Telekommunikation, Gesundheitswesen oder Öl- und Gasindustrie tätig sind, haben einen klaren Fokus. Obwohl sie Vorteile aus typischen generativen KI-Szenarien und Anwendungsfällen ziehen können und auch nutzen, wären sie mit kleineren Modellen besser bedient.

Im Fall von Telekommunikationsunternehmen sind beispielsweise KI-Assistenten in Kontaktzentren, personalisierte Angebote bei der Leistungserbringung und KI-gestützte Chatbots zur Verbesserung des Customer Experience gängige Anwendungsfälle. Anwendungsfälle, die Telekommunikationsunternehmen dabei helfen, die Leistung ihres Netzes zu verbessern, die spektrale Effizienz in 5G-Netzen zu steigern oder spezifische Engpässe in ihrem Netz zu ermitteln, werden am besten durch die eigenen Daten des Unternehmens (und nicht durch ein öffentliches LLM) bedient.

Das führt uns zu der Annahme, dass kleiner besser ist. Es gibt mittlerweile Small Language Models (SLMs), die im Vergleich zu LLMs „kleiner“ sind. SLMs werden mit zig Milliarden Parametern trainiert, LLMs hingegen mit Hunderten Milliarden Parametern. Wichtiger noch: SLMs werden mit Daten trainiert, die sich auf einen bestimmten Bereich beziehen. Sie verfügen möglicherweise nicht über umfassende Kontextinformationen, aber in ihrem gewählten Bereich erbringen sie sehr gute Leistungen. 

Aufgrund ihrer geringeren Größe können diese Modelle im Rechenzentrum eines Unternehmens statt in der Cloud gehostet werden. SLMs könnten sogar in großem Maßstab auf einem einzigen GPU Chip laufen und so jährlich Tausende von Dollar an Rechenkosten einsparen. Mit den Fortschritten im Chipdesign verschwimmt jedoch die Grenze zwischen Anwendungen, die ausschließlich in der Cloud oder in einem Unternehmensrechenzentrum ausgeführt werden können.

Ob aus Kostengründen, wegen Datenschutzes oder Datensouveränität – Unternehmen könnten diese SLMs in ihrem Rechenzentrum betreiben wollen. Die meisten Unternehmen senden ihre Daten nicht gerne in die Cloud. Ein weiterer wichtiger Grund ist die Leistung. Generative KI am Netzwerkrand führt die Berechnungen und Inferenzen so nah wie möglich an den Daten durch und ist damit schneller und sicherer als über einen Cloud-Provider.

Es ist erwähnenswert, dass SLMs weniger Rechenleistung benötigen und ideal für die Bereitstellung in ressourcenbeschränkten Umgebungen und sogar auf mobilen Geräten sind.

Ein Beispiel für eine On-Premises-Lösung wäre ein IBM Cloud Satellite-Standort, der über eine sichere Hochgeschwindigkeitsverbindung zu IBM Cloud verfügt, wo die LLMs gehostet werden. Telekommunikationsunternehmen könnten diese SLMs an ihren Basisstationen hosten und diese Option auch ihren Kunden anbieten. Es ist alles eine Frage der Optimierung der Nutzung von GPUs, da die Entfernung, die Daten zurücklegen müssen, verringert wird, was zu einer verbesserten Bandbreite führt.

Wie klein kann es werden?

Zurück zur ursprünglichen Frage, ob man diese Modelle auf einem mobilen Gerät ausführen kann. Das mobile Gerät kann ein High-End-Telefon, ein Auto oder sogar ein Roboter sein. Gerätehersteller haben festgestellt, dass für den Betrieb von LLMs eine erhebliche Bandbreite erforderlich ist. Tiny LLMs sind kleinere Modelle, die lokal auf Mobiltelefonen und medizinischen Geräten ausgeführt werden können.

Zur Erstellung dieser Modelle verwenden die Entwickler Techniken wie die Low-Rank-Adaption. Sie ermöglichen es Benutzern, die Modelle durch Feinabstimmung an individuelle Anforderungen anzupassen und gleichzeitig die Anzahl der trainierbaren Parameter relativ gering zu halten. Tatsächlich gibt es sogar ein TinyLlama-Projekt auf GitHub.

Chiphersteller entwickeln Chips, die durch Bilddiffusion und Wissensdestillation eine abgespeckte Version von LLMs ausführen können. System-on-Chip (SOC) und Neuro-Processing Units (NPUs) unterstützen Edge-Geräte bei der Ausführung von generativen KI-Aufgaben.

Auch wenn einige dieser Konzepte noch nicht in Produktion sind, sollten Lösungsarchitekten berücksichtigen, was heute möglich ist. Die Zusammenarbeit von SLMs mit LLMs könnte eine praktikable Lösung sein. Unternehmen können entscheiden, ob sie bestehende kleinere, spezialisierte KI-Modelle für ihre Branche nutzen oder ihre eigenen erstellen, um eine personalisierte Customer Experience zu bieten.

Ist hybride KI die Lösung?

SLMs on-premises zu betreiben scheint zwar praktisch und winzige LLMs auf mobilen Edge-Geräten sind verlockend, aber was ist, wenn das Modell einen größeren Datenbestand benötigt, um auf einige Prompts zu reagieren? 

Hybrid Cloud Computing bietet das Beste aus beiden Welten. Könnte das gleiche auch für KI-Modelle gelten?

Wenn kleinere Modelle nicht ausreichen, könnte das hybride KI-Modell die Möglichkeit bieten, auf LLM in der Public Cloud zuzugreifen. Es ist sinnvoll, solche Technologien zu ermöglichen. Dies würde es Unternehmen ermöglichen, ihre Daten innerhalb ihrer eigenen Räumlichkeiten mithilfe domänenspezifischer SLMs zu schützen und bei Bedarf auf LLMs in der Public Cloud zuzugreifen. Da mobile Geräte mit SOC immer leistungsfähiger werden, scheint dies eine effizientere Methode zu sein, generative KI-Workloads zu verteilen.

IBM hat kürzlich die Verfügbarkeit des Open-Source-KI-Modells von Mistral auf ihrer Watson-Plattform angekündigt. Dieses kompakte LLM benötigt weniger Ressourcen zum Betrieb, ist aber genauso effektiv und bietet eine bessere Leistung im Vergleich zu herkömmlichen LLMs. IBM veröffentlichte außerdem ein Granite 7B-Modell als Teil seiner hoch kuratierten, vertrauenswürdigen Familie von Foundation Models.

Wir sind der Meinung, dass sich Unternehmen auf die Erstellung kleiner, domänenspezifischer Modelle mit internen Unternehmensdaten konzentrieren sollten, um ihre Kernkompetenz zu differenzieren und Erkenntnisse aus ihren Daten zu nutzen (anstatt sich an die Erstellung ihrer eigenen generischen LLMs zu wagen, auf die sie problemlos von mehreren Anbietern zugreifen können).

Größer ist nicht immer besser

Telekommunikationsunternehmen sind ein Paradebeispiel für ein Unternehmen, das von der Einführung dieser hybriden KI-Modelle profitieren würde. Sie spielen eine einzigartige Rolle, da sie sowohl Verbraucher als auch Anbieter sein können. Ähnliche Szenarien könnten für das Gesundheitswesen, Ölplattformen, Logistikunternehmen und andere Branchen gelten. Sind die Telekommunikationsunternehmen bereit, generative KI sinnvoll zu nutzen? Wir wissen, dass sie über viele Daten verfügen, aber haben sie auch ein Zeitreihenmodell, das zu den Daten passt?

Wenn es um KI-Modelle geht, verfolgt IBM eine Multimodell-Strategie, um jedem einzelnen Anwendungsfall gerecht zu werden. Größer ist nicht immer besser, da spezialisierte Modelle allgemeine Modelle mit geringeren Infrastrukturanforderungen übertreffen.

 

Autor

Ashok Iyengar

Executive Cloud Architect

Praneet Adusumilli

Distributed Infrastructure and Network Management Research

Master Inventor

Weiterführende Lösungen
Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai Erkunden Sie die KI-Modelle von IBM Granite