Eine neue Klasse von KI-Modellen stellt die Dominanz von GPT-ähnlichen Systemen infrage und verspricht schnellere, günstigere und potenziell leistungsfähigere Alternativen.
Inception Labs, ein von Forschern aus Stanford gegründetes Start-up, hat kürzlich Mercury veröffentlicht, ein diffusionsbasiertes Sprachmodell (dLLM), das ganze Phrasen auf einmal verfeinert, anstatt Wörter einzeln vorherzusagen. Im Gegensatz zu traditionellen Large Language Models (LLMs), die einen autoregressiven Ansatz nutzen – bei dem jeweils ein Wort auf Basis des vorangegangenen Textes generiert werden – verbessern Diffusionsmodelle den Text iterativ durch Verfeinerung.
„dLLMs erweitern die Grenzen des Möglichen“, so Stefano Ermon, ein Informatikprofessor der Stanford University und Mitbegründer von Inception Labs, gegenüber IBM Think. „Mercury bietet unübertroffene Geschwindigkeit und Effizienz, und durch die Nutzung von mehr Rechenleistung während der Testzeit werden dLLMs auch die Messlatte für Qualität höher legen und die allgemeine Kundenzufriedenheit für Edge- und Unternehmensanwendungen verbessern.“
Engineer Benjamin Hoover bei IBM Research sieht die Zeichen an der Wand: „Es ist nur eine Frage von zwei oder drei Jahren, bis die meisten Menschen auf Diffusionsmodelle umsteigen“, sagt er. „Als ich das Modell von Inception Labs sah, wurde mir klar: ‚Das wird eher früher als später passieren.‘“
Für Diffusionsmodelle gelten nicht die gleichen Regeln wie für traditionelle KI. Autoregressive Modelle wie GPT bauen Sätze Wort für Wort auf und sagen ein Token nach dem anderen voraus. Wenn ein Modell den Satz „To whom it may concern“ erzeugt, sagt es „To“ voraus, dann „whom“, dann „it“ und so weiter – einen Schritt nach dem anderen. Diffusionsmodelle drehen das Drehbuch um. Anstatt den Text sequenziell zusammenzusetzen, beginnen sie mit einer groben, verrauschten Version eines ganzen Textabschnitts und verfeinern diese in mehreren Schritten. Man kann es sich so vorstellen, als würde ein Künstler zunächst eine grobe Skizze anfertigen, bevor er die Details ausarbeitet, anstatt jedes Element der Reihe nach zu zeichnen. Durch die Betrachtung des gesamten Satzes auf einmal können Diffusionsmodelle schneller Antworten generieren, oft mit größerer Kohärenz und Genauigkeit als herkömmliche LLMs.
Hoover betrachtet die Technologie als eine moderne Variante eines älteren Konzepts. „Diffusionsmodelle sind im Grunde Fehlerkorrekturmechanismen“, sagt er. „Sie arbeiten, indem sie mit einem lauten Eingang beginnen und das Geräusch schrittweise entfernen, bis sie den gewünschten Ausgang erreichen.“
Diffusionsmodelle werden häufig bei der Bildgenerierung eingesetzt, wobei Modelle wie DALL·E, Stable Diffusion und Midjourney verrauschte Bilder zu qualitativ hochwertigen Darstellungen verfeinern. Die Anwendung dieses Ansatzes auf Texte gestaltet sich jedoch schwieriger, da Sprache die strikte Einhaltung von Grammatik und Syntax erfordert.
„Viele Versuche, Diffusionsmodelle auf die Textgenerierung anzuwenden, sind in der Vergangenheit gescheitert“, sagt Ermon. „Was Mercury den Erfolg ermöglichte, wo andere scheiterten, sind firmeneigene Innovationen sowohl bei den Trainings- als auch bei den Inferenzalgorithmen. Im Gegensatz zu Bildern, die schrittweise in wiedererkennbare Formen umgewandelt werden können, folgt Sprache starren grammatikalischen Regeln, die eine iterative Verfeinerung schwieriger machen.“
Hoover verweist auf Mercury von Inception Labs als Paradebeispiel dafür, wie Diffusionsmodelle die Lücke schließen. „Dieses Modell hat bewiesen, dass Diffusion sich behaupten kann und tatsächlich schneller und effizienter ist als vergleichbare autoregressive Modelle.“
Die Effizienz diffusionsbasierter LLMs könnte die Bereitstellung von KI in Unternehmen grundlegend verändern, insbesondere in Anwendungen, wo Kosten und Geschwindigkeit eine wichtige Rolle spielen. Herkömmliche LLMs benötigen erhebliche Rechenleistung, was ihren Betrieb teuer macht. Diffusionsmodelle versprechen eine ähnliche oder bessere Leistung zu einem Bruchteil der Kosten. Diffusionsmodelle sind oft effizienter, da sie ganze Sequenzen parallel verfeinern, anstatt wie bei herkömmlichen LLMs jedes Wort Schritt für Schritt zu generieren, was den Rechenaufwand verringert.
„Unsere Kunden und Early Adopters entwickeln Anwendungen, die auf dLLMs basieren, unter anderem in den Bereichen Kundensupport, Vertrieb und Gaming“, so Ermon. „Sie machen ihre Anwendungen reaktionsschneller, intelligenter und kostengünstiger.“
Hoover sieht eine noch weitreichendere Wirkung. „Im Moment wird die KI durch den Energieverbrauch eingeschränkt“, sagt er. „Große Modelle verbrauchen enorme Mengen an Energie. Diffusionsmodelle funktionieren jedoch anders und ermöglichen dadurch eine weitaus höhere Effizienz. Langfristig könnten wir uns diffusionsbasierte KI-Systeme vorstellen, die auf analoger Hardware laufen und die Energiekosten drastisch senken würden.“
Analoges Rechnen, das Informationen mithilfe kontinuierlicher elektrischer Signale statt binärer Operationen verarbeitet, wird seit Langem als potenzielle Lösung für das Energieproblem von KI gehandelt. Hoover ist der Ansicht, dass Diffusionsmodelle für diesen Ansatz besonders gut geeignet sind.
„Diese Modelle sind von Natur aus interpretierbar“, sagt er. „Das bedeutet, dass wir ihre internen Berechnungen direkt auf analoge Schaltkreise abbilden können, was mit herkömmlichen Deep-Learning-Architekturen weitaus schwieriger ist.“
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.