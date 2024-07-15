Im Wettlauf um die Vorherrschaft bei der KI gilt, dass größer meistens besser ist. Mehr Daten und mehr Parameter führen zu größeren KI-Systemen, die nicht nur leistungsfähiger, sondern auch effizienter und schneller sind und im Allgemeinen weniger Fehler erzeugen als kleinere Systeme.
Dass die Technologiekonzerne die Schlagzeilen beherrschen, verstärkt diesen Trend. „Das System, das wir gerade bereitgestellt haben, ist von der Größenordnung her etwa so groß wie ein Wal“, so Microsoft-CTO Kevin Scott über den Supercomputer, der Chat GPT-5 antreibt. Scott sprach Ende Mai auf der jüngsten Build-Veranstaltung des Unternehmens über die neueste Version des generativen KI-Chatbots von Open AI. „Und es stellt sich heraus, dass Sie mit einem Supercomputer in Walgröße eine Menge KI bauen können.“
Unterdessen erreichte die Marktkapitalisierung von Nvidia im Juni die Marke von 3 Billionen US-Dollar. Der Chiphersteller wächst in atemberaubendem Tempo, da seine Chips zunehmend große Sprachmodelle, Supercomputer und die weltweit wie Pilze aus dem Boden schießenden Rechenzentren antreiben.
Aber ist größer immer besser? Das hängt von der Perspektive ab. Für Unternehmen, die Large Language Models entwickeln, ist Skalierbarkeit in den meisten Fällen ein Vorteil. Da Unternehmen jedoch versuchen, den Hype von den Bereichen zu trennen, in denen KI einen echten Mehrwert bieten kann, ist nicht klar, ob immer größere Sprachmodelle immer zu besseren Lösungen für Unternehmen führen.
„Künftig werden wir keine Modelle mehr benötigen, die 100-mal so komplex sind wie die heutigen, um den größten Teil des Nutzens zu erzielen“, erklärt Kate Soule, Program Director for Generative AI Research bei IBM, in einer kürzlich erschienenen Folge des IBM-Podcasts „Mixture of Experts“. Viele Unternehmen, die bereits eine Rendite auf ihre KI-Investitionen erzielen, nutzen sie für Aufgaben wie Klassifizierung und Zusammenfassung, die nicht einmal die volle Kapazität der aktuellen Sprachmodelle nutzen.
„Größer ist besser“ stammt von den Gesetzen der Datenskalierung, die 2012 in einem Artikel von Prasanth Kolachina zur Anwendung der Skalierungsgesetze auf maschinelles Lernen ins Gespräch kamen. Kolachina und seine Kollegen haben gezeigt, dass die Modelle mit zunehmender Größe im Allgemeinen genauer werden und besser funktionieren. Im Jahr 2017 zeigten Hestness et al., dass die Skalierung von Deep Learning auch empirisch vorhersagbar ist. Im Jahr 2020 zeigten Kaplan et al. dann, dass die Gesetze der Datenskalierung auch für Sprachmodelle gelten.
Diese Gesetze sind zwar hilfreich für Anbieter von Sprachmodellen, die eine allgemeine künstliche Intelligenz entwickeln wollen, es ist aber keineswegs klar, dass Unternehmen diese Größenordnung an Investitionen oder KI benötigen, um den größten Nutzen daraus zu ziehen.
„Nur weil Sie wissen, wie man ein Modell der n-ten Größe am kostengünstigsten trainiert, heißt das noch lange nicht, dass die tatsächlichen Vorteile, die Sie aus diesem Modell ziehen, die Kosten rechtfertigen“, so Soule von IBM. „Das ist eine ganz andere Frage, die die Skalierungsgesetze nicht beantworten.“
Die Kosten für Daten steigen, da die hochwertigen Daten zum Trainieren von KI-Modellen immer knapper werden. In einem Artikel von Epoch AI, einem KI-Forschungsunternehmen, wurde festgestellt, dass KI-Modelle bereits 2026 alle aktuellen hochwertigen Sprachdaten, die im Internet verfügbar sind, ausschöpfen könnten.
Deshalb werden Unternehmen kreativ, wenn es darum geht, neue Daten zu beschaffen, um Modelle zu trainieren und Kosten zu senken. Die neueste Version von Chat GPT von Open AI wird den Nutzern beispielsweise kostenlos angeboten, im Austausch für einige Nutzer- und Drittanbieterdaten. Große Akteure beschäftigen sich auch mit synthetischen Daten, die aus 2D-Bildern, 3D-Daten, Text und mehr bestehen und die zusammen mit realen Daten verwendet werden, um KI zu trainieren.
Während die Unternehmen, die LLMs entwickeln, die Datenkosten tragen, wurden die Klimakosten der immer größeren Sprachmodelle weitgehend vernachlässigt. Da diese Modelle immer komplexer werden und immer mehr genutzt werden, verbrauchen sie enorme Rechenressourcen. Rechenzentren, in denen die Supercomputer untergebracht sind, die diese Modelle antreiben, verbrauchen eine erhebliche Menge an Energie und erzeugen entsprechende Kohlenstoffemissionen.
„Es geht hier nicht nur um die großen Auswirkungen auf den Energieverbrauch, sondern auch darum, dass die damit verbundenen Kohlenstoffemissionen zuerst diejenigen treffen werden, die von dieser Technologie keinen Vorteil haben“, so Emily Bender, Professorin für Linguistik an der University of Washington, die eine Arbeit mit dem Titel On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? veröffentlicht hat.
„Bei der Kosten-Nutzen-Analyse ist es wichtig zu berücksichtigen, wer den Nutzen hat und wer die Kosten trägt, denn das sind nicht dieselben Personen“, erklärte Bender in einer Pressemitteilung der University of Washington.
Eine Möglichkeit, wie Unternehmen Kosten und Nutzen ausbalancieren können, besteht darin, zunächst größere Modelle zu nutzen, um die schwierigsten Geschäftsprobleme anzugehen. Sobald sie die Antwort haben, wechseln sie zu kleineren Modellen, die die Ergebnisse der großen Modelle replizieren, jedoch zu geringeren Kosten und mit geringerer Latenz.
Die Verwendung von Small Language Models als Alternative zu Large Language Models nimmt ebenfalls zu.
„Kleinere LLMs bieten den Nutzern mehr Kontrolle als größere Sprachmodelle wie ChatGPT oder Claude von Anthropic, was sie in vielen Fällen attraktiver macht”, sagte Brian Peterson, Mitbegründer und Technologievorstand von Dialpad, einer cloudbasierten, KI-gestützten Plattform, gegenüber PYMNTS.
„Sie sind in der Lage, eine kleinere Datenmenge zu filtern, wodurch sie schneller und kostengünstiger sind und, wenn Sie über eigene Daten verfügen, weitaus besser anpassbar und sogar noch genauer.“ Der Wettlauf um größere und leistungsfähigere LLMs wird sich in nächster Zeit wohl kaum verlangsamen. Aber die meisten Experten sind sich einig, dass wir auch eine Zunahme kompakter, aber leistungsstarker KI-Modelle sehen werden, die in bestimmten Bereichen hervorragend sind und eine Alternative für Unternehmen bieten, die den Wert und die Kosten von KI besser in Einklang bringen wollen.
