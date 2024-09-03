Keine Technologie in der Geschichte der Menschheit hat in so kurzer Zeit so viel Interesse geweckt wie generative KI. Viele führende Technologieunternehmen investieren Milliarden von Dollar in das Training großer Sprachmodelle (LLMs). Aber kann diese Technologie die Investition rechtfertigen? Kann es den hohen Erwartungen gerecht werden?
Bereits im Frühjahr 2023 – das ist im Bereich der künstlichen Intelligenz (KI) lange her – veröffentlichte Goldman Sachs einen Bericht, in dem geschätzt wird, dass das Aufkommen der generativen KI das globale BIP um 7 % jährlich steigern könnte, was mehr als 7 Mrd. USD pro Jahr ausmacht.
Wie könnte generative KI dies erreichen? Die Anwendungsmöglichkeiten dieser Technologie sind vielfältig, lassen sich aber im Allgemeinen als Verbesserung der Effizienz der Kommunikation zwischen Mensch und Maschine beschreiben. Diese Verbesserung wird zur Automatisierung von einfachen Aufgaben und zur Erweiterung der menschlichen Fähigkeiten führen, sodass die Arbeitnehmer mit größerer Kompetenz mehr erreichen können.
Aufgrund der weitreichenden Anwendungen und der Komplexität generativer KI könnten viele Medienberichte die Leser glauben lassen, dass die Technologie ein fast magisches Allheilmittel ist. Tatsächlich prägte diese Perspektive einen Großteil der Berichterstattung über generative KI, als die Einführung von ChatGPT und anderen Tools die Technologie 2022 in den Mainstream brachte, wobei einige Analysten vorhersagten, dass wir am Rande einer Revolution standen, die die Zukunft der Arbeit verändern würde.
Nicht einmal zwei Jahre später hat die Begeisterung der Medien für generative KI etwas nachgelassen. Im Juni veröffentlichte Goldman Sachs einen weiteren Bericht mit einer zurückhaltenderen Bewertung, in dem er infrage stellte, ob die Vorteile generativer KI die Investition von Billionen Dollar in deren Entwicklung rechtfertigen könnten. Die Financial Times veröffentlichte unter anderem einen Meinungsbeitrag mit einer ähnlich skeptischen Sichtweise. Das Team des IBM Think Newsletters fasste einige dieser Unsicherheiten in einem früheren Beitrag zusammen und reagierte darauf.
Fluktuationen an den Aktienmärkten veranlassten mehrere Analysten zu der Prognose, dass die „KI-Blase“ platzen könnte, und dass eine Marktkorrektur im Ausmaß des Dotcom-Zusammenbruchs der 90er Jahre folgen könnte.
Die Skepsis der Medien gegenüber generativer KI lässt sich grob in vier verschiedene Krisen unterteilen, mit denen Entwickler konfrontiert sind:
Dies sind zwar ernsthafte Hürden, aber viele sind weiterhin optimistisch, dass die Lösung des letzten Problems (Anwendungsfall) auch zur Lösung der anderen drei Probleme beitragen wird. Die gute Nachricht ist, dass sie bereits sinnvolle Anwendungsfälle identifizieren und daran arbeiten.
„Generative KI hat einen deutlichen, messbaren Einfluss auf uns selbst und unsere Kunden und verändert grundlegend unsere Arbeitsweise“, sagt Chris Hay, Ingenieur bei IBM. „Dies betrifft alle Branchen und Disziplinen, von der Transformation von HR-Prozessen und Marketing-Transformation durch Markencontent bis hin zu Contact Centern oder Softwareentwicklung.“ Hay glaubt, dass wir uns in der Korrekturphase befinden, die oft auf eine Phase wilder Begeisterung folgt, und vielleicht kann der jüngste Medienpessimismus als Versuch gesehen werden, frühere Aussagen auszugleichen, die im Nachhinein wie ein Hype erscheinen.
„Ich möchte nicht in der Haut dieses Analysten stecken“, sagt Hay und spielt damit auf eine der düstereren Prognosen der letzten Zeit über die Zukunft der KI an. „Ich möchte nicht derjenige sein, der sagt: ‚KI wird in den nächsten zehn Jahren nichts Nützliches leisten‘, denn damit wird man sein Leben lang zitiert werden.“
Solche Aussagen könnten sich als ebenso kurzsichtig erweisen wie die Behauptung, dass das frühe Internet nicht viel bringen würde oder die Vermutung des IBM-Gründers Thomas Watson aus dem Jahr 1943, dass die Welt nicht mehr als 5 Computer benötigen würde. Hay argumentiert, dass ein Teil des Problems darin besteht, dass die Medien die generative KI oft mit einer engeren Anwendung von LLM-gestützten Chatbots wie ChatGPT verwechseln, die möglicherweise nicht in der Lage sind, jedes Problem zu lösen, mit dem Unternehmen konfrontiert sind.
Hay glaubt, dass Ingenieure kreativ werden, um diese Hindernisse zu beseitigen, wenn es zu Lieferengpässen kommt – sei es bei Daten oder Rechenleistung.
„Wenn man etwas im Überfluss hat, konsumiert man es“, sagt Hay. „Wenn man Hunderttausende von GPUs herumliegen hat, wird man sie auch benutzen. Aber wenn man Einschränkungen hat, wird man kreativer.“
Zum Beispiel stellen synthetische Daten einen vielversprechenden Weg dar, um die Datenkrise zu bewältigen. Diese Daten werden algorithmisch erstellt, um die Eigenschaften von realen Daten zu imitieren, und können als Alternative oder Ergänzung zu diesen Daten dienen. Beim maschinellen Lernen muss man zwar vorsichtig sein, wenn man zu viele synthetische Daten verwendet, aber ein hybrider Ansatz könnte kurzfristig helfen, die Knappheit an realen Daten zu überwinden. Beispielsweise wurden die neueren Microsoft PHI-3.5-Modelle oder Hugging Face SMOL-Modelle mit großen Mengen synthetischer Daten trainiert, was zu sehr leistungsfähigen kleinen Modellen führte.
Heutige LLMs verbrauchen viel Strom, aber es gibt wenig Grund zu glauben, dass aktuelle Transformatoren die endgültige Architektur sind. SSM-basierte Modelle wie Mistral Codestral Mamba, Jamba 1.5 oder Falcon Mamba 1.5 gewinnen aufgrund ihrer erweiterten Kontextlängen-Funktionen an Beliebtheit. Hybride Architekturen, die mehrere Arten von Modellen verwenden, sind ebenfalls auf dem Vormarsch. Über die Architektur hinaus finden Ingenieure auch in anderen Methoden einen Wert, wie Quantisierung, speziell für Inferenz entwickelte Chips und Fine-Tuning, eine Deep Learning-Technik, bei der ein vortrainiertes Modell für bestimmte Anwendungsfälle angepasst wird.
„Ich würde gerne mehr Feinabstimmung in der Branche sehen, als Vortraining“, sagt Hay. „Das Vortraining ist der teuerste Teil des Prozesses. Feinabstimmung ist wesentlich günstiger, und man kann potenziell einen viel größeren Nutzen daraus ziehen.“
Hay schlägt vor, dass wir in Zukunft möglicherweise mehr GPUs haben, als wir wissen, was wir damit anfangen sollen, weil unsere Techniken viel effizienter geworden sind. Kürzlich experimentierte er damit, einen persönlichen Laptop in eine Maschine zu verwandeln, die Modelle trainieren kann. Durch den Wiederaufbau effizienterer Datenpipelines und das Experimentieren mit Batchverarbeitung findet er Wege, innerhalb der bestehenden Beschränkungen zu arbeiten. Natürlich hätte er all dies auch mit einer teuren H100 Tensor Core GPU erledigen können, aber sein Bewusstsein für Knappheit ermöglichte es ihm, effizientere Wege zu finden, um die gewünschten Ergebnisse zu erzielen. Notwendigkeiten waren die Mutter der Erfindungen.
Die Modelle werden immer kleiner und leistungsstärker.
„Wenn man sich die kleineren Modelle von heute ansieht, werden sie mit mehr Token trainiert als die größeren Modelle vom letzten Jahr“, sagt Hay. „Man packt mehr Token in kleinere Modelle, und diese Modelle werden dadurch effizienter und schneller.“
„Mit Blick auf Anwendungen von KI zur Lösung realer Geschäftsprobleme stellen wir fest, dass diese Spezialmodelle immer wichtiger werden“, sagt Brent Smolinksi, IBMs Global Head of Tech, Data und KI Strategie. Dazu gehören sogenannte kleine Sprachmodelle und nicht-generative Modelle, wie Prognosemodelle, die einen schmaleren Datensatz erfordern. In diesem Kontext ist die Datenqualität oft wichtiger als die Datenmenge. Diese Spezialmodelle verbrauchen außerdem weniger Power® und sind einfacher zu bedienen.
„Es wird viel Forschung betrieben, um recheneffizientere Algorithmen zu entwickeln“, fügt Smolinski hinzu. Effizientere Modelle Adresse alle vier vorgeschlagenen Krisen: Sie verbrauchen weniger Daten, Energie und Rechenleistung und eröffnen durch ihre Schnelligkeit neue Anwendungsfälle.
„Die LLMs sind großartig, weil sie eine sehr natürliche Gesprächsschnittstelle haben, und je mehr Daten man eingibt, desto natürlicher fühlt sich das Gespräch an“, sagt Smolinski. „Aber diese LLMs sind im Zusammenhang mit enger gefassten Bereichen oder Problemen anfällig für Halluzinationen, was ein echtes Problem darstellt. Unsere Kunden entscheiden sich daher oft für kleine Sprachmodelle, und wenn die Schnittstelle nicht vollkommen natürlich ist, ist das in Ordnung, denn für bestimmte Probleme ist das auch nicht nötig.“
Generative KI ist vielleicht kein Allheilmittel, aber sie ist ein mächtiges Werkzeug. Betrachten Sie den agentenbasierten Workflow, der sich auf einen mehrstufigen Ansatz zur Verwendung von LLMs und KI-Agenten zur Erfüllung von Aufgaben bezieht. Diese Agenten handeln mit einem gewissen Maß an Unabhängigkeit und Entscheidungsfindung, interagieren mit Daten, Systemen und manchmal auch Menschen, um ihre zugewiesenen Aufgaben zu erfüllen. Spezialisierte Agenten können für bestimmte Aufgaben oder Fachgebiete eingesetzt werden und so tiefgreifende Kenntnisse und Erfahrungen einbringen, die LLMs möglicherweise fehlen. Diese Agenten können entweder auf spezialisiertere Daten zurückgreifen oder domänenspezifische Algorithmen und Modelle integrieren.
Stellen Sie sich ein Telekommunikationsunternehmen vor, bei dem ein agentischer Workflow, orchestriert von einem LLM, Kundensupport-Anfragen effizient verwaltet. Wenn ein Kunde eine Anfrage absendet, bearbeitet das LLM die Anfrage, kategorisiert das Problem und löst bestimmte Agenten aus, die verschiedene Aufgaben übernehmen. Ein Mitarbeiter ruft beispielsweise die Kontodaten des Kunden ab und Verify die gemachten Informationen, während ein anderer das Problem diagnostiziert, z. B. Kontrollen im Netzwerk durchführt oder Unstimmigkeiten in der Rechnungsstellung untersucht.
Sobald das Problem identifiziert ist, erarbeitet ein dritter Mitarbeiter eine Lösung, sei es das Zurücksetzen des Equipments, das Anbieten einer Rückerstattung oder die Vereinbarung eines Technikertermins. Der LLM unterstützt dann einen Kommunikationsagenten bei der Erstellung einer personalisierten Antwort an den Kunden und trägt dazu bei, dass die Botschaft klar ist und mit der Markenstimme des Unternehmens übereinstimmt. Nachdem das Problem gelöst wurde, wird eine Feedback-Schleife initiiert, in der ein Mitarbeiter Kundenfeedback einholt, um die Zufriedenheit zu ermitteln. Wenn der Kunde unzufrieden ist, reviews das LLM das Feedback und kann weitere Folgemaßnahmen einleiten, wie zum Beispiel einen Anruf eines menschlichen Mitarbeiters.
LLMs sind zwar vielseitig, können aber mit Aufgaben, die tiefgreifende Fachkenntnisse oder Spezialwissen erfordern, Schwierigkeiten haben, insbesondere wenn diese Aufgaben außerhalb der Trainingsdaten des LLM liegen. Außerdem sind sie langsam und nicht gut geeignet, um in dynamischen Umgebungen Entscheidungen in Echtzeit zu treffen. Im Gegensatz dazu können Agenten mithilfe einfacherer Entscheidungsfindungsalgorithmen autonom und proaktiv in Echtzeit agieren.
Agenten können, anders als große, monolithische LLMs, auch so konzipiert werden, dass sie aus ihrer Umgebung lernen und sich an sie anpassen. Sie können Reinforcement Learning oder Feedback-Schleifen verwenden, um die Leistung im Laufe der Zeit zu verbessern und Strategien an den Erfolg oder Misserfolg früherer Aufgaben anzupassen. Agentische Workflows erzeugen selbst neue Daten, die dann für weiteres Training verwendet werden können.
Dieses Szenario verdeutlicht, dass ein LLM zwar ein nützlicher Teil der Lösung eines betrieblichen Problems ist, aber nicht die gesamte Lösung darstellt. Das sind gute Nachrichten, denn das LLM ist oft das teuerste Teil der Wertschöpfungskette.
Smolinski argumentiert, dass Menschen in ihrer Begeisterung für neue Technologien oft zu Extremen neigen. Wir könnten denken, dass eine neue Technologie die Welt verändern wird, und wenn dies nicht der Fall ist, könnten wir übermäßig pessimistisch werden.
„Ich denke, die Antwort liegt irgendwo in der Mitte“, sagt er und argumentiert, dass KI Teil einer umfassenderen Strategie zur Lösung von Geschäftsproblemen sein muss. „Es handelt sich in der Regel nie um KI allein, und selbst wenn dies der Fall ist, werden möglicherweise mehrere Arten von KI-Modellen gleichzeitig angewendet, um ein Problem zu lösen.“ Beginnen müssen Sie jedoch mit dem Problem. Wenn es eine KI-Anwendung gibt, die einen wesentlichen Einfluss auf Ihre Entscheidungsfindung haben könnte, was wiederum zu einer wesentlichen finanziellen Auswirkung führen würde, konzentrieren Sie sich auf diese Bereiche und finden Sie heraus, wie Sie die richtigen Technologien und KI einsetzen können. Nutzen Sie das gesamte Toolkit, nicht nur LLMs, sondern die gesamte Bandbreite der verfügbaren Tools.“
Was die sogenannte „Anwendungsfallkrise“ betrifft, ist Hay zuversichtlich, dass noch überzeugendere Anwendungsfälle auftauchen werden, die die Kosten dieser Modelle rechtfertigen.
„Wer wartet, bis die Technologie perfekt ist und erst dann in den Markt einsteigt, wenn sich alles normalisiert hat, riskiert, vom Markt verdrängt zu werden“, sagt er. „Ich bin mir nicht sicher, ob ich dieses Risiko eingehen würde.“