Veröffentlicht: 18. September 2024
Mitwirkende: Ivan Belcic, Cole Stryker
Generative vortrainierte Transformatoren (GPTs) sind eine Familie fortgeschrittener neuronaler Netze, die für Aufgaben der Verarbeitung natürlicher Sprache (NLP) entwickelt wurden. Diese Large Language Models (LLMs) basieren auf einer Transformer-Architektur und werden einem unüberwachten Vortraining auf riesigen, nicht beschrifteten Datensätzen unterzogen.
GPT-Modelle bilden die Grundlage vieler Anwendungen generativer KI wie ChatGPT. Wie viele andere Formen der KI ist GPT darauf ausgelegt, Outputs zu automatisieren – mit dem Ziel, von Menschen erstellte Ergebnisse zu simulieren.
Das KI-Forschungsunternehmen OpenAI stellte 2018 das erste GPT-Modell mit dem Namen GPT-1 vor. Seitdem haben sie mehrere Weiterentwicklungen der GPT-Reihe von KI-Modellen herausgebracht. Das neueste GPT-Modell ist GPT-4, das Anfang 2023 veröffentlicht wurde. Im Mai 2024 kündigte OpenAI das mehrsprachige und multimodale GPT-4o1 an, das in der Lage ist, Audio-, Video- und Texteingaben in Echtzeit zu verarbeiten.
Als Foundation Model wurde GPT anschließend feinabgestimmt und an eine Vielzahl nachgelagerter spezifischer Aufgaben angepasst. Neben textbasierten Anwendungen unterstützt GPT auch Apps für künstliche Intelligenz (KI), die Bilder mithilfe von Computer Vision generieren und analysieren, Code schreiben, Daten verarbeiten und vieles mehr. Diese Apps stellen über Programmierschnittstellen (APIs) eine Verbindung zu GPT her, über die sie Daten austauschen können.
Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von KI-Modellen den richtigen Ansatz wählen.
Der CEO-Leitfaden zur generativen KI
GPT-Modelle haben die Entwicklung der generativen KI dank ihrer Transformer-Architektur beschleunigt, einer Art neuronales Netz, das 2017 im Google Brain-Bericht „Attention Is All You Need“2 vorgestellt wurde. Transformator-Modelle wie GPT und BERT haben seitdem viele bemerkenswerte Entwicklungen im Bereich der generativen KI vorangetrieben, wobei der Chatbot ChatGPT von OpenAI im Mittelpunkt steht.
Neben OpenAI haben auch andere Unternehmen ihre eigenen generativen KI-Modelle veröffentlicht. Dazu gehören Claude von Anthropic, Pi von Inflection und Gemini von Google, früher bekannt als Bard. Inzwischen ist OpenAI die treibende Kraft hinter dem KI-gestützten Copilot-Dienst von Microsoft.
Die Flexibilität von Transformator-Modellen wie GPT ermöglicht eine Vielzahl von Anwendungsfällen. Die Fähigkeit von GPT, eine menschenähnliche Textgenerierung zu ermöglichen, macht es zu einer weit verbreiteten Wahl für:
Chatbots, die auf GPT basieren, können sich menschlicher anfühlen als herkömmliche, automatisierte Optionen für den Kundenservice. Über APIs können Unternehmen GPT mit Sprach-Apps verknüpfen, um Sprachassistenten zu erstellen, die in der Lage sind, auf komplexere Aussagen zu reagieren und Frage-Antwort-Dienste im Gespräch bereitzustellen.
Mit effektiven Prompts können GPT-Modelle Textinhalte generieren, die von kurzen Social-Media-Beiträgen bis hin zu vollständigen Blogbeiträgen und E-Mails reichen. Außerdem können Autoren GPTs verwenden, um Inhalte zu skizzieren oder zu konzipieren, die sie dann selbst schreiben, und so die Workflows für die Erstellung von Inhalten zu optimieren.
Die Verwendung von GPT zur direkten Generierung von Inhalten für die Veröffentlichung könnte zu Bedenken hinsichtlich des geistigen Eigentums führen – eines der größten Risiken bei der Verwendung von GPT.
GPT-gestützte Apps können Sprache in Echtzeit sowohl aus schriftlichen als auch aus Audioquellen übersetzen. In einer Live-Demo3 demonstrierte GPT-4o seine Fähigkeit, eigenständig in Echtzeit zu übersetzen.
GPT kann umfangreiche Dokumente wie Rechtsdokumente oder Geschäftsberichte verarbeiten und zusammenfassen. Es kann auch Inhalte in dem vom Benutzer angegebenen Stil umschreiben. Ein Benutzer könnte beispielsweise einen Quartalsbericht als Eingabedaten bereitstellen und dann eine Zusammenfassung in Form von prägnanten Aufzählungspunkten anfordern.
GPT kann große Datenmengen in verwertbare Erkenntnisse umwandeln. Über APIs können andere Apps GPT verwenden, um Diagramme, Grafiken und andere Typen von Datenvisualisierungen zu erstellen. Unternehmen, die interne Daten in GPT einspeisen, könnten sich Cybersicherheitsverletzungen aussetzen oder gegen Datenschutzbestimmungen verstoßen.
GPT-Modelle können Programmiersprachen erlernen und Code-Schnipsel generieren. In der Regel erzielen Benutzer bessere Ergebnisse, wenn sie GPT als Codierungshilfe einsetzen, anstatt es zu bitten, komplette Apps von Grund auf neu zu erstellen. Alle von GPT generierten Inhalte, einschließlich Code, sollten vor der Verwendung überprüft werden, um die Richtigkeit und faire Verwendung sicherzustellen.
Im Februar 2024 veröffentlichte die US National Library of Medicine (Link befindet sich außerhalb von ibm.com) ein Dokument, in dem potenzielle GPT-Anwendungen im Gesundheitswesen skizziert werden. Dazu gehören ein gleichbleibender Zugang für Patienten in entlegenen Gebieten sowie personalisierte Versorgungsoptionen. Das Papier behandelt jedoch auch eine Reihe von Nachteilen, wie z. B. Bedenken hinsichtlich des Datenschutzes und Wissenslücken.
GPT-Modelle arbeiten, indem sie eine Eingabesequenz analysieren und komplexe Mathematik anwenden, um den wahrscheinlichsten Output vorherzusagen. Es verwendet Wahrscheinlichkeiten, um das bestmögliche nächste Wort in einem Satz zu ermitteln, basierend auf allen vorherigen Wörtern. Als eine Art von Deep-Learning-KI-Technologie können GPTs Prompts in natürlicher Sprache verarbeiten, um relevante, menschenähnliche Textantworten zu generieren.
Wenn ein Benutzer einen textbasierten Prompt eingibt, erstellt GPT die wahrscheinlichste Antwort auf der Grundlage seiner Trainingsdaten, die Milliarden öffentlich zugänglicher Textdatenquellen umfassen, die von berühmten literarischen Werken bis hin zu Open-Source-Code reichen.
Der Umfang seiner Trainingsdatensätze ist der Grund dafür, dass GPT in der Lage ist, menschenähnliche Fähigkeiten des Sprachverständnisses nachzuahmen. Groß angelegte GPT-Modelle wenden Deep Learning an, um den Kontext zu verarbeiten und Wissen aus dem relevanten Text in ihren Trainingsdaten zu ziehen, um die optimale Antwort vorherzusagen.
Die Stärke von GPT-Modellen beruht auf zwei wesentlichen Aspekten:
Generatives Vortraining, das dem Modell beibringt, Muster in nicht gekennzeichneten Daten zu erkennen und diese Muster dann auf neue Eingaben anzuwenden.
Eine Transformer-Architektur, die es dem Modell ermöglicht, alle Teile einer Eingabesequenz parallel zu verarbeiten.
Beim generativen Vortraining wird ein Large Language Model mit nicht gekennzeichneten Daten trainiert, um dem Modell beizubringen, verschiedene Daten zu erkennen, und seine Fähigkeit zu verbessern, genaue Vorhersagen zu treffen. GPTs generieren neue Daten, indem sie die Muster und Strukturen ihrer vortrainierten Daten auf Benutzereingaben anwenden.
Generatives Vortraining ist eine Form des unüberwachten Lernens, bei dem das Modell mit nicht gekennzeichneten Daten gefüttert wird und gezwungen ist, diese selbst zu verstehen. Durch das Erkennen von Mustern in unmarkierten Datensätzen erlangen Modelle des maschinellen Lernens die Fähigkeit, ähnliche Schlussfolgerungen zu ziehen, wenn sie neuen Eingaben ausgesetzt werden, wie z. B. einem Prompt des Benutzers in ChatGPT.
GPT-Modelle werden mit Milliarden oder sogar Billionen von Parametern trainiert: interne Variablen, die ein Modell im Laufe des Trainingsprozesses verfeinert und die sein Verhalten bestimmen. Obwohl OpenAI noch keine genauen Details zu GPT-4 bekannt gegeben hat, wird geschätzt, dass das Modell etwa 1,8 Billionen Parameter4 enthält, was einer Steigerung um mehr als das Zehnfache gegenüber GPT-3.5 entspricht.
Transformator-Modelle sind ein Typ eines neuronalen Netzes, das auf die Verarbeitung natürlicher Sprache spezialisiert ist: die Absicht und Bedeutung in einer textbasierten Eingabe zu identifizieren. Sie können Eingaben dynamisch verarbeiten und die wichtigsten Wörter herausfiltern, unabhängig davon, wo im Satz sie sich befinden.
GPT-Modelle verstehen Sprache nicht auf die gleiche Weise wie Menschen. Stattdessen werden Wörter in einzelne Einheiten, sogenannte Token, zerlegt, wobei einige Wörter in mehrere Token aufgeteilt werden. Durch die gleichzeitige Auswertung aller Token sind Transformatoren hervorragend darin, Abhängigkeiten über große Entfernungen hinweg herzustellen: Beziehungen zwischen weit entfernten Token. GPT stützt sich auf sein Verständnis langfristiger Abhängigkeiten, um Eingaben kontextbezogen zu verarbeiten.
Transformator-Modelle verarbeiten Daten mit zwei Modulen – die als Encoder und Decoder bekannt sind – und nutzen Selbstaufmerksamkeitsmechanismen, um Abhängigkeiten und Beziehungen herzustellen.
Selbstbeobachtungs-Mechanismus sind das charakteristische Merkmal von Transformatoren, die es ihnen ermöglichen, eine gesamte Eingangssequenz auf einmal zu verarbeiten. Transformatoren können ihre „Aufmerksamkeit“ auf die wichtigsten Zeichen in der Eingabesequenz lenken, unabhängig davon, wo sie sich befinden.
Im Gegensatz dazu werten ältere wiederkehrende neuronale Netze (RNNs) und Convolutional Neural Networks (CNNs) Eingabedaten sequenziell oder hierarchisch aus. Mit der Selbstbeobachtung können GPTs den Kontext verarbeiten und ausführlich mit einer Sprache antworten, die sich natürlich anfühlt, anstatt nur das nächste Wort in einem Satz zu erraten.
Bei der Codierung werden Token auf einen virtuellen dreidimensionalen Vektorraum abgebildet. Es wird davon ausgegangen, dass Token, die in der Nähe im 3D-Raum codiert werden, eine ähnliche Bedeutung haben. Diese mathematische Vektorisierung einer Eingabesequenz wird als Einbettung bezeichnet.
Die Encoder-Blöcke im Transformator-Netzwerk weisen jeder Einbettung ein Gewicht zu, das ihre relative Wichtigkeit bestimmt. In der Zwischenzeit erfassen Positionsencoder die Semantik und ermöglichen es GPT-Modellen, zwischen Gruppierungen derselben Wörter, aber in unterschiedlicher Reihenfolge zu unterscheiden – zum Beispiel „Das Ei kam vor dem Huhn“ im Vergleich zu „Das Huhn kam vor dem Ei“.
Decoder sagen die statistisch wahrscheinlichste Antwort auf die von den Encodern vorbereiteten Einbettungen voraus. Selbstbeobachtungs-Mechanismen ermöglichen es dem Decoder, die wichtigsten Teile der Eingangssequenz zu identifizieren, während fortschrittliche Algorithmen die wahrscheinlichste Ausgabe ermitteln.
Seit der Veröffentlichung von GPT im Jahr 2018 steht OpenAI weiterhin an vorderster Front der laufenden Debatte über generative KI. Neben seinem Vorzeigeprodukt ChatGPT hat das Unternehmen auch die Bilderzeugung mit DALL-E sowie die generative Videoerzeugung mit Sora vorangetrieben.
OpenAI veröffentlicht sein erstes GPT-Modell. Seine Leistung war für die damalige Zeit beeindruckend und diente als Machbarkeitsnachweis für das, was spätere Entwicklungen erreichen würden. GPT-1 war in der Lage, Fragen auf menschenähnliche Weise zu beantworten und auf Prompts zur Texterstellung zu reagieren, was seine zukünftigen Anwendungsfälle in Chatbots und bei der Erstellung von Inhalten hervorhebt.
GPT-1 war vergleichsweise anfällig für Halluzinationen oder Konfabulationen, bei denen es falsche Informationen so präsentierte, als wären sie wahr. Die Antworten deuteten darauf hin, dass OpenAI die Fähigkeit von GPT, langfristige Abhängigkeiten zu erkennen und präzise Langform-Antworten aneinanderzureihen, noch nicht verfeinert hatte.
Das nächste Modell von OpenAI verfügte über 1,5 Milliarden Parameter, was seine Leistung verbesserte. GPT-2 war erfolgreicher als sein Vorgänger, wenn es darum ging, die Kohärenz über längere Antworten hinweg aufrechtzuerhalten, was darauf hindeutet, dass seine langfristige Abhängigkeitserkennung viel besser etabliert war.
GPT-2 wurde schrittweise veröffentlicht, wobei mehrere Modelle mit begrenzter Kapazität vor der Vollversion verfügbar waren. In einer Erklärung5 erklärte OpenAI, dass die gestaffelte Veröffentlichung notwendig sei, um potenziellen Missbrauch und andere ethische Bedenken zu minimieren. OpenAI führte an, wie das Modell dazu verwendet werden könnte, sich online als jemand anderes auszugeben, irreführende Nachrichten zu generieren und sowohl Cybermobbing als auch Phishing-Inhalte zu automatisieren.
Obwohl Sam Altman, CEO von OpenAI, wiederholt öffentlich eine staatliche Regulierung der KI gefordert hat, hat das Unternehmen auch privat Lobbyarbeit betrieben, um das KI-Gesetz der EU weniger restriktiv zu gestalten6. Der endgültige Wortlaut des Gesetzes, das im Juni 2024 vom Europäischen Parlament verabschiedet wurde, schien den Empfehlungen des Unternehmens zu entsprechen.
Mit 175 Milliarden Parametern – über hundertmal mehr als sein Vorgänger – entwickelte sich GPT-3 zu einem der größten LLMs seiner Zeit. Seine Fähigkeiten übertrafen die seiner Vorgänger bei Weitem. Die kostenlose Version von ChatGPT basiert immer noch auf GPT-3.5, der aktuellsten Version von GPT-3.
Während die Leistung von GPT-3 seine zusätzliche Leistung und Größe widerspiegelte, stiegen auch die Trainingsanforderungen sprunghaft an. Die für das Training solch großer LLMs erforderlichen Rechen- und Energieressourcen gaben Anlass zur Sorge hinsichtlich ihres CO2- und Wasser-Fußabdrucks7. Als Reaktion darauf entwickelte OpenAI neuartige Trainingsmethoden, die die Effizienz des Trainingsprozesses erhöhten.
Die aktuelle Version von GPT ist die bisher leistungsstärkste von OpenAI und übertrifft ihre Vorgänger sowohl in der Qualität der Inhalte als auch in der Vermeidung von Verzerrungen. Es steckt hinter der Premium-Version von ChatGPT und bietet Abonnenten eine größere Funktionalität und Leistung als die kostenlose Version des Chatbots, der auf GPT-3.5 basiert.
Allerdings ist es auch das ressourcenintensivste Modell in der GPT-Familie, wobei die täglichen Betriebskosten auf 700.000 US-Dollar geschätzt werden8. Während die LLMs weiter wachsen, halten die Debatten über die Kosten im Vergleich zu den potenziellen Vorteilen an. In einem Bericht von Goldman Sachs vom Juni 20249 wurde auf die potenziell begrenzten Anwendungsfälle generativer KI im Vergleich zu den steigenden Kosten für die Schulung und Wartung von Modellen hingewiesen.
GPT-4 Turbo, die aktuelle Version des Modells, hat einen Wissens-Cutoff vom April 2023. Das bedeutet, dass die Trainingsdaten oder die Wissensdatenbank keine Online-Inhalte abdecken, die nach diesem Zeitpunkt veröffentlicht wurden.
GPT-4o wurde im Mai 2024 vorgestellt und ist mehrsprachig, d. h., es unterstützt Inhalte in zahlreichen nicht-englischen Sprachen. GPT-4o wurde im Mai 2024 vorgestellt und ist multilingual, unterstützt also Inhalte in zahlreichen nicht-englischen Sprachen. Laut OpenAI ist GPT-4o bei der Textgenerierung 50 % günstiger und doppelt so schnell10 wie GPT-4 Turbo.
Während GPTs und andere generative KI-Modelle in den Medien weithin gefeiert wurden, ist ihr Einsatz nicht ganz risikofrei. Unternehmen und Einzelpersonen, die GPTs in ihre Workflows integrieren möchten, sollten sich der potenziellen Risiken bewusst sein, darunter:
Datenschutz und Vertraulichkeit
Verletzungen des geistigen Eigentums und Eigentumskonflikte
Ungenauer Output
Modellverzerrungen
Alle in GPT eingegebenen Daten stehen für die Verarbeitung anderer Anfragen zur Verfügung und können von OpenAI zum Trainieren anderer Modelle verwendet werden. Dies stellt nicht nur ein Sicherheitsrisiko für vertrauliche Daten dar, sondern birgt auch die Gefahr, dass Unternehmen gegen vertragliche und gesetzliche Verpflichtungen zum Datenschutz verstoßen.
OpenAI trainiert seine Modelle mit urheberrechtlich geschütztem Material. Das Unternehmen verteidigt diese Entscheidung als faire Nutzung, wurde jedoch verklagt, unter anderem von The New York Times11, die im Dezember 2023 Klage einreichte. KI-generierte Ergebnisse können urheberrechtlich geschützte Inhalte enthalten, und ihre Verwendung kann gegen Urheberrechtsbeschränkungen verstoßen, wenn sie nicht zuvor von Menschen überprüft und bearbeitet werden.
OpenAI geriet auch in die Kritik, als eine seiner ChatGPT-Stimmen angeblich der des Schauspielers Scarlett Johansson ähnelte12, die 2013 im Film Her die Stimme einer futuristischen KI spielte. OpenAI verwendet diese bestimmte Stimme seitdem nicht mehr in seinen Produkten.
Es kann nicht garantiert werden, dass die von GPT generierten Ergebnisse sachlich korrekt sind. Generative KI-Modelle unterliegen KI-Halluzinationen oder Konfabulationen, bei denen ihre Algorithmen Muster in den Daten erkennen, die nicht existieren. Konfabulationen führen dazu, dass die Modelle ungenaue Inhalte produzieren, die dem Benutzer als verlässliche Fakten präsentiert werden. Diese Tendenz in Bezug auf ChatGPT wurde in einem Artikel von Hicks und anderen aus dem Jahr 2024 ausführlich untersucht13.
Modellverzerrung ist eine Abweichung zwischen den Vorhersagen eines Modells, die auf seinen Trainingsdaten basieren, und dem, was in der realen Welt passiert. GPT wird anhand von Unmengen von Internetdaten trainiert, und da diese Inhalte von Menschen erstellt werden, können sie diskriminierende Ansichten enthalten – manchmal absichtlich, oft auch nicht. Da KI in die Polizeiarbeit, das Gesundheitswesen und andere Bereiche des täglichen Lebens integriert wird, können KI-Verzerrungen reale Konsequenzen haben.
Entdecken Sie die Foundation-Model-Bibliothek von IBM auf der watsonx™-Plattform, die Ihnen hilft, generative KI für Ihr Geschäft zuverlässig zu skalieren.
Erfahren Sie mehr über das Enterprise Studio der nächsten Generation für KI-Entwickler, um KI-Modelle zu trainieren, zu validieren, abzustimmen und bereitzustellen.
Definieren Sie die Art und Weise, wie Sie mit KI für Unternehmen arbeiten neu.
Von KI-Pilotprojekten zur Umsetzung – nutzen Sie erfolgreich KI-Technologien, die für Unternehmen entwickelt wurden.
Steigern Sie die Wettbewerbsfähigkeit in der Konsumgüterbranche mit generativer KI.
Die Gestaltung von Erfahrungen mit generativer KI ermöglicht eine stärkere Personalisierung und Automatisierung und verwandelt Content-Ersteller in Content-Kuratoren.
Können KI-Ethiktools helfen? Sind die Tools selbst verzerrt? Hier ein kurzer Überblick über die neuesten Forschungsergebnisse.
1 Hello GPT-4o (Link befindet sich außerhalb von ibm.com), OpenAI, 13. Mai 2024
2 Attention Is All You Need (Link befindet sich außerhalb ibm.com), Vaswani et al., 12. Juni 2017
3 Live demo of GPT-4o realtime translation (Link befindet sich außerhalb ibm.com), OpenAI, 13. Mai 2024
4 GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE (Link befindet sich außerhalb ibm.com), Patel & Wong, 10. Juli 2023
5 Better language models and their implications (Link befindet sich außerhalb ibm.com), OpenAI, 14 Februar 14 2019
6 Exclusive: OpenAI Lobbied the E.U. to Water Down AI Regulation (Link befindet sich außerhalb ibm.com), Perrigo, 20. Juni 2023
7 A Computer Scientist Breaks Down Generative AI's Hefty Carbon Footprint (Link befindet sich außerhalb ibm.com), Saenko und andere, 25. Mai 2023
8 Microsoft Readies AI Chip as Machine Learning Costs Surge (Link befindet sich außerhalb ibm.com), Gardizy & Ma, 18. April 2023
9 GenAI: Too Much Spend, Too Little Benefit? (Link befindet sich außerhalb ibm.com), Nathan, Grimberg & Rhodes, 25. Juni 2024
10 OpenAI Platform (Link befindet sich außerhalb ibm.com), OpenAI
11 Case 1:23-cv-11195 (Link befindet sich außerhalb ibm.com), Barron et al, 27. Dezember 2023
12 Scarlett Johansson says a ChatGPT voice is „eerily similar” to hers and OpenAI is halting its use (Link befindet sich außerhalb von ibm.com), Grantham-Philips, 21. Mai 2024
13 ChatGPT is bullshit (Link befindet sich außerhalb von ibm.com), Hicks und andere, 8. Juni 2024