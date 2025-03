Das Modell wurde erstmals 2017 in einem Artikel mit dem Titel „Attention is All You Need“ von Ashish Vaswani, einem Team bei Google Brain, und einer Gruppe von der University of Toronto beschrieben. Die Veröffentlichung dieses Papiers gilt als Wendepunkt in diesem Bereich, wenn man bedenkt, wie weit verbreitet Transformatoren heute in Anwendungen wie dem Training von LLMs sind.

Diese Modelle können Text und Rede nahezu in Echtzeit übersetzen. Beispielsweise gibt es Apps, die es Touristen mittlerweile ermöglichen, auf der Straße mit Einheimischen in deren Muttersprache zu kommunizieren. Sie helfen Forschern, die DNA besser zu verstehen und die Entwicklung von Arzneimitteln zu beschleunigen. Sie können Anomalien erkennen und Betrug in den Bereichen Finanzen und Sicherheit verhindern. Vision-Transformator werden in ähnlicher Weise für Computer-Vision-Aufgaben verwendet.

Das beliebte ChatGPT-Textgenerierungstool von OpenAI nutzt Transformator-Architekturen für Vorhersagen, Zusammenfassungen, Fragen und mehr, da sich das Modell auf die relevantesten Segmente des Eingabetexts konzentrieren kann. Das „GPT“, das in den verschiedenen Versionen des Tools zu sehen ist (z. B. GPT-2, GPT-3) steht für „Generative Pre-Trained Transformator“. Textbasierte generative KI-Tools wie ChatGPT profitieren von Transformator-Modellen, da sie auf der Grundlage großer, komplexer Datensätze das nächste Wort in einer Textsequenz leichter vorhersagen können.

Das BERT-Modell oder Bidirectional Encoder Representations from Transformers basiert auf der Transformator-Architektur. Seit 2019 wurde BERT für fast alle Google-Suchergebnisse in englischer Sprache verwendet und in über 70 anderen Sprachen eingeführt.1