Wir nähern uns der Mitte des Jahres 2025 und können auf die vorherrschenden Trends im Bereich der künstlichen Intelligenz zurückblicken – und einen Blick darauf werfen, was der Rest des Jahres bringen könnte.
Angesichts des Umfangs und der Tiefe der KI-Entwicklung kann keine Zusammenfassung der KI-Trends Anspruch auf Vollständigkeit erheben. Dieses Stück ist da keine Ausnahme. Wir haben uns auf eine Liste von 10 beschränkt: 5 Entwicklungen, die die erste Jahreshälfte geprägt haben, und 5 weitere, von denen wir erwarten, dass sie in den kommenden Monaten eine wichtige Rolle spielen werden.
Trends in der KI werden nicht nur durch Fortschritte bei den KI-Modellen und -Algorithmen selbst vorangetrieben, sondern auch durch die immer größer werdende Palette an Anwendungsfällen, auf die die Funktionen der generativen KI angewendet werden. Mit zunehmender Leistungsfähigkeit, Vielseitigkeit und Effizienz der Modelle werden auch die KI-Anwendungen, KI-Tools und andere KI-gestützte Workflows, die sie ermöglichen, immer leistungsfähiger. Um wirklich zu verstehen, wie sich das heutige KI-Ökosystem entwickelt, ist daher ein kontextuelles Verständnis der Ursachen und Auswirkungen von Durchbrüchen im Bereich des maschinellen Lernens erforderlich.
In diesem Artikel werden in erster Linie aktuelle Trends untersucht, deren reale Auswirkungen sich erst nach Monaten zeigen werden, also Trends, die sich hauptsächlich im Jahr 2025 spürbar auswirken. Es gibt natürlich auch andere KI-Initiativen, die zeitloser und bekannter sind. So gibt es beispielsweise in jüngster Zeit zwar vereinzelt Fortschritte bei der Entwicklung vollautonomer Fahrzeuge – Pilotprojekte für Robotaxis wurden in einigen US-amerikanischen Städten gestartet, und im Ausland finden weitere Tests in Oslo, Genf und 16 chinesischen Städten statt –, doch von der flächendeckenden Verbreitung sind sie wohl noch Jahre entfernt.
Viele andere wichtige Makrotrends in der KI – wie das Aufkommen von KI-Agenten oder die Veränderung von Suchverhalten und SEO durch KI– sind breit gefächert, facettenreich und wurden an anderer Stelle bereits ausführlich behandelt. Sie wurden daher zugunsten fokussierterer Entwicklungen außer Acht gelassen, die in den Medien keine so breite Aufmerksamkeit erfahren haben.
Kommen wir nun zu der Liste.
Fortschritt erfordert nicht unbedingt einen ständigen Zustrom neuer Ideen. Viele der wichtigsten KI-Trends im ersten Halbjahr 2025 spiegeln Veränderungen in der Art und Weise wider, wie die Branche bestehende Ideen umsetzt – einige pragmatisch und produktiv, andere weniger.
Die heutigen Modelle sind nicht nur deutlich besser als frühere Modelle, sondern auch wesentlich günstiger im Betrieb. Betrachten Sie dieses Diagramm von SemiAnalysis: In weniger als 2 Jahren ist der Preis pro Token, um bei der MMLU-Benchmark gleichwertige Ergebnisse zu erzielen, um das Dutzendfache gesunken. Das ist für niemanden, der die Leistungsmetriken der aufeinanderfolgenden Generationen von Modellveröffentlichungen beobachtet hat, etwas Neues. Aber in der Gesamtheit betrachtet, veranschaulicht dieses sich ständig beschleunigende Tempo der Verbesserung den Grund für den Hype um generative KI besser als die bereits beeindruckenden Funktionen von heutigen Modellen.
Eine Studie schätzt das Tempo der algorithmischen Verbesserung auf etwa 400 % pro Jahr. Mit anderen Worten: Die heutigen Ergebnisse können in einem Jahr mit einem Viertel der Rechenleistung erreicht werden – und das ohne Berücksichtigung gleichzeitiger Verbesserungen in der Datenverarbeitung (siehe: Mooresches Gesetz) oder synthetischen Trainingsdaten. Das ursprüngliche GPT-4, das rund 1,8 Billionen Parameter besitzen soll,1 erreichte bei HumanEval, einer beliebten Benchmark für die Leistung der Codierung, eine Bewertung von 67 %. IBM Granite 3.3 2B Instruct, zwei Jahre später veröffentlicht und 900-mal kleiner, erreichte eine Bewertung von 80,5 %.2
Diese exponentielle Expansion der Modellökonomie treibt die aufkommende Ära der KI-Agenten mehr als alles andere voran. Große Sprachmodelle (LLMs) werden schneller praktischer, als sie leistungsfähiger werden, was die Bereitstellung komplexer Multi-Agenten-Systeme ermöglicht, in denen eine Gruppe von Modellen komplexe Aufgaben autonom planen, ausführen und koordinieren kann – ohne explodierende Inferenzkosten.
Mit der Veröffentlichung von o1 von OpenAI wurde eine neue Möglichkeit zur Steigerung der Modellleistung eingeführt. Seine atemberaubende Verbesserung gegenüber dem bisherigen Stand der Technik bei hochtechnischen Mathematik- und Codierungs-Benchmarks hat ein Wettrennen bei den sogenannten „Reasoning-Modellen“ ausgelöst. Ihre verbesserte Leistung bei Aufgaben, die logische Entscheidungsfindung erfordern, spielt eine wichtige Rolle bei der Entwicklung von agentischer KI. Aber wie es bei KI-Technologie so oft der Fall ist, ist die anfängliche Begeisterung über die reine Leistung in letzter Zeit der Suche nach der praktischsten Implementierung gewichen.
Die Intuition hinter den Reasoning-Modellen geht auf Untersuchungen zurück, die zeigen, dass eine höhere Skalierung der Rechenleistung während der Testzeit (zur Generierung einer Ausgabe) die Leistung ebenso verbessern kann wie die Skalierung der Rechenleistung zur Trainingszeit (die zum Trainieren eines Modells verwendet wird). Diese Erkenntnis manifestierte sich in Techniken zur Feinabstimmung von Modellen auf eine Weise, die die Generierung längerer, komplexerer „Denkprozesse“ vor einer endgültigen Ausgabe anregt – eine Schule von Techniken, die im Allgemeinen als Inferenzskalierung bezeichnet wird.
Aber die Skalierung der Inferenzen bedeutet auch höhere Inferenzkosten und Latenzen. Die Benutzer müssen für alle Token bezahlen (und warten), die das Modell generiert, während sie über die endgültigen Antworten „nachdenken“, und diese Denk-Token verbrauchen das verfügbare Kontextfenster. Es gibt Anwendungsfälle, die diesen zusätzlichen Zeit- und Rechenaufwand rechtfertigen, aber es gibt auch viele Szenarien, in denen dies eine Verschwendung von Ressourcen ist. Der ständige Wechsel von einem Denkmodell zu einem „Standard“-Modell für jede einzelne Aufgabe und jeden einzelnen Prompt ist jedoch unpraktisch.
Die Lösung liegt derzeit in „Hybrid-Reasoning-Modellen“. Im Februar bot IBM Granite 3.2 als erstes LLM einen umschaltbaren „Denkmodus“ an, der es den Benutzern ermöglicht, Reasoning bei Bedarf zu nutzen und ansonsten Effizienz zu priorisieren.3 Claude 3.7 Sonnet von Anthropic folgte wenige Wochen später und bot API-Nutzern die Möglichkeit, eine fein abgestufte Kontrolle darüber zu haben, wie lange das Modell „denkt“.4 Google hat eine ähnliche „denkende“ Modularitätsfunktion für Gemini 2.5 Flash eingeführt.5 Qwen3 von Alibaba ermöglicht ebenso wie IBM Granite das Ein- und Ausschalten des „Denkens“.
Laufende Forschungsarbeiten zielen darauf ab, unser Verständnis dafür zu verbessern, was tatsächlich passiert, während Denkmodelle „denken“, und inwieweit erweiterte Gedankenketten (Chain of Thought, CoT) tatsächlich zu Ergebnissen beitragen. Ein im April veröffentlichtes Papier legt nahe, dass Denkmodelle bei einigen Aufgaben auch ohne die Ausgabe von Gedanken effektiv sein können. Unterdessen behaupteten Anthropic-Studien von Anfang des Monats, dass die CoT-Ergebnisse, die dem Nutzer angezeigt werden,möglicherweise nicht das widerspiegeln, was das Modell wirklich „denkt“.
Die Entwicklung von KI hat sich schon immer stark auf die Nutzung von Open-Source-Wissensdatenbanken wie Wikipedia und GitHub gestützt. Ihre Bedeutung wird in Zukunft noch zunehmen, vor allem nach den Enthüllungen, dass große KI-Entwickler ihre Modelle mit raubkopierten Büchern aus Torrents trainiert haben – was vermutlich von der weiteren Nutzung dieser alternativen Quellen abhalten wird. Für die Unternehmen, die unschätzbare Open-Source-Ressourcen betreiben, ist die Situation bereits jetzt eine ernste Belastung.
Während eine ganze Reihe von Gerichtsverfahren auf die Schäden aufmerksam gemacht haben, die das Sammeln von Daten – ob legal, illegal oder zweideutig – für das geistige Eigentum mit sich bringt, wurde der Frage, wie der Datenhunger von KI-Systemen den Wissensspeichern schadet, bisher weniger Aufmerksamkeit geschenkt. Wie die Wikimedia Foundation in einer Ankündigung vom April zum Bot-Verkehr erklärte, „[ihre] Inhalte sind kostenlos, [ihre] Infrastruktur ist es nicht“. Insbesondere Wikimedia hat einen potenziell unhaltbaren Ansturm von Web-Traffic durch Scraping-Bots erlebt, die Daten zum Trainieren generativer KI-Modelle sammeln. Seit Januar 2024 ist die Bandbreite, die für das Herunterladen der Multimedia-Inhalte von Wikimedia verwendet wird, um 50 % gestiegen.
Die Zunahme des Traffics ist an sich schon beunruhigend, aber es ist die Art des Traffics, die einen unverhältnismäßigen Druck auf die endlichen Ressourcen ausübt. Das menschliche Surfverhalten ist vorhersehbar: Unser Datenverkehr konzentriert sich auf beliebte Seiten und folgt logischen Mustern, sodass Automatisierungs- und Caching-Strategien möglich sind, die die Bandbreite effizient zuweisen. Im Gegensatz zu Menschen crawlen Bots jedoch wahllos unbekannte Seiten, was Rechenzentren oft dazu zwingt, diese direkt zu bedienen. Das ist nicht nur unter normalen Umständen kostspielig und ineffizient, sondern auch potenziell katastrophal in Situationen, in denen die Infrastruktur auf tatsächliche Nutzungsspitzen in der realen Welt reagieren muss.
Wie Ars Technica berichtet, ist dieses Problem weit verbreitet und wird durch das von vielen als bewusst räuberisch empfundene Verhalten der Bot-Crawler und der Unternehmen, die sie betreiben, noch verschärft. Mehreren dieser Unternehmen, wie etwa Perplexity, wurde vorgeworfen, robots.txt heimlich zu umgehen, und sogar Paywalls zu umgehen, um Daten abzugreifen. Wenn Websites versuchen, den Bot-Zugriff zu begrenzen, werden die Bots auf andere IPs umgeschaltet. Wenn ihre ID direkt blockiert wird, wechseln sie zu alternativen ID-Zeichenfolgen. Ein Open-Source-Infrastrukturmanager, der feststellte, dass fast 25 % des Datenverkehrs seines Netzwerks von ChatGPT-Bots stammten, beschrieb das als „buchstäblichen DDoS-Angriff auf das gesamte Internet“.
Als Reaktion darauf ergreifen viele Projekte aktiv Abwehrmaßnahmen. Das Open-Source-Projekt Anubis zwingt Bots, Rechenaufgaben zu lösen, bevor sie Zugriff erhalten. Ein anderes Unternehmen, Nepenthes, schickt KI-Crawler durch ein „unendliches Labyrinth“. Cloudflare, ein bekannter Anbieter von Webinfrastrukturen, hat vor Kurzem eine Funktion namens „AI Labyrinth“ auf den Markt gebracht, die einen ähnlichen (wenn auch weniger aggressiven) Ansatz verwendet. Wikimedia hat eine neue Initiative ins Leben gerufen, WE5: Responsible Use of Infrastructure, die eine strukturelle Lösung anstrebt.
Die Fähigkeit der kommerziellen KI-Entwicklung und der offenen Wissensspeicher, gemeinsam ein für beide Seiten geeignetes Protokoll zu entwickeln, wird nicht nur enorme Auswirkungen auf die Zukunft der KI haben, sondern auch auf die Zukunft des Internets selbst.
Obwohl das Konzept hinter Mixture of Experts (MoE)-Modellen auf das Jahr 1991 zurückgeht, hat es erst mit der Veröffentlichung des Mixtral-Modells von Mistral AI Ende 2023 Eingang in den Mainstream der Verarbeitung natürlicher Sprache (NLP) oder generativen KI gefunden.6 Obwohl dem Modell und seiner Architektur viel Aufmerksamkeit zuteil wurde – und OpenAIs GPT-4 bei seiner Veröffentlichung gerüchteweise als MoE bezeichnet wurde (obwohl dies nie bestätigt wurde) –, hat dies die Branche kaum dazu motiviert, von ihrem Fokus auf konventionelle „dichte“ LLMs abzuweichen.
Dieser Fokus scheint sich nach DeepSeek-R1 geändert zu haben. DeepSeek-R1 und das DeepSeek-V3-Basismodell, anhand dessen es optimiert wurde, zeigten überzeugend, dass die MoE-Modelle perfekt in der Lage waren, modernste Leistung zu liefern, um ihre bereits nachgewiesene Recheneffizienz zu ergänzen.
Das wiederbelebte Interesse an dünnbesetzten MoE-Modellen zeigt sich in der aktuellen Welle von Modellen der nächsten Generation – einschließlich (aber nicht beschränkt auf) Meta Llama 4, Qwen3 von Alibaba und IBM Granite 4.0 –, die diese Architektur verwenden. Es ist auch möglich, dass einige führende geschlossene Modelle von OpenAI, Anthropic oder Google MoEs sind, obwohl solche Informationen über die Architektur geschlossener Modelle nur selten offengelegt werden.
Da beeindruckende Kapazität und Leistung in den kommenden Jahren zunehmend kommerzialisiert werden, werden die Inferenzgeschwindigkeit und -effizienz, die von dünnbesetzten Modellen geboten werden, wahrscheinlich eine höhere Priorität erhalten.
Die Zukunft ist immer schwer vorherzusagen. Das halsbrecherische Tempo der Verbesserung früherer Generationen von KI-Modellen ließ viele erwarten, dass die Modellgeneration 2025 veröffentlicht werden würde, um wichtige Schritte in Richtung künstlicher allgemeiner Intelligenz (AGI) zu unternehmen. Die neuesten Modelle von OpenAI, Meta und den anderen am stärksten finanzierten Anbietern im KI-Bereich sind zwar zweifellos beeindruckend, aber sie sind sicherlich nicht revolutionär.
Bei der praktischen Umsetzung waren die Fortschritte uneinheitlich. Viele Führungskräfte, die Ende 2023 die Aussichten für die Einführung von KI in ihrem Unternehmen optimistisch einschätzten, verbrachten das Jahr 2024 damit, festzustellen, dass die IT-Infrastruktur ihres Unternehmens noch nicht bereit war, KI zu skalieren.
Unter KI-Analysten wird häufig behauptet, dass KI alltägliche, sich wiederholende Aufgaben übernehmen wird und den Menschen Zeit verschafft, sich auf das große Ganze und kreatives Denken zu konzentrieren. Bisher spiegeln die Daten zur Einführung von KI dies jedoch nicht unbedingt wider. Eine vom IBM Institute for Business Value (IBV) durchgeführte Studie ergab, dass das Gegenteil der Fall ist, zumindest in der Lieferkette des Einzelhandels: 88 % der Einzelhändler gaben an, generative KI für „kreative Ideenfindung/Konzeption“ zu verwenden, 74 % gaben an, sie für die „Erstellung und Bearbeitung von Inhalten“ zu nutzen. Die meiste banale Arbeit ist immer noch menschliches Territorium: Nur 23 % der Einzelhändler nutzen generative KI für die Generierung von Inhaltsvariationen nach Kanal, nur 10 % nutzen sie für die Generierung von Inhaltsvariationen nach geografischer Lage.
Alles in allem ist es nicht so, dass Unternehmen die Einführung von KI nicht aktiv vorantreiben – ein neuer IBV-Bericht zeigt, dass dies definitiv der Fall ist, insbesondere in Bezug auf KI-Agenten –, sondern dass dies nicht in einem geradlinigen, linearen Tempo geschieht. Der Übergang von der Experimentierphase zur formalen Operationalisierung verläuft selten reibungslos.
In der zweiten Hälfte des Jahres 2025 (und bis Anfang nächsten Jahres) werden die Voraussetzungen dafür geschaffen sein, einige Aspekte des Status quo, der seit den ersten Tagen der Ära der generativen KI besteht, nachhaltig zu verändern.
Auf einer fundamentalen Ebene gibt es keinen perfekten Benchmark (oder eine perfekte Reihe von Benchmarks) für KI-Leistung. Jede Benchmark unterliegt dem Goodharts'schen Gesetz: „Wenn eine Maßnahme zu einem Ziel wird, ist sie keine gute Maßnahme mehr.“ Nichtsdestotrotz ist es für die Modellentwicklung – und die Führungskräfte, die mit der Auswahl spezifischer KI-Lösungen und -Modelle betraut sind –, von Vorteil, über standardisierte, transparent verwaltete Leistungsmaßstäbe zu verfügen, um Vergleiche zu ermöglichen.
Die ersten „Standard“-Benchmarks, um die sich die Branche scharte, waren die vom Open LLM Leaderboard auf Hugging Face verwendeten. Als die Benchmarks gesättigt waren - mit anderen Worten, als die meisten Modelle so ähnlich hohe Bewertungsergebnisse erzielten, dass es schwer war, sie zu unterscheiden - führte das Leaderboard im Juni 2024 neue, deutlich anspruchsvollere Bewertungen ein. Wieder einmal haben sich sowohl Open-Source- als auch geschlossene Modelle zusammengefunden, um die Leistung anhand der Bewertungsmaßstäbe des „V2“-Leaderboards zu bewerten. Aber im März 2025 zog sich Hugging Face ganz aus dem Open LLM Leaderboard zurück.
Die Abschaffung der Bestenliste und die Abkehr von den von ihr unterstützten Standard-Benchmarks hat zu einer Diversifizierung der Art und Weise geführt, wie wir Modelle verwenden und ihre Leistung bewerten.
Es gibt eine gewisse Tendenz, eher qualitative Modellvergleichsmethoden wie die beliebte Chatbot Arena gegenüber quantitativen Bewertungen einzusetzen. Aber auch diese sind unvollkommen. In einem kürzlich von einer Reihe angesehener Wissenschaftler und Open-Source-Forscher veröffentlichten Artikel werden mehrere problematische Chatbot-Arena-Praktiken angesprochen, die die größten Modellanbieter stark begünstigen. Diese Veröffentlichung folgte den Vorwürfen, dass Meta Chatbot Arena während der Veröffentlichung von Llama 4 manipuliert habe.
Die Realität ist, dass es keinen besten Benchmark gibt. Die beste Vorgehensweise für Unternehmen besteht wahrscheinlich darin, eigene Benchmarks zu entwickeln, die die Leistung bei den für sie wichtigen Aufgaben am besten widerspiegeln. Ein Unternehmen würde einen Mitarbeiter nicht ausschließlich auf der Grundlage eines IQ-Tests einstellen, und es sollte sich auch nicht für ein Modell entscheiden, das nur auf standardisierten Tests basiert.
Transformer-Modelle, die erstmals 2017 eingeführt wurden, sind maßgeblich für die Ära der generativen KI verantwortlich, und sie bilden weiterhin das Rückgrat aller Bereiche, von der Bilderzeugung über Zeitreihenmodelle bis hin zu LLMs. Zwar werden Transformer in absehbarer Zeit sicherlich nicht verschwinden, sie werden jedoch bald Gesellschaft bekommen.
Transformer haben eine entscheidende Schwäche: Ihr Rechenbedarf skaliert quadratisch mit dem Kontext. Mit anderen Worten: Jedes Mal, wenn sich Ihre Kontextlänge verdoppelt, verbraucht die Selbstbeobachtung nicht nur das Doppelte der Ressourcen, sondern das Vierfache. Dieser „quadratische Engpass“ schränkt von Natur aus die Geschwindigkeit und Effizienz herkömmlicher LLMs ein, insbesondere bei längeren Sequenzen oder bei der Einbeziehung von früheren Informationen in einem erweiterten Austausch. Die kontinuierliche Optimierung der Transformer-Architektur führt weiterhin zu stärkeren Grenzmodellen, aber sie werden extrem teuer.
Mamba, das erstmals im Jahr 2023 eingeführt wurde, ist eine völlig andere Art von Modellarchitektur – genauer gesagt ein Zustandsraummodell – und es ist bereit, Transformern in der Welt der LLMs ihre erste ernsthafte Konkurrenz zu bieten. Die Architektur hat sich bei den meisten Sprachmodellierungsaufgaben als geeignet erwiesen, Transformer zuzuordnen (mit Ausnahme von Aufgaben des kontextbezogenen Lernens wie Few-Shot-Prompting), und ihr Rechenbedarf skaliert linear mit der Kontextlänge. Einfach ausgedrückt, die Art und Weise, wie Mamba den Kontext versteht, ist von Natur aus effizienter: Der Selbstbeobachtungs-Mechanismus von Transformern muss jedes einzelne Token betrachten und wiederholt entscheiden, auf welches geachtet werden soll. Der Selektivitätsmechanismus von Mamba behält nur die Token, die er für wichtig hält.
Was Transformer oder Mamba angeht, so ist die Zukunft der KI wahrscheinlich keine „Entweder-oder“-Situation: Tatsächlich deuten Untersuchungen darauf hin, dass eine Hybrid-Lösung aus den beiden besser ist als jedes für sich genommen. Im vergangenen Jahr wurden mehrere Mamba- oder Hybrid-Mamba/Transformer-Modelle auf den Markt gebracht. Die meisten waren rein akademische Forschungsmodelle, mit bemerkenswerten Ausnahmen wie Codestral Mamba von Mistral AI und der hybriden Jamba-Serie von AI2I. Die kommende IBM Granite 4.0-Serie wird einen Hybrid aus Transformer- und Mamba-2-Architektur verwenden.
Vor allem aber werden die reduzierten Hardwareanforderungen von Mamba und den Hybridmodellen die Hardwarekosten erheblich senken, was wiederum dazu beitragen wird, den Zugang zur KI weiter zu demokratisieren.
Das Aufkommen multimodaler KI-Modelle markiert die Erweiterung von LLMs über den Text hinaus. Bei der nächsten Grenze der KI-Entwicklung geht es darum, diese multimodalen Fähigkeiten in die physische Welt zu bringen.
Dieses aufstrebende Feld fällt weitgehend unter die Überschrift „Verkörperte KI“. Risikokapitalfirmen investieren zunehmend in Start-ups, die fortschrittliche, generative KI-gesteuerte humanoide Robotertechnik entwickeln, wie beispielsweise Skild AI, Physical Intelligence und 1X Technologies.
Ein weiterer Forschungsstrom konzentriert sich auf „Weltmodelle“, die darauf abzielen, reale Interaktionen direkt und ganzheitlich zu modellieren und nicht indirekt und diskret über die Medien Sprach-, Bild- und Videodaten. World Labs, ein Startup unter der Leitung von Fei-Fei Li aus Stanford, der u.a. für den ImageNet-Datensatz bekannt ist, der den Weg für die moderne Computer Vision geebnet hat, hat Ende letzten Jahres 230 Millionen USD eingesammelt.
Einige Labors in diesem Bereich experimentieren mit „virtuellen Welten“, ähnlich wie bei Videospielen: Google DeepMind's Genie 2, zum Beispiel, ist „ein Foundation World Model, das in der Lage ist, eine endlose Vielfalt an handlungsgesteuerten, spielbaren 3D-Umgebungen zu erzeugen. Die Videospielindustrie könnte natürlich der erste direkte Nutznießer des wirtschaftlichen Potenzials der Weltmodelle sein.
Viele (aber nicht alle) führenden KI-Experten, darunter Yann LeCun, leitender KI-Wissenschaftler von Meta und einer der drei „Paten des Deep Learning“,7 glauben, dass Weltmodelle und nicht LLMs der wahre Weg zu AGI sind. In öffentlichen Kommentaren erwähnt LeCun oft das Moravecsche Paradox, die kontraintuitive Vorstellung, dass in der KI komplexe logische Fähigkeiten einfach unkompliziert sind, einfache sensomotorische und Wahrnehmungsaufgaben, die ein Kind problemlos erledigen kann, jedoch nicht.8
In diesem Zusammenhang zielen einige interessante Forschungsvorhaben darauf ab, der KI beizubringen, nicht nur Wörter, sondern Konzepte zu verstehen, indem die KI in einen Roboter integriert wird und ihr Dinge so beigebracht werden, wie wir sie Kindern beibringen.
Das langfristige Versprechen von KI-Agenten besteht darin, dass sie KI nutzen, um komplexe, kontextspezifische Aufgaben autonom und mit wenig bis gar keinem menschlichen Eingreifen auszuführen. Um in der Lage zu sein, seine Entscheidungsfindung an die spezifischen, kontextuell komplizierten Anforderungen eines bestimmten Arbeitsplatzes oder einer bestimmten Situation anzupassen – so wie es ein kompetenter Mitarbeiter oder Assistent tun würde – muss ein KI-Agent bei der Arbeit lernen. Mit anderen Worten: Er muss eine zuverlässige Historie jeder von der KI generierten Interaktion und deren Ablauf speichern.
Doch das Erfassen und Aufbewahren dieser permanenten Erinnerung an jede Interaktion könnte im Widerspruch zu den Kernvorstellungen der digitalen Privatsphäre bei KI stehen, insbesondere wenn mit geschlossenen Modellen gearbeitet wird, die in der Cloud bereitgestellt werden (im Gegensatz zur lokalen Bereitstellung von Open-Source-Modellen).
Zum Beispiel kündigte OpenAI im April an, dass ChatGPT sich jetzt automatisch an jedes Gespräch erinnern wird, das Sie geführt haben, was das Ziel von OpenAI, „KI-Systeme zu entwickeln, die Sie im Laufe Ihres Lebens kennenlernen“, weiter voranbringt. Bemerkenswert ist jedoch, dass die Funktion in der EU, im Vereinigten Königreich, in der Schweiz, in Norwegen, Island und Liechtenstein nicht verfügbar ist – vermutlich, weil sie gegen die bestehenden Datenschutzgesetze und KI-Vorschriften verstößt.9
Es bleibt abzuwarten, ob das Konzept, dass ein Modell nicht nur alle personalisierten Interaktionen mit Ihnen speichert, sondern sie auch für das weitere Training und die Optimierung des Modells nutzt, grundsätzlich mit den zentralen DSGVO-Konzepten wie dem „Recht auf Vergessenwerden“ vereinbar ist.
In der Tat wird die Zukunft der KI und insbesondere der KI-Agenten zunehmend persönlich – in einem Ausmaß, das dazu führen könnte, dass die Auswirkungen der KI über technologische oder wirtschaftliche Überlegungen hinausgehen und in den psychologischen Bereich übergehen.
Ende 2024 verfasste Mustafa Suleyman, CEO von Microsoft AI, einen Blogbeitrag, in dem er das Ziel seines Unternehmens erklärte, „einen KI-Begleiter für alle zu schaffen“. In einem aktuellen Podcast-Interview schlug Mark Zuckerberg, CEO von Meta, „KI-Freunde“ als Lösung für die nationale Einsamkeitsepidemie vor.10 Eine wachsende Zahl von Start-ups führt KI-Mitarbeiter ein.
Das birgt eine inhärente Gefahr, die vor allem aus der historischen Veranlagung der Menschheit resultiert, sich selbst an frühe, rudimentäre Chatbots emotional zu binden. Da Millionen von Menschen täglich mit personalisierten Chatbots interagieren, sind die Risiken einer emotionalen Bindung an KI-Mitarbeiter komplex, folgenreich und schwer zu vermeiden.
Da wir uns in einem entscheidenden Jahr für die künstliche Intelligenz befinden, ist es unerlässlich, aufkommende Trends zu verstehen und sich an sie anzupassen, um das Potenzial zu maximieren, Risiken zu minimieren und die generative KI-Einführung verantwortungsvoll zu skalieren.
¹ „GPT-4 architecture, datasets, costs and more leaked“, The Decoder, 11. Juli 2023
² „IBM Granite 3.3 2B model card“, Hugging Face, 16. April 2025
³ „Bringing reasoning to Granite“, IBM, 7. Februar 2025
⁴ „Claude 3.7 Sonnet and Claude Code“, Anthropic, 24. Februar 2025
⁵ „Gemini Thinking“, Google, 2025.
⁶ „Adaptive Mixtures of Local Experts“, Neural Computation, 1. März 1991
⁷ „Turing Award 2018: Novel Prize of computing given to 'godfathers of AI'“, The Verge, 27. März 2019
⁸ @YLeCun on X (ehemals Twitter), via XCancel, 20. Februar 2024
⁹ „ChatGPT will now remember your old conversations“, The Verge, 11. April 2025
¹⁰ „Meta CEO Mark Zuckerberg Envisions a Future Where Your Friends Are AI Chatbots – But Not Everyone Is Convinced“, Entrepreneur, 8. Mai 2025