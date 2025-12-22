Im Jahr 2026 sind die intelligentesten KI-Modelle möglicherweise nicht die größten.
Dies ist die Wette, die derzeit von Labors, Investoren und Forschern abgeschlossen wird, die im vergangenen Jahr miterleben mussten, wie ihre Annahmen sich als falsch erwiesen. Die kommenden 12 Monate werden nicht durch den Wettlauf um den Bau größerer Systeme geprägt sein, sondern durch das Bestreben, intelligentere Systeme zu entwickeln – Modelle, die überlegen, bevor sie handeln, und die mit weniger Aufwand mehr erreichen.
„Man kann ein kleines Sprachmodell erhalten, das auf dem gleichen Niveau oder sogar besser als viel größere Modelle funktioniert“, erklärte Kush Varshney, IBM Fellow, in einem Interview mit IBM Think.
Vor einem Jahr hätte das nach Ketzerei geklungen. Ein Jahrzehnt lang funktionierte KI nach einem äußerst einfachen Grundsatz: mehr Daten, mehr Parameter, mehr Rechenleistung, mehr Intelligenz. Die Labore wetteiferten darum, Parameterzahlen zu veröffentlichen, ähnlich wie Bodybuilder, die vor dem Spiegel ihre Muskeln spielen lassen. Die Trainingsläufe verbrauchten den Strombedarf kleiner Städte. Das gesamte Unternehmen erinnerte an einen Landrausch, nur dass das beanspruchte Gebiet in Teraflops gemessen wurde.
Dann kam der Januar 2025. Ein Unternehmen namens DeepSeek mit Sitz in China veröffentlichte ein Modell, das die Aktie von Nvidia an einem einzigen Tag um 17 % fallen ließ. Algorithmische Intelligenz könnte die reine Rechenleistung ersetzen. Sie benötigten keine Kathedrale. Man brauchte einen besseren Blueprint.
Die großen amerikanischen Labore reagierten schnell. Innerhalb weniger Monate sind sie von immer größeren Systemen zu solchen übergegangen, die innehalten und nachdenken, bevor sie antworten. Seyed Emadi, außerordentlicher Professor für Operations an der University of North Carolina Kenan-Flagler, brachte es im Gespräch mit IBM Think auf den Punkt: „Wenn ich das Jahr 2025 im Bereich der künstlichen Intelligenz zusammenfassen müsste, würde ich sagen, dass wir aufgehört haben, Modelle größer zu machen, und damit begonnen haben, sie intelligenter zu gestalten.“
Dieser Wendepunkt prägt nun das, was als Nächstes kommt. Der Konsens unter den Forschern ist bemerkenswert, fast schon unheimlich. Auf die Frage nach der wichtigsten Entwicklung des vergangenen Jahres verwies Misha Belkin, Professor für maschinelles Lernen an der UC San Diego, auf „den Aufstieg von Denkmodellen und die Skalierung der Inferenzzeit“ – und bezeichnete dies in einem Interview als Grundlage für das Jahr 2026. Rada Mihalcea, Leiterin des KI-Labors an der University of Michigan, bot eine ergänzende Sichtweise an: „Fortschritte bei Multiagentensystemen sowie ein tieferes Verständnis von ... Schwächen“ würden den Weg nach vorn bestimmen, sagte sie gegenüber IBM Think.
Dieser Wandel bedeutet ein Umdenken hinsichtlich der Bedeutung von Intelligenz im Silicon Valley. Der alte Ansatz betrachtete es als etwas, das man während der Ausbildung einübte, ähnlich wie das Würzen eines Eintopfs. Nach Fertigstellung wurde das Modell eingefroren. Der neue Ansatz behandelt Intelligenz als etwas, das zur Laufzeit entstehen kann, indem es dem Modell mehr Zeit zum Denken gibt, genannt Inferenzzeitberechnung.
Die Implikationen werden noch ausgearbeitet. Gabriel Poesia, ein Forscher, der sich an der Stanford University mit KI-Denkprozessen befasst, hat beobachtet, dass Modelle immer besser darin werden, „länger nachzudenken” und „während langer Denkphasen nahtlos Werkzeuge einzusetzen”. Die vereinfachte Version: Die Maschinen haben gelernt, zu denken, bevor sie sprechen.
Die alten Modelle funktionierten wie Reflexe: Eingabe rein, Vorhersage raus, ohne Zeit zum Nachdenken. Die Neuen überlegen. Stellen Sie eine schwierige Frage, und das Modell wird sich damit beschäftigen, manchmal minutenlang, um die Logik zu überprüfen und Sackgassen zu überwinden. Es sieht bemerkenswert nach Denken aus. Ob es sich dabei um Denken in einem sinnvollen Sinne handelt, bleibt eine der großen unbeantworteten Fragen.
Wenn Denkmodelle die intellektuelle Geschichte des Jahres 2025 waren, so war die kommerzielle Bombe viel plumper: KI erwies sich als viel billiger als irgendjemand gedacht hatte. Die ökonomischen Gesetze, die so unveränderlich wie die Schwerkraft erschienen waren, entpuppten sich eher als Mode. Diese Enthüllung wird den Wettbewerb im Jahr 2026 verändern.
Die Veröffentlichung von DeepSeek im Januar schlug ein wie eine Bombe. Das Modell entsprach westlichen Systemen und verwendete etwa ein Zehntel der Trainingsberechnung. „Das hat die Dinge vorangetrieben“, sagte Varshney. „Jetzt gibt es einen weiteren Konkurrenten, und alle müssen sich mehr anstrengen.“
Die Modellarchitektur hat ihrerseits stillschweigende Veränderungen durchgemacht. Das heiße neue Muster, die Expertenmischung, leitet Eingaben an spezialisierte Teilnetze weiter, anstatt jeden Parameter für jede Abfrage zu aktivieren. Betrachten Sie es so, als würden Sie den richtigen Spezialisten konsultieren, anstatt einen einzigen Arzt zu bitten, alles zu wissen. Andrew Chin, ein Rechtsprofessor an der UNC, der sich mit Technologiepolitik beschäftigt, erklärte die Ökonomie von IBM Think: “Dichte Modelle verursachen ungefähr den gleichen Rechenaufwand pro Token”, sagte er. „Sparse Systeme leiten Token nur über eine Teilmenge der Parameter weiter.“ Die Konsequenz für Unternehmen ist bedeutend: „Größe wird zu etwas, das gesteuert werden muss, nicht nur etwas, das maximiert werden soll.“
Die Demokratisierung erstreckt sich über die Architektur hinaus bis hin zur Feinabstimmung. Christelle Scharff, Professorin für Informatik an der Pace University, erklärte gegenüber IBM Think, dass sie „eine deutliche Verlagerung hin zu LoRA und leichtgewichtiger Feinabstimmung beobachtet hat, wodurch leistungsstarke Modelle mit begrenzter Rechenleistung angepasst werden können“. Forscher mit bescheidenen Budgets können jetzt Modelle anpassen, die vor einem Jahr unerreichbar gewesen wären. Die Tore öffnen sich.
Die Effizienzgewinne umfassen auch das Systemdesign. Kandyce Brennan, eine Assistenzprofessorin an der UNC School of Nursing, die an KI im Gesundheitswesen arbeitet, sagte gegenüber IBM Think, dass Ansätze wie der DisCIPL-Planer des MIT – bei dem„ein großes Modell ... viele kleine Modelle plant und koordiniert“ – ihre Ergebnisse mit „viel geringeren Rechenkosten“ erzielen. Die Effizienz reduziert auch den Energieverbrauch und die Umweltbelastung.
„Datenbeschränkungen und Energieprobleme sind jetzt zu einer echten Herausforderung geworden“, sagte Mihalcea, „was die Forschung in Richtung kleinerer Modelle weiter vorangetrieben hat.“ Diese Einschränkungen werden sich nur noch verschärfen.
Was Unternehmen tatsächlich benötigen, ist nicht die Fähigkeit, alles zu tun, sagte Varshney. Er nannte ein skurriles Beispiel: Man könnte ein Modell bitten, sich auf dem Mond zu Bürgerrechten zu äußern, und es würde etwas Fließendes ergeben. „Aber die meisten Aufgaben in Unternehmen gehören nicht dazu“, sagte er. „Sie sind gezielter.“ Die Theologie des Maßstabs weicht dem Pragmatismus der Zweckmäßigkeit.
Die Fortschritte sind real. Genauso gibt es aber auch Grenzen. Trotz ihrer neu gewonnenen Fähigkeit zur Überlegung sind KI-Modelle weiterhin zu einer bestimmten Art von Fehlern fähig: dem selbstbewussten Irrtum, der mit der gelassenen Zuversicht eines Reiseleiters vorgetragen wird, der sich in das falsche Museum verirrt hat.
Poesia identifizierte die Kernprobleme: „Zwei große Herausforderungen sind nach wie vor Zuverlässigkeit und Kreativität. „Selbst eine Erfolgsquote von 99,9 % reicht nicht aus“, sagte er. Die Mathematik ist unerbittlich. Ein System, das bei tausend Versuchen einmal versagt, wird bei einer Million Abfragen tausendmal versagen. In der Medizin, im Recht oder im Finanzwesen sind das keine akzeptablen Chancen.
Kreativität ist ein weiteres Thema. „Bei Aufgaben mit offenem Ergebnis ... liefern selbst Modelle verschiedener Hersteller tendenziell ähnliche Ergebnisse“, bemerkte Poesia. Die Modelle sind bemerkenswert gut darin geworden, richtige Antworten zu finden. Sie bleiben erstaunlich einheitlich, wenn man sie auffordert, originell zu sein.
Die Denkmodelle haben ihre eigenen blinden Flecken. Varshney merkte an, dass „bei Aufgaben, bei denen die Möglichkeit besteht, Zwischenschritte zu verifizieren, diese längeren Abläufe hilfreich sind.“ Aber es gibt unzählige Dinge, bei denen es keine überprüfbaren Zwischenschritte gibt.“
Ein Benchmark namens ARC-AGI-2 veranschaulicht die Lücke. Der Test beinhaltet Probleme, die Menschen leicht finden, die KI aber außerordentlich schwierig findet. „Selbst hochmoderne Denkmodelle schneiden deutlich schlechter ab als die menschliche Leistung“, sagte Emadi. „Modelle können besser argumentieren als früher, aber sie können immer noch mit Sicherheit falsch liegen.“
Halluzinationen, die in der Fachsprache höflich als Einbildung bezeichnet werden, haben sich in ihrer Erscheinungsform verändert, sind aber nach wie vor präsent. Mohammad Hossein Jarrahi, ein Professor an der UNC, der die Interaktion zwischen Mensch und KI erforscht, sagte gegenüber IBM Think : „Halluzinationen haben sich zwar in ihrem Charakter verändert, sind aber nicht vollständig verschwunden.“ Die Tendenz, plausibel klingende, aber faktisch falsche Informationen zu erzeugen, bleibt hartnäckig bestehen.
Manche Forscher sind besorgt über die allgemeine Entwicklung. Todd Cherner, Leiter eines Programms für Bildungstechnologie an der University of North Carolina, sagte gegenüber IBM Think : „Die fortschreitenden Fähigkeiten von KI-Agenten sind provokativ.“ Ich denke, die Zukunft geht schneller zu AGI, als es den Leuten bewusst ist. Wir sollten unsere Möglichkeiten gut nutzen, bevor wir uns wirklich für AGI einsetzen.“
Das grundlegende Prinzip der Datenverarbeitung gilt immer noch. "Müll rein, Müll raus", sagte Nathalie Volkheimer, User Engagement Specialist bei RENCI, gegenüber IBM Think. „Wir konzentrieren uns auf die Maschine, die die Wurst herstellt, und nicht auf die Wurst selbst.“ Letztendlich essen wir jedoch das, was wir zubereiten.
Ein weniger gefeierter Fortschritt: die Erweiterung der Kontextfenster, also die Menge an Informationen, die ein Modell im Arbeitsspeicher speichern kann. „Wir sehen einen wesentlich besseren Kontext im Repository-Maßstab, bis zu etwa einer Million Token“, sagte Jarrahi. Eine Million Token entsprechen ungefähr mehreren Romanen. „Die Modelle können nun über viel längere Interaktionen hinweg ein kohärentes Verständnis aufrechterhalten, was für die Überprüfung juristischer Dokumente, die Softwareentwicklung und die Forschungssynthese von enormer Bedeutung ist“, sagte er.
„Die Zitierfunktionen wurden ebenfalls verbessert, mit integrierten Verlinkungsfunktionen, die auf bestimmte Textstellen verweisen können“, fügte Jarrahi hinzu. Wenn ein Modell seine Funktionsweise nachweisen kann, können die Nutzer dies überprüfen, anstatt es blindlings zu akzeptieren. Vertrauen ist gut, Kontrolle ist besser. Oder besser gesagt: Nicht vertrauen, sondern auf jeden Fall überprüfen.
Aber mit Verifizierung kommt man nicht weit. Aude Oliva, MIT-Direktorin des MIT- IBM Watson KI Lab, sagte gegenüber IBM Think, dass „die Zukunft der Zusammenarbeit zwischen KI und Mensch ein Dialog ist. Ein künstliches agentenbasiertes System muss über ein gewisses Maß an Theory of Mind verfügen. Das Verständnis der Funktionsweise eines KI-Systems ... bildet die Grundlage für Vertrauen.“ Die Theory of Mind – die Fähigkeit zu verstehen, dass andere unterschiedliche Perspektiven haben – ist grundlegend für die menschliche Interaktion. Ihr Fehlen in der KI erzeugt Reibungsverluste, die durch keine noch so großen Funktionen überwunden werden können.
Die Metriken für den Erfolg verändern sich entsprechend. „Das Feld bewegt sich unaufhaltsam in Richtung Modelle, die weniger nach ihrer reinen Sprachverständlichkeit, sondern vielmehr nach Nachvollziehbarkeit, Kalibrierung und Interaktionsrobustheit beurteilt werden“, sagte Jarrahi. Die Glamour-Metriken weichen den Zuverlässigkeitsmetriken. Flash ist out. Vorhersehbarkeit ist in.
„Das vorherrschende Thema war die Erschließung von Funktionen durch Einschränkungen“, sagte Chin. „Anstatt Skalierung als Selbstzweck zu betrachten, konzentrieren sich führende Bemühungen darauf, Systeme unter realen Grenzen vorhersehbar funktionieren zu lassen.“ Der Fortschritt sieht weniger nach einer Mondlandung und mehr nach einem technischen Problem aus.
Drei Einschränkungen werden bestimmen, was Unternehmen im Jahr 2026 mit KI tun können, sagten eine Reihe von Experten IBM Think. Die erste ist wirtschaftlich, die zweite physisch und die dritte regulatorisch.
Fangen Sie mit Geld an. „Die Inferenzökonomie wird zunehmend als feste Obergrenze dienen“, sagte Chin. „Viele der jüngsten Fortschritte im Bereich des logischen Denkens beruhen auf einem deutlich höheren Rechenaufwand pro Abfrage.“ Ein Modell, das zum Denken Minuten braucht, kann nicht bereitgestellt werden, wo Echtzeit-Reaktionen in großem Maßstab erforderlich sind, stellte er fest.
Die physikalischen Einschränkungen sind gleichermaßen gewaltig. „Der weltweite Stromverbrauch von Rechenzentren wird sich bis 2030 voraussichtlich mehr als verdoppeln“, sagte Emadi. „Die größte Herausforderung für viele Organisationen im nächsten Jahr wird nicht die Verfügbarkeit von Chips sein, sondern die benötigte Gigawatt-Stromversorgung.“ Die Branche hat sich jahrelang mit den Chips beschäftigt. Der Engpass verlagert sich zu den Kraftwerken.
„Der Rechenaufwand und damit die Umweltkosten bleiben hoch“, fügte Brennan hinzu, „was wichtige ethische Fragen zur Nachhaltigkeit aufwirft.“ Der CO2-Fußabdruck der KI ist nicht mehr zu ignorieren.
Und dann ist da noch die Regulierung. „Der Druck, Governance-by-Design zu entwickeln, wird die Modellentwicklung direkter beeinflussen“, sagte Chin. „Bei vielen Bereitstellungen ist die Anforderung nicht nur eine hohe Leistung, sondern auch ein überprüfbares und begrenztes Verhalten.“ Das Zeitalter der Blackbox könnte enden.
Die wachsende Kluft zwischen den Branchen und der Wissenschaft beunruhigt einige Beobachter. „Die Universitäten müssen sich wieder auf grundlegende KI konzentrieren“, sagte Scharff, „und in Ideen investieren, die das Feld in 10 bis 20 Jahren prägen werden.“ Die größten Modelle liegen zunehmend außerhalb der akademischen Reichweite, was unangenehme Fragen darüber aufwirft, woher die nächste Generation von Ideen kommen wird.
Über eine Entwicklung wurde zu wenig berichtet: der Aufstieg souveräner KI. „In vielen Ländern haben die Menschen ihre eigenen Modelle entwickelt“, sagte Varshney. Diese sind wichtig, weil Trainingsdaten stärker auf die Kultur abgestimmt sind und sie die wirtschaftliche Kontrolle näher nach Hause verlagern, stellte er fest.
Für das Jahr 2026 rechnet Varshney eher mit fortgesetzten Experimenten als mit dramatischen Durchbrüchen. „Nicht alles muss exakt ein Transformator sein“, sagte er. Mihalcea bot eine ähnliche Prognose an: „kleinere spezialisierte Mischung von Expertenmodellen, die Multiagentensysteme nutzen.“ Auf die Frage, ob große Sprünge bevorstehen, war Varshney vorsichtig. „Es gibt immer eine Chance … einen weiteren ChatGPT-Moment“, sagte er. „Aber das erwarte ich nicht.“ Die ehrliche Antwort ist, dass niemand es weiß.
Die Praktiker passen sich bereits an diese neue Situation an. Jayashankar Swaminathan, Professor für Global Operations an der UNC Kenan-Flagler, erklärte gegenüber IBM Think, dass „die größten Fortschritte im Bereich der autonomen Handlungsfähigkeit zu verzeichnen sind, wo KI nun in der Lage ist, mehrere Aufgaben in einer einfachen Reihenfolge auszuführen. Der zweite Aspekt betrifft die Begründung der Logik hinter der Entscheidungsfindung.“
Im Gesundheitswesen ist der Wandel bereits im Gange. Maureen Baker, klinische Assistenzprofessorin an der UNC School of Nursing, sagte gegenüber IBM Think: „KI-Modelle entwickeln sich in einem unglaublichen Tempo.“ Sie unterschied jedoch zwischen Funktionen und Bereitstellung: „Entscheidendes Denken, klinisches Urteilsvermögen und Urteilsvermögen müssen weiterhin im Vordergrund stehen.“ Ihr Ansatz ist pragmatisch: „Ich suche nach einfachen Erfolgen mit minimalem Risiko.“
Das Ökosystem differenziert sich. David Sachs, Professor für Informationstechnologie an der Pace University, sagte gegenüber IBM Think: „Es scheinen zwei Arten von Modellen aufzutauchen: das große Modell, bei dem wir alles machen können, und die fokussierteren Modelle wie Julius oder Perplexity.“ Ähnlich wie sich Software von monolithischen Anwendungen zu spezialisierten Werkzeugen entwickelt hat, fragmentiert sich auch die KI in Nischen.
„Die tatsächliche Nutzung dieser Systeme ... wird ... durch die Gestaltung symbiotischer Workflows geprägt“, sagte Jarrahi. Menschen bringen Urteilsvermögen, Kreativität und Verantwortungsbewusstsein mit. KI bringt Geschwindigkeit, Konsistenz und die Fähigkeit, große Mengen an Informationen zu verarbeiten. Unternehmen, die es schaffen, diese beiden Aspekte zu kombinieren, werden einen Edge haben.
„Die Frontier KI bewegt sich weg von einer Ära, die durch reine Größenordnungen definiert ist“, sagte Chins, „und hin zu einem Zeitalter, das durch Verfahren, Einschränkungen und operative Kompromisse definiert ist.“ Technologien werden ausgereift, wenn Ingenieure beginnen, sie für reale Grenzwerte zu optimieren. Gemessen an dieser Maßeinheit wird KI endlich erwachsen.
Aber Varshney denkt über etwas Tieferes als Technologie nach. „Welche Aufgaben werden an KI-Systeme delegiert, und welche werden weiterhin von Menschen erledigt?“ fragte er. „Liegt es daran, dass Menschen Sinn finden ... indem sie bestimmte Dinge tun? Was bedeutet es, in vielerlei Hinsicht ein Mensch zu sein?“
