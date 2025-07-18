Künstliche Intelligenz kann zwar Code produzieren, aber nicht wie ein Software-Ingenieur denken.
Das ist die Schlussfolgerung neuer Forschungen des Computer Science and Artificial Intelligence Laboratory des MIT, die ergab, dass große Sprachmodelle (LLMs) zwar in der Generierung von Code-Schnipseln hervorragend sind, aber nicht an das ausgefeilte Denken, die Planung und Zusammenarbeit der realen Software Engineering verlangt, zurückbleiben. Die Studie, die in Zusammenarbeit mit Forschern von Stanford, UC Berkeley und Cornell durchgeführt und diese Woche auf der Internationale Konferenz auf maschinelles Lernen vorgestellt wurde, stellt Annahmen über die Bereitschaft der KI zur Transformation der Softwareentwicklung in Frage.
„Langfristige Codeplanung erfordert ein ausgeklügeltes Maß an Argumentation und menschlicher Interaktion“, sagt Alex Gu, Doktorand am MIT CSAIL und Hauptautor der Studie, in einem Interview mit IBM Think. „Das Modell muss verschiedene Kompromisse berücksichtigen, wie z. B. Leistung, Speicherbedarf, Codequalität usw., und diese nutzen, um präzise zu entscheiden, wie der Code gestaltet werden soll.“
KI-Codierungstools sind heute ein fester Bestandteil der modernen Softwareentwicklung. Im Jahr 2025 gaben 82 % der Entwickler an, KI-Tools zur Codierung wöchentlich oder öfter zu nutzen, und 59 % gaben an, sich in ihrem workflow auf drei oder mehr Assistenten zu verlassen. Weitere 78 % berichteten deutliche Produktivitätszuwächse, was zeigt, wie tiefgreifend KI die Art und Weise beeinflusst, wie Code heute geschrieben wird.
Die MIT-Forschung definiert die sogenannte „langfristige Codeplanung“ als eine zentrale Einschränkung aktueller KI-Systeme. Laut Gu geht es dabei darum, zu überlegen, wie sich Code in größere Systeme einfügt und die globalen Konsequenzen lokaler Entscheidungen zu berücksichtigen.
Gu verwies auf das Beispiel der Entwicklung einer neuen Programmiersprache. Die Aufgabe, erklärte er, erfordere, alle verschiedenen Verwendungsmöglichkeiten der Sprache zu berücksichtigen, zu entscheiden, welche API-Funktionen bereitgestellt werden sollen, und über die Nutzungsmuster der Benutzer nachzudenken. Die Studie stellt fest, dass Modelle auch über die globalen Auswirkungen lokaler Codeänderungen nachdenken müssen, da geringfügige Änderungen am Design einer einzelnen Funktion auf den Rest des Codes übertragen werden können.
Die MIT-Forschung identifiziert Probleme bei der aktuellen Bewertung von KI-Codierungsfunktionen. Laut Gu konzentrieren sich die meisten Codierung-Benchmarks darauf, kleine, in sich geschlossene Programme von Grund auf neu zu erstellen, was nicht die Realität der groß angelegten Softwareentwicklung widerspiegelt.
„Ein Aspekt, den wir ansprechen, ist die Aufgabenvielfalt: Während die Softwareentwicklung in der Praxis auch Aufgaben wie Softwaretests oder Softwarewartung umfasst, werden diese in den heutigen Benchmarks selten berücksichtigt“, sagte Gu.
Ebenso wichtig sei die Fähigkeit von KI-Systemen, die Absicht des Benutzers zu erkennen, eine Fähigkeit, die für die Anpassung von Lösungen an spezifische Anwendungsfälle unerlässlich ist. „Eine Website für ein Unternehmen muss in der Regel robuster sein als eine Website, die nur zum Spaß gedacht ist.“
Die Forschung ergab, dass LLMs am besten bei Aufgaben funktionieren, die den Beispielen aus dem Training sehr ähnlich sind. Dies stellt eine Herausforderung für Projekte dar, die sich auf Programmiersprachen mit geringen Ressourcen oder spezialisierte Bibliotheken stützen. Laut Gu kommen ressourcenarme Sprachen und spezialisierte Bibliotheken in diesem Datenpool relativ selten vor, weshalb LLMs damit mehr zu kämpfen haben.
„Die Durchführung dieser Aufgaben hängt stärker von der Extrapolation auf unsichtbare Daten und Domänen ab (Generalisierung), was oft schwieriger ist, als Code zu wiederholen, ähnlich wie bei der Trainingsverteilung“, sagte Gu.
Gemäß der Studie bedeutet diese Einschränkung, dass KI-Codierung-Agenten in Altlast-Systemen, wissenschaftlichen Computerumgebungen und internen Tools, in denen die Dokumentation möglicherweise eingeschränkt ist, tendenziell weniger effektiv sind.
Die MIT-Studie zeigt, dass KI-Systeme ein genaues semantisches Modell der Codebasis eines Projekts entwickeln müssen. Laut Gu geht es dabei darum, die Softwarestruktur zu verstehen, wie die Komponenten interagieren und wie sich diese Beziehungen im Laufe der Zeit verändern.
„Zunächst muss die KI die Struktur der Codebasis verstehen und wissen, wie die verschiedenen Teile zusammenwirken“, sagte er. „Zweitens muss es verstehen, wie die einzelnen Funktionen funktionieren.“ Schließlich sollte es sein Modell der Codebasis aktualisieren, wenn neue Funktionen hinzugefügt werden.“
Die Studie stellt fest, dass aktuelle KI-Modelle keinen persistenten Zustand zwischen den Prompts haben, dass sie sich nicht daran erinnern, wie sich eine Codebasis entwickelt hat, oder dass sie keine interne Repräsentation ihrer Architektur haben.
Trotz dieser Einschränkungen identifizieren die Autoren mehrere Verbesserungsmöglichkeiten. Gu sagte, bessere Benchmarks könnten helfen – vor allem, wenn sie KI-Systeme anhand eines breiteren Spektrums von Aufgaben bewerten können, einschließlich Tests, Wartung und Zusammenarbeit zwischen Mensch und KI.
Er sieht in naher Zukunft auch vielversprechende Möglichkeiten in Bereichen jenseits der Codierung, insbesondere in der Bildung. „KI verfügt bereits über starke Funktionen zur Lösung der meisten Probleme im Grundschul- und Mittelschulbereich“, sagte er. „KI hat großes Potenzial, bestehende workflows in der Bildung zu optimieren, beispielsweise durch die Generierung von Übungsaufgaben, die Benotung und die Identifizierung von Fehlvorstellungen der Schüler.“
