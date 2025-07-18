Die MIT-Forschung definiert die sogenannte „langfristige Codeplanung“ als eine zentrale Einschränkung aktueller KI-Systeme. Laut Gu geht es dabei darum, zu überlegen, wie sich Code in größere Systeme einfügt und die globalen Konsequenzen lokaler Entscheidungen zu berücksichtigen.

„Langfristige Codeplanung erfordert ein ausgeklügeltes Maß an Argumentation und menschlicher Interaktion“, sagte Gu. „Das Modell muss Kompromisse wie Leistung, Speicherbedarf und Codequalität berücksichtigen und darauf aufbauend entscheiden, wie der Code gestaltet werden soll.“

Gu verwies auf das Beispiel der Entwicklung einer neuen Programmiersprache. Die Aufgabe, erklärte er, erfordere, alle verschiedenen Verwendungsmöglichkeiten der Sprache zu berücksichtigen, zu entscheiden, welche API-Funktionen bereitgestellt werden sollen, und über die Nutzungsmuster der Benutzer nachzudenken. Die Studie stellt fest, dass Modelle auch über die globalen Auswirkungen lokaler Codeänderungen nachdenken müssen, da geringfügige Änderungen am Design einer einzelnen Funktion auf den Rest des Codes übertragen werden können.

Die MIT-Forschung identifiziert Probleme bei der aktuellen Bewertung von KI-Codierungsfunktionen. Laut Gu konzentrieren sich die meisten Codierung-Benchmarks darauf, kleine, in sich geschlossene Programme von Grund auf neu zu erstellen, was nicht die Realität der groß angelegten Softwareentwicklung widerspiegelt.

„Ein Aspekt, den wir ansprechen, ist die Aufgabenvielfalt: Während die Softwareentwicklung in der Praxis auch Aufgaben wie Softwaretests oder Softwarewartung umfasst, werden diese in den heutigen Benchmarks selten berücksichtigt“, sagte Gu.

Ebenso wichtig sei die Fähigkeit von KI-Systemen, die Absicht des Benutzers zu erkennen, eine Fähigkeit, die für die Anpassung von Lösungen an spezifische Anwendungsfälle unerlässlich ist. „Eine Website für ein Unternehmen muss in der Regel robuster sein als eine Website, die nur zum Spaß gedacht ist.“

Die Forschung ergab, dass LLMs am besten bei Aufgaben funktionieren, die den Beispielen aus dem Training sehr ähnlich sind. Dies stellt eine Herausforderung für Projekte dar, die sich auf Programmiersprachen mit geringen Ressourcen oder spezialisierte Bibliotheken stützen. Laut Gu kommen ressourcenarme Sprachen und spezialisierte Bibliotheken in diesem Datenpool relativ selten vor, weshalb LLMs damit mehr zu kämpfen haben.

„Die Durchführung dieser Aufgaben hängt stärker von der Extrapolation auf unsichtbare Daten und Domänen ab (Generalisierung), was oft schwieriger ist, als Code zu wiederholen, ähnlich wie bei der Trainingsverteilung“, sagte Gu.

Gemäß der Studie bedeutet diese Einschränkung, dass KI-Codierung-Agenten in Altlast-Systemen, wissenschaftlichen Computerumgebungen und internen Tools, in denen die Dokumentation möglicherweise eingeschränkt ist, tendenziell weniger effektiv sind.