KI kann Code schreiben, aber kann sie Softwareentwickler schlagen?

Mann sitzt an einem Schreibtisch mit dem Rücken zu uns und programmiert an einem Computer mit mehreren Bildschirmen

Künstliche Intelligenz kann zwar Code produzieren, aber nicht wie ein Software-Ingenieur denken.

Das ist die Schlussfolgerung neuer Forschungen des Computer Science and Artificial Intelligence Laboratory des MIT, die ergab, dass große Sprachmodelle (LLMs) zwar in der Generierung von Code-Schnipseln hervorragend sind, aber nicht an das ausgefeilte Denken, die Planung und Zusammenarbeit der realen Software Engineering verlangt, zurückbleiben. Die Studie, die in Zusammenarbeit mit Forschern von Stanford, UC Berkeley und Cornell durchgeführt und diese Woche auf der Internationale Konferenz auf maschinelles Lernen vorgestellt wurde, stellt Annahmen über die Bereitschaft der KI zur Transformation der Softwareentwicklung in Frage.

„Langfristige Codeplanung erfordert ein ausgeklügeltes Maß an Argumentation und menschlicher Interaktion“, sagt Alex Gu, Doktorand am MIT CSAIL und Hauptautor der Studie, in einem Interview mit IBM Think. „Das Modell muss verschiedene Kompromisse berücksichtigen, wie z. B. Leistung, Speicherbedarf, Codequalität usw., und diese nutzen, um präzise zu entscheiden, wie der Code gestaltet werden soll.“

KI-Codierungstools sind heute ein fester Bestandteil der modernen Softwareentwicklung. Im Jahr 2025 gaben 82 % der Entwickler an, KI-Tools zur Codierung wöchentlich oder öfter zu nutzen, und 59 % gaben an, sich in ihrem workflow auf drei oder mehr Assistenten zu verlassen. Weitere 78 % berichteten deutliche Produktivitätszuwächse, was zeigt, wie tiefgreifend KI die Art und Weise beeinflusst, wie Code heute geschrieben wird.

Die Planungsherausforderung

Die MIT-Forschung definiert die sogenannte „langfristige Codeplanung“ als eine zentrale Einschränkung aktueller KI-Systeme. Laut Gu geht es dabei darum, zu überlegen, wie sich Code in größere Systeme einfügt und die globalen Konsequenzen lokaler Entscheidungen zu berücksichtigen.

„Langfristige Codeplanung erfordert ein ausgeklügeltes Maß an Argumentation und menschlicher Interaktion“, sagte Gu. „Das Modell muss Kompromisse wie Leistung, Speicherbedarf und Codequalität berücksichtigen und darauf aufbauend entscheiden, wie der Code gestaltet werden soll.“

Gu verwies auf das Beispiel der Entwicklung einer neuen Programmiersprache. Die Aufgabe, erklärte er, erfordere, alle verschiedenen Verwendungsmöglichkeiten der Sprache zu berücksichtigen, zu entscheiden, welche API-Funktionen bereitgestellt werden sollen, und über die Nutzungsmuster der Benutzer nachzudenken. Die Studie stellt fest, dass Modelle auch über die globalen Auswirkungen lokaler Codeänderungen nachdenken müssen, da geringfügige Änderungen am Design einer einzelnen Funktion auf den Rest des Codes übertragen werden können.

Die MIT-Forschung identifiziert Probleme bei der aktuellen Bewertung von KI-Codierungsfunktionen. Laut Gu konzentrieren sich die meisten Codierung-Benchmarks darauf, kleine, in sich geschlossene Programme von Grund auf neu zu erstellen, was nicht die Realität der groß angelegten Softwareentwicklung widerspiegelt.

„Ein Aspekt, den wir ansprechen, ist die Aufgabenvielfalt: Während die Softwareentwicklung in der Praxis auch Aufgaben wie Softwaretests oder Softwarewartung umfasst, werden diese in den heutigen Benchmarks selten berücksichtigt“, sagte Gu.

Ebenso wichtig sei die Fähigkeit von KI-Systemen, die Absicht des Benutzers zu erkennen, eine Fähigkeit, die für die Anpassung von Lösungen an spezifische Anwendungsfälle unerlässlich ist. „Eine Website für ein Unternehmen muss in der Regel robuster sein als eine Website, die nur zum Spaß gedacht ist.“

Die Forschung ergab, dass LLMs am besten bei Aufgaben funktionieren, die den Beispielen aus dem Training sehr ähnlich sind. Dies stellt eine Herausforderung für Projekte dar, die sich auf Programmiersprachen mit geringen Ressourcen oder spezialisierte Bibliotheken stützen. Laut Gu kommen ressourcenarme Sprachen und spezialisierte Bibliotheken in diesem Datenpool relativ selten vor, weshalb LLMs damit mehr zu kämpfen haben.

„Die Durchführung dieser Aufgaben hängt stärker von der Extrapolation auf unsichtbare Daten und Domänen ab (Generalisierung), was oft schwieriger ist, als Code zu wiederholen, ähnlich wie bei der Trainingsverteilung“, sagte Gu.

Gemäß der Studie bedeutet diese Einschränkung, dass KI-Codierung-Agenten in Altlast-Systemen, wissenschaftlichen Computerumgebungen und internen Tools, in denen die Dokumentation möglicherweise eingeschränkt ist, tendenziell weniger effektiv sind.

Verständnis der Codebasis

Die MIT-Studie zeigt, dass KI-Systeme ein genaues semantisches Modell der Codebasis eines Projekts entwickeln müssen. Laut Gu geht es dabei darum, die Softwarestruktur zu verstehen, wie die Komponenten interagieren und wie sich diese Beziehungen im Laufe der Zeit verändern.

„Zunächst muss die KI die Struktur der Codebasis verstehen und wissen, wie die verschiedenen Teile zusammenwirken“, sagte er. „Zweitens muss es verstehen, wie die einzelnen Funktionen funktionieren.“ Schließlich sollte es sein Modell der Codebasis aktualisieren, wenn neue Funktionen hinzugefügt werden.“

Die Studie stellt fest, dass aktuelle KI-Modelle keinen persistenten Zustand zwischen den Prompts haben, dass sie sich nicht daran erinnern, wie sich eine Codebasis entwickelt hat, oder dass sie keine interne Repräsentation ihrer Architektur haben.

Trotz dieser Einschränkungen identifizieren die Autoren mehrere Verbesserungsmöglichkeiten. Gu sagte, bessere Benchmarks könnten helfen – vor allem, wenn sie KI-Systeme anhand eines breiteren Spektrums von Aufgaben bewerten können, einschließlich Tests, Wartung und Zusammenarbeit zwischen Mensch und KI.

Er sieht in naher Zukunft auch vielversprechende Möglichkeiten in Bereichen jenseits der Codierung, insbesondere in der Bildung. „KI verfügt bereits über starke Funktionen zur Lösung der meisten Probleme im Grundschul- und Mittelschulbereich“, sagte er. „KI hat großes Potenzial, bestehende workflows in der Bildung zu optimieren, beispielsweise durch die Generierung von Übungsaufgaben, die Benotung und die Identifizierung von Fehlvorstellungen der Schüler.“

AI Academy

Der Aufstieg der generativen KI für Unternehmen

Erfahren Sie mehr über den historischen Aufstieg der generativen KI sowie darüber, was sie für Unternehmen bedeutet.

Verwandte Lösungen
IBM Bob

Beschleunigen Sie die Softwarebereitstellung mit Bob, Ihrem KI-Partner für sichere, absichtsorientierte Entwicklung.

IBM Bob erkunden
KI-Codierungslösungen

Optimieren Sie die Softwareentwicklung mit vertrauenswürdigen KI-gestützten Tools, die den Zeitaufwand für das Schreiben von Code, Debuggen, Code-Refactoring oder Codevervollständigung minimieren und mehr Raum für Innovation schaffen.

KI-Codierungslösungen erkunden
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

Erkunden Sie unsere KI-Beratungsleistungen
Machen Sie den nächsten Schritt

Mit generativer KI und fortschrittlicher Automatisierung schneller Code speziell für Unternehmen erstellen. Bob nutzt Modelle, um das Skill-Profil von Entwicklern zu erweitern und Ihre Entwicklungs- und Modernisierungsbemühungen zu vereinfachen und zu automatisieren.

  1. Bob erkunden
  2. KI-Codierungslösungen erkunden