Macht KI die Codierung wirklich schneller?

der Rücken einer grünhaarigen Frau, die an einem Schreibtisch sitzt, auf dem mehrere Bildschirme auf einem Computer programmieren

In den letzten Jahren haben die Pioniermodelle der KI ein mutiges Versprechen abgegeben: dass die Verwendung von Codierungs-Assistenten zu schnellerem Code, weniger Bugs und weniger Routinearbeiten für Entwickler führt. Tools wie GitHub Copilot und Cursor – unterstützt von großen Sprachmodellen (LLMs) wie Claude oder GPT – sind darauf ausgelegt, die mühsamen Bestandteile der Programmierung zu automatisieren, damit menschliche Programmierer sich auf die schwierigeren, kreativeren Probleme in ihrer Codebasis konzentrieren können.

So lautete zumindest bisher die Argumentation. Aber METR (kurz für Model Evaluation und Threat Forschung und ausgesprochen „Meter“), eine gemeinnützige Organisation in Berkeley, die die Funktionen von den großen Modellen bewertet, wollte herausfinden, ob es echte Beweise für diese Behauptung gibt. Die Ergebnisse stellen die bisherige Annahme auf den Kopf: Codierungs-Assistenten könnten die Entwickler sogar verlangsamen.

Die METR-Forscher beobachteten die Arbeit von 16 erfahrenen Entwicklern, die bereits seit mehreren Jahren an großen Open-Source-Repositories mitarbeiten. Jeder Entwickler stellte eine Liste mit echten Aufgaben zur Verfügung, die er normalerweise in Angriff nehmen würde, von Fixes bis hin zu neuen Funktionen. Die Forscher teilten die Aufgaben dann nach dem Zufallsprinzip in zwei Gruppen auf: eine, bei der die Entwickler KI-Tools verwenden konnten, und eine, bei der dies nicht möglich war.

KI in dem Mix

Wenn KI erlaubt war, konnten die Entwickler wählen, welche Tools sie verwenden wollten; die meisten entschieden sich für Cursor Pro in Kombination mit Claude 3.5 oder 3.7 Sonett. Sie zeichneten ihre Bildschirme auf, während sie die einzelnen Aufgaben erledigten, und berichteten dann, wie lange sie ihrer Meinung nach insgesamt für die Implementierung benötigt hatten. Die Ergebnisse der Studie waren überraschend. „Wenn Entwickler KI-Tools verwenden dürfen, brauchen sie 19 % länger, um Probleme zu lösen – eine erhebliche Verlangsamung, die der Überzeugung der Entwickler und den Prognosen der Experten zuwiderläuft“, schreiben die Autoren des Artikels.

Wir haben IBMs AI Advocacy Lead PJ Hagerty und Distinguished Engineer Chris Hay gebeten, sich METRs Studie anzusehen und ihre Eindrücke zu teilen.

Hagerty warnte davor, dass der Hype um KI-Assistenten deren tatsächliche Anwendungsmöglichkeiten überholen könnte. „Das Versprechen, dass KI die Menschen produktiver machen wird, stammt von Technologie- und KI-Unternehmen, die vom Hype um KI profitieren wollen“, sagte er zu IBM Think. „Tatsächlich lernt die KI im laufenden Betrieb und nutzt dabei wahrscheinlich dieselben Ressourcen wie ein Junior-Entwickler – Stack Overflow, GitHub und allgemeine Google-Suchen – jedoch ohne jeglichen Kontext.“

„Ich denke, das ist ein relevantes Ergebnis“, fügte Hay hinzu. „Aber ich denke nicht, dass wir sagen sollten: ‚Wow, KI ist nutzlos. Ich mache es selbst schneller. ' Ich denke aber, es gibt einen Punkt, an dem es bei bestimmten Aufgaben vielleicht schneller ist, es einfach selbst zu machen, anstatt die KI zu überzeugen."

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Die Wahrnehmung entspricht nicht immer die Realität

Die andere Hälfte der Ergebnisse der Studie ist ebenso interessant: Die Entwickler erwarteten, dass KI ihre Arbeit vor Beginn um 24 % beschleunigen würde. Doch selbst nachdem sie die Verlangsamung um 19 % erlebt hatten, glaubten sie immer noch, dass die KI sie um 20 % beschleunigt hatte.

Was steckt also hinter dieser Wahrnehmungslücke? Wir haben uns mit Nate Rush von METR, einem der Autoren der Studie, unterhalten. „Das ist eine hervorragende Frage, die unsere Arbeit noch nicht vollständig beantwortet“, sagte Rush gegenüber IBM Think. „Idealerweise wird in künftigen Arbeitsprozessen weiter erkundet, wie sich die Erwartungen von Entwicklern an die Nützlichkeit von KI auf die Nutzung der Tools auswirken [und] warum diese Wahrnehmungslücke besteht.“

Abgesehen vom Wahrnehmungsproblem wirft die Studie eine Reihe wichtiger Fragen auf: Ist Zeitersparnis überhaupt die einzige Möglichkeit, die Produktivität der Entwickler zu messen? Wie passen Metriken wie Codequalität und Team-Einfluss in das Gesamtbild?

„Unsere Studie befasst sich nur mit der Zeitersparnis, die nur einen Aspekt der Produktivität erfasst“, sagte Rush. „Es gibt keine ‚eine richtige Metrik‘, sondern wahrscheinlich eine Reihe von Metriken, die Aufschluss über die Auswirkungen von KI-Tools geben.“ Er fügte hinzu, dass sich diese Studie zwar auf die Zeit konzentrierte, sein Team aber das SPACE-Framework zur Entwicklerproduktivität (SPACE steht für Satisfaction, Performance, Activity, Communication und Efficiency) als nützlich für Überlegungen zu zukünftigen Entwicklungsrichtungen empfunden habe.

Eine weitere Frage: Könnten die Modellversionen – in diesem Fall Claude 3.5 und 3.7 Sonnet – die Leistungsdauer beeinflusst haben? „Das ist die Realität“, sagte Hay. „Ich denke, die Versionen sind sehr wichtig. Claude 4 Sonnet ist deutlich besser. Claude 4 Opus ist deutlich besser. Wir reden hier nicht von einer geringfügigen Verbesserung. Wir sprechen hier von einer deutlichen Verbesserung.“

Laut Quentin Anthony, einem der 16 Teilnehmer der Studie, ist der menschliche Aspekt ein weiterer wichtiger Aspekt. „Wir sagen gerne, dass LLMs Werkzeuge sind, aber behandeln sie eher wie eine magische Kugel", schrieb er auf X. „LLMs sind eine große Dopamin-Abkürzungstaste, die Ihr Problem mit einem Schlag lösen kann. Drücken Sie ständig die Taste, die mit einer Wahrscheinlichkeit von 1 % alles verbessert? Es ist viel angenehmer als die zermürbende Alternative, zumindest für mich.“ (Anthony fügte hinzu, dass Ablenkungen durch die sozialen Medien ebenfalls leicht zu Verzögerungen führen können).

Wo werden KI-Codierungsassistenten also langfristig den größten und nachhaltigsten Einfluss auf die Softwareentwicklung haben, wenn sie sich weiterentwickeln und verbessern? „Sobald sie stabil, vertrauenswürdig und nützlich sind, denke ich, dass Codierungsassistenten am besten auf der QA-Ebene eingesetzt werden – beim Testen, der Qualitätssicherung und der Zugänglichkeit, sagte Hagerty. „Die beste Anwendung dieser Tools findet sich in Bereichen, die Beschränkungen unterliegen und regelbasiert sind.“

Das liegt daran, dass das Schreiben von Code etwas völlig anderes ist als das Überprüfen von Code. „Codierung an sich ist eine kreative Tätigkeit.“ Es geht darum, in einem einzigartigen Ökosystem etwas aus dem Nichts zu erschaffen. KI-Assistenten entgeht diese Nuance. Aber sie können wahrscheinlich mit einem Regelsystem testen, das allgemeiner und universeller ist.“

Weiterführende Lösungen
Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

watsonx.ai erkunden Erkunden Sie KI-Lösungen