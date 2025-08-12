Die andere Hälfte der Ergebnisse der Studie ist ebenso interessant: Die Entwickler erwarteten, dass KI ihre Arbeit vor Beginn um 24 % beschleunigen würde. Doch selbst nachdem sie die Verlangsamung um 19 % erlebt hatten, glaubten sie immer noch, dass die KI sie um 20 % beschleunigt hatte.

Was steckt also hinter dieser Wahrnehmungslücke? Wir haben uns mit Nate Rush von METR, einem der Autoren der Studie, unterhalten. „Das ist eine hervorragende Frage, die unsere Arbeit noch nicht vollständig beantwortet“, sagte Rush gegenüber IBM Think. „Idealerweise wird in künftigen Arbeitsprozessen weiter erkundet, wie sich die Erwartungen von Entwicklern an die Nützlichkeit von KI auf die Nutzung der Tools auswirken [und] warum diese Wahrnehmungslücke besteht.“

Abgesehen vom Wahrnehmungsproblem wirft die Studie eine Reihe wichtiger Fragen auf: Ist Zeitersparnis überhaupt die einzige Möglichkeit, die Produktivität der Entwickler zu messen? Wie passen Metriken wie Codequalität und Team-Einfluss in das Gesamtbild?

„Unsere Studie befasst sich nur mit der Zeitersparnis, die nur einen Aspekt der Produktivität erfasst“, sagte Rush. „Es gibt keine ‚eine richtige Metrik‘, sondern wahrscheinlich eine Reihe von Metriken, die Aufschluss über die Auswirkungen von KI-Tools geben.“ Er fügte hinzu, dass sich diese Studie zwar auf die Zeit konzentrierte, sein Team aber das SPACE-Framework zur Entwicklerproduktivität (SPACE steht für Satisfaction, Performance, Activity, Communication und Efficiency) als nützlich für Überlegungen zu zukünftigen Entwicklungsrichtungen empfunden habe.

Eine weitere Frage: Könnten die Modellversionen – in diesem Fall Claude 3.5 und 3.7 Sonnet – die Leistungsdauer beeinflusst haben? „Das ist die Realität“, sagte Hay. „Ich denke, die Versionen sind sehr wichtig. Claude 4 Sonnet ist deutlich besser. Claude 4 Opus ist deutlich besser. Wir reden hier nicht von einer geringfügigen Verbesserung. Wir sprechen hier von einer deutlichen Verbesserung.“

Laut Quentin Anthony, einem der 16 Teilnehmer der Studie, ist der menschliche Aspekt ein weiterer wichtiger Aspekt. „Wir sagen gerne, dass LLMs Werkzeuge sind, aber behandeln sie eher wie eine magische Kugel", schrieb er auf X. „LLMs sind eine große Dopamin-Abkürzungstaste, die Ihr Problem mit einem Schlag lösen kann. Drücken Sie ständig die Taste, die mit einer Wahrscheinlichkeit von 1 % alles verbessert? Es ist viel angenehmer als die zermürbende Alternative, zumindest für mich.“ (Anthony fügte hinzu, dass Ablenkungen durch die sozialen Medien ebenfalls leicht zu Verzögerungen führen können).

Wo werden KI-Codierungsassistenten also langfristig den größten und nachhaltigsten Einfluss auf die Softwareentwicklung haben, wenn sie sich weiterentwickeln und verbessern? „Sobald sie stabil, vertrauenswürdig und nützlich sind, denke ich, dass Codierungsassistenten am besten auf der QA-Ebene eingesetzt werden – beim Testen, der Qualitätssicherung und der Zugänglichkeit, sagte Hagerty. „Die beste Anwendung dieser Tools findet sich in Bereichen, die Beschränkungen unterliegen und regelbasiert sind.“

Das liegt daran, dass das Schreiben von Code etwas völlig anderes ist als das Überprüfen von Code. „Codierung an sich ist eine kreative Tätigkeit.“ Es geht darum, in einem einzigartigen Ökosystem etwas aus dem Nichts zu erschaffen. KI-Assistenten entgeht diese Nuance. Aber sie können wahrscheinlich mit einem Regelsystem testen, das allgemeiner und universeller ist.“