AI 真的让编码更快吗?

坐在有多个屏幕的办公桌前在电脑上编码的绿发女士的背影

在过去的几年里,AI 前沿模型一直秉持着一项大胆承诺:借助编码助手,开发者能够实现代码编写提速、漏洞减少,同时摆脱大量重复性工作。诸如 GitHub Copilot、Cursor 等工具(由 Claude 或 GPT 等大型语言模型提供技术支持),其设计初衷便是自动化处理编程中的繁琐环节,让人类开发者得以聚焦代码库中更具挑战性、更需创造性的核心问题。

至少,到目前为止,情况确实如此。但伯克利非营利组织 METR 致力于评估前沿模型的实际性能,该机构希望通过实证研究验证这一说法是否成立。而他们得出的结论却颠覆了传统认知:编码助手实际上可能会拖慢开发者的工作效率。

METR 的研究人员观察了 16 名资深开发者的工作过程。这些开发者长期为大型开源代码仓库贡献代码,相关工作经验已达数年之久。每位开发者均提供了一份日常工作任务清单,涵盖漏洞修复、新功能开发等实际业务场景。研究人员随后将这些任务随机分为两组:一组允许开发者使用 AI 工具,另一组则禁止使用。

AI 的介入影响

在允许使用 AI 的实验组中,开发者可自主选择任意工具,多数人选用 Cursor Pro,并搭配 Claude 3.5 或 3.7 Sonnet 模型。他们在完成每项任务时进行了屏幕录制,随后报告了自己预估的总实施时间。而该研究的结果令人意外。“当开发者获准使用 AI 工具时,完成任务的时间平均延长了 19%——这一显著的效率下降与开发者的自我认知及专家预测均相悖。” 研究论文作者如此写道。

我们邀请 IBM AI 倡导负责人 PJ Hagerty 与杰出工程师 Chris Hay 对 METR 的研究进行评析并分享见解。

Hagerty 提醒道,AI 助手相关的宣传热度可能已超出其实际应用价值。“AI 提升人类生产力的说法,源于科技领导层及生成式 AI 企业希望借助 AI 热潮获利的诉求,” 他在接受 IBM Think 采访时表示,“但实际上,这类 AI 工具仍处于边用边学的阶段,其使用的资源很可能与初级开发者别无二致——比如 Stack Overflow、Github 以及常规的谷歌搜索——却缺乏任何具体场景的上下文信息。”

“我认为这一研究结果具有现实参考意义,”Hay 补充道,“但我们不应就此得出‘AI 毫无用处,我自己做反而更快’的结论。不过有一点值得关注:对于特定任务,或许直接手动完成比费尽心思引导 AI 理解需求更高效。”

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

感知并不总是现实

该研究的另一项发现同样引人关注:开发者在实验开始前,普遍预期 AI 能让工作效率提升 24%。然而,即便实际体验到了 19% 的效率下降,他们依然坚信 AI 让自己的工作提速了 20%。

那么,这种感知差距背后的原因是什么?我们就此采访了 METR 的 Nate Rush,即该研究的作者之一。“这是一个非常有价值的问题,而我们的研究尚未对此给出充分解答,”Rush 在接受 IBM Think 采访时表示,“理想情况下,未来的研究将进一步探索开发者对 AI 实用性的预期如何影响其工具使用行为,以及这一感知偏差存在的根本原因。”

除了感知偏差这一问题外,该研究还引发了一系列重要思考:归根结底,节省时间是否应是衡量开发者生产力的唯一标准?而代码质量、团队影响等指标,又该如何融入整体评估框架之中?

“我们的研究仅聚焦于时间节省这一维度,而这只是衡量生产力的一个方面,”Rush 表示,“并不存在‘唯一正确的评估指标’,更合理的方式或许是通过一组多维度指标,全面反映 AI 工具带来的实际影响。”他补充道,尽管本研究以时间为核心关注点,但他的团队发现,开发者生产力的 SPACE 框架(SPACE 为满意度、性能、活动量、沟通及效率的缩写)为未来研究方向提供了重要参考。

另一个值得探讨的问题是:模型版本(本例中采用的是 Claude 3.5 和 3.7 Sonnet)是否可能对任务完成效率产生了影响?Hay 表示:“这就是现实。我认为版本确实很重要。Claude 4 Sonnet 明显更好。Claude 4 Opus 明显更好。我们说的不是好一点点,而是好很多。”

据该研究16名参与者之一的昆汀·安东尼介绍,人性因素也是另一个重要的考虑因素。“我们总大型语言模型是工具,但实际上却把它们当成了‘万能解决方案’,” 他在 X 平台上发文,“大型语言模型就像一个强效多巴胺捷径按钮,或许能一键解决你的问题。面对一个有 1% 概率搞定所有事的按钮,你会一直按下去吗?至少对我来说,这比枯燥繁琐的替代方案有趣多了。”(Anthony 补充道,社交媒体干扰也是导致任务延误的另一个常见因素。)

那么,随着 AI 编码助手不断发展和改进,它们将在哪些方面对软件开发产生最可持续的长期影响呢?“一旦这些工具实现稳定、可靠且实用的特性,我认为编码助手的最佳定位将是 QA 环节——负责测试验证、质量管控及可用性适配等工作,”Hagerty 表示,“那些具有明确约束条件且基于规则的工作,才是这类工具最适合的应用场景。”

他表示这是因为写代码与检查代码有着根本的不同。“写代码本身是一项创造性活动。这是在独特的技术生态中,从零开始构建全新事物的过程。AI 助手忽略了这种细微差别。但它们很可能可以使用更通用和普遍的规则体系进行测试。”

相关解决方案
基础模型

深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解人工智能解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

深入了解 IBM watsonx 产品组合中的 IBM 基础模型库,满怀信心地为您的业务扩展生成式 AI。

深入了解 watsonx.ai 深入了解人工智能解决方案