在过去的几年里,AI 前沿模型一直秉持着一项大胆承诺:借助编码助手,开发者能够实现代码编写提速、漏洞减少,同时摆脱大量重复性工作。诸如 GitHub Copilot、Cursor 等工具(由 Claude 或 GPT 等大型语言模型提供技术支持),其设计初衷便是自动化处理编程中的繁琐环节,让人类开发者得以聚焦代码库中更具挑战性、更需创造性的核心问题。
至少,到目前为止,情况确实如此。但伯克利非营利组织 METR 致力于评估前沿模型的实际性能,该机构希望通过实证研究验证这一说法是否成立。而他们得出的结论却颠覆了传统认知:编码助手实际上可能会拖慢开发者的工作效率。
METR 的研究人员观察了 16 名资深开发者的工作过程。这些开发者长期为大型开源代码仓库贡献代码,相关工作经验已达数年之久。每位开发者均提供了一份日常工作任务清单,涵盖漏洞修复、新功能开发等实际业务场景。研究人员随后将这些任务随机分为两组:一组允许开发者使用 AI 工具,另一组则禁止使用。
在允许使用 AI 的实验组中,开发者可自主选择任意工具,多数人选用 Cursor Pro,并搭配 Claude 3.5 或 3.7 Sonnet 模型。他们在完成每项任务时进行了屏幕录制,随后报告了自己预估的总实施时间。而该研究的结果令人意外。“当开发者获准使用 AI 工具时,完成任务的时间平均延长了 19%——这一显著的效率下降与开发者的自我认知及专家预测均相悖。” 研究论文作者如此写道。
我们邀请 IBM AI 倡导负责人 PJ Hagerty 与杰出工程师 Chris Hay 对 METR 的研究进行评析并分享见解。
Hagerty 提醒道,AI 助手相关的宣传热度可能已超出其实际应用价值。“AI 提升人类生产力的说法,源于科技领导层及生成式 AI 企业希望借助 AI 热潮获利的诉求,” 他在接受 IBM Think 采访时表示,“但实际上,这类 AI 工具仍处于边用边学的阶段,其使用的资源很可能与初级开发者别无二致——比如 Stack Overflow、Github 以及常规的谷歌搜索——却缺乏任何具体场景的上下文信息。”
“我认为这一研究结果具有现实参考意义,”Hay 补充道,“但我们不应就此得出‘AI 毫无用处,我自己做反而更快’的结论。不过有一点值得关注:对于特定任务,或许直接手动完成比费尽心思引导 AI 理解需求更高效。”
该研究的另一项发现同样引人关注:开发者在实验开始前,普遍预期 AI 能让工作效率提升 24%。然而,即便实际体验到了 19% 的效率下降,他们依然坚信 AI 让自己的工作提速了 20%。
那么,这种感知差距背后的原因是什么?我们就此采访了 METR 的 Nate Rush,即该研究的作者之一。“这是一个非常有价值的问题,而我们的研究尚未对此给出充分解答,”Rush 在接受 IBM Think 采访时表示,“理想情况下,未来的研究将进一步探索开发者对 AI 实用性的预期如何影响其工具使用行为,以及这一感知偏差存在的根本原因。”
除了感知偏差这一问题外,该研究还引发了一系列重要思考:归根结底,节省时间是否应是衡量开发者生产力的唯一标准?而代码质量、团队影响等指标,又该如何融入整体评估框架之中?
“我们的研究仅聚焦于时间节省这一维度,而这只是衡量生产力的一个方面,”Rush 表示,“并不存在‘唯一正确的评估指标’,更合理的方式或许是通过一组多维度指标,全面反映 AI 工具带来的实际影响。”他补充道,尽管本研究以时间为核心关注点,但他的团队发现,开发者生产力的 SPACE 框架(SPACE 为满意度、性能、活动量、沟通及效率的缩写)为未来研究方向提供了重要参考。
另一个值得探讨的问题是:模型版本(本例中采用的是 Claude 3.5 和 3.7 Sonnet)是否可能对任务完成效率产生了影响?Hay 表示:“这就是现实。我认为版本确实很重要。Claude 4 Sonnet 明显更好。Claude 4 Opus 明显更好。我们说的不是好一点点,而是好很多。”
据该研究16名参与者之一的昆汀·安东尼介绍,人性因素也是另一个重要的考虑因素。“我们总说大型语言模型是工具,但实际上却把它们当成了‘万能解决方案’,” 他在 X 平台上发文称,“大型语言模型就像一个强效多巴胺捷径按钮,或许能一键解决你的问题。面对一个有 1% 概率搞定所有事的按钮,你会一直按下去吗?至少对我来说,这比枯燥繁琐的替代方案有趣多了。”(Anthony 补充道,社交媒体干扰也是导致任务延误的另一个常见因素。)
那么,随着 AI 编码助手不断发展和改进,它们将在哪些方面对软件开发产生最可持续的长期影响呢?“一旦这些工具实现稳定、可靠且实用的特性,我认为编码助手的最佳定位将是 QA 环节——负责测试验证、质量管控及可用性适配等工作,”Hagerty 表示,“那些具有明确约束条件且基于规则的工作,才是这类工具最适合的应用场景。”
他表示这是因为写代码与检查代码有着根本的不同。“写代码本身是一项创造性活动。这是在独特的技术生态中,从零开始构建全新事物的过程。AI 助手忽略了这种细微差别。但它们很可能可以使用更通用和普遍的规则体系进行测试。”
深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。