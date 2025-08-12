该研究的另一项发现同样引人关注：开发者在实验开始前，普遍预期 AI 能让工作效率提升 24%。然而，即便实际体验到了 19% 的效率下降，他们依然坚信 AI 让自己的工作提速了 20%。

那么，这种感知差距背后的原因是什么？我们就此采访了 METR 的 Nate Rush，即该研究的作者之一。“这是一个非常有价值的问题，而我们的研究尚未对此给出充分解答，”Rush 在接受 IBM Think 采访时表示，“理想情况下，未来的研究将进一步探索开发者对 AI 实用性的预期如何影响其工具使用行为，以及这一感知偏差存在的根本原因。”

除了感知偏差这一问题外，该研究还引发了一系列重要思考：归根结底，节省时间是否应是衡量开发者生产力的唯一标准？而代码质量、团队影响等指标，又该如何融入整体评估框架之中？

“我们的研究仅聚焦于时间节省这一维度，而这只是衡量生产力的一个方面，”Rush 表示，“并不存在‘唯一正确的评估指标’，更合理的方式或许是通过一组多维度指标，全面反映 AI 工具带来的实际影响。”他补充道，尽管本研究以时间为核心关注点，但他的团队发现，开发者生产力的 SPACE 框架（SPACE 为满意度、性能、活动量、沟通及效率的缩写）为未来研究方向提供了重要参考。

另一个值得探讨的问题是：模型版本（本例中采用的是 Claude 3.5 和 3.7 Sonnet）是否可能对任务完成效率产生了影响？Hay 表示：“这就是现实。我认为版本确实很重要。Claude 4 Sonnet 明显更好。Claude 4 Opus 明显更好。我们说的不是好一点点，而是好很多。”

据该研究16名参与者之一的昆汀·安东尼介绍，人性因素也是另一个重要的考虑因素。“我们总说大型语言模型是工具，但实际上却把它们当成了‘万能解决方案’，” 他在 X 平台上发文称，“大型语言模型就像一个强效多巴胺捷径按钮，或许能一键解决你的问题。面对一个有 1% 概率搞定所有事的按钮，你会一直按下去吗？至少对我来说，这比枯燥繁琐的替代方案有趣多了。”（Anthony 补充道，社交媒体干扰也是导致任务延误的另一个常见因素。）

那么，随着 AI 编码助手不断发展和改进，它们将在哪些方面对软件开发产生最可持续的长期影响呢？“一旦这些工具实现稳定、可靠且实用的特性，我认为编码助手的最佳定位将是 QA 环节——负责测试验证、质量管控及可用性适配等工作，”Hagerty 表示，“那些具有明确约束条件且基于规则的工作，才是这类工具最适合的应用场景。”

他表示这是因为写代码与检查代码有着根本的不同。“写代码本身是一项创造性活动。这是在独特的技术生态中，从零开始构建全新事物的过程。AI 助手忽略了这种细微差别。但它们很可能可以使用更通用和普遍的规则体系进行测试。”