AI 能编写代码,但能胜过软件工程师吗?

一个男人坐在桌子旁,背对着我们,在有多块屏幕的电脑上编码

人工智能能够批量产出代码,却无法像软件工程师那样思考。

这是麻省理工学院计算机科学与人工智能实验室最新研究的结论:尽管大型语言模型 (LLM) 擅长生成代码片段,但它们在复杂推理、项目规划和团队协作方面,尚无法满足实际软件工程开发的需求。这项与斯坦福大学、加州大学伯克利分校及康奈尔大学研究人员合作完成、于本周国际机器学习会议发表的研究,对“AI 已具备变革软件开发能力”的假设提出了挑战。

“长跨度代码规划需要高度复杂的推理能力与人机互动,”MIT CSAIL 博士生、研究第一作者 Alex Gu 在接受 IBM Think 采访时指出。“模型必须综合考虑性能、内存、代码质量等多重权衡因素,据此精准决策代码架构方案。”

AI 编程工具已成为现代软件开发的标准配置。2025 年的数据显示,82% 的开发者每周或更频繁地使用 AI 编程工具,59% 的开发者在工作流程中依赖三种及以上辅助工具。另有 78% 的开发者明确感受到生产力提升——这彰显了 AI 对当今代码编写方式的深刻影响。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

规划能力挑战

MIT 研究将所谓的“长跨度代码规划”定义为当前 AI 系统的关键局限。据 Gu 解释,这涉及代码如何融入更大系统的全局性思考,以及对局部决策引发的连锁反应的考量。

“长跨度代码规划需要高度复杂的推理能力与人机互动,”Gu 强调道。“模型必须权衡性能、内存、代码质量等多重因素,并据此决策代码设计方向。”

Gu 举了设计一门新编程语言的例子。他解释说,这项任务需要综合考虑该语言的所有应用场景,决定开放哪些 API 函数,并预判用户使用模式。研究指出,模型还必须能推理局部代码变更产生的全局影响——单个函数设计的细微调整可能波及整个代码库。

麻省理工学院研究揭示了当前 AI 编程能力评估体系存在的问题。Gu 指出,多数编程基准测试侧重于从零生成小型独立程序,这无法反映大规模软件工程的实际需求。

“们提及的一个方面是任务类型多样性:现实世界的软件工程涉及软件测试、软件维护等任务,但这些在当今基准测试中鲜有体现,”Gu 解释道。

他补充说,AI 系统推断用户意图的能力同样关键,这是针对特定用例定制解决方案的核心技能。“企业网站相比娱乐网站往往需要更强的健壮性。”

研究发现,LLM 在处理与训练数据高度相似的任务时表现最佳,这对于依赖低资源编程语言或专用库的项目构成挑战。Gu 指出,由于低资源语言和专用库在训练数据中出现频率较低,大型语言模型处理这类任务时更为吃力。

“执行这些任务更依赖于对未知数据和领域的推断能力(泛化性),这通常比生成类似训练分布的代码更为困难,”Gu 强调道。

研究表明,这种局限性意味着 AI 编程智能体在遗留系统、科学计算环境和文档可能不完善的内部工具中往往效果欠佳。

了解代码库

MIT 研究指出,AI 系统需要建立对项目代码库的精确语义模型。Gu 解释道,这涉及理解软件架构、组件交互方式及其关系随时间演变的规律。

“首先,AI 必须理解代码库的结构及各部分如何协同工作,”他表示。“其次,需要理解单个函数的运行机制。最后,当新增功能时,应能同步更新对代码库的认知模型。”

研究注意到,当前  AI 模型在连续提示间缺乏持久状态记忆,既无法记忆代码库的演化历程,也缺乏对其架构的内部表征。

尽管存在这些局限,研究者仍指出了多个可改进领域。Gu 认为更完善的基准测试将有助于提升——特别是能够评估 AI 系统在测试、维护及人机协作等更广泛任务中的表现。

他还看到 AI 在编程之外的近期应用潜力,尤其是在教育领域。“AI 已具备解决大部分中小学课业问题的强大能力,”他指出。“AI 在教育流程优化方面潜力巨大,例如生成练习题、自动评分及识别学生认知误区等。”

AI 学院

面向企业的生成式 AI 的兴起

了解生成式 AI 的历史兴起及其对企业的意义。

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
人工智能服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

利用生成式 AI 和高级自动化技术加速创建企业就绪代码。IBM watsonx Code Assistant™ 利用 Granite 模型来增强开发人员技能,简化并自动执行您的开发和现代化工作。

深入了解 watsonx Code Assistant