人工智能能够批量产出代码,却无法像软件工程师那样思考。
这是麻省理工学院计算机科学与人工智能实验室最新研究的结论:尽管大型语言模型 (LLM) 擅长生成代码片段,但它们在复杂推理、项目规划和团队协作方面,尚无法满足实际软件工程开发的需求。这项与斯坦福大学、加州大学伯克利分校及康奈尔大学研究人员合作完成、于本周国际机器学习会议发表的研究,对“AI 已具备变革软件开发能力”的假设提出了挑战。
“长跨度代码规划需要高度复杂的推理能力与人机互动,”MIT CSAIL 博士生、研究第一作者 Alex Gu 在接受 IBM Think 采访时指出。“模型必须综合考虑性能、内存、代码质量等多重权衡因素,据此精准决策代码架构方案。”
AI 编程工具已成为现代软件开发的标准配置。2025 年的数据显示,82% 的开发者每周或更频繁地使用 AI 编程工具,59% 的开发者在工作流程中依赖三种及以上辅助工具。另有 78% 的开发者明确感受到生产力提升——这彰显了 AI 对当今代码编写方式的深刻影响。
MIT 研究将所谓的“长跨度代码规划”定义为当前 AI 系统的关键局限。据 Gu 解释,这涉及代码如何融入更大系统的全局性思考,以及对局部决策引发的连锁反应的考量。
“长跨度代码规划需要高度复杂的推理能力与人机互动,”Gu 强调道。“模型必须权衡性能、内存、代码质量等多重因素,并据此决策代码设计方向。”
Gu 举了设计一门新编程语言的例子。他解释说,这项任务需要综合考虑该语言的所有应用场景,决定开放哪些 API 函数,并预判用户使用模式。研究指出,模型还必须能推理局部代码变更产生的全局影响——单个函数设计的细微调整可能波及整个代码库。
麻省理工学院研究揭示了当前 AI 编程能力评估体系存在的问题。Gu 指出,多数编程基准测试侧重于从零生成小型独立程序,这无法反映大规模软件工程的实际需求。
“们提及的一个方面是任务类型多样性:现实世界的软件工程涉及软件测试、软件维护等任务,但这些在当今基准测试中鲜有体现,”Gu 解释道。
他补充说,AI 系统推断用户意图的能力同样关键,这是针对特定用例定制解决方案的核心技能。“企业网站相比娱乐网站往往需要更强的健壮性。”
研究发现,LLM 在处理与训练数据高度相似的任务时表现最佳,这对于依赖低资源编程语言或专用库的项目构成挑战。Gu 指出,由于低资源语言和专用库在训练数据中出现频率较低,大型语言模型处理这类任务时更为吃力。
“执行这些任务更依赖于对未知数据和领域的推断能力(泛化性),这通常比生成类似训练分布的代码更为困难,”Gu 强调道。
研究表明,这种局限性意味着 AI 编程智能体在遗留系统、科学计算环境和文档可能不完善的内部工具中往往效果欠佳。
MIT 研究指出,AI 系统需要建立对项目代码库的精确语义模型。Gu 解释道,这涉及理解软件架构、组件交互方式及其关系随时间演变的规律。
“首先,AI 必须理解代码库的结构及各部分如何协同工作,”他表示。“其次,需要理解单个函数的运行机制。最后,当新增功能时,应能同步更新对代码库的认知模型。”
研究注意到,当前 AI 模型在连续提示间缺乏持久状态记忆,既无法记忆代码库的演化历程,也缺乏对其架构的内部表征。
尽管存在这些局限,研究者仍指出了多个可改进领域。Gu 认为更完善的基准测试将有助于提升——特别是能够评估 AI 系统在测试、维护及人机协作等更广泛任务中的表现。
他还看到 AI 在编程之外的近期应用潜力,尤其是在教育领域。“AI 已具备解决大部分中小学课业问题的强大能力,”他指出。“AI 在教育流程优化方面潜力巨大,例如生成练习题、自动评分及识别学生认知误区等。”
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。