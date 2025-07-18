MIT 研究将所谓的“长跨度代码规划”定义为当前 AI 系统的关键局限。据 Gu 解释，这涉及代码如何融入更大系统的全局性思考，以及对局部决策引发的连锁反应的考量。

“长跨度代码规划需要高度复杂的推理能力与人机互动，”Gu 强调道。“模型必须权衡性能、内存、代码质量等多重因素，并据此决策代码设计方向。”

Gu 举了设计一门新编程语言的例子。他解释说，这项任务需要综合考虑该语言的所有应用场景，决定开放哪些 API 函数，并预判用户使用模式。研究指出，模型还必须能推理局部代码变更产生的全局影响——单个函数设计的细微调整可能波及整个代码库。

麻省理工学院研究揭示了当前 AI 编程能力评估体系存在的问题。Gu 指出，多数编程基准测试侧重于从零生成小型独立程序，这无法反映大规模软件工程的实际需求。

“们提及的一个方面是任务类型多样性：现实世界的软件工程涉及软件测试、软件维护等任务，但这些在当今基准测试中鲜有体现，”Gu 解释道。

他补充说，AI 系统推断用户意图的能力同样关键，这是针对特定用例定制解决方案的核心技能。“企业网站相比娱乐网站往往需要更强的健壮性。”

研究发现，LLM 在处理与训练数据高度相似的任务时表现最佳，这对于依赖低资源编程语言或专用库的项目构成挑战。Gu 指出，由于低资源语言和专用库在训练数据中出现频率较低，大型语言模型处理这类任务时更为吃力。

“执行这些任务更依赖于对未知数据和领域的推断能力（泛化性），这通常比生成类似训练分布的代码更为困难，”Gu 强调道。

研究表明，这种局限性意味着 AI 编程智能体在遗留系统、科学计算环境和文档可能不完善的内部工具中往往效果欠佳。