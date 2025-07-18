MIT 연구는 현재 AI 시스템의 주요 한계로 '장기적인 코드 계획'을 정의합니다. Gu에 따르면, 여기에는 코드가 더 큰 시스템에 어떻게 적용되는지 추론하고 로컬 의사 결정의 글로벌 결과를 고려하는 것이 포함됩니다.

"장기적인 코드 계획에는 정교한 수준의 추론과 인간의 상호작용이 필요합니다."라고 Gu는 말합니다. "모델은 성능, 메모리 및 코드 품질과 같은 장단점을 고려하고 이를 사용하여 코드 설계 방법을 결정해야 합니다."

Gu는 새로운 프로그래밍 언어를 설계한 사례를 예로 들었습니다. 그는 이 작업을 위해서는 언어를 사용해야 하는 다양한 방법을 모두 고려하고, 어떤 API 함수를 노출할지 결정하고, 사용자 사용 패턴을 생각해야 한다고 설명했습니다. 이 연구는 단일 함수의 설계를 약간 변경하면 나머지 코드베이스로 전파될 수 있으므로 모델은 로컬 코드 변경의 글로벌 영향도 추론해야 한다고 지적합니다.

MIT 연구에서는 AI 코딩 능력이 현재 평가되는 방식에 문제가 있음을 확인했습니다. Gu에 따르면 대부분의 코딩 벤치마크는 독립적인 소규모 프로그램을 처음부터 생성하는 데 중점을 두는데, 이는 대규모 소프트웨어 엔지니어링의 현실을 반영하지 않습니다.

"우리가 언급하는 한 가지 측면은 작업 다양성입니다. 실제 소프트웨어 엔지니어링(SWE)에는 소프트웨어 테스트 또는 소프트웨어 유지 관리와 같은 작업이 포함되지만 오늘날의 벤치마크에는 거의 반영되지 않습니다."라고 Gu는 말합니다.

그는 AI 시스템이 사용자 의도를 추론하는 능력도 마찬가지로 중요하며, 이는 특정 사용 사례에 맞게 솔루션을 조정하는 데 필수적인 기술이라고 덧붙였습니다. "비즈니스를 위한 웹사이트는 재미를 위해 디자인된 웹사이트보다 더 견고해야 합니다."

연구 결과, LLM은 학습 과정에서 접한 예시와 유사한 작업에서 가장 우수한 성능을 발휘하는 것으로 나타났으며, 이는 저사양 프로그래밍 언어나 특수 라이브러리에 의존하는 프로젝트에 어려움을 초래합니다. Gu에 따르면, 자원이 부족한 언어와 전문 라이브러리는 이 데이터 풀에 비교적 드물게 등장하기 때문에 LLM은 이에 대해 더 많은 어려움을 겪고 있습니다.

"이러한 작업을 수행하려면 보이지 않는 데이터와 도메인에 대한 추정(일반화)에 더 많이 의존하며, 이는 학습 분포와 유사한 코드를 반복하는 것보다 어려운 경우가 많습니다."라고 Gu는 말합니다.

연구에 따르면 이러한 한계는 AI 코딩 에이전트가 문서화가 제한적일 수 있는 레거시 시스템, 과학 컴퓨팅 환경 및 내부 도구에서 효율성이 떨어지는 경향이 있음을 의미합니다.