AI가 코드를 작성할 수 있지만, 소프트웨어 엔지니어를 능가할 수 있을까요?

등을 돌리고 책상에 앉아 여러 화면이 있는 컴퓨터에서 코딩하는 남성

인공 지능은 코드를 작성할 수는 있지만, 소프트웨어 엔지니어처럼 생각할 수는 없습니다.

MIT 컴퓨터 과학 및 인공 지능 연구소의 새로운 연구에 따르면 대규모 언어 모델(LLM)은 코드 스니펫 생성에는 탁월하지만 실제 소프트웨어 엔지니어링에서 요구하는 정교한 추론, 계획 및 협업에는 미치지 못한다는 사실을 발견했습니다. 스탠포드, UC 버클리, 코넬의 연구원들과 공동으로 수행되어 이번 주 국제 머신 러닝 컨퍼런스에서 발표된 이 연구는 소프트웨어 개발을 혁신할 AI의 준비 상태에 대한 가정에 이의를 제기합니다.

MIT CSAIL의 박사 과정 지원자이자 이번 연구의 주 저자인 Alex GuIBM Think와의 인터뷰에서 "장기적인 코드 계획에는 정교한 수준의 추론과 인간 상호작용이 필요합니다."라고 말합니다. "모델은 성능, 메모리, 코드 품질 등과 같은 다양한 절충점을 고려하고 이를 사용하여 코드를 설계하는 방법을 정확하게 결정해야 합니다."

AI 코딩 도구는 이제 최신 소프트웨어 개발의 필수 요소입니다. 2025년 기준, 개발자의 82%가 매주 이상 AI 코딩 도구를 사용한다고 보고했으며, 59%는 작업 흐름에서 세 개 이상의 보조 도구에 의존한다고 답했습니다. 또 다른 78%는 명확한 생산성 향상을 보고했으며, 이는 오늘날 AI가 코드 작성 방식을 얼마나 심층적으로 형성하고 있는지를 보여줍니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

계획 수립 과제

MIT 연구는 현재 AI 시스템의 주요 한계로 '장기적인 코드 계획'을 정의합니다. Gu에 따르면, 여기에는 코드가 더 큰 시스템에 어떻게 적용되는지 추론하고 로컬 의사 결정의 글로벌 결과를 고려하는 것이 포함됩니다.

"장기적인 코드 계획에는 정교한 수준의 추론과 인간의 상호작용이 필요합니다."라고 Gu는 말합니다. "모델은 성능, 메모리 및 코드 품질과 같은 장단점을 고려하고 이를 사용하여 코드 설계 방법을 결정해야 합니다."

Gu는 새로운 프로그래밍 언어를 설계한 사례를 예로 들었습니다. 그는 이 작업을 위해서는 언어를 사용해야 하는 다양한 방법을 모두 고려하고, 어떤 API 함수를 노출할지 결정하고, 사용자 사용 패턴을 생각해야 한다고 설명했습니다. 이 연구는 단일 함수의 설계를 약간 변경하면 나머지 코드베이스로 전파될 수 있으므로 모델은 로컬 코드 변경의 글로벌 영향도 추론해야 한다고 지적합니다.

MIT 연구에서는 AI 코딩 능력이 현재 평가되는 방식에 문제가 있음을 확인했습니다. Gu에 따르면 대부분의 코딩 벤치마크는 독립적인 소규모 프로그램을 처음부터 생성하는 데 중점을 두는데, 이는 대규모 소프트웨어 엔지니어링의 현실을 반영하지 않습니다.

"우리가 언급하는 한 가지 측면은 작업 다양성입니다. 실제 소프트웨어 엔지니어링(SWE)에는 소프트웨어 테스트 또는 소프트웨어 유지 관리와 같은 작업이 포함되지만 오늘날의 벤치마크에는 거의 반영되지 않습니다."라고 Gu는 말합니다.

그는 AI 시스템이 사용자 의도를 추론하는 능력도 마찬가지로 중요하며, 이는 특정 사용 사례에 맞게 솔루션을 조정하는 데 필수적인 기술이라고 덧붙였습니다. "비즈니스를 위한 웹사이트는 재미를 위해 디자인된 웹사이트보다 더 견고해야 합니다."

연구 결과, LLM은 학습 과정에서 접한 예시와 유사한 작업에서 가장 우수한 성능을 발휘하는 것으로 나타났으며, 이는 저사양 프로그래밍 언어나 특수 라이브러리에 의존하는 프로젝트에 어려움을 초래합니다. Gu에 따르면, 자원이 부족한 언어와 전문 라이브러리는 이 데이터 풀에 비교적 드물게 등장하기 때문에 LLM은 이에 대해 더 많은 어려움을 겪고 있습니다.

"이러한 작업을 수행하려면 보이지 않는 데이터와 도메인에 대한 추정(일반화)에 더 많이 의존하며, 이는 학습 분포와 유사한 코드를 반복하는 것보다 어려운 경우가 많습니다."라고 Gu는 말합니다.

연구에 따르면 이러한 한계는 AI 코딩 에이전트가 문서화가 제한적일 수 있는 레거시 시스템, 과학 컴퓨팅 환경 및 내부 도구에서 효율성이 떨어지는 경향이 있음을 의미합니다.

코드베이스 이해

MIT 연구는 프로젝트 코드베이스의 정확한 의미론적 모델을 개발하기 위해 AI 시스템이 필요하다는 사실을 밝혀냈습니다. Gu에 따르면 여기에는 소프트웨어 구조, 구성 요소가 상호작용하는 방식, 이러한 관계가 시간이 지남에 따라 어떻게 변화하는지 이해하는 것이 포함됩니다.

"먼저 AI는 코드베이스의 구조와 다양한 부분이 어떻게 결합되어 있는지 이해해야 합니다."라고 그는 말합니다. "둘째, 개별 기능이 어떻게 작동하는지 이해해야 합니다. 마지막으로, 새로운 기능이 추가되면 코드베이스 모델을 업데이트해야 합니다."

이 연구에 따르면 현재 AI 모델은 프롬프트 사이에 상태가 지속되지 않으며, 코드베이스가 어떻게 진화했는지에 대한 메모리나 아키텍처의 내부 표현이 부족하다고 합니다.

이러한 한계에도 불구하고 저자는 잠재적인 개선이 필요한 몇 가지 영역을 파악했습니다. Gu는 특히 테스트, 유지보수 및 인간과 AI의 협업을 포함한 광범위한 작업에서 AI 시스템을 평가할 수 있다면 더 나은 벤치마크가 도움이 될 수 있다고 말했습니다.

또한 그는 코딩 이외의 영역, 특히 교육 분야에서도 단기적인 가능성을 보고 있습니다. "AI는 이미 대부분의 초등학교 및 중학교 문제를 해결할 수 있는 강력한 능력을 갖추고 있습니다."라고 그는 말합니다. "AI는 연습 문제를 생성하고, 학생의 오해를 채점하고 식별하는 등 교육의 기존 워크플로를 간소화할 수 있는 많은 잠재력을 가지고 있습니다."

AI 아카데미

비즈니스용 생성형 AI의 부상

역사적인 생성형 AI의 부상과 이것이 비즈니스에 의미하는 바를 살펴봅니다.

관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

생성형 AI와 고급 자동화를 활용하여 기업 환경에 최적화된 코드를 더 빠르게 생성하세요. IBM watsonx Code Assistant™는 Granite 모델을 활용해 개발자의 기술을 강화하여 개발 및 현대화 작업을 간소화하고 자동화합니다.

watsonx Code Assistant 살펴보기