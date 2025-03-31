OpenAI의 o1, DeepSeek-R1, Google의 Gemini 2.5와 같은 추론 모델들이 최고 수준의 AI 성능 벤치마크를 두고 경쟁하고 있습니다. 이에 따라 AI를 도입하려는 기업들은 ‘모델 팽창(model bloat)’이라 불리는 현상 즉, 모델이 불필요하게 커지거나 복잡해져 계산 비용과 학습 시간이 증가하고 기업이 필요로 하는 응답을 제공하는 속도가 느려지는 문제에 대해 점점 더 경계하고 있습니다.
OpenAI의 o1과 DeepSeek-R1은 생각의 연결고리(CoT) 추론 방식을 복잡한 문제를 단계별로 나누어 해결함으로써 기존 모델을 능가하는 전례 없는 성능과 더 높은 정확도를 보여주고 있습니다. 그러나 CoT는 추론 과정에서 상당한 연산 자원을 요구해 출력이 길어지고 지연 시간이 증가한다고 IBM의 부사장이자 AI Infrastructure Portfolio 운영 책임자인 Volkmar Uhlig는 IBM Think와의 인터뷰에서 설명합니다.
다양한 최신 연구에서는 사고 원자(AoT)와 초안 사슬(CoD)을 포함한 새로운 프롬프팅 기법들이 제안되고 있습니다. 이러한 기법들은 모델이 문제를 더 빠르게 해결하도록 유도함으로써 CoT의 효율성과 정확성을 향상시키고 동시에 비용과 지연 시간을 줄이는 것을 목표로 합니다.
AI 과학자이자 스타트업 창립자인 Lance Elliott은 이러한 생각의 연결고리의 새로운 변형 기법들을 프롬프트 엔지니어가 활용할 수 있는 도구 세트의 한 형태로 보고 있습니다. 그는 IBM Think에 “일반적인 가정용 수작업 도구 세트에는 보통 망치가 포함되어 있습니다. 이는 CoT에 해당합니다.”라고 설명합니다. "AoT는 건식 벽체 절단 및 조정을 위한 특수 망치를 사용하는 것에 비유할 수 있습니다. 석고보드 작업에 일반 망치를 사용할 수도 있지만 석고보드 망치가 있고 이를 올바르게 사용할 수 있다면 해당 망치를 사용하는 것이 더 좋습니다."
IBM의 AI 기술 솔루션 아키텍트인 Vyoma Gajjar는 특히 “소형 모델이 특정 사용 사례에서 정확한 답변을 내도록 유도할 수 있는, 보다 비용 효율적인 방법을 찾고 있는” 기업들에게 이러한 새로운 CoT 계열 접근법이 잠재력이 있다고 말합니다.
복잡한 문제를 세부적이고 순차적인 단계로 나누어 해결하는 생각의 연결고리와 달리 AoT는 분할 정복 전략을 사용합니다. 구체적으로 홍콩과학기술대학교와 중국 인민대학교의 한 논문 저자들이 설명하듯 AoT는 문제를 여러 ‘원자적 질문’으로 분할해 병렬로 처리한 뒤 각각의 해답을 조합해 최종 답을 도출합니다.
AoT는 독립형 프레임워크와 플러그인 개선 기능으로 모두 작동할 수 있습니다. 논문 저자들이 AoT를 OpenAI의 GPT-4o mini와 함께 사용했을 때 HotpotQA 데이터세트를 포함한 여섯 가지 기준 벤치마크 전반에서 여러 추론 모델을 능가했으며, 그중 o3-mini보다 3.4%, DeepSeek-R1보다 10.6% 높은 성능을 보였습니다.
Gajjar는 정해진 성능과 비용 프로필 사이의 균형을 추구하는 엔터프라이즈 애플리케이션 분야에서 AoT의 가능성을 높게 평가합니다. "별도의 작업이 병렬로 실행되고 전자가 양자와 상호작용하듯 이러한 작업, 즉 ‘원자’들이 서로 소통해 가장 정확한 해답을 도출합니다."라고 그녀는 IBM Think 인터뷰에서 말합니다.
논문 저자들은 AoT가 “기존 방법에 비해 훨씬 낮은 연산 비용으로 경쟁력 있는 성능을 달성한다”고 확인하며 “이러한 효율성 향상은 중복 계산을 제거하면서 필요한 정보만 보존하는 원자 상태 표현 덕분이다”라고 덧붙였습니다.
그러나 AoT가 모든 사용 사례에서 잘 작동하는 것은 아닙니다. AI 과학자인 Elliott은 “수학적 증명 유도, 프로그래밍 코드 생성, 고도로 구조화된 추론 작업 등에서 생성형 AI를 활용할 때 AoT가 가장 효과적일 것”이라고 말했습니다. 그는 또한 창의적인 글쓰기 작업과 대화형 상호작용에서는 효율성이 떨어질 수 있다고 말합니다.
한편 초안 사슬 프롬프팅은 추론 모델이 지나치게 상세하고 장황한 단계를 생성함으로써 발생하는 지연 시간 문제를 해결합니다. 이 현상은 추론 모델과 인간 사이의 중요한 차이를 보여주는 것으로 Zoom Communications의 저자들은 CoD에 관한 최신 논문에서 인간은 불필요한 장황함 없이 핵심적인 인사이트를 담기 위해 간결한 초안이나 약식 메모에 의존하는 경향이 있다고 설명합니다.
논문의 저자들은 “지연 시간 문제는 그동안 종종 간과되어 왔습니다. 그러나 많은 실시간 애플리케이션에서는 높은 응답 품질을 유지하면서 낮은 지연을 확보하는 것이 매우 중요합니다."라고 지적합니다.
CoD 프롬프팅은 LLM이 답을 도출하는 과정에서 간결한 설명을 생성하도록 유도합니다. 예를 들어 CoT 제어 프롬프트는 “다음 질문에 단계별로 사고하여 답을 도출하세요. 응답의 마지막에서 구분자 #### 이후에 최종 답을 제시하세요.”라고 지시했습니다. 반면 CoD 프롬프트는 모델에게 “단계별로 사고하되 각 단계마다 최대 다섯 단어로 최소한의 초안만 남기세요. 응답의 끝에서 구분자 이후에 최종 답을 제시하세요.”라고 지시했습니다.
연구진은 OpenAI의 ChatGPT-4o와 Anthropic의 Claude 3.5 Sonnet을 사용한 결과, CoD가 정확도 면에서 CoT와 동등하거나 이를 능가하면서도 토큰 사용량을 92.4% 줄여 다양한 추론 과제에서 비용과 지연을 모두 감소시킨다는 사실을 확인했습니다.
IBM의 Uhlig은 “우리는 알고리즘 탐구의 완전히 새로운 세계에 진입하고 있습니다.”라고 말합니다. “프롬프트 학습 방식을 다르게 하면 토큰 수를 획기적으로 줄일 수 있습니다. 이는 매우 자연스러운 다음 단계입니다.”
많은 새로운 프롬프트 기법들이 계속 등장하는 가운데, ‘사고의 뼈대’(SoT)라는 기법은 사고 원자와 초안 사슬 개념을 결합한 점에서 주목받고 있습니다. 이 기법을 제안한 논문의 저자들은 “인간의 글쓰기와 사고 과정에서 영감을 얻었다”고 설명합니다. SoT 프롬프트는 LLM이 답변의 골격을 생성하도록 유도한 뒤 각 골격 항목의 내용을 병렬적으로 채워 넣도록 합니다.
중국 칭화대학교와 Microsoft Research의 저자들은 사고의 뼈대 기법을 활용해 여러 종류의 LLM에서 처리 속도를 높이는 동시에 다양한 범주에서 답변의 정확도를 향상시켰습니다. 그들은 “모델, 시스템 또는 하드웨어를 수정하지 않고도 범용 LLM의 병렬 디코딩이 가능함을 입증했습니다.”라고 말합니다.
예를 들어 연구진은 모델에게 “직장에서 갈등을 해결하기 위한 가장 효과적인 전략은 무엇인가?”라는 질문을 제시했습니다. SoT 프롬프트를 적용한 결과, Claude에서는 지연 시간이 22초에서 12초로(1.83배 향상), Vicuna 33B V1.3에서는 43초에서 16초로(2.69배 향상) 단축되었습니다.
Elliott는 모든 문제에 모든 프롬프트 기법이 효과적인 것은 아니며 주어진 작업에 따라 ‘프롬프트 엔지니어의 도구 상자’에서 가장 효율적인 방법이 달라진다고 말합니다. 그는 “생성형 AI의 내부 작동 원리를 이해하는 것은 매우 큰 이점이 됩니다.”라고 설명합니다. “이는 자동차 운전에 비유할 수 있습니다. 엔진이나 변속기의 작동 방식에 대한 복잡한 세부 사항을 완전히 이해할 필요는 없지만 적어도 몇 가지 핵심 원리를 알고 있으면 차량을 보다 효율적으로 제어하는 데 큰 도움이 됩니다. 이해가 깊을수록 빙판길, 젖은 도로, 언덕길, 급커브 등 다양한 주행 상황에도 더 잘 대처할 수 있습니다.”
