추론 모델이란 무엇인가요?

작성자

Senior Staff Writer, AI Models

IBM Think

추론 모델이란 무엇인가요?

추론 모델은 최종 아웃풋을 생성하기 전에 복잡한 문제를 '추론 추적'이라고 하는 더 작은 단계로 세분화하도록 미세 조정된 대규모 언어 모델(LLM)입니다. 생각의 연결고리 추론 및 기타 다단계 의사 결정 전략을 사용하기 위한 모델 학습 수단이 점점 더 정교해짐에 따라 특히 수학 및 코딩과 같은 논리 기반 작업의 벤치마크에서 최첨단 성능을 발휘하고 있습니다.

추론 모델은 사용자의 입력에 대한 직접적인 응답을 즉시 생성하는 대신 사용자에게 제공되는 최종 답변에 도달하기 전에 먼저 중간 '추론 단계'를 생성하도록 학습됩니다. 일부 추론 LLM은 사용자에게 추론 흔적을 보여주는 반면, 다른 LLM은 이러한 중간 아웃풋만 요약하거나 완전히 숨깁니다.

간단히 말해서, 추론 LLM은 응답하기 전에 '생각'하는 데 더 많은 시간을 할애하도록 학습됩니다. 이 '추론 프로세스'를 추가하면 복잡한 추론 작업에서 LLM의 성능이 크게 향상되는 것으로 경험적으로 나타났습니다. 이러한 성공은 AI 모델을 적용할 수 있는 실제 사용 사례와 영역을 확장하여 생성형 AI 및 AI 에이전트의 지속적인 개발에 중요한 변곡점을 마련했습니다.

그러나 모델의 '사고 과정'과 같은 의인화된 용어가 문자 그대로의 용어보다 더 편리하다는 점은 주목할 가치가 있습니다. 모든 머신 러닝 모델과 마찬가지로 추론 모델도 궁극적으로 학습 데이터에서 학습한 패턴을 반영하여 다음에 어떤 단어가 와야 하는지와 같은 예측을 수행하기 위해 정교한 알고리즘을 적용하는 것입니다. 추론 LLM은 인공 일반 지능(AGI)의 의식이나 기타 징후를 보여주지 않았습니다. Apple이 2025년 6월에 발표한 AI 연구에 따르면 현재 모델 추론 능력이 진정으로 '일반화 가능한' 추론으로 확장될 수 있는지에 대해 의문이 제기됩니다.¹

추론 LLM은 인간의 사고 과정과 유사한 일련의 토큰(단어)을 생성하여 '자신의 작업을 보여주도록' 학습되었으며, 이러한 생각을 '언어화'하는 행위는 잠재된 추론 기능, 즉 LLM이 방대한 학습 데이터(개인이 자신의 과정을 직간접적으로 표현하는 예시를 포함)에서 암묵적으로 학습하는 능력을 해금한다고 말하는 것이 가장 정확할 것입니다.

'추론 모델'이라는 개념은 2024년 9월 OpenAI의 o1-preview(및 o1-mini)에 의해 도입되었으며² 11월에 Alibaba의 'Qwen with Quesque'(QWQ-32B-Preview), 12월에는 Google의 Gemini 2.0 플래시 실험이 그 뒤를 이었습니다. 추론 LLM 개발에 있어서 중요한 이정표는 2025년 1월에 오픈 소스 DeepSeek-R1 모델이 출시된 것입니다. 이전 추론 모델을 미세 조정하는 데 사용된 학습 프로세스는 기밀로 유지되었지만 DeepSeek는 다른 모델 개발자를 위한 청사진을 제공하는 상세한 기술 문서를 발표했습니다. 그 이후로 IBM Granite, Anthropic, Mistral AI 등이 자체 추론 LLM을 출시했습니다.

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

추론 모델이 작동하는 이유는 무엇인가요?

모델 아웃풋에 '사고 과정'을 추가하면 모델이 유해한 인지적 지름길을 피하고 학습 데이터에서 학습한 잠재적으로 관련성이 더 높은 지식을 표면화하는 데 도움이 되므로 표준 LLM 추론에 내재된 많은 결함을 완화할 수 있습니다.

추론 LLM의 맥락에서 AI 연구 문헌에서는 노벨상을 수상한 행동경제학자 Daniel Kahneman이 그의 저서 Thinking, Fast and Slow에서 만든 용어인 '시스템 1' 및 '시스템 2' 사고를 자주 언급합니다.시스템 1 사고는 빠르고 무의식적이며 직관적이며 휴리스틱에 의존하고 노력이 거의 또는 전혀 필요하지 않습니다. 시스템 2 사고는 느리고 신중하며 논리적이므로 공동의 노력이 필요합니다. 자기회귀 LLM은 기본적으로 시스템 1 사고를 따르는 경향이 있습니다.³

일부 작업의 경우 시스템 1 사고가 효과적이고 계산 효율적입니다. 그러나 다른 많은 작업에서는 충동적인 시스템 1 사고로는 부족합니다. 예를 들어, Meta 연구원 Jason Weston과 Sainbayar Sukhbaatar의 2023년 논문에서는 LLM이 입력 프롬프트에 관련 없는 컨텍스트나 주관적인 세부 정보가 존재하면 얼마나 쉽게 흔들리는지 언급했습니다.

비추론적 LLM이 관련 없는 정보로 인해 종종 '주의가 산만해지는' 경우의 예입니다. 'System 2 Attention (is something you might need too)'라는 논문에서 발췌했습니다.

그들은 '시스템 2 주의'(S2A)라고 부르는 기술 클래스를 제안했는데, 이 기술은 모델에 먼저 관련 없는 컨텍스트가 제거된 입력 프롬프트의 재작성 버전을 생성한 다음 다시 작성된 프롬프트에 응답하도록 지시합니다. 실험에서 S2A는 다양한 작업에서 표준 추론을 능가하여 정확도를 높이고 아부형 응답을 줄였습니다.

S2A는 초기 추론 확장 방법입니다. 입력과 응답 사이에 단계를 추가하여(이 경우 원래 프롬프트를 다시 작성) 모델은 최종 아웃풋을 개선합니다. 'System 2 Attention (is something you might need too)'라는 논문에서 발췌했습니다.

개념적으로 말하자면, 추론 접근 방식의 암묵적 목표는 잠재적 아웃풋을 탐색, 평가 및 개선하는 시스템 2와 유사한 모델 동작을 구현하는 것으로 이해될 수 있습니다.

초기 LLM 연구에서 '단계적으로 생각하기'라는 문구를 추가하는 것(생각의 연결고리 프롬프트라고 함)만으로도 모델의 아웃풋이 크게 향상된다는 것이 입증된 것처럼 필수적인단계입니다. ^4,5 Google DeepMind의 2024년 논문에서는 테스트 시간 컴퓨팅(출력을 생성하는 데 사용되는 리소스)을 확장하면 학습 시간 컴퓨팅(모델 학습에 사용되는 리소스)을 확장하는 것만큼 모델 성능이 향상된다는 훨씬 더 광범위한 주장을 내놓았습니다. ⁶ CoT 프롬프트는 S2A와 마찬가지로 이러한 추론 확장 기술 중 하나일 뿐입니다.

현대 추론 LLM은 한 걸음 더 나아갑니다. 즉, 프롬프트 설계에 의존하는 대신, 새로운 미세 조정 기술과 정교한 워크플로를 사용하여 추론 시점에 모델이 사용하는 컴퓨팅 양을 본질적으로 증가시킵니다. 추론 모델의 최적화는 알고리즘 및 학습 데이터 개발의 기술적 과제와 이상적인 '사고 과정'을 설계하는 철학적 과제를 모두 수반합니다.

추론 모델의 작동 방식

추론 LLM 학습의 초기 단계는 기존 LLM의 단계와 유사합니다. 표준 LLM과 마찬가지로 추론 모델은 대규모 자기 지도 사전 학습을 통해 일반적인 언어 기능과 세계 지식을 얻은 다음, 대화형 챗봇 사용과 같은 다운스트림 작업에 맞게 조정하기 위해 일정량의 지도 미세 조정(SFT)을 수행합니다. 핵심 혁신은 최종 아웃풋을 생성하기 전에 추론 시점에 중간 '추론 단계'를 생성하도록 모델에 인센티브를 제공하는 새로운 강화 학습(RL) 기술을 적용하는 것입니다.

수년간의 연구와 실험을 통해 추론 접근 방식의 종류가 기하급수적으로 늘어났지만, 이러한 접근 방식은 모두 테스트 시간의 컴퓨팅 성능 증가라는 근본적인 목표를 공유하고 있습니다. 추론 모델은 기반이 되는 기본 (또는 지침에 따라 조정된) LLM 외에도 사용하도록 학습된 특정 의사 결정 전략과 해당 행동을 장려하는 데 사용되는 특정 알고리즘에 따라 차별화됩니다.

대체로 추론 시 사용되는 컴퓨팅을 늘리는 데에는 2가지 기본 방법이 있습니다. 추론 모델을 미세 조정하는 목적은 다양한 학습 알고리즘을 통해 이러한 광범위한 접근 방식 중 하나(또는 둘 다)를 사용하도록 학습시키는 것입니다.

더 긴 아웃풋 생성: 이 모델은 긴 생각의 연결고리, 역추적 및 자체 개선을 포함한 전략을 통해 더 긴 아웃풋 시퀀스를 생성하는 방법을 학습합니다.
아웃풋 생성: 프롬프트에 대한 응답으로 단일 아웃풋을 생성하는 대신, 모델이 아웃풋을 여러 번 반복하여 생성하고 잠재적 아웃풋을 검색, 거부 및 집계하는 프로세스를 통해 최종 답변에 도달합니다.

추론 모델을 생성하는 학습 패러다임의 특성은 일반적으로 코딩 작업이나 수학 문제와 같이 본질적으로 해결책을 검증할 수 있는 문제에 대한 학습 및 평가를 수반합니다. 따라서 추론 모델의 성능을 평가하는 데 사용되는 벤치마크 지표는 일반적으로 해당 도메인에 중점을 둡니다. 창의적 글쓰기와 같은 보다 주관적인 영역에서 추론이 미치는 영향에 대한 연구는 상당히 적습니다.

강화 미세 조정

추론 LLM의 부상의 핵심은 LLM 컨텍스트에서 규칙 기반 RL과 딥 러닝 기반 RL('심층 RL')을 모두 포함하는 RL 기반 미세 조정의 발전이었습니다. 지도 학습과 자기 지도 학습에는 잘 정의된 정적 학습 작업이 필요한 반면, RL은 다단계 추론이 가장 유용한 동적이고 개방적이며 복잡한 작업에 적합합니다.

추상적인 특성을 부여하는 방식으로 LLM을 미세 조정하기 위해 RL을 사용하는 것은 추론 모델에만 국한되지 않습니다. 예를 들어, 챗봇 설정에서 사용되는 LLM의 표준 교육 파이프라인은 다음과 같습니다.

지도 사전 학습으로 모델이 다운스트림 작업에 적용할 언어 패턴과 기본 지식을 학습합니다.
감독된 미세 조정(SFT)으로 모델이 사용자 입력에 대한 응답의 형식을 적절하게 지정하는 방법을 학습합니다.
명령 조정으로 모델이 지침을 따르고 특정 작업을 수행하는 방법을 학습시킵니다.
인간 피드백을 통한 강화 학습(RLHF)으로 모델이 인간 선호도 데이터에 대해 미세 조정되어 유용성, 무해성, 진실성 및 이상적인 어조와 같은 주관적인 특성을 부여합니다.

추론 LLM은 일반적으로 동일한 학습 단계를 거치며, (어느 시점에) 생산적인 CoT 기반 추론 프로세스를 주입하는 강화 학습 단계가 추가됩니다. 이는 이 추론 프로세스의 목표, 즉 최종 아웃풋 전에 CoT 추론 추적 생성과 같이 '보상'을 받을 특정 모델 동작을 정의한 다음 보상을 극대화하는 방식으로 모델 가중치를 최적화함으로써 달성됩니다.

모든 복잡한 문제 해결에 효과적인 추론 프로세스처럼 추상적이고 복잡한 작업에 대한 명시적 보상 기능을 설계하는 것은 어렵거나 불가능하기 때문에 이 보상 신호는 학습 중에 사용되는 별도의 보상 모델에서 제공되는 경우가 많습니다. RLHF에서 이 보상 모델은 인간의 피드백을 학습하여 인간이 주어진 응답을 얼마나 선호하는지에 대한 수치 점수를 예측하는 방법을 학습합니다.

추론 모델에 대한 RL의 맥락에서 보상 신호는 결과 보상 모델(ORM), 프로세스 보상 모델(PRM), 규칙 기반 보상 시스템의 세 가지 카테고리로 나눌 수 있습니다.

결과 보상 모델(ORM)

ORM은 이름에서 알 수 있듯이 추론 모델의 최종 아웃풋의 정확성을 검증하고 그에 따라 모델 가중치를 최적화하는 데 사용되는 보상 신호를 제공합니다. 이는 표면적으로는 지도 학습에서 손실 함수의 역할과 유사하지만 메커니즘은 더 복잡한 경우가 많습니다.

손실 함수는 일반적으로 모델 아웃풋과 실측 정보 간의 토큰별 차이를 측정합니다. 반면에 효과적인 ORM은 사용 가능한 실측 정보 답과 매우 다르게 제시되는 경우(긴 CoT 아웃풋의 높은 변동성을 고려할 때 종종 발생)에도 수학 문제의 정답을 인식할 수 있어야 합니다. 마찬가지로, 대부분의 실제 코딩 문제에는 여러 가지 해결책이 있습니다. 코드 아웃풋을 전체적으로 평가하려면 일반적으로 코드 스니펫의 효율성을 효율적으로 실행하고 검증하는 데이터 파이프라인이 필요합니다. 규정된 형식이나 지침을 따르는지 여부와 같은 다른 아웃풋 품질은 표준 LLM을 검증자로 사용할 수 있습니다.

ORM은 비교적 간단하고 계산적으로 효율적인 솔루션이지만, 결함이 있는 추론 단계가 올바른 최종 정답을 도출하여 모델이 최적이 아닌 추론 프로세스를 학습하는 상황에 보상을 제공할 가능성이 있습니다.

프로세스 보상 모델(PRM)

PRM은 최종 답변의 정확성에만 초점을 맞추기보다는 각 개별 추론 단계를 개별하여 점수를 매기고 보상(또는 불이익)을 줍니다. 이를 통해 보다 세분화된 보상 신호와 후속 모델 조정이 제공되어 보다 강력하고 해석 가능한 추론 프로세스를 갖춘 모델을 생성합니다.

그러나 PRM은 학습 및 구현에 더 많은 비용과 시간이 소요됩니다. PRM에 대한 영향력 있는 초기 접근 방식은 거의 전적으로 인간 주석자의 힘든 데이터 라벨링에 의존했습니다.⁷ 다른 접근 방식은 정답이 나오는 빈도에 따라 추론 단계의 타당성을 추론하여 이 과정을 자동화합니다.⁸

규칙 기반 보상 시스템

보상 모델의 비용과 복잡성을 피하기 위해 일부 RL 기반 미세 조정 접근 방식은 모델 아웃풋을 평가하는 작업을 단순화하는 방식으로 학습 작업을 설계합니다. 예를 들어, DeepSeek-R1 및 R1-Zero 기술은 프롬프트 모델이 별도의 상자에 최종 답변의 형식화하도록 하므로 전체 응답을 구문 분석해야 하는 전문 보상 모델 없이도 정확성을 검증할 수 있습니다. 다른 규칙 기반 보상 시스템은 응답 끝에 '대기'를 추가하여 더 많은 탐색과 자기 수정을 장려하는 것과 같은 특정 마이크로 작업을 장려하며, 이는 쉽게 검증할 수 있습니다.⁹

DeepSeek-R1-Zero: 순수 RL

간단하고 설명적이며 매우 영향력 있는 강화 미세 조정 기술은 DeepSeek가 오픈 소스 R1-Zero 실험 추론 모델 학습에서 개척했습니다.

DeepSeek는 DeepSeek-V3를 기반으로 사전 학습에서 매우 간단한 규칙 기반 강화 학습 체계로 바로 전환했습니다.

모델 쿼리: 모델에게 질문합니다. 사고 과정을 “<think> “issued”에</think> ” 토큰 사이에 아웃풋하고 최종 답변을 “<answer> “issued”에</answer> ” 토큰 사이에 아웃풋하도록 프롬프트합니다.
정확도 보상: 최종 답변의 품질(예: 생성된 코드가 얼마나 잘 실행되는지)에 따라 모델에 보상을 제공합니다.
형식 보상: 응답에서 “<think> </think> “issued”에<answer> </answer> ” 토큰을 올바르게 사용한 모델에 보상을 제공합니다.

놀랍게도, DeepSeek-R1-Zero는 명시적인 지시 없이도 복잡한 생각의 연결고리를 생성하고 추론 전략을 사용하는 법을 배웠으며, 그 결과 수학 및 추론 과제에서 인상적인 성과를 보였습니다. 즉, 최종 답변을 출력하기 전에 '생각'하고 최종 답변의 정확도를 극대화해야 한다는 명령만 주어지면 모델은 자연스럽게 최적의 추론 패턴을 탐색하고 '발견'했습니다.

실질적으로 말하자면, 이 간소화된 접근 방식에는 중요한 결함이 있었습니다. 기술 문서에서 설명했듯이 "DeepSeek-R1-Zero는 끝없는 반복, 낮은 가독성, 언어 혼합과 같은 문제에 직면합니다." 그럼에도 불구하고, 이 순수 RL 접근 방식은 대중적으로 인기를 얻은 DeepSeek-R1 모델을 탄생시킨 더욱 정교한 방법론의 기초가 되었습니다.

검색 및 샘플 기반 접근 방식

대부분의 CoT 기반 RL 패러다임은 단일 모델 아웃풋의 효율성을 최적화하는 것을 목표로 하는 반면, 다른 방법은 최상의 추론 단계를 식별하고 인센티브를 제공하는 목표로 여러 개의 최종 또는 중간 아웃풋을 생성합니다.

이러한 접근 방식의 대부분은 몬테카를로 트리 검색(MCTS)과 같은 검색 기반 최적화 알고리즘에 의존하여 여러 잠재적인 다음 추론 단계를 생성 및 탐색하고 후속 단계의 품질과 이로 이어질 수 있는 최종 답변을 기반으로 평가합니다. 그런 다음 보상은 바람직한 결과를 도출한 추론 경로를 통해 반복적으로 역전파되고 가중치는 이러한 추론 단계의 가능성을 높이는 방식으로 최적화됩니다. 이는 잠재적 결정 범위가 매우 넓거나 정확한 최종 답변에 도달하기 위해 광범위한 장기 계획이 필요한 추론 작업에 특히 유용합니다.

또 다른 접근 방식은 다수결 투표라고도 하는 자기 일관성입니다.각 작업은 생각의 연결고리 프롬프트로 시작됩니다. 각각 고유한 추론 경로가 있는 여러 응답이 모델의 디코더에서 샘플링됩니다. 샘플링된 아웃풋 중에서 가장 일관되게 나타나는 최종 답변이 최적의 답변으로 결정됩니다. 이것은 무작위성과 할루시네이션을 최소화하기 위한 추론 시간 전략으로 사용하거나 SFT 기반 방법에 대한 고품질 추론 데이터를 생성하는 수단으로 사용할 수 있습니다.

이러한 방법의 주요 단점은 대기 시간과 계산 오버헤드가 증가한다는 것입니다. 그러나 일부 연구에 따르면 검색 또는 샘플 기반 추론 알고리즘을 사용하는 소규모 모델이 기존에 사용되는 대규모 모델보다 성능-효율성 측면에서 더 우수한 절충안을 제공할 수 있는 것으로 나타났습니다.¹⁰

SFT, 지식 증류 및 자기 개선 접근 방식

추론을 위해 모델을 미세 조정하는 데 개념적으로 가장 간단한 방법 중 하나는 까다로운 입력 프롬프트와 해당 CoT 기반 아웃풋으로 구성된 데이터 세트에 지도 학습을 사용하는 것입니다.

기존 방법을 사용하여 사람이 작성한 예제를 통해 '수작업으로' 학습 데이터 세트를 조립하는 것은 엄청나게 시간과 노동력이 많이 드는 반면, 추론 모델과 추론 확장 기법의 확산으로 적절한 합성 학습 데이터를 생성하는 것이 훨씬 쉬워졌습니다. 스탠포드 대학과 Allen Institute for A1에서 실시한 연구에 따르면 Qwen2.5-32B-Instruct 모드를 미세 조정한 후 1,000개의 질문 쌍과 추론 추적으로만 구성된 선별된 데이터 세트에서 's1' 모델이 경쟁 수학 문제에서 OpenAI의 o1-preview를 능가했습니다.

지식 증류는 대규모 '교사' 모델에서 생성된 아웃풋을 SFT를 통해 직접 미세 조정함으로써 더 작은 모델이 더 큰 추론 모델의 사고 과정을 에뮬레이션하도록 가르치는 데에도 사용할 수 있습니다. DeepSeek는 DeepSeek-R1을 교사로 삼아 지식 증류를 사용하여 다양한 크기의 Qwen 및 Llama 모델의 추론 조정 버전을 만들었습니다.

다른 방법은 모델 '자체 개선' 프로세스를 통해 프롬프트 데이터 세트와 이에 해당하는 긴 CoT 출력을 부트스트랩하는 것을 목표로 합니다. 자가 학습 추론기(STaR)는 효과적인 추론 추적의 퓨샷 예제를 제공한 다음 모델이 더 많은 수의 샘플 질문에 대한 답변과 근거를 생성하도록 프롬프트합니다. 그런 다음 모델은 궁극적으로 정답을 산출한 근거에 따라 미세 조정된 후 프로세스를 반복적으로 반복합니다.¹¹ 강화된 자기 학습(ReST)은 강화 미세 조정에 사용되는 보상 신호(또는 '정책')를 미세 조정하기 위해 유사한 개념적 접근 방식을 적용합니다.¹² 둘 다 다양한 파생 방법론을 낳았습니다.

AI 아카데미

사용 사례에 적합한 AI 모델 선택

AI 모델은 크다고 항상 좋은 것은 아닙니다. 비즈니스 요구 사항에 맞는 적합한 솔루션을 찾는 방법을 알아보세요. 그런 다음 가이드북을 통해 솔루션을 도입하는 데 도움을 받으세요.

에피소드로 이동

추론 모델의 과제

많은 장점과 이점에도 불구하고 추론 LLM에 단점이 없는 것은 아닙니다.

과잉 사고

추론 모델, 특히 상대적으로 매개변수가 적은 추론 모델은 과잉 사고를 하기 쉽습니다. Tencent의 한 연구에 따르면 추론 모델은 동일한 답변에 도달하는 데 기존 모델보다 평균 1,953% 더 많은 토큰을 소모하는 것으로 나타났습니다.¹³ 여러 대학의 연구에서 수행한 또 다른 연구에 따르면 에이전트 환경에서 추론 모델은 외부 도구 및 정보 소스와 상호 작용하는 대신 확장된 순환 추론에 참여하는 경향이 있는 것으로 나타났습니다.¹⁴

추론 확장의 한계

Anthropic이 2025년 7월에 발표한 연구에 따르면 이러한 지나친 사고는 효율성 문제만이 아니라고 주장하며, '추론이 길어질수록 성능이 저하되어 테스트 시간 계산과 정확도 사이에 반비례 관계를 나타내는 사례'를 탐구했습니다. 경험적으로 테스트 시간 컴퓨팅을 늘리면 모델 성능이 향상되는 경우가 많지만, 연구 결과에 따르면 추론이 길어지면 모델의 약점과 정렬 문제가 증폭되는 여러 시나리오가 입증되어 '추론을 많이 하면 모델 아웃풋이 보편적으로 향상된다는 가정'에 도전하게 되었습니다.¹⁵

2025년 초 Apple의 관련 연구에 따르면 표준 모델이 추론 모델을 능가하는 일련의 복잡성이 낮은 작업과 두 모델 유형 모두 완전히 실패한 복잡성이 높은 작업이 입증되었습니다. Apple의 조사에 따르면 추론 모델은 '계획 작업에 대한 일반화 가능한 문제 해결 기능을 개발하지 못하며, 특정 복잡성 임계값을 넘어서면 성능이 0으로 떨어집니다.'¹

비추론 영역의 성능 저하

추론 미세 조정은 일반적으로 수학 및 코딩과 같은 논리 영역의 복잡한 작업을 크게 개선하지만 다른 곳에서는 성능 저하로 이어질 수도 있습니다. 예를 들어, DeepSeek-R1에서 지식 증류를 통해 미세 조정된 Llama 3.1 및 Qwen2.5 버전은 기존 버전과 비교하여 어려운 지시를 통해 모델의 사고 능력을 측정하는 인기 벤치마크인 ArenaHard 및 Alpaca-Eval-2에서 회귀를 보여주었습니다. 그렇긴 하지만, IBM Granite 3.2를 미세 조정하는 데 사용되는 사고 선호도 최적화(TPO)와 같은 보다 광범위하게 표적화된 추론 기술은 수학이나 코딩 성능에 의미 있는 영향을 미치지 않지만 지침을 따르는 것을 크게 개선합니다.

DeepSeek-R1의 추론 프로세스를 에뮬레이션하기 위해 Llama 및 Qwen 모델을 미세 조정하면 특정 논리적 도메인에서 성능이 향상되었지만 일반적인 명령에 따르는 것은 감소했습니다.

비용 및 지연 시간 증가

모델이 '생각'하는 동안 생성되는 모든 토큰에 대해 사용자는 비용을 지불하고, 기다려야 하며, 이때 생성되는 토큰은 사용 가능한 컨텍스트 창을 차지하게 됩니다. 일부 사용 사례는 추가 시간과 컴퓨팅을 정당화하지만 리소스 낭비인 경우도 있습니다. 그러나 작업이나 프롬프트마다 '표준' 모델과 추론 모델을 번갈아 사용하는 방식은 일반적으로 비현실적입니다.

추론 활동 및 하이브리드 추론 모델

한 가지 해법은 '하이브리드 추론 모델'입니다. 2025년 2월 IBM Granite 3.2는 사용자가 필요할 때 추론을 활용하고, 필요하지 않을 때는 효율성을 우선할 수 있도록 '사고(thinking)' 모드를 전환할 수 있는 최초의 LLM으로 출시되었습니다.¹⁶ 같은 달 말에는 Anthropic의 Claude 3.7 Sonnet이 뒤를 이어, API 사용자가 모델이 '사고'에 투자하는 시간을 세밀하게 조정할 수 있는 기능을 추가했습니다.¹⁷ Google은 Gemini 모델의 '사고 예산'을 조정하는 유사한 기능을 도입했습니다.¹⁸ 마찬가지로 OpenAI의 o1 및 o3 추론 모델의 '추론 활동'을 '낮음', '중간' 또는 '높음'으로 설정할 수 있습니다.

해석 가능성

표면적으로 모델의 생각의 연결고리을 사용자에게 공개하면 LLM이 최종 답변에 도달하는 방법을 정확히 이해하는 데 도움이 되며 일반적으로 표준 모델에서 가능한 것보다 더 큰 해석 가능성을 제공합니다. 그러나 Anthropic의 연구에 따르면 추론 모델이 항상 실제로 생각하는 것을 말하는 것은 아닙니다. 특별히 설계된 일련의 작업을 통해 연구원들은 Claude 3.7 Sonnet과 DeepSeek-R1이 모두 자신의 추론을 충실하게 설명하지 못한다는 것을 발견했습니다. 예를 들어 정답에 대한 힌트를 제공했을 때 그들의 응답에서 주장된 근거를 설명할 때 해당 힌트를 거의 언급하지 않았습니다.¹⁹