계층적 추론 모델(HRM)은 인간의 뇌가 서로 다른 시간 척도와 복잡성 수준에서 정보를 처리하는 방식을 모방하도록 설계된 실험적 AI 아키텍처입니다. 특히 HRM 모델은 훨씬 더 작은 규모와 현저히 적은 데이터 세트로 학습되었음에도 불구하고, 복잡한 추론 작업 성능을 측정하는 여러 벤치마크에서 당시 최첨단 대형 언어 모델(LLM)을 능가했습니다.
보다 구체적으로 HRM은 출력 생성을 위해 고유한 알고리즘을 적용하고, 학습 과정에서 모델 파라미터를 최적화하기 위해 여러 가지 서로 다른 알고리즘을 사용하는 독특한 신경망 아키텍처입니다. 이들은 일반적으로 역사적으로 추론 LLM이 지배해 온 특정 벤치마크에서의 성능을 기준으로 LLM과 비교되지만, 이는 본질적으로 적절하지 않은 비교입니다. HRM은 추론 문제를 위해 명확하게 설계된 제한적이고 작업 특화된 모델인 반면, 추론 LLM은 다양한 작업 중 하나로 추론 문제에도 적용할 수 있는 범용 모델입니다.
복잡한 문제 해결은 가능하지만, HRM은 생성형 AI 모델과 일반적으로 연관되는 대화, 코드 생성, 요약 또는 기타 작업은 수행할 수 없습니다. HRM은 해결하려는 문제 유형에 대해 직접 학습되어야 합니다. 반대로 대형 언어 모델(LLM)은 일반적으로 방대한 양과 다양한 데이터로 사전 학습된 후, 퓨샷 프롬프팅을 통해 규칙을 추론하여 새로운 문제를 해결하도록 지시됩니다.
HRM 개념의 핵심은 인간의 뇌가 다양한 수준과 빈도에서 정보를 처리하는 방식에서 영감을 받은 순환 루프의 “계층 구조”입니다. “내부 루프”는 저수준 계산을 빠르게 수행하는 모듈과, 고수준 계산을 통해 저수준 모듈을 안내하는 더 느린 모듈로 구성됩니다. “외부 루프”는 내부 루프가 계산을 반복적으로 수행하도록 유도하여 모델의 출력을 정제하고 개선합니다.
HRM은 2025년 6월 Guan Wang 외 연구진의 논문에서 설명된 오픈 소스 모델로 처음 소개되었습니다. 이 모델은 단 2,700만 개의 파라미터만으로도 OpenAI의 o3, Anthropic의 Claude 3.7 Sonnet, 그리고 6,710억 개의 파라미터를 가진 DeepSeek-R1과 같은 훨씬 더 큰 모델들을 ARC-AGI, Sudoku-Extreme, Maze-Hard 등 어려운 벤치마크에서 능가했습니다.
이 모델 자체는 대체로 실험적인 성격을 지니며, 해당 논문에서는 실제 적용상의 제약과 향후 개선을 위한 미개척 영역 모두를 언급하고 있습니다. 그럼에도 불구하고, 특히 학습 과정에서의 뛰어난 데이터 효율성과 대부분의 LLM보다 수천 배나 작은 모델 크기를 고려할 때, 이러한 성과는 추론 시스템 확장을 위한 매우 흥미로운 대안적 접근 방식입니다. 이후의 연구 탐색에서는 tiny recurrent models(TRM)과 같은 접근을 통해 HRM의 기본 방식을 정교화하고, HRM이 도입한 새로운 기법에서 영감을 받아 추가적인 발전을 이루었습니다.
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
기존의 추론 모델은 강화 학습을 통해 미세 조정되어, 사용자에게 최종 응답을 제공하기 전에 단계별 사고의 사슬(CoT)을 출력하도록 설계된 LLM입니다. 이러한 추론 과정을 “언어화”하는 방식은 수학, 코딩 및 기타 복잡한 논리 작업에서 모델의 정확도를 향상시키는 것으로 실증적으로 입증되었습니다.
이 접근 방식의 입증된 성공에도 불구하고, LLM(최첨단 추론 LLM을 포함하더라도)은 인공 일반 지능(AGI)으로 나아가는 경로가 아니며 앞으로도 그 경로가 되지 않을 것이라는 주장이 제기되어 왔습니다. 신경학적 관점에서 언어는 주로 사고가 아닌 의사소통을 위한 툴입니다.
전반적으로 HRM의 신경과학에서 영감을 받은 접근 방식은 인간의 뇌가 추상적 문제를 해결하는 방식에 더 가깝습니다. LLM과 달리 HRM은 이 과정을 “언어화”하지 않고 내부적으로 추론합니다. 기술적으로 말하면, 기존 추론 모델이 토큰 공간에서 “소리 내어” 추론하는 반면 HRM은 잠재 공간에서 내부적으로 추론합니다. LLM은 출력하는 실제 단어(토큰)를 반복적으로 정제하면서 “추론”하지만, HRM은 히든 상태(최종 출력을 생성하는 데 사용되는 모델 내부의 사고와 유사한 중간 계산)를 반복적으로 정제하면서 문제를 해결합니다.
최근 복잡한 문제를 해결했던 상황을 떠올려 보세요: 머릿속에서 내적 독백이 있었을 수는 있지만, 전체 사고 과정을 깔끔하고 완전한 문장으로 실제로 모두 언어화하지는 않았을 것입니다. 오히려 뇌는 본능적으로, 그리고 말없이 작동했을 가능성이 높습니다. 그러한 초기의 본능적인 생각에서 어느 정도 형태를 갖춘 고수준 계획이 머릿속에 떠올랐을 것입니다. 이후 해당 전략의 개별 단계를 머릿속으로 수행하면서 전체 계획을 점진적으로 정제했을 것입니다. 결국 스스로 만족스러운 해결책에 도달했을 것입니다.
강화 학습 기법으로 LLM을 미세 조정하면 사고 과정을 모방하는 출력을 생성하도록 학습시킬 수 있는 반면, HRM은 시스템 신경과학의 일부 원리를 차용하여 사고 과정을 재현하는 것을 목표로 합니다.
“Hierarchical Reasoning Model” 논문에서 설명하듯, HRM의 설계는 인간의 사고가 작동하는 서로 다른 수준을 설명하기 위해 고(故) 노벨상 수상자 Daniel Kahneman이 저서 Thinking, Fast and Slow에서 제시한 은유적 개념인 “시스템 1”과 “시스템 2” 사고의 영향을 받았습니다. “시스템 1”은 빠르고, 무의식적이며, 직관적입니다. “시스템 2” 사고는 느리고, 신중하며, 논리적입니다. 따라서 HRM은 저수준 계산을 처리하는 빠른 시스템의 연산을 고수준 계획을 담당하는 느린 시스템이 안내하는 계층 구조를 구현합니다.
머신 러닝 원칙 관점에서 계층적 추론 모델은 표준 순환 신경망(RNN)의 실용적 한계를 완화하기 위한 수정이 적용된 고도로 특화된 형태로 이해할 수 있습니다. 이러한 한계 중 가장 두드러진 것은 조기 수렴으로, RNN이 훈련 데이터 시퀀스에 포함된 모든 패턴과 의존성을 충분히 학습하기 전에 학습을 중단하는 경향을 의미합니다.
모델 학습 과정에서 RNN은 정확한 성능을 달성하기에 충분히 최적화되지 않은 모델 가중치에 빠르게 수렴하는 경향이 있습니다. 이는 일반적으로 기울기 소실 때문입니다. 즉, 계산 단계가 너무 많거나 시퀀스가 지나치게 길어지면 역전파 과정에서 계산되는 모델 파라미터 업데이트의 크기가 매우 작아져 결국 0에 가까워집니다. 이로 인해 모델 가중치는 단기적인 패턴만 반영하는 국소 평형에 도달하게 되며, 훈련 데이터의 패턴을 완전하고 종합적으로 반영하는 전역 평형에는 도달하지 못하게 됩니다.
장단기 기억(LSTM)과 같은 표준 RNN 구조의 다양한 수정이 이러한 문제를 해결하기 위해 제안되었지만, HRM은 새로운 접근 방식을 취합니다. 고수준의 “시스템 2”와 유사한 모듈은 저수준 모듈이 국소 평형에 도달할 때마다 그로부터 학습하도록 설계되어 있습니다. 이러한 고수준 시스템의 업데이트는 저수준 시스템이 작동할 새로운 컨텍스트를 제공하며, 저수준 시스템이 새로운 국소 평형에 도달할 때까지 학습을 계속할 수 있도록 합니다(이 시점에서 고수준 시스템은 다시 업데이트됩니다).
이 “내부 루프”의 출력은 과거 출력을 반복적으로 개선하는 방법을 학습하는 “외부 루프”로 전달됩니다. 종합적으로 이 구조는 RNN의 속도와 단순성을 활용하면서, 일반적인 순환 신경망으로는 달성하기 어려운 보다 안정적이고 훨씬 “깊이 있는” 학습을 가능하게 합니다.
HRM 모델 아키텍처의 “내부 루프”는 두 개의 순환 모듈로 구성됩니다. 두 모듈 모두 표준 트랜스포머 블록 구조에서 어텐션 메커니즘을 사용합니다. 그중 “L-모듈”은 저수준 계산을 빠르게 처리하도록 설계되었습니다. 다른 하나인 “H-모듈”은 장기적인 계획 수립과 고수준 추론을 담당하도록 설계되었습니다.
L-모듈은 본질적으로 표준 RNN처럼 작동하며, 단기적인 패턴에 빠르게 집중하고 히든 상태 업데이트를 중단하는 경향을 가집니다. 그러나 표준 RNN이 시점 t에서의 상태 업데이트를 이전 시점 t-1의 히든 상태에만 의존하는 것과 달리, L-모듈의 히든 상태 zL 업데이트(그리고 그에 따라 집중하는 대상)는 H-모듈의 현재 히든 상태 zH에도 영향을 받습니다.
H-모듈의 히든 상태는 L-모듈보다 훨씬 느리게 변화합니다. 내부 루프는 T개의 시점 주기로 작동합니다. L-모듈이 히든 상태 zL를 T번 업데이트한 후, H-모듈은 해당 최종 상태를 사용해 zH를 업데이트합니다. 시점 T에 이르면 L-모듈은 이미 국소 평형에 수렴하여 업데이트를 중단하는 경우가 많습니다. 그러나 zL의 업데이트는 현재의 zH 값에 의해 조건화되기 때문에, zH가 업데이트될 때마다 L-모듈에 새로운 컨텍스트가 형성됩니다. 이로 인해 새로운 “수렴 단계”가 시작되며, 저수준 모듈이 계속해서 학습할 수 있게 됩니다.
요약하면, L-모듈이 어떤 단기 작업을 “해결”할 때마다 H-모듈이 업데이트됩니다. 그리고 H-모듈의 해당 업데이트는 L-모듈이 새로운 단기 작업을 해결하도록 유도합니다. H-모듈은 본질적으로 장기적인 계획을 수행하고, L-모듈은 그 장기 계획에 포함된 더 작은 하위 작업을 수행합니다. L-모듈의 T번 업데이트로 구성된 이 루프는 총 N번 반복됩니다. T와 N은 모두 조정 가능한 하이퍼파라미터입니다.
종합적으로 내부 루프를 구동하는 HRM의 핵심 아키텍처는 네 가지 학습 가능한 구성 요소로 이루어져 있습니다.
모델이 해결해야 하는 퍼즐의 세부 정보를 나타내는 토큰을 벡터 임베딩으로 변환하는 입력 네트워크입니다.
저수준 순환 모듈(L-모듈)입니다.
N번의 사이클 이후 최종 히든 상태가 출력 네트워크로 전달되는 고수준 순환 모듈(H-모듈).
최종 zH 값을 받아 소프트맥스 함수를 사용해 해당 히든 상태를 확률로 변환하고, 이를 바탕으로 퍼즐의 해답을 구성하는 출력 토큰 값을 예측하는 출력 네트워크입니다.
추론 LLM과 달리 HRM은 범용 모델이 아닙니다. 해결하려는 특정한 작업에 대해 직접 학습되어야 합니다. 논문에서는 “HRM”이 스도쿠, 미로 경로 탐색, ARC-AGI 퍼즐에서 뛰어난 성능을 보였다고 보고하지만, 실제로는 서로 다른 세 가지 HRM을 의미합니다. 하나는 스도쿠에, 다른 하나는 미로에, 또 다른 하나는 ARC-AGI 퍼즐에 대해 각각 학습되었습니다.
추론 LLM은 방대한 양의 레이블 없는 데이터에 대해 자기지도 학습을 통해 초기 사전 학습을 수행합니다. 이후 적절한 응답 구조를 학습하기 위한 지도 학습 기반 미세 조정(SFT), 원하는 방식으로 작업을 수행하도록 학습하는 인스트럭션 튜닝, 그리고 사고의 사슬(CoT) 추론을 내재화하기 위한 강화 학습 기반 추가 미세 조정을 거칩니다. 이 모든 과정에는 수백만에서 수십억 개의 데이터 포인트와 수주에 걸친 학습이 필요합니다.
HRM을 위한 학습 데이터를 생성하기 위해 저자들은 데이터 증강을 사용했습니다. 소수의 원본 학습 예시(미해결 퍼즐과 그 해답으로 구성된 레이블 쌍)를 기반으로, 회전, 뒤집기, 색상 교체와 같은 작은 변환을 적용해 추가 예시를 생성합니다. 논문에서 설명된 각 HRM은 소수의 원본 샘플에 이러한 데이터 증강을 적용해 생성된 약 1,000개의 학습 예시만으로 학습되었습니다.
두 접근 방식 모두 각각의 장점이 있습니다. 추론 LLM은 명시적인 지시 없이도 퍼즐의 규칙을 추론할 수 있지만, 이러한 능력을 갖추기 위해서는 수조 개의 토큰 데이터가 필요합니다. HRM은 학습된 특정 작업만 수행할 수 있지만, 훨씬 적은 파라미터와 학습 예시로도 유사하거나 더 우수한 성능을 달성할 수 있습니다.
HRM은 모델 파라미터 최적화 과정을 단순화하고 안정화하기 위한 영리한 최적화 기법을 활용하여, 다시 한 번 표준 RNN의 고유한 한계를 회피합니다.
RNN은 시간을 통한 역전파(BPTT)라는 순환 구조에 특화된 역전파 방식을 사용하여 각 시점에서 손실이 어떻게 누적되는지에 대한 기울기를 계산합니다. 표준 RNN에서 시점 수가 증가함에 따라 BPTT는 필연적으로 기울기 소실 문제에 직면하게 됩니다.
이를 방지하고 메모리 요구 사항을 크게 줄이기 위해 HRM은 최적화 목표를 단순화합니다. 모든 시점에서 기울기를 계산하는 대신, HRM은 L-모듈의 최종 상태와 H-모듈의 최종 상태에 대해서만 BPTT를 수행합니다. 이는 다음과 같은 간단한 가정에 기반합니다: 최종 출력이 어떻게 변화해야 하는지를 알고, 이에 맞게 L-모듈과 H-모듈의 최종 상태를 변화시키도록 모델 가중치를 최적화하면 나머지 과정은 자연스럽게 해결됩니다.
HRM의 다른 요소들과 마찬가지로, 이 역시 신경과학과 경험적 사례에서 영감을 얻은 접근입니다. 예를 들어 Jenga와 같은 블록 균형 게임을 배우려는 사람(또는 모델)을 떠올려 보세요. 각 움직임마다 블록을 밀고 당기는 모든 개별 동작을 일일이 최적화하는 법을 배울 필요는 없습니다. 블록이 특정한 방식으로 쌓여 있다고 가정하고(입력), 수행한 움직임으로 인해 모든 것이 무너졌다고 가정할 때(출력의 손실), 기술을 개선하려면 단 두 가지를 확실히 이해하면 됩니다.
논문 저자들은 이러한 BPTT의 단일 단계 근사가 충분히 효과적이어서, 이 두 가지 요소만을 최적화하는 것으로도 강력하고 안정적인 학습 동역학을 구축하는 데 충분하다는 것을 확인했습니다.
HRM은 또한 외부 루프를 활용하여 모델이 최종 출력을 반복적으로 정제할 수 있도록 하며, 이 과정을 논문 저자들은 “딥 슈퍼비전”이라고 부릅니다. 후속 연구에서는 내부 루프보다 외부 루프가 궁극적으로 HRM에서 가장 중요한 구성 요소일 수 있다고 제시합니다.
신경망의 표준 지도 학습에서는 학습 중인 모델에 입력이 주어지면 단일 순전파를 수행하여 출력을 생성합니다. 손실 함수는 해당 출력의 오차를 측정합니다. 그다음 역전파를 사용하여 손실의 기울기를 계산합니다. 이는 신경망의 어떤 변수에 변화가 발생했을 때 전체 손실이 어떻게 증가하거나 감소하는지를 의미합니다. 마지막으로, 경사 하강 알고리즘을 사용해 해당 정보를 기반으로 모델 파라미터를 업데이트합니다. 이 반복 과정은 손실이 허용 가능한 수준까지 최소화될 때까지 다시 시작되며 계속 반복됩니다.
딥 슈퍼비전은 모델이 단일 순전파를 통해 초기 출력을 생성한 후 전체 과정을 다시 시작하지 않습니다. 대신 여러 번의 순전파를 수행하며, 각각의 순전파를 “세그먼트”라고 부릅니다. 각 세그먼트 m 이후 손실이 계산되고 이에 따라 모델 파라미터가 최적화되며, 이후 H-모듈(zH)과 L-모듈(zL)의 최종 히든 상태가 다음 순전파의 시작점으로 모델에 다시 입력됩니다. 이를 통해 모델은 이전 세그먼트에서의 파라미터 업데이트를 통해 “학습한” 내용을 활용하여 출력을 반복적으로 정제할 수 있습니다.
이 과정은 M개의 세그먼트에 대해 반복되며, 각 다음 세그먼트 m+1에서 내부 루프의 시작점은 다음과 같습니다. 및 : 즉, 이전 세그먼트 m 동안 T 타임스텝으로 이루어진 N번의 내부 루프를 거친 후의 H-모듈과 L-모듈의 최종 은닉 상태를 의미합니다.
모델의 효율성을 유지하기 위해 HRM 개발자들은 주어진 출력이 충분히 좋은지(또는 반대로 추가 정제 루프를 시작해야 하는지)를 모델이 학습할 수 있도록 적응형 연산 시간 메커니즘을 도입했습니다. 이를 가능하게 하기 위해 모델은 대표적인 강화 학습 알고리즘인 Q-러닝을 포함합니다.
각 세그먼트 이후 고수준 모듈의 최종 상태인 zH는 출력 네트워크뿐만 아니라 자체 학습 가능한 가중치를 가진 “Q-헤드”라고 불리는 또 다른 모듈에도 전달됩니다. zH가 Q-헤드의 가중치와 곱해진 후, 입력 값을 0과 1 사이의 값으로 변환하는 시그모이드 함수를 사용하여 halt 에 대한 값과 continue에 대한 값을 출력합니다. halt 값이 더 크면 모델은 최종 출력을 생성합니다. continue 값이 더 크면 모델은 또 다른 세그먼트를 시작합니다.
따라서 각 세그먼트 이후 딥 슈퍼비전 과정의 전체 손실 함수는 두 가지 항을 결합합니다.
한 부분은 작업 자체에 대한 손실을 반영합니다. 모델의 출력은 얼마나 정확했는가?
다른 부분은 Q-헤드에서 발생한 손실을 반영합니다. 모델이 “continue”보다 “halt”에 더 높은 값을 예측했다면, 올바른 결정을 내렸는가?
시간이 지남에 따라 모델은 더 어려운 문제에는 더 많은 연산(즉, 더 많은 정제 루프)을 사용하고, 더 쉬운 문제에는 더 적은 연산을 사용하도록 학습합니다. 구현 방식은 다르지만 유사한 아이디어가 트랜스포머 초창기 연구에서도 비교적 이른 시기에 탐구되었다는 점도 주목할 만합니다.
ARC-AGI 벤치마크를 운영하는 비영리 기관 ARC Prize는 HRM에 대한 외부 분석을 수행한 결과 “정제 외부 루프가 HRM 성능의 핵심 동인이다”라고 밝혔습니다.
추론 단계에서 정제 루프를 단 하나 추가하는 것만으로도 HRM의 정확도가 거의 두 배로 증가했습니다(18.6%에서 35.5%로). 추가적인 성능 향상은 있었지만 수익 체감이 크게 나타났으며, 8회 루프에서 38.1%, 16회 루프에서 39.0%를 기록했습니다. 내부 루프가 없는 표준 트랜스포머 모델(아키텍처, 모델 크기, 학습 파이프라인은 HRM과 동일한 경우)에서도 외부 정제 루프를 추가하면 유사한 성능 향상이 나타났습니다.
외부 루프는 학습 과정에서도 필수적입니다. 추론 비용을 기준으로 정제 루프 수를 유지하더라도, 학습 과정에서 단 하나의 정제 루프를 추가하는 것만으로 모델 정확도가 19%(정제 없음)에서 32%(정제 1회)로 증가했습니다. 실제로 추가 실험에서는 추론 단계에서 정제 루프를 늘리는 것보다 학습 단계에서 정제 루프를 늘리는 것이 훨씬 더 큰 영향을 미친다는 결과가 나타났습니다. 학습과 추론 모두에서 정제 루프가 없는 경우 모델 점수는 18.6%였습니다. 추론 단계에서는 정제 루프가 없고 학습 단계에서 16개의 정제 루프를 적용한 경우 모델 점수는 34.9%였습니다.
반대로 내부 루프는 동일한 크기의 모델에서 H-모듈과 L-모듈을 표준 트랜스포머의 어텐션 블록으로 대체한 경우와 비교했을 때 상대적으로 작은 성능 향상만을 제공하는 것으로 나타났습니다. 이러한 결과가 ARC-AGI 벤치마크의 특정 작업에만 해당되는 것인지, 아니면 HRM이 처리할 수 있는 모든 추론 작업에 일반적으로 적용되는 것인지는 아직 불확실합니다.
계층적 추론 모델은 신경망 아키텍처와 학습 기법에 의미 있는 혁신을 도입하여 이미 딥러닝 연구에 영향을 미치고 있지만, HRM 자체의 실질적인 활용성은 현재로서는 불확실합니다.
대규모 추론 LLM과 비교하면 HRM은 훨씬 작고, 학습 비용과 운영 비용이 모두 낮으며, 비교적 적은 양의 학습 예시로도 학습이 가능합니다. 이는 최첨단 성능이 대부분의 연구자와 조직이 접근하기 어려운 대규모 모델과 학습 데이터셋을 통해서만 달성된다는 통념에 반하는 결과입니다.
그러나 주류 추론 모델의 핵심 가치는 뛰어난 일반화 능력에 있습니다. 다양한 자연어 작업과 지시를 이해하고 수행하는 맥락에서 고도로 특화된 추론 작업도 수행할 수 있습니다. HRM의 매우 제한적인 기능은 이를 더 큰 워크플로에 통합하기 어렵게 만듭니다.
HRM은 학습 과정에서 접한 매우 특정한 유형의 퍼즐만 해결할 수 있습니다. 다른 퍼즐 형식이 기존에 학습한 것과 매우 유사한 규칙과 논리를 사용하더라도(사람이라면 한 퍼즐을 잘하면 다른 퍼즐도 쉽게 풀 수 있을 정도로 유사하더라도—) HRM은 이를 처리할 수 없습니다. 작업 간 전이 학습을 더 잘 활용할 수 있도록 학습 파이프라인을 개선한다면 HRM의 실용성은 크게 향상될 것입니다.
HRM은 경험적으로 문제를 추론하여 출력을 정제하는 능력을 보여주지만, 추적 가능한 “사고 과정”이 없다는 점에서 해석 가능성이 크게 저하됩니다. 하지만 해석 가능성은 일반적으로 딥 러닝을 통해 훈련된 모든 AI 시스템에서 문제가 되며, 연구에 따르면 LLM이 사용자에게 제공하는 추론 추적이 사용자의 진정한 '사고 과정'에 항상 충실하지는 않다는 것이 입증되었습니다.