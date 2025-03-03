Anthropic의 새로운 Claude 3.7 Sonnet은 이제 심층 사고 모드를 전등 스위치처럼 켜거나 끌 수 있습니다. 간단한 질문에 즉시 답하는 동시에 복잡한 문제를 해결해야 하는 복잡한 문제에 대한 계산 부담을 덜어줄 수 있습니다.
이 하이브리드 추론 접근 방식은 비용을 절감하고 능력을 향상할 수 있다고 전문가들이 말하는 인공 지능의 변화를 의미하며, IBM의 Granite 모델도 작업 복잡성에 따라 유사한 토글 기능을 채택하고 있습니다. 이러한 진화는 전 세계 조직이 고급 AI의 재정적 현실에 어려움을 겪고 있는 가운데, 잠재적으로 귀중한 컴퓨팅 리소스를 절약하면서 정교한 추론에 더 쉽게 접근할 수 있게 해줄 수 있습니다.
"사고 모델의 비용 구조가 중요합니다. 모든 질문에 32초 동안 멈춰야 모델이 생각할 수 있는 것은 아닙니다."라고 IBM Research의 AI 제품 매니저인 Maya Murad는 Mixture of Experts 팟캐스트의 최근 에피소드에서 말했습니다. "이 능력은 기업이 리소스를 지능적으로 사용하여 문제에 필요할 때만 광범위한 계산을 적용하고, 인간이 다양한 인지 작업에 접근하는 방식과 더 잘 일치하는 AI 시스템을 만들 수 있습니다."
IBM Research의 수석 프로그램 매니저인 Abraham Daniels는 IBM Think에 하이브리드 추론은 단순히 더 강력한 시스템을 구축하는 것에서 실용적으로 사용할 수 있는 시스템을 만드는 것으로 AI 산업의 초점이 전환되고 있음을 나타낸다고 말했습니다. 정교한 AI 운영 비용이 주요 고려 사항이 되었기 때문에 기업의 경우 이러한 변화가 매우 중요할 수 있습니다.
모델은 간단한 응답을 제공할 때보다 심층 추론에서 훨씬 더 많은 계산 리소스를 소비하므로 더 많은 비용이 듭니다. 하이브리드 추론을 통해 기업은 계산 수준을 작업 복잡성에 일치시켜 AI 지출을 최적화할 수 있습니다.
Anthropic은 최근 '확장된 사고 모드'를 갖춘 Claude 3.7 Sonnet을 출시하여 사용자가 필요할 때 더 철저한 분석을 요청할 수 있도록 했습니다. IBM은 Granite 모델에 토글링 기능을 추가하여 사용자가 집중적 추론을 활성화할 시기를 제어할 수 있도록 했습니다.
"우리는 시중의 다른 추론 모델과 다른 철학을 가지고 하이브리드 추론을 구축했습니다."라고 Anthropic 대변인은 IBM Think에 말했습니다. "우리의 접근 방식은 인간의 두뇌가 작동하는 방식을 기반으로 합니다. 인간으로서 우리에게는 빠른 사고와 깊은 사고를 위한 별도의 두뇌가 없으며, Anthropic에서는 추론을 별도의 기능이 아닌 모든 모델의 능력에 깊이 통합해야 하는 것으로 간주합니다. 이러한 접근 방식은 Claude가 모든 애플리케이션에서 고객과 통합하는 방식을 기반으로 합니다. 마케팅 자료 브레인스토밍과 같이 신속한 대응이 필요한 상호 작용도 있지만, 복잡한 재무 분석이나 업계 연구와 같은 상호 작용에는 더 깊이 있고 장기적인 사고가 필요한 경우도 있습니다. 우리는 고객이 액세스하고 사용할 수 있도록 이 두 가지 기능을 최대한 간단하고 비용 효율적으로 만들고 싶었습니다."
이 접근 방식을 사용하면 AI의 사고 과정이 더욱 투명해집니다. "모델 자체는 여전히 블랙박스이지만, 적어도 아웃풋을 보면 모델이 어떻게 그런 결론에 도달했는지 알 수 있습니다."라고 Daniels는 말합니다. 이러한 가시성을 통해 결과를 개선하고 설명 가능성 문제를 해결할 수 있으며, 이는 규제 대상 산업에서 특히 중요합니다.
Daniels와 다른 전문가들은 이 개발이 간단한 질문에 대한 불필요한 계산 오버헤드를 제거하는 실질적인 요구 사항을 해결하기 위한 것으로 보고 있습니다.
"모든 작업에 깊은 추론이 필요한 것은 아니며, 더 복잡한 작업이 있을 때는 지연 시간과 비용 면에서 더 많이 지불할 수 있는 선택권을 준다는 점이죠."라고 IBM Research의 기술 제품 관리 디렉터 Kate Soule은 팟캐스트에서 말합니다.
대규모 언어 모델(LLM)의 내부 작동 방식은 전통적으로 불투명했습니다. 모델은 내부 추론 단계를 공개하지 않고 프롬프트를 수신하고 응답을 생성합니다.
하이브리드 추론은 모델의 단계별 사고 과정을 노출함으로써 이러한 역학 관계를 변화시킵니다. Granite 3.2와 같은 시스템을 활성화하면 작업이 표시되어 시스템이 따르는 논리적 경로가 표시됩니다.
"Claude의 추론 프로세스를 가시화하기로 한 결정은 여러 요소를 고려한 결과입니다. 이러한 요소 중 하나는 사용자 경험 향상과 Claude의 추론 프로세스의 신뢰 투명성입니다."라고 Anthropic 대변인은 말했습니다. "이를 통해 사용자에게 결론에 도달하는 방법에 대한 인사이트를 제공하여 적절한 수준의 신뢰와 이해를 촉진할 수 있습니다. 사용자는 일반적으로 사고의 사슬을 관찰할 수 있을 때 아웃풋을 더 신뢰할 수 있습니다. 이러한 가시성을 통해 사용자가 Claude 추론의 품질과 완전성을 더 잘 평가하고 사용자가 Claude의 능력을 더 잘 이해할 수 있기를 바랍니다. 또한 Claude의 사고 결과를 읽고 특정 추론 단계에 대한 목표 피드백을 제공하여 사용자와 개발자가 더 나은 프롬프트를 만들 수 있기를 바랍니다."
"모델의 실제 사고방식을 드러낼 수 있다는 것은 설명 가능성에 매우 도움이 됩니다."라고 Daniels는 말합니다. "생각의 연결고리(CoT) 추론을 입증하기 전까지는 사실상 다음 토큰 확률에 불과했습니다. 그래서 약간 블랙박스 같은 느낌이죠."
이러한 기술은 다양한 산업 분야로 확장되는 비즈니스 애플리케이션을 갖고 있습니다. Daniels는 "금융과 법률은 구조화된 문서를 다루기 때문에 자연스럽게 적합합니다."라고 말하며, 이러한 고급 사고 모델을 통해 "규제를 받는 모든 산업은 엄청난 가치를 얻을 수 있습니다."고 덧붙입니다.
그러나 하이브리드 추론은 복잡한 분석이 필요한 영역에서 특히 유용할 수 있습니다.
"수학과 코드는 추론에 대한 벤치마크 측면에서 제가 본 두 가지 초점입니다."라고 Daniels는 말합니다. 소프트웨어 개발의 경우 상당한 이점이 있을 수 있습니다. "사고 모델을 사용하면 설정한 요구 사항을 고려하여 프로젝트의 범위를 어떻게 구성할 수 있는지 파악할 수 있습니다."라고 그는 말합니다.
표준 LLM은 학습 데이터의 패턴을 기반으로 가장 가능성이 높은 다음 단어를 예측하여 응답을 생성합니다. 이 접근 방식은 많은 작업에 효과적이지만 이러한 모델은 다단계 추론 문제로 어려움을 겪을 수 있습니다.
하이브리드 추론 모델은 계산 집약적 모드로 전환하여 최종 답변을 제공하기 전에 중간 추론 단계를 명시적으로 생성할 수 있습니다. 이 모델은 인간이 복잡한 수학 문제를 해결할 때 중간 단계를 작성하는 것과 유사하게 이러한 단계를 사용하여 복잡한 문제를 해결합니다.
하이브리드 추론을 가능하게 하는 아키텍처는 연구자들이 '테스트 타임 컴퓨팅'이라고 부르는 것을 기반으로 하며, 이는 학습 중에만이 아니라 추론 중에 계산 리소스를 할애하는 것을 포함합니다.
"기존에는 모든 컴퓨팅 성능을 모델을 학습하는 데 사용하고 모델을 추론하는 것은 계산 요구 사항 측면에서 상대적으로 가벼운 경우가 많았습니다."라고 Daniels는 말합니다.
그러나 AI 시스템이 점점 더 복잡해짐에 따라 처리 능력뿐만 아니라 이를 효율적으로 사용해야 할 때를 파악하는 것도 문제가 될 것입니다. 그렇기 때문에 Daniels는 하이브리드 추론의 다음 개척지가 더 스마트한 자기 규제가 될 것이라고 말합니다. 즉, 인간이 지시하지 않고 AI가 언제 스스로 더 심층적인 사고 모드를 활성화해야 하는지를 가르치는 것입니다.
"추론 모델 또는 하이브리드 추론 모델의 다음 단계는 테스트 시간 컴퓨팅 또는 사고 프레임워크 내에서 입력을 더 잘 이해하거나 더 잘 분류하는 것입니다."라고 그는 말합니다.
