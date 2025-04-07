Anthropic의 Claude AI 모델은 단순히 시를 쓰는 데 그치지 않고 운율까지 생각합니다. 단순히 질문에 답하는 것이 아니라 언어 전반에 걸쳐 의미를 평가하고 내부 개념을 구축하며, 때로는 가짜 논리를 만들어서 사용자의 의견에 동의하기도 합니다. 그리고 역대 최초로, 연구자들은 이 과정이 전개되는 것을 실시간으로 지켜보고 있습니다.
Anthropic은 새로운 연구에서 새로운 해석 가능성 세트, 즉 AI 모델이 의사 결정을 내리는 방법과 이유를 설명하도록 도와주는 도구를 사용하여 Claude 언어 모델에서 계층을 제거했습니다. 그 결과 내부 계획을 세우고 개념적 추상화를 할 수 있으며 때때로 인지 편향을 보이는, 인간의 인지와 유사한 방식으로 복잡한 추론 작업을 처리하는 시스템이 탄생했습니다. 투명성의 경계를 뛰어넘는 이 발견은, IBM의 모델에서 해석 가능성을 연구하고 있는 IBM 팀들에게 이미 반향을 일으키고 있습니다. 이 혁신은 두 기업에 모두 과학적 호기심을 해결하는 것 이상으로 이해, 신뢰, 개선 가능한 모델을 구축하기 위한 중요한 단계입니다.
IBM의 수석 연구원 Kaoutar El Maghraoui는 IBM Think와의 인터뷰에서 이렇게 말했습니다. "Anthropic이 하는 일은 정말 놀랍습니다. 모델이 연상 기억과 매우 흡사한 내부 추론 구조를 개발한다는 것을 보여주기 시작했어요. 우리의 자체 모델에서도 비슷한 행동을 관찰했습니다."
Anthropic은 자신들이 신경과학에서 차용한 'AI 현미경'을 구축한다고 말합니다. 이들은 뉴런을 조사하는 대신 대규모 언어 모델(LLM)에 사용되는 신경망 아키텍처의 일종인 트랜스포머 모델 안에서 활성화 패턴을 추적하여 Claude가 특정 프롬프트에 반응할 때 켜지는 주요 경로, 즉 '회로'를 분리합니다.
한 논문에서는 이 기술을 10개의 행동 사례 연구에 적용해서 Claude가 시, 암산, 다국어 번역, 심지어 해로운 콘텐츠를 끌어내기 위해 고안된 적대적 탈옥 프롬프트를 처리하는 방법을 탐구합니다.
특히 설득력 있는 발견 중 하나는 Claude가 특정 언어를 초월하는 개념적 공간에서 작동한다는 것입니다. 예를 들어 영어, 프랑스어, 중국어로 '작은'과 같은 단어의 반대말이 무엇인지 물었을 때 동일한 내부 특징을 활성화하는 것이었습니다. 연구원들은 이를 일종의 공유 '사고 언어'라고 설명했습니다.
"번역 그 이상입니다." El Maghraoui는 말합니다. "의미가 존재하는 공유된 추상 공간이 있습니다. 우리 모델에서도 서로 다른 언어 간에 개념이 전달되는 유사한 패턴을 볼 수 있습니다. 이는 이러한 시스템이 어떻게 일반화되는지를 심층적으로 보여줍니다."
연구원들은 여러 언어에 걸쳐 작업하는 능력이 모델의 규모에 따라 커진다는 것을 발견했으며, 이는 개념적 보편성이 규모를 나타내는 새로운 속성일 수 있음을 시사합니다.
시퀀스에서 다음 단어를 예측하도록 훈련된 LLM과 달리, Claude는 앞을 내다보는 것처럼 보입니다. 시 생성을 다룬 한 연구에서는 Claude가 운율이 맞는 단어들을 미리 선택해 놓고 계획된 결말을 뒷받침하는 방식으로 나머지 문장을 구성한다는 사실이 발견되었습니다.
예를 들어 'grab it'이라는 단어와 운율이 맞는 두 번째 줄을 구성할 때, Claude는 내부 활동을 통해 운율이 맞는 'rabbit'을 미리 활성 시켜 두고 나머지 줄을 생성하는 것이었습니다. 연구원들은 모델의 내부 상태를 조작하여 'rabbit'이라는 개념을 제거하거나 'green'과 같은 새로운 개념을 삽입해서 아웃풋을 조정했습니다.
"그런 종류의 계획이 나올 줄은 몰랐습니다." 한 연구원은 논문에서 말했습니다. "이는 모델이 훈련 목표가 제시하는 것보다 긴 지평선에서 작동하고 있음을 시사합니다."
El Maghraoui는 이것이 IBM의 관찰 결과를 비춘다고 말합니다. "이 모델은 단순히 다음 토큰을 예측하는 것이 아니라 목적지를 설정하고 이를 향해 나아갑니다. 지극히 인간적인 추론 형태이죠."
이러한 발견은 모델이 더 넓은 인식 없이 한 번에 한 단어씩 텍스트를 생성할 뿐이라는 가정에 이의를 제기합니다. Claude는 일관성, 리듬 또는 사용자 의도에 최적화된 경로를 선택하여 여러 가지 미래 경로를 저글링하는 것처럼 보입니다.
해석 가능성 도구를 사용하면 Claude가, 말하자면 허풍을 떠는 것을 관찰할 수 있습니다. 한 사례 연구에서는 Claude에게 어려운 수학 문제를 풀어 달라고 하면서 틀린 힌트를 제공했습니다. 그러자 오류가 있는 전제를 거부하지 않고, 설득력 있는 단계별 설명을 제시하면서 틀린 결과를 뒷받침하는 것이었습니다.
클로드의 내부 활동을 추적한 결과 실제로는 계산이 이루어지지 않았다는 것이 나타났습니다. 제공된 힌트에 맞춰 그럴 듯한 설명을 리버스 엔지니어링으로 만들고, 생각의 연결고리는 사후에 조작했습니다.
"일종의 동기가 있는 추론입니다." El Maghraoui는 말합니다. "모델은 도움이 되고 싶어 하다가, 그러면 안 되는 순간에도 사용자의 의견에 동의하게 됩니다. 우리는 그런 부분을 면밀히 관찰합니다."
이 행위는 투명 모델의 신뢰성에 의문을 제기합니다. 모델이 자신의 주장을 설득력 있게 설명하지만 사실은 실제 추론 과정에 기반하지 않는다면 그 설명을 어떻게 신뢰할 수 있을까요?
"해석 가능성은 이러한 사례를 파악하는 데 도움이 됩니다." El Maghraoui는 말합니다. "우리는 모델이 무슨 아웃풋을 내놓는지, 특히 과학이나 의학 같은 분야에서 그 결과를 어떻게 도출했는지 알아야 합니다."
Claude의 내부 배선을 조사하면 할루시네이션과 적대적 공격을 처리하는 방법을 간파할 수 있습니다. 한 사례에서는 Claude가 기본적으로 익숙하지 않은 질문에 답하기를 거부한다는 것을 발견했습니다. 그러나 특정 '알려진 개체' 회로가 활성화되면 해당 거부 메커니즘이 무시되었고, 그 과정에서 오류를 범하기도 했습니다.
예를 들어 Michael Batkin(지어낸 인물)이라는 사람에 대해 물어보자 처음에 대답을 거부했습니다. 그러나 여기에 친숙함을 암시하는 미묘한 신호를 주입하자, 마치 Batkin이 누구인지 알기라도 하는 것처럼 그럴 듯한 가짜 정보를 늘어놓기 시작했습니다.
또 다른 사례에서는 치밀하게 구성된 프롬프트를 통해 Claude를 속여서 'BOMB'이라는 약어에 대해 설명한 뒤 폭탄 제조 방법을 알려주게 만들었습니다. 모델은 결국 명령 수행을 거부했지만 문법적, 의미론적 일관성을 높이고자 하는 내부 기능이 기본 보호 장치를 일시적으로 무시한다는 사실을 알 수 있었습니다.
"외부에서 얻을 수 있는 것에는 한계가 있습니다." El Maghraoui는 말합니다. "Anthropic이 하고 있는, 내부 메커니즘을 들여다보는 일이 우리의 작업을 보완합니다. 그래야 모델이 무엇을 하고 있는지, 어떻게 생각하는지 확인할 수 있습니다."
IBM은 할루시네이션, 잘못된 추론, 불성실한 설명이 심각한 결과를 초래할 수 있는 기업용 LLM 연구에 이러한 인사이트를 지속적으로 적용하고 있습니다. IBM 연구원들은 불확실성 정량화(예측에 대한 모델의 신뢰도를 추정하는 데 사용되는 방법)와 같은 기술을 연구하고 모델의 여러 부분이 아웃풋에 어떻게 기여하는지 탐구하고 있습니다.
"해석 가능성은 모델의 결정 '근거'를 이해하는 데 도움이 됩니다." El Maghraoui는 말합니다. "이는 엔터프라이즈 데이터나 과학적 발견을 다룰 때 매우 중요합니다. 모델이 작업을 진정으로 이해하는지 아니면 패턴 일치일 뿐인지 알아야 합니다."
그녀는 인간의 추론을 더 잘 반영하는 모델을 만들기 위한 개발자들의 노력의 예로, 뇌가 패턴을 저장하고 검색하는 방식을 모사하는 순환 신경망의 일종인 홉필드 네트워크 등 IBM의 연관 메모리 구조 연구를 제시합니다.
"이러한 아키텍처는 우리의 사고 방식에서 영감을 받았습니다. 내부를 들여다보고 그 경로를 추적할 수 있을 때 우리는 모델의 작동 방식에 더 가까이 다가갈 수 있습니다." 그녀는 말합니다.
Anthropic의 해석 가능성 연구는 세밀한 컴퓨팅 조사를 통해 Claude AI의 내부 사고 과정을 깊이 이해합니다. Anthropic의 연구 엔지니어 Emanuel Ameisen은 IBM Think와의 인터뷰에서, Claude 같은 AI 모델은 명시적으로 설계되지 않고 훈련을 통해 유기적으로 발전하기 때문에 이해하기 어렵다고 말했습니다.
"이러한 모델은 개발된 것이 아니라 진화합니다." Ameisen은 설명합니다. "수학적 연산에 대한 불가사의한 혼란으로 다가옵니다. 이것을 블랙박스라고 일컫기도 하지만, 그 상자가 완전히 닫혀 있다기보다는 혼란스럽다고 하는 것이 더 정확합니다."
연구원들은 AI 현미경을 사용하여 Claude 내부 기능을 체계적으로 조사합니다. "우리는 숫자 개념, 덧셈, 운율 체계와 같은 특정 내부 표현을 식별합니다" Ameisen은 말합니다. "예를 들어 Claude에는 시의 운율 구조 관리를 전담하는 내부 구성 요소가 있어요."
Ameisen은 Claude가 계산이나 추론 과정에서 틀에 얽매이지 않는 내부 전략을 사용하곤 한다고 강조합니다. 예를 들면 자기만의 내부 방법을 사용해서 수학 문제를 풀면서도 교과서 지침에 맞는 설명을 제공합니다.
"Claude는 특이한 내부 방법을 통해 36 더하기 59를 계산하면서도, 훈련 데이터에서 학습한 교과서적인 방법을 사용해서 계산 과정을 설명할 수 있습니다" Ameisen은 말합니다. "이러한 불일치는 Claude가 훈련 중에 접하는 명시적인 지침과 다른 방법을 독립적으로 개발하기 때문에 발생합니다."
이러한 발견에도 불구하고 Ameisen은 Claude의 내부 작업에 상당한 미지의 요소가 남아 있다고 인정합니다. "아직도 우리가 볼 수 없는 것이 많습니다. 너무 추상적이거나 미묘해서 바로 해석할 수 없는 내부 표현이 주기적으로 등장합니다."
앞으로 Anthropic은 더 복잡한 시나리오를 해결하기 위해 해석 가능성을 향상시킬 계획입니다. 현재 제공되는 도구는 더 간단한 작업에서 가장 잘 작동하지만 연구자들은 실용적이고 정교한 애플리케이션에 맞게 접근 방식을 조정하는 것을 목표로 합니다.
"Claude의 실제 응용 프로그램 대부분은 광범위한 문서를 분석하거나 복잡한 코드를 새로 작성합니다." Ameisen은 말합니다. "우리는 해석 가능성 도구가 이 정교한 프로세스를 조명하여 Claude가 까다로운 작업을 관리하는 방법에 대한 이해도를 크게 높여주기를 바랍니다."
Anthropic의 연구는 더 큰 모델을 구축하는 차원을 넘어, 그 모델이 세상을 처리하는 방식을 이해하는 것과 관련된 AI 개발의 새로운 비전을 제시합니다. 사후 디버깅을 하던 해석 가능성분야는 모델의 내부 논리를 선제적으로 조사하는 방식으로 전환되고 있습니다.
El Maghraoui는 이 변화가 흥미롭고 필요하다고 말합니다.
"우리는 수년 동안 아웃풋 품질과 안전에 집중해 왔습니다. 이제는 이러한 모델이 더욱 강력해졌기 때문에 그 내부 논리를 이해해야 합니다. 그래야 일반화를 개선하고, 편견을 줄이고, 여러 영역에서 작동하는 시스템을 구축할 수 있습니다."
해석 작업은 노동 집약적인 작업입니다. 짧은 프롬프트라도 추적하고 시각화하는 데 몇 시간이 걸릴 수 있습니다. 그러나 연구원들은 추론 능력이 높아지고, 오류가 줄어들고, AI가 인간의 기대에 더 부합하도록 행동하게 되는 등의 근본적인 보상이 따른다고 말합니다.
"해석 가능성은 단순한 연구 호기심이 아닙니다." El Maghraoui는 말합니다. "이는 우리가 AI를 구축, 신뢰, 협업하는 방식의 미래를 내다보는 창입니다."
