기계가 우리가 추론하는 방식을 학습할 수 있다면 우리가 추론하는 이유를 이해하는 데 도움이 될 수 있습니다.
Centaur는 인간의 추론을 모방하도록 설계된 새로운 인공 지능 모델입니다. Meta의 Llama 3.1을 기반으로 개발되었으며, 160건의 심리학 연구에서 1,000만 건이 넘는 결정을 학습한 이 인공 지능 모델은 논리 문제, 도덕적 딜레마, 일상적인 선택 문제를 해결하여 인간의 사고 이면에 숨겨진 패턴을 밝혀냅니다. 연구진은 이 인공 지능 모델을 발견을 위한 도구, 즉 기존 모델이 놓칠 수 있는 인사이트를 드러낼 수 있을 만큼 사람처럼 행동하는 도구로 보고 있습니다.
"이 모델을 사용하여 인간의 마음에 대해 무언가를 배우게 되어 매우 기대됩니다."라고 Institute for Human-Centered AI at Helmholtz Munich의 부소장이자 Centaur를 설명한 연구의 주 저자인 Marcel Binz는 IBM Think와의 인터뷰에서 말했습니다.
대부분의 인지 모델은 실험을 원시적인 숫자로 축소합니다. Centaur는 그 반대입니다. Centaur는 자연어 지침과 사람이 응답하는 모든 단계가 포함된 각 작업의 전체 내용을 읽습니다. 이 모델은 시각적 퍼즐과 기억력 테스트부터 도덕적 딜레마와 언어 게임까지 모든 것이 포함된 고전 심리학 문제 모음인 Psych-101이라는 데이터 세트를 학습했습니다. Centaur는 사람과 동일한 정보를 보면서 사람처럼 작업을 수행하는 방법을 배웁니다.
이러한 접근 방식은 학습 데이터를 훨씬 뛰어넘는 일반화를 가능하게 했습니다. 연구자들이 표준 강화 학습 문제를 재구성하여 우주 비행사에서 마법의 양탄자로 프레임을 전환했을 때에도 Centaur는 여전히 동일한 행동 경향을 보였습니다. 또한 LSAT 스타일의 논리 퍼즐과 같은 완전히 새로운 유형의 작업에서도 우수한 성능을 발휘했습니다.
압축된 수치 설명이 아니라, 언어를 사용한 것은 의도적 선택이었습니다. "우리는 모델이 참가자들이 본 것을 볼 수 있기를 원했습니다."라고 Binz는 설명했습니다. "전체 지침과 전체 컨텍스트를 제공했습니다. 어떤 편법도 없었습니다."
Centaur는 뇌의 작동 방식을 설명하기 위해 만들어지지 않았습니다. 대신, 행동 연구에서 사람들이 하는 행동을 재현하는 데 중점을 둡니다. 이러한 예측력은 각 인지 기능 유형에 대해 수작업으로 구축한 좁은 모델에 의존하는 경우가 많은 연구자에게 즉각적인 영향을 미칩니다.
프로젝트에 참여하지 않은 스탠퍼드 대학교 심리학 교수 Russell Poldrack은 Centaur를 이 분야의 더 큰 변화의 일부로 보고 있습니다.
"역사적으로 우리는 모델에 매우 축소된 버전의 작업을 제공했습니다."라고 그는 IBM Think와의 인터뷰에서 말했습니다. "이제 우리는 우리가 사람에게 제공했을 정보를 모델에 동일하게 제공하고 모델이 사람이 했을 법한 행동을 모방하는 반응을 확인할 수 있습니다."
규모뿐 아니라 의도에 있어서도 차이가 있습니다. 대부분의 인지 모델은 특정 행동을 설명하기 위해 구성됩니다. Centaur는 시각적 추론 및 기억 작업과 같은 도메인 전반의 동작을 관찰하고 복제하도록 구축되었습니다. 이를 통해 연구자들이 놓칠 수 있는 새로운 패턴을 발견할 수 있는 가능성이 열립니다.
이 연구의 한 예로, 연구팀은 사람들이 여러 전문가의 평점을 받은 제품 중에서 어떻게 선택하는지 조사했습니다. Centaur의 행동은 2단계 전략을 보여주었습니다. 사람들은 처음에는 긍정적인 평점의 수를 세는 것처럼 보였고 전문가의 신뢰성만을 순위 결정으로 사용했습니다. 이러한 인사이트를 바탕으로 인간의 의사 결정에 대한 해석 가능한 새로운 모델이 탄생했으며, Centaur는 이를 개선한 후 일치시킬 수 있었습니다.
"우리는 인지 모델을 대체하려는 것이 아닙니다."라고 Binz는 말합니다. "우리는 연구자들이 사람들이 무엇을 하고 있는지 탐색할 수 있는 더 나은 도구를 제공하고자 합니다."
Centaur는 그 폭이 넓음에도 불구하고 한계가 명확히 정해져 있습니다. Centaur는 타이밍, 주의 역학 또는 물리적 상호작용을 시뮬레이션하지 않습니다. 사람이 반응하는 데 얼마의 시간이 걸리는지, 사회적 환경에서 행동이 어떻게 변화하는지, 시간이 지남에 따라 의사 결정이 어떻게 전개되는지 설명할 수 없습니다.
이러한 제한은 유용할 수 있습니다. Centaur가 실패하는 부문에서 연구진은 언어만으로는 쉽게 학습할 수 없는 인지 측면에 대한 단서를 찾을 수 있습니다.
바로 여기에서 Poldrack이 시작할 것입니다. "제대로 동작하지 않은 부분을 찾아보고 싶습니다."라고 그는 말합니다. "무엇을 놓친 걸까요? 사람들이 하는 행동과 달라지는 지점은 어디이고 그 이유는 무엇일까요?"
일종의 트랜스포머인 Centaur의 아키텍처는 복잡한 인지 역학을 모델링하도록 설계되지 않았습니다. 이러한 능력에 더 가까워지려면 반복, 메모리 모듈 또는 멀티모달 학습이 필요할 수 있습니다. 하지만 지금도 다양한 작업에서 인간과 유사한 동작을 만들어내는 능력은 이례적인 일입니다.
일부 연구진은 대규모 언어 모델(LLM)이 실제로 추론하는 것인지, 아니면 학습 중에 본 것을 반복하는 것인지에 대해 의문을 제기했습니다. Binz는 Centaur를 설명할 때 신중하게 단어를 선택합니다. "인간의 뇌가 어떻게 작동하는지를 시뮬레이션하는 것은 아닙니다."라고 그는 말합니다. "하지만 단순히 모방만 하는 것도 아닙니다. 일반화하는 작업을 하고 있습니다."
Poldrack은 이러한 논쟁이 새로운 것이 아니라고 지적했습니다. 언어 모델이 진정으로 사고하고 있는지 아니면 단순히 언어의 통계적 패턴을 모방하는지에 대한 질문은 종종 '확률적 앵무새(stochastic parrot)' 문제라고 불리는 AI 비판의 중심에 있었습니다.
"사람들이 처음으로 대규모 언어 모델에 확률적 앵무새 비판을 던지기 시작했을 때, 나의 첫 반응은 인간도 적어도 어느 정도 확률적 앵무새라는 것이 분명하다는 것이었습니다."라고 그는 말했습니다.
그는 사람들이 의사 결정을 내릴 때 추상적인 규칙보다는 특정 기억에 의존하는 경우가 많다는 심리학의 개념인 예시 이론(exemplar theory)을 언급했습니다.
"나는 개를 볼 때 개가 무엇인지 다시 계산하지 않습니다."라고 그는 말합니다. "이전에 본 적이 있는 것과 비교합니다. 이는 빠르고 효과적입니다."
Poldrack은 Centaur가 과거의 경험을 활용하여 새로운 방식으로 결합하고 예측을 생성할 수 있다고 제안했습니다. 하지만 이 과정이 사고로 이어지는지는 여전히 의문이라고 그는 말했습니다.
Centaur와 같은 모델이 현재 가능한 이유 중 하나는 데이터가 마침내 질문을 따라잡았기 때문입니다. 수십 년 동안 심리학은 Poldrack이 '데이터 제한 체제'라고 부르는 방식(30~40명이 참여하는 실험을 수작업으로 분석)으로 운영되었습니다.
Psych-101은 이러한 상황을 바꾸어 놓습니다. 이 데이터 세트는 수십 년간의 심리학 연구를 통해 도출된 수천만 개의 결정을 한데 모아 일관된 자연어 형식으로 다시 작성합니다. 여기에는 광범위한 실험에 대한 완전한 작업 설명, 지침 및 인간 응답 시퀀스가 포함됩니다. Centaur는 이를 토대로 학습되었습니다. 이 모델은 격리된 입력과 출력에서 학습하는 대신 각 작업의 전체 컨텍스트에 노출됩니다. 이를 통해 각 경험의 구조와 흐름에 따라 보다 인간적인 방식으로 문제에 대처할 수 있습니다.
Poldrack은 이 규모가 깊은 설명을 제공하지는 못하지만, 새로운 탐험의 문을 열어준다고 말합니다.
"전에는 이런 종류의 데이터 체계에 접근해 본 적이 없었습니다."라고 그는 말합니다. "이제 작업 내에서만이 아니라 작업 전반의 행동을 반영하는 모델을 학습시킬 수 있습니다."
Binz는 팀이 앞으로 몇 달 안에 Psych-101을 심리 언어학, 발달 연구 및 타문화 과제를 포함하도록 확장할 계획이라고 말했습니다. 목표는 평균적인 행동과 일치하는 것 이상을 달성하는 것입니다. 연구진은 사람들이 나이, 성격 또는 배경에 따라 어떻게 다른지, 그리고 이러한 차이가 사람들의 반응 방식에 어떤 영향을 미치는지 이해하기를 원합니다.
"결국 우리는 인지 자체에 대해 추론할 수 있는 모델을 구축하고자 합니다."라고 그는 말했습니다.
Centaur는 두뇌인 척하지 않습니다. 하지만 인지 과학에는 또 다른 무언가가 부족할 수 있습니다. 대규모로 학습된 범용 행동 모델로, 이론이 성공하는 부분과 그렇지 않은 부분을 이해하는 데 도움이 될 만큼 사람과 유사하게 작동합니다.
"Centaur는 본질적으로 행동을 매우 잘 예측하는 커다란 블랙박스입니다."라고 Binz는 말합니다. "하지만 우리가 내면에 있는 것을 더 많이 이해할수록 우리 안에 있는 것에 대해서도 더 많이 배울 수 있습니다."
