대규모 언어 모델이 사람의 말을 이해하는 데 점점 더 능숙해지고 있지만, 만약 이 모델이 뇌 자체를 반영한다면 어떨까요?
Nature Human Behaviour에 발표된 새로운 연구에서 과학자들은 OpenAI의 Whisper 모델이 실제 뉴런이 자연스러운 대화 중 반응하는 방식과 놀라울 정도로 유사한 언어 처리를 한다는 사실을 발견했습니다. 수석 연구원인 Ariel Goldstein은 IBM Think에 자신이 팀원들과 함께 대본을 사용하지 않은 대화를 하는 사람들로부터 수집한 100시간 이상의 뇌 기록을 분석했다고 말했습니다. 이러한 녹음을 Whisper의 내부 작동과 비교한 결과, 팀은 모델의 계층화된 표현이 원시 소리에서 의미에 이르기까지 뇌가 음성을 처리하는 방식과 거의 일치한다는 사실을 발견했습니다.
Goldstein은 이 발견이 상업적으로 중요한 의미를 가질 수 있다고 말합니다. 언젠가 기업들은 뇌처럼 유연하고 효율적으로 음성을 해독하여 훈련 시간을 단축하고, 트랜스크립션을 개선하고, 심지어 차세대 신경 보철을 구동하는 AI 음성 도구를 설계할 수 있습니다.
Goldstein은 “언어는 멸균된 실험실이 아니라 지저분하고 사회적인 상황에서 발생합니다.”라며, "우리 연구에 따르면, 인간의 인지와 AI 모델은 대화를 처리하는 데 있어 더욱 심층적이고 유연한 코드를 공유하는지도 모릅니다."라고 말했습니다.
기록은 뇌 표면에 직접 전극을 배치하는 전기피질 촬영법(ECoG)을 사용하여 수집되었습니다. 이 기술은 침습적이지만 신경 활동을 매우 충실하게 관찰할 수 있습니다. Goldstein의 팀은 기존에 간질 수술 모니터링을 받고 있는 환자의 뇌 활동을 기록하여 단어나 인공적인 프롬프트 대신 즉흥적이고 일상적인 대화를 캡처했습니다.
뇌와 AI의 연결은 IBM Research의 혁신에 영감을 주었으며, 과학자들은 기존의 메모리 컴퓨팅 병목 현상을 제거하여 신경 아키텍처를 모방한 NorthPole과 같은 칩을 개발했습니다. IBM의 프로토타입은 주요 GPU보다 최대 46.9배 빠르게 대규모 AI 모델에서 추론을 수행하여 놀라운 효율성을 입증했습니다.
이 연구에 따르면 신경 신호와 Whisper의 모델 임베딩이 높은 수준의 선형 정렬을 보였으며, 이는 뇌가 딥 러닝 시스템과 마찬가지로 유연하고 겹치는 계층으로 언어를 처리한다는 것을 시사합니다. 음향, 의미, 문법 정보는 뇌나 AI 모델의 고립된 영역에 국한되지 않았습니다. 대신 이들은 동일한 계층 내에서 융합된 것처럼 보였으며, 이는 의미에 대한 공유된 최적화 전략을 암시합니다.
"사람에게는 작업에 최적화된 시스템이 있으며, 이러한 시스템이 심리언어적 개념과 상관 관계가 있는 표현을 유도하지만 정확하지는 않다는 것은 뇌의 정보 처리 방식에 대한 새로운 사고 방식입니다."라고 Goldstein은 설명합니다.
Goldstein은 뇌의 언어 기능을 개별 모듈(일부는 소리, 일부는 문법, 일부는 의미를 위한 모듈)로 나누는 이전의 견해와 달리, 자기 팀의 연구 결과는 뇌가 작업을 엔드투엔드로 완료하도록 훈련된 딥 러닝 모델처럼 통합된 영역에서 이 모든 것을 동시에 처리할 수 있음을 시사한다고 지적합니다.
OpenAI가 개발한 Whisper는 음향 입력을 일관된 언어로 변환하는 뇌의 작업과 아키텍처가 유사하기 때문에 선택되었습니다. Goldstein은 "뇌는 단어를 받아들이는 것이 아니라 소리를 받아들입니다."라며, "Whisper는 원시 오디오를 레이어별로 텍스트로 변환하여 이를 모방합니다."라고 설명했습니다.
또한 Goldstein의 팀은 사람이 실제로 말하기 시작하기 전에 의미 신호를 감지할 수 있다는 사실을 발견했습니다. 이는 뇌가 말을 하기 전에 의도나 의미를 미리 인코딩하여 생각과 표현 사이의 경계를 더욱 허물 수 있음을 시사합니다.
Goldstein은 이러한 혁신이 실시간 트랜스크립션을 개선하고 음성 어시스턴트를 개선하며 기업을 위한 더 스마트한 AI 고객 서비스 에이전트를 지원할 수 있다고 말합니다. 즉, AI 모델을 인간의 뇌 신호에 더 가깝게 정렬하면, 특히 노이즈가 많은 현실의 환경에서 수십만 시간의 학습 없이도 성능을 향상시킬 수 있다는 것입니다.
Goldstein은 "신경 신호나 인간의 신경 표현을 사용하여 미래의 Speech to Text 모델을 제한하면 이러한 모델의 성능이 향상될 수도 있습니다."라며, "하지만 이는 추측에 불과하며, 직접 테스트한 것은 아닙니다."라고 덧붙였습니다.
트랜스크립트뿐 아니라 뇌가 의미를 표현하는 방식을 활용하여 학습한 미래의 음성 어시스턴트를 상상해 보세요. 이를 통해 콜센터나 운전자 지원 시스템과 같이 예측할 수 없는 환경에서 교육을 위한 데이터 요구 사항을 줄이고 견고성을 높일 수 있습니다.
이 연구는 보조 기술에도 도움이 될 수 있습니다. 내부 언어 신호를 해독하면 퇴행성 질환을 앓고 있거나 말하기 능력을 잃은 사람들의 의사소통을 회복할 수 있습니다. 대규모 언어 모델은 비계의 역할을 하여 거친 신경 의도를 문법적으로 일관된 언어로 변환하는 데 도움이 될 수 있습니다.
Goldstein은 "인지적 문제가 아니라 근육 제어에 관한 문제가 있다면, 결국 뇌의 의미를 해독하고 사람들의 의사소통을 돕는 장치를 만들 수 있을 것입니다."라면서도, "하지만 이 연구에서는 침습적인 방법을 사용했습니다. 실제 사용을 위해 만드는 제품은 비침습적으로 작동해야 하며 이러한 신호는 더 노이즈가 심할 겁니다."라고 덧붙였습니다.
또한 추측의 영역인 마음 읽기라는 영역도 있는데, Goldstein은 이에 대해서는 신중한 입장입니다. "말하기는 생각을 형성하는 과정의 일부입니다."라고 그는 말합니다. "머릿속으로 모든 것을 완벽하게 구성한 다음 '보내기'를 누르는 것과는 다릅니다. 개념적인 수준에서는 무언가를 포착할 수 있을지 몰라도 세세한 내부 독백은 포착할 수 없습니다."
그러나 이 연구의 초기 증거에 따르면, 단어를 말하기 전에 뇌 신호에서 의미론적 내용의 흔적이 발견되었으며, 이는 해상도와 컨텍스트가 충분하다면 기계가 누군가가 말하려고 의도한 것을 예측할 수 있음을 시사합니다.
Goldstein은 Whisper 및 GPT와 같은 오늘날의 언어 모델은 기본적으로 데이터가 일방향으로 흐르는 피드포워드 아키텍처이지만, 뇌는 재귀적이고 피드백 중심적이라고 강조합니다. 그는 "뇌의 최종 상태가 다음 입력이 됩니다."라며, "끊임없는 자기 수정의 반복이 존재하며, 이는 큰 차이점입니다."라고 말했습니다.
Goldstein은 아웃풋이 실시간으로 미래의 입력을 알려주는 유사한 피드백 루프를 통합하면 미래의 AI 시스템이 더욱 강력해질 것이라고 제안합니다. 이는 언어와 로보틱 또는 자율 에이전트와 같은 상호 작용을 통해 학습하는 모든 시스템에 영향을 미칩니다.
이 연구는 또한 새로운 학제 간 협업의 기회를 제공합니다. Goldstein의 연구실은 이제 사람들이 세상을 경험하는 방식을 더 잘 반영하는 AI 시스템에 시각, 소리, 동작과 같은 다중 모드 입력을 통합할 수 있는 방법을 모색하고 있습니다.
"우리가 인간이 사용하는 것과 동일한 양식, 즉 신체, 시각, 청각을 취하고 비슷한 방식으로 훈련된 모델을 구축할 수 있다면 뇌 모델링에 훨씬 더 가까워질 수 있습니다."라고 Goldstein은 말했습니다.
Goldstein은 다음 연구 대상으로 사교적인 수다나 반응적인 말이 아니라 좀 더 조용한 분야인 자기 성찰을 눈여겨보고 있습니다.
그는 "사람들은 혼잣말을 하면서 자신의 마음 상태를 설명합니다. 다음으로는 이 분야를 연구하고 싶습니다."라며, "사회적 상호 작용이 아니라 마음 속 조용한 목소리를 말이죠."라고 말했습니다.
그는 가장 사적인 대화인 내적 대화를 모델링함으로써 의식과 인지에 대한 심오한 통찰력을 제공할 수 있다고 믿습니다. 하지만 여기에는 윤리적인 문제가 대거 따릅니다. 기계가 불완전하게나마 우리의 생각을 엿들을 수 있다면 어떤 일이 벌어질까요?
"감시, 행동 조작 및 의도하지 않은 결과에 대해 진지하게 생각해 보아야 합니다."라고 Goldstein은 경고했습니다. "개인적으로 이에 대해 걱정하지는 않지만, 대비는 해야겠죠. 이러한 행동이 어떻게 전개될 수 있는지 이해하기 위한 자원을 할당해야 합니다."
Goldstein은 선정주의에 저항합니다. 두뇌는 컴퓨터가 아니며, AI는 두뇌가 아닙니다. 그러나 이 둘의 유사점은 피상적인 은유 이상일 수 있습니다.
"한 걸음 더 진보한 겁니다. 하지만 우리의 두뇌가 즉석에서 단어를 조합하는 방법은 여전히 불가사의입니다."라고 그는 말했습니다.
