대규모 언어 모델(LLM)은 단어에 대해서는 점점 더 선명해지고 있지만, 사실에 대해서는 점점 더 모호해지고 있습니다.
할루시네이션으로 알려진 이러한 실수는 무해한 버그가 아닙니다. 이들은 AI 시스템이 언어를 생성하는 방식의 핵심 문제를 지적합니다. 데이터베이스에서 사실을 가져오는 대신, 모델은 학습 데이터의 패턴을 바탕으로 무엇이 옳은지 예측합니다. 이러한 추측은 가짜 견적, 조작된 보험 정책, 그리고 자신 있게 전달되는 허위 주장으로 이어질 수 있습니다. 연구자들은 이제 이러한 시스템을 보다 안정적으로 만드는 새로운 방법을 연구하고 있으며, 답변하는 방법과 일시 중지, 수정 또는 잊어버리는 경우를 가르치고 있습니다.
IBM의 수석 과학자인 Ruchir Puri는 IBM Think와의 인터뷰에서 "정말 문제가 되는 것은 이러한 비결정론적 대응입니다."라고 말합니다. "같은 질문이라도 같은 의도를 가지고 어떻게 표현하느냐에 따라 다른 답변을 얻을 수 있습니다. 이러한 모델에 의존하는 경우 심각한 문제가 발생할 수 있습니다."
OpenAI의 최신 벤치마크 결과는 이 문제를 강조합니다. o3 모델은 공인에 대한 사실적 정확성을 테스트하는 데이터 세트인 PersonQA에서 33%의 할루시네이션을 경험한 것으로 보고되었습니다 . o4-mini 모델은 일반 지식 프롬프트에 대한 응답 10건 중 거의 8건에서 정보를 날조하는 등 더 나쁜 결과를 초래했습니다. 이러한 시스템은 애매한 시스템이 아니라 법률 연구, 의료 관련 문의 및 경영진 의사 결정 지원과 같은 작업을 위해 테스트되고 있습니다.
일부 전문가들은 데이터가 불완전한 상황을 보여주고 있으며, 전반적으로 할루시네이션은 증가하고 있지는 않다고 말합니다.
"우리는 실제 성과를 보고 있습니다." 데이터 과학자이자 SuperShifts: Transforming How We Live, Learn and Work in the Age of Intelligence의 공동 저자인 Ja-Naé Duane은 IBM Think와의 인터뷰에서 이렇게 말하며,이어 "2021년에는 22%였던 할루시네이션 발생률이 이제는 테스트 사례의 1% 미만으로 떨어졌습니다. 이는 Gemini 2.0 Flash가 보여주는 변화입니다."라고 덧붙였습니다. "아직 갈 길이 멀긴 하지만 올바른 방향으로 나아가고 있는 것은 분명합니다."
Duane은 할루시네이션이 반드시 나빠진 것이 아니라 더 잘 보인다고 강조했습니다.
"지금은 위험 부담이 더 커졌습니다."라고 그녀는 말합니다. "우리는 이러한 모델을 법률 워크플로, 의료 환경 및 엔터프라이즈 도구에 적용하고 있습니다. 예전에는 챗봇에서 눈에 띄지 않던 실수가 이제는 심각한 문제가 될 수 있습니다."
Gemini 2.0 Flash와 같은 최첨단 시스템은 할루시네이션 발생률을 크게 줄였지만, 다른 시스템, 특히 복잡한 추론을 위해 구축된 모델은 여전히 어려움을 겪고 있습니다. "이러한 추론 중심 모델은 더 어려운 문제를 해결하기 위해 추진되고 있습니다."라고 Duane은 설명합니다. "이는 종종 그들이 안정적으로 할 수 있는 것의 가장자리에 가깝게 작동한다는 것을 의미하며, 이는 옳은 것 같지만 그렇지 않은 답변을 생성할 위험이 증가한다는 것을 의미합니다."
그녀는 문제를 해결하려면 규모 이상의 것이 필요하다고 주장합니다. "더 이상 더 큰 모델을 만드는 것만이 중요한 것이 아닙니다."라고 그녀는 말합니다. "우리는 단순히 무엇을 말해야 하는지뿐만 아니라 왜 중요한지, 중요한 상황에서 진실에 기반을 두는 방법을 이해하는 아키텍처가 필요합니다."
Duane은 더 나은 모델과 이를 지원하도록 설계된 시스템, 즉 메모리, 유효성 검사기 및 에이전트를 함께 사용함으로써 진정한 진전을 이룰 수 있다고 믿습니다. "우리는 모델 인텔리전스가 퍼즐의 한 조각에 불과한 단계로 접어들고 있습니다."라고 그녀는 말합니다. "컨텍스트 관리, 실시간 학습 및 적응형 도구도 마찬가지로 중요해질 것입니다."
대규모 언어 모델이 어떻게 작동하는지 아는 것은 왜 때때로 문제가 발생하는지 이해하는 데 필수적입니다. LLM은 대량의 텍스트에서 학습한 패턴을 기반으로 문장의 다음 단어를 예측합니다. 그들은 데이터베이스에서 사실을 추출하는 것이 아니라 근거 있는 추측을 하고 있습니다. 이렇게 하면 정확해 보이지만 잘못된 답변으로 이어질 수 있으며, 특히 주제가 불분명하거나 흔하지 않거나 모델이 학습한 범위를 벗어난 경우에는 더욱 그렇습니다.
할루시네이션은 시스템의 버그가 아니라 확률론적 모델의 작동 방식에 내재된 특징이기 때문에 제거하기가 어렵습니다. 학습 데이터에 확실한 패턴이 없거나 프롬프트가 너무 모호하거나 개방형인 경우, 모델은 그럴듯하게 들리는 것을 만들어낼 수 있습니다.
좀 더 철학적인 질문도 있습니다. AI 모델이 무언가를 날조할 때, 그것은 실패일까요, 아니면 생성일까요?
Puri는 모델의 추론 능력이 더 강력해지면 할루시네이션에 가까운 '창의적인' 행동을 보일 수도 있다고 지적합니다. "창의력에는 일종의 할루시네이션이 포함된다고 주장할 수 있습니다."라고 그는 말합니다. "상상할 수 없는 것을 상상합니다. 그러나 엔터프라이즈 애플리케이션에서는 이는 강점이 아니라 단점입니다."
IBM 연구원인 Payel Das는 모델이 정보를 처리하는 방식을 재고하여 이 문제를 해결하려는 사람들 중 한 명입니다. Das는 IBM Think와의 인터뷰에서 "이것은 진보의 역설입니다."라고 말했습니다. "이 모델들은 추론 능력은 점점 좋아지고 있지만 기억력에는 아직 미흡합니다. 더 어려운 문제는 해결할 수 있지만 여전히 기본이 잘못되어 있습니다."
IBM의 그녀의 팀은 모델에 편집 가능한 단기 메모리를 제공하도록 설계된 메모리 증강 시스템인 Larimar를 개발해 왔습니다. 이 아이디어는 전체 시스템을 재교육하지 않고도 필요에 따라 모델이 사실을 수정하거나 잊어버릴 수 있도록 하는 것으로, 현재 LLM에는 크게 부족한 실시간 유연성을 제공합니다.
"오늘날의 모델은 정적이고 부서지기 쉽습니다."라고 그녀는 말합니다. "대화 중에 무언가를 가르치거나 이해도를 업데이트하려면 그들을 완전히 재교육해야 합니다. Larimar는 이를 더욱 유연하게 만들기 위한 한 단계입니다."
다른 메모리 기반 접근 방식도 가능성을 보이고 있습니다. Microsoft 연구진이 개발한 MemReasoner는 대화의 앞부분에서 관련 정보를 선택하고 연결하여 모델이 긴 시퀀스에서 보다 효과적으로 추론할 수 있도록 돕는 데 중점을 둡니다. IBM의 자체 CAMELoT 프로젝트는 대량의 텍스트 또는 확장된 상호 작용으로 작업할 때 모델이 일관성을 유지할 수 있도록 설계되었습니다.
실험실 외부에서 Vectara와 같은 회사들은 할루시네이션을 해결할 수 있는 실용적인 도구를 구축하고 있습니다. Vectara의 "가디언 에이전트"는 실시간으로 AI 아웃풋을 모니터링하고 사용자에게 도달하기 전에 오류를 다시 작성합니다. Das는 한 가지 해결책으로 문제를 해결할 수는 없지만 기억과 수정 전략을 결합하는 것은 큰 진전이라고 말합니다.
"우리는 모든 실수를 결코 없애지 않을 것입니다."라고 Das는 말합니다. "사람이 실수를 하는 것처럼 말입니다. 하지만 우리는 스스로 학습하고, 적응하고, 수정하는 데 더 능숙한 모델을 만들 수 있습니다. 그리고 그것은 큰 차이를 만듭니다."
