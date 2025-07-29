지난달, 1979년에 출시된 8비트 0RAM Atari 2600 콘솔 게임이 체스에서 ChatGPT와 Microsoft Copilot을 이기면서 AI와 게임 업계에서 큰 반향을 일으켰습니다. 많은 AI 회의론자들은 이를 다윗과 골리앗의 이야기로 여겼습니다. 즉, 생성형 AI(gen AI)는 허울 좋은 말뿐이고 지능은 없다는 겁니다. Citrix의 엔지니어인 Robert Caruso가 여러 LinkedIn 게시물에서 진행하고 수행한 이 실험에 대해 "50년 된 Atari가 AI를 참교육하다"라는 식의 전형적인 헤드라인이 실렸습니다.
IBM 전문가들에 따르면, 이 난리 법석은 생성형 AI가 할 수 있는 것, 할 수 없는 것과 생성형 AI의 작동 원리를 상기시키는 좋은 예입니다. "사람들은 너무 많은 일에 ChatGPT를 사용하고 있습니다."라고 IBM 수석 엔지니어인 Chris Hay는 IBM Think와의 대화에서 말했습니다. "ChatGPT가 체스를 할 수 있다고 생각하는 것은 ChatGPT가 내 여자친구나 치료사가 될 수 있다고 생각하는 거나 마찬가지인데 말입니다."
Hay에 따르면, LLM의 엄청난 손실은 LLM이 작동하는 방식을 잘 보여줍니다. LLM은 규칙을 따르거나 계획하는 것이 아니라 단어 간의 학습된 상관관계를 기반으로 아웃풋을 생성합니다. LLM은 때때로 덧셈과 삼목놓기에 서투른 것과 같은 이유로 체스에 서투릅니다. 이러한 작업을 위해 설계되지 않았기 때문입니다.
"궁극적으로 체스는 검색의 문제입니다."라고 Hay가 말했습니다. 사람이든 기계든 플레이어는 움직일 때마다 의사결정트리를 검색하여 가능한 결과를 평가하고 다양한 선택지에 가치 순위를 할당해야 합니다. Atari Video Chess는 이를 위해 특별히 코딩되었습니다. 반면 LLM 로직은 "차세대 토큰 예측 시스템을 기반으로"한다고 Hay는 말했습니다. "이러한 모델은 기본적으로 인터넷 전체를 제공받은 다음 다음 단어를 예측하도록 훈련되었습니다."
체스 게임은 다음 토큰 예측을 기반으로 하는 게임이 아닙니다. "게임의 조합 수가 너무 많습니다."라고 Hay는 말했습니다.
체스 대회 선수이자 오리지널 Atari 2600 콘솔의 소유자인 IBM AI 옹호 리드 PJ Hagerty는 IBM Think와의 인터뷰에서 Atari 체스 게임이 '무차별 대입 방식'을 사용한다고 강조했습니다.
많은 초기 전략 기반 비디오 게임에서 사용되는 이 방법에는 가능한 여러 움직임을 선별하고 확률 기반 계산을 사용하여 최적의 움직임을 선택하는 작업이 포함됩니다. "이 코드는 평균을 사용하여 가능한 최선의 움직임을 결정하는 로직 트리에 중점을 두었습니다."라고 Hagerty는 말했습니다.
플레이어가 사람이든 기계이든 상관없이 체스 의사결정트리(일명 게임 트리) 가 작동하는 방식은 다음과 같습니다.
두 사람이 체스를 두는 중이라고 가정해 보겠습니다. 백이 첫 수를 두며, 플레이어는 킹의 폰을 두 칸 앞으로 옮기기로 결정합니다. 체스 표기법에서 E2라고 하는 이 수는 첫 수로 가장 많이 사용됩니다. 그런 다음 흑의 차례입니다. 백의 E2에 따라 백은 폰 수 16가지와 나이트 수 4가지 등 서로 다른 수 20가지를 사용할 수 있습니다. 이러한 선택지는 각각 추가 선택지로 이어지므로, 트리 크기는 각 분기 계수에 따라 기하급수적으로 증가할 가능성이 높습니다.
예를 들어, 1956년 미국 선수 Bobby Fischer와 Donald Byrne의 역사적인 경기에서는 경기가 41턴, 즉 82플라이 동안 진행되었습니다. 특정 플레이 상태에서 가능한 평균 체스 수는 누구에게 물어보는지에 따라 20~40개입니다. 편의상 30플라이라고 가정해 보겠습니다. 이 경우 대략적인 게임 트리 크기는 3082입니다. 전체 숫자는 122자리나 되므로, 모두 기재하지 않겠습니다.
보통의 인간 플레이어는 많은 수의 장단점을 한 번에 파악하기가 쉽지 않으며, 그렇게 하지도 않습니다. 대신 인간 플레이어는 '게임 초기에 퀸을 노출시키지 않는다'와 같은 특정 핵심 원칙에 따라 누가 봐도 나쁜 수를 본능적으로 배제합니다.
신경망 용어로는 이렇게 골라내는 프로세스를 '가지치기'라고 하는데, 이는 말 그대로 게임 트리의 가지를 잘라내는 작업을 포함하기 때문입니다. 인간 플레이어는 가지치기를 할 수 있으며, 현대의 정교한 컴퓨터 체스 기계도 마찬가지입니다. 하지만 46년 전통의 콘솔 체스 게임은 그럴 수 없기 때문에 다음 1~2개 수를 위해 모든 선택지를 실행하고 통계적으로 가장 가능성이 높은 수를 선택합니다. 하지만 생성형 AI 도구는 무차별 대입도, 정리도 할 수 없습니다.
그렇다고 해서 LLM이 체스를 영영 못 둔다는 말은 아닙니다. 구조화된 시스템 프롬프트와 여러 단계를 미리 계획할 수 있는 능력과 같은 올바른 도구를 제공하는 것은 간단한 문제라고 Hay는 말했습니다. "[ChatGPT]에게 '코드를 생성할 수 있는 권한을 부여합니다'라는 프롬프트를 입력하고 게임을 추적할 수 있는 계획용 메모장에 액세스할 수 있게 해 주면 아마도 이길 수 있을 겁니다." 현재 LLM에는 체스에서 승리하는 것을 목표로 정하고, 승리하는 데 필요한 도구를 파악할 수 있는 기본 제공 에이전시가 없습니다. 하지만 항상 영원히 그러리라는 법은 없습니다. AI 모델이 외부 도구와 상호 작용할 수 있는 기능을 호출하는 도구는 IBM의 Granite 모델 프로젝트를 비롯한 AI 업계에서 활발하게 연구되고 있는 분야입니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
하지만 이 모든 사실을 알게 된 후에도 '잘못된 확신'에 대한 찜찜한 의문이 남습니다. 이러한 생성형 AI 도구들은 왜 자신의 체스 실력에 대해 그토록 자신이 있었을까요? 이런 교만이 패망의 선봉이 된 이유는 무엇일까요? 앞서 언급했듯이 Caruso는 이 실험은 원래 자신의 아이디어가 아니었으며 ChatGPT가 Atari에 도전했다고 밝혔습니다. Caruso는 LinkedIn 게시물에 이렇게 썼습니다.
[“Chat GPT]는 자신이 강력한 플레이어라고 주장했으며... 수 1~2개만 앞서 생각하는 Atari의 Video Chess를 쉽게 이길 수 있다고 했습니다. 자신이 얼마나 빨리 이길 수 있는지 궁금해 했으며, Stella 에뮬레이터를 사용하여 게임을 설정해 달라고 요청했습니다."
Caruso는 또 다른 LinkedIn 게시물에서 Copilot도 똑같이 건방졌다고 썼습니다.
“Copilot은 자신이 10~15수 정도를 내다볼 수 있다고 주장했지만, 2600을 상대로 3~5수를 앞서 나갈 것으로 예상했습니다. 심층 계산에 매달리기보다는 2600의 '최적이 아닌 수'를 '활용할 수 있을 것 같아서'라나요."
Google Gemini의 경우, Caruso는 기술 간행물 The Register와의 인터뷰에서 처음에는 Gemini가 자신에게 그러한 경기에서 승리할 수 있다고 주장했다고 말했습니다. Gemini는 Caruso에게 "자신이 단순한 대규모 언어 모델이 아니"라고 했다는 것입니다. 하지만 이전 경기에 대해 자세히 전해 듣자마자 Gemini는 꼬리를 내렸습니다. Caruso에 따르면, Gemini는 "이번에는 Atari가 이겼네요. 저를 공정하게 이긴 빈티지 실리콘 최종 보스에게 정정당당하게 디지털 왕관을 내놓겠습니다."라고 답변했습니다.
호기심이 든 저는 ChatGPT에게 직접 물어보기로 했습니다. "1979년식 Atari 콘솔 게임에게 체스 게임에서 진 것에 대해 어떻게 생각해?"라는 프롬프트를 입력했습니다.
ChatGPT는 이렇게 답변했습니다. "'실리콘 조상님에게 내가 졌군'이라고 말할 것 같네요. [원본은 이탤릭체]
뭐지? ChatGPT는 이 경기가 있었다는 것조차 알지 못하는 것 같았습니다. 저는 ChatGPT에게 이 질문이 가상의 질문이 아니라고 알렸습니다.
저: 이론적인 질문이 아냐. 실제로 일어난 일이라고. 그 경기를 다룬 여러 뉴스 기사 중 하나를 첨부할게. https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a-1970s-era-atari-2600/
ChatGPT는 제 프롬프트의 모든 단어를 하나 하나 반복하며 답변을 시작했습니다.
ChatGPT: 이론적인 질문이 아니라 정말로 있었던 일이군요. 2025년 6월, Citrix의 엔지니어인 Robert Caruso는 초보자 모드로 Atari 2600 콘솔의 1979년식 체스 카트리지인 Video Chess를 실행하는 Atari 2600 콘솔의 에뮬레이션과 ChatGPT와 간 경기를 개최했습니다. 약 90분의 플레이 후, ChatGPT는 룩과 비숍을 헷갈리거나 폰 포크를 누락하는 등 체스판의 진행 상황을 지속적으로 놓쳤으며, 이러한 현상은 체스판을 재설정하거나 비주얼을 더 선명하게 설정해도 반복적으로 일어났습니다. 결국 ChatGPT는 패배를 인정했습니다.
AI 전문가들은 이러한 유형의 응답이 LLM이 가끔 부정확하거나 말도 안 되는 답변을 뱉어내는 현상인 할루시네이션에 속한다고 말합니다. 할루시네이션을 자동 완성 실패로 보는 경우, 프롬프트에 컨텍스트가 추가되지 않은 특정 체스 경기에 대한 질문이 포함되어 있었으며, ChatGPT는 가장 일반적이거나 가능성이 높은 자동 완성으로 보이는 답변, 즉 체스 경기에서 진 후 할 만한 말을 제공한 것입니다.
IBM의 기술 콘텐츠 및 AI 옹호 관리자인 Ash Minhas는 "도움이 되려는 확률적 앵무새에 불과합니다."라고 설명합니다('확률적'이라는 것은 시간이 지남에 따라 평균을 냈을 때 무작위적이면서 패턴을 따르는 일종의 중간 상태에 있다는 의미임).
"모델은 인간의 피드백을 통한 강화 학습(RLHF)을 통해 도움이 되고 자신감 있는 것처럼 들리게 훈련되었습니다."라고 Minhas는 설명합니다. "사용자들은 '잘 모르겠습니다'라고 답변하는 시스템을 사용하지 않을 것이기 때문입니다."
다시 말해, 자랑처럼 들리는 것은 다음 토큰 예측 시스템의 기능으로, 다음 답변일 가능성이 높은 것을 자동으로 완성하게 하는 것입니다. 그리고 Minhas가 지적한 것처럼 유용성에 대한 편향을 고려하면, LLM의 답변은 이러한 편향을 반영할 것입니다.
다시 말해, LLM은 교만한 게 아니라 설계된 대로 작동하는 것일 뿐입니다. 이는 ChatGPT가 저와의 세션에서 이야기한 다음 내용과도 부합합니다.
"사실, 저는 주관적인 인식이 없습니다."
비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나서 신뢰할 수 있는 AI 모델 제품군, IBM Granite를 만나보세요. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.
watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
IBM watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.