2019년 초, 인공 지능의 세계에는 미묘하지만 중요한 변화가 일어났습니다. 이 분야의 핵심 기업인 OpenAI는 개방형 연구에 중점을 두던 기존 방식에서 벗어나기 시작했습니다. 시간이 지남에 따라 데이터 세트에 대한 액세스가 제한되고 학습 방법에 대한 세부 정보를 찾기가 점점 더 어려워졌으며 내부 작업은 더욱 폐쇄적으로 변했습니다. 당시 일상적인 방향 전환처럼 보였던 것이 AI의 전환점이 되어, 전 세계적으로 연구가 공유되고 개발되며 토론되는 방식을 재편했습니다.
"이제 OpenAI의 데이터 세트에 대한 가시성이 전혀 없습니다"라고 이 분야의 오랜 관찰자이자 MIT Technology Review의 전 인공 지능 수석 편집자인 카렌 하오(Karen Hao)가 IBM Think와의 인터뷰에서 말했습니다.
하오의 신간인 AI 제국(Empire of AI)은 내부에서 바라본 생성형 AI의 발전 과정을 기록하여 OpenAI와 같은 기업의 부상 뒤에 숨겨진 경제적, 정치적 동기뿐만 아니라 과학 자체를 재정의한 조용한 기술적 결정까지 추적합니다. "OpenAI조차도 학습 세트에 무엇이 있는지 항상 알 수는 없습니다. 수동으로 감사하기에는 데이터가 너무 큽니다."
이러한 사실을 인정하는 것은 일반 관찰자에게 사소한 일로 들릴 수도 있습니다. 그러나 연구자에게 있어 모델 학습에 사용되는 데이터를 안정적으로 특성화하거나 복제할 수 없다는 것은 학문의 근간을 무너뜨리는 일입니다. 수십 년 동안 머신 러닝은 간단한 과학 원리인 재현성에 의존해 왔습니다. 모델은 동일한 조건에서 학습된 경우 동일한 방식으로 작동해야 합니다. 그러나 오늘날의 선별되지 않은 방대한 데이터 세트에서는 이러한 조건을 알 수 없는 경우가 많습니다.
대부분의 경험과학에서 재현성은 엄밀성을 평가하는 척도입니다. 재현할 수 없는 화학 실험은 신뢰할 수 없습니다. 추적할 수 없는 입력이 있는 의학 시험은 동료 평가를 통과할 가능성이 낮습니다. 인공 지능에서 재현성은 연구자가 전통적으로 모델 아키텍처와 학습 매개변수뿐만 아니라 해당 모델을 학습하는 데 사용된 데이터 세트를 공개하는 것에 의존해 왔습니다. 이미지, 오디오 녹음 또는 텍스트 문서 모음 등 이러한 데이터 세트는 모델이 무엇을 알고 새로운 입력에 어떻게 일반화하는지를 결정하는 기반이 됩니다다.
2010년대 초반에는 이러한 개방성 모델이 표준이었습니다. 학술 연구소와 기업 연구원 모두 자신들의 학습 코퍼스를 공유하고 전처리 단계를 설명하며 공통 표준에 따라 벤치마크를 실행했습니다. 그러나 2020년에 이르러 환경이 바뀌었습니다. OpenAI와 같은 회사가 상업적 이점을 위해 더욱 적극적으로 경쟁하기 시작하면서 데이터 세트 공유 관행은 인기를 잃었습니다.
이러한 변화는 단순히 지적 재산권의 문제만은 아니었습니다. 하오가 지적했듯이, 인터넷에서 스크랩한 수천억 개의 토큰으로 구성된 최신 학습 데이터 세트의 엄청난 규모로 인해 이를 철저히 문서화하는 것이 사실상 불가능했습니다. 기업들은 자동 스크래핑 및 필터링 툴에 의존하여 데이터 세트를 구성하기 시작했습니다. 그러나 이러한 도구는 미묘한 문제를 감지할 수 없었고 학습 프로세스에 새로운 수준의 불확실성을 초래했습니다.
흥미로운 사례로, 스탠퍼드 대학교 연구진이 널리 사용되는 LAION-5B 이미지 데이터 세트를 감사한 연구가 있습니다. 이 데이터 세트는 공개되었음에도 그 안에 아동 성 학대 자료로 확인되거나 의심되는 수천 건의 사례가 포함되어 있었습니다. 이는 데이터 세트가 자유롭게 유통되고 이미 상업용 이미지 생성기를 학습시키는 데 사용된 지 수년이 지난 후에 발견되었습니다. 이 일화는 경각심을 일깨워 주었습니다. 공개 데이터 세트에 이 정도의 해악이 내재되어 있다면 비공개 데이터 세트에는 어떤 해악이 숨어 있을까요?
"더 이상 테스트-학습 분할을 보장할 수도 없습니다." 머신 러닝의 기본적인 방법론적 관행을 언급하며 하오는 설명합니다.
일반적인 AI 설정에서 데이터 세트는 두 부분으로 나뉩니다. 한 부분은 모델 학습에, 다른 부분은 성능 테스트에 사용됩니다. 이를 통해 이전에 보지 못했던 데이터에 대한 모델의 정확도를 측정할 수 있습니다. 하지만 데이터 세트가 너무 크고 불투명하여 내용을 사실상 알 수 없는 경우, 중복 콘텐츠가 두 세트 모두에 나타나 평가를 오염시키고 성능 지표를 부풀릴 위험이 있습니다.
그 결과 검증보다는 믿음에 의존하는 분야가 점점 더 많아지고 있습니다. "과학이라기보다는 연금술에 가까워졌습니다."라고 하오는 말합니다. "우리는 모델에 더 많은 컴퓨팅과 데이터를 투입하고는 무언가가 나오기를 바랍니다."
모든 이들이 우르르 나서서 규모를 확장한 것은 아니었습니다. 하오의 설명처럼, 다른 길을 걷는 연구자들로부터 또 다른 미묘한 움직임이 나타났습니다. 그러한 연구자들은 더 큰 규모의 데이터베이스를 구축하는 대신 엄선된 소규모 데이터 세트를 활용했습니다. 중요한 것은 얼마나 많은 데이터를 가지고 있느냐가 아니라 그 데이터가 언어의 뉘앙스, 인간 경험의 폭, 공정성 의무를 얼마나 잘 담아내는가였습니다.
업계는 더 많은 것을 요구했지만, 그 과정에서 간과하고 있는 것이 무엇인지도 물었습니다. 예를 들어 Mozilla의 DeepSpeech는 사용자가 전적으로 동의하여 기부한 오디오 클립을 기반으로 구축한 음성 인식 프로젝트입니다. 각 클립은 수동으로 검토되고 태그가 지정되었으며, 음성, 억양 및 언어 패턴 측면에서 명확성과 다양성을 보장하기 위해 데이터 세트를 개선하는 데 많은 노력을 기울였습니다.
마찬가지로, Hugging Face의 지도 아래 글로벌 연구 컨소시엄이 개발한 BLOOM 언어 모델은 언어적, 지리적, 주제적 다양성에 주의를 기울여 수집된 공개 데이터 세트를 기반으로 학습되었습니다. 모든 출처가 문서화되었습니다. 또한 커뮤니티 감사를 초대했습니다. 불투명한 파운데이션 모델과 달리 BLOOM은 학습 방법론을 읽기 쉽게 만들었습니다.
하지만 이러한 노력은 점점 더 무색해지고 있습니다. 하오는 이제 업계의 지배적인 논리가 규모를 선호한다고 말합니다. 대규모 데이터 세트에서 학습된 대규모 모델은 작업별 조정 없이도 복잡한 추론이나 코드 생성과 같은 새로운 속성을 보이는 경향이 있습니다. 이로 인해 팀은 신중한 데이터 설계를 포기하고 가능한 모든 것을 스크랩하는 쪽으로 가게 됩니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
OpenAI의 규모 우선 사고방식은 단순한 기술적 결론이 아니었습니다. 이는 정통적이진 않지만, 경영진이 공유한 일관된 신념 시스템의 결과였다고 하오는 지적합니다. 하오는 OpenAI의 수석 과학자인 일리야 수츠케버(Ilya Sutskever)가 딥러닝 절대주의자라고 말했습니다. 수츠케버는 충분히 큰 신경망에 충분한 데이터가 공급되면 결국 인간과 같은 지능이 개발될 것이라고 믿었습니다. 반면 OpenAI의 CEO인 샘 알트먼(Sam Altman)은 기업가로서 인공 지능에 접근했으며, 기하급수적인 확장이 지배력을 확보하는 가장 빠른 길이라고 생각했습니다. OpenAI의 사장인 그렉 브록만(Greg Brockman)은 이러한 확장을 실현하는 데 집중한 엔지니어링 담당자였습니다.
이 원칙을 가능하게 한 아키텍처는 2017년에 처음 소개된 신경망의 일종인 트랜스포머였습니다. 트랜스포머는 문장 내 멀리 떨어진 단어 간 관계를 추적할 수 있기 때문에 텍스트와 같은 데이터 시퀀스를 모델링하는 데 탁월합니다. 무엇보다도, 효율적으로 확장할 수 있습니다. 더 많은 계층과 매개변수를 추가하면 성능이 향상됩니다.
OpenAI 연구팀은 충분한 연산 능력을 갖춘 방대한 데이터 세트에서 트랜스포머를 학습시키면 수작업으로 설계된 특징, 기호 추론, 모듈러 설계를 생략할 수 있다는 사실을 깨달았습니다 OpenAI 연구팀의 견해에 따르면, 인텔리전스는 데이터로부터 나올 것입니다.
GPT-4와 같은 모델을 학습시키기 위해 OpenAI는 아이디어뿐 아니라 인프라도 필요했습니다. 이 정도 크기의 언어 모델에는 수만 개의 그래픽 처리 장치로 구성된 클러스터가 필요합니다. 원래 3차원 이미지를 렌더링하기 위해 설계된 GPU는 신경망의 핵심인 행렬 곱셈 연산에 매우 유용하다는 것이 입증되었습니다. 하지만 이를 연결하여 하나의 통합 시스템으로 작동시키기 위해서는 맞춤형 소프트웨어와 하드웨어 오케스트레이션이 필요했습니다.
OpenAI의 엔지니어들은 모델을 여러 칩에 분산하여 병렬로 학습할 수 있는 샤드로 분할하는 기술을 개발했습니다. 부분 학습 실행을 보존하기 위한 체크포인팅 프로토콜을 만들어 치명적인 실패 위험을 줄였습니다. 또한 여러 머신에서 업데이트를 동기화하기 위해 맞춤형 통신 프로토콜을 구축했습니다. 이는 화려한 발전은 아니었지만 꼭 필요한 것이었습니다.
"이전에는 아무도 10,000개의 칩 규모로 학습한 적이 없었습니다."라고 하오는 말합니다. "그래서 실시간으로 이를 해결해 나가야 했습니다."
이러한 발전을 통해 경쟁사보다 더 빠르고 효율적으로 모델을 확장할 수 있었습니다. 그러나 또한 새로운 형태의 비밀주의를 낳았습니다. OpenAI는를 획기적인 발전의 배경이 된 많은 세부 사항의 공개 중단했습니다. 너무 많은 정보를 공개하는 것은 경쟁 우위를 포기하는 것이라고 주장했습니다.
2024년에는 대부분의 주요 기술 기업이 이를 따라잡았습니다. IBM, Google, Meta, Amazon, Anthropic 및 Mistral과 같은 신생 기업은 모두 유사한 트랜스포머 아키텍처 및 교육 기술을 사용하여 대규모 언어 모델을 생성했습니다. 많은 기업이 인간의 피드백을 통한 강화 학습을 사용했는데, 이는 인간이 모델의 아웃풋 품질을 평가하는 방법으로, 모델을 미세하게 조정하여 인간의 선호도에 더 잘 맞출 수 있습니다.
외부인이 보기에는 이러한 시스템 간의 차이점을 구분하기가 더 어려워졌습니다. 애플리케이션 개발자는 백그라운드에서 어떤 모델이 돌아가든 작동할 수 있도록 설계하기 시작하여 필요에 따라 공급 업체를 바꿀 수 있게 되었습니다. 가격, 지연 시간, 가동 시간이 인텔리전스의 미미한 차이보다 더 중요해졌습니다.
"이제 모두가 모델에 구애받지 않으려고 노력하고 있습니다."라고 하오는 말합니다. "OpenAI는 더 이상 좋은 모델을 독점하지 않습니다."
규모가 더 이상 차별화 요소가 되지 못하자 기업들은 에이전시(agency)라는 다른 패러다임에 투자하기 시작했습니다. 인공 지능에서 에이전시란 시스템이 주도적으로 행동하고 시간에 걸쳐 지속적으로 존재하며 자신의 목표를 향해 행동할 수 있는 능력을 의미합니다. 프롬프트에 단순히 반응하는 것이 아니라, 에이전트는 행동을 계획하고 결과를 모니터링하며 그에 따라 행동을 조정합니다.
이를 위해서는 새로운 능력이 필요했습니다. 모델은 세션 전반에 걸쳐 메모리를 유지하고 타사 도구와 통합하며 명시적인 프롬프트 없이 결정을 내려야 했습니다. 목표는 수동적인 챗봇에서 능동적인 협업자로 전환하는 것이었습니다.
OpenAI는 사용자가 자신의 요구에 완벽하게 적응하는 AI 어시스턴트와 사랑에 빠지는 영화 '허(Her)'에서 영감을 받았습니다. 이러한 시스템을 만든다는 것은 지능뿐만 아니라 존재감을 개발하는 것을 의미했습니다. 하오는 OpenAI의 내부 팀이 제품 및 연구 영역 전반에 걸쳐 이러한 꿈을 추구해 왔다고 언급했습니다.
"모델에 메모리, 지속성 및 자율성을 제공하지 않으면 이러한 종류의 어시스턴트를 구축할 수 없습니다."라고 하오는 말합니다.
하지만 에이전트를 진정으로 효과적으로 만들려면 OpenAI에 알고리즘 이상의 것이 필요했습니다. 새로운 종류의 데이터와 이를 수집할 새로운 방법이 필요했습니다. 한때 풍부한 학습 데이터 소스였던 인터넷은 이제 합성 콘텐츠로 포화 상태가 되었습니다. 현재 온라인에서 볼 수 있는 문서 중 상당수는 이전 모델을 통해 생성되었습니다.
이로 인해 온라인 학습의 가치가 점점 더 떨어지는 피드백 루프가 생성됩니다. 이 루프를 깨기 위해, 기업들은 더 친밀한 데이터 수집 방식으로 눈을 돌리고 있 하오는 OpenAI가 모바일 상호 작용부터 음성 대화 및 환경적 맥락에 이르기까지 실시간 사용자 행동을 포착할 수 있는 맞춤형 디바이스를 모색하고 있다고 보고했습니다.
"온라인에는 AI가 생성한 콘텐츠가 너무 많습니다."라고 하오는 말합니다. "고품질 데이터를 원한다면 사람들로부터 직접 데이터를 얻어야 합니다."
하오는 AI가 생성한 콘텐츠의 홍수가 커져 가면서 동의, 감시 및 제어에 대한 어려운 질문이 제기된다고 말합니다. 사람들이 진정으로 자신의 데이터가 수집되지 않도록 선택할 수 있을까요? 그리고 사람들이 자신의 말, 이미지, 행동을 학습한 모델에 대해 어떤 발언권을 가질 수 있을까요?
하오에게 해답은 기술에 대한 낙관주의나 종말론이 아니라 투명성에 있습니다. 하오는 자신이 '부머(boomer)'라고 부르는 인공 지능이 인류를 구원할 것이라고 믿는 사람들 또는 '두머(doomer)라고 부르는 인공 지능이 인류를 파괴할 것이라고 믿는 사람들과 같은 AI의 지배적인 이데올로기에 동의하지 않습니다.
"저는 책임감 진영에 속해 있습니다." 하오는 말합니다. "이러한 시스템은 제도적 권력을 담고 있습니다. 우리는 이것들이 어떻게 만들어지고 누가 혜택을 받는지 알아야 합니다."
기업은 모델을 테스트하는 방법, 사용하는 데이터, 결과를 이해하는 방법을 설명해야 한다고 하오는 말합니다. 실수를 추적하고 발견한 내용을 공유하여 다른 사람들이 더 자세히 살펴볼 수 있도록 해야 합니다.
하오는 이러한 개방성이 없다면 AI는 강력하지만 책임지지 않는 독점적인 블랙박스가 될 위험이 있다고 경고합니다.
IBM과 함께하는 웨비나에 참여하여 산업 전반의 사례, 사용 사례, IBM의 자체 성공 사례를 살펴보며 에이전틱 AI 이니셔티브를 통해 ROI를 실현하는 방법을 알아보세요.
IBM이 2025년 Gartner Magic Quadrant™ 데이터 과학 및 머신 러닝 플랫폼 부문에서 리더로 선정된 이유를 알아보세요.
조직이 서로 다른 파일럿을 통해 AI를 도입하는 것에서 AI를 사용하여 조직의 중심에서 혁신을 추진하는 것으로 전환하는 방법을 알아보세요.
IBM® Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.
IBM은 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시해 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아보았습니다.
다음 다섯 가지 사고 전환을 실행하여 불확실성을 극복하고 비즈니스 혁신을 촉진하며 에이전틱 AI를 통해 성장을 가속화하세요.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
IBM Consulting AI 서비스는 기업이 AI 활용 방식을 재구상하여 혁신을 달성하도록 지원합니다.
IBM Concert는 AI를 사용하여 운영에 관한 중요한 인사이트를 발견하고 개선을 위한 애플리케이션별 권장 사항을 제공합니다. Concert를 통해 비즈니스를 발전시키는 방법을 알아보세요.