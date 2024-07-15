AI를 장악하기 위한 경쟁에서는 일반적으로 클수록 좋습니다. 더 많은 데이터와 더 많은 매개변수는 더 강력할 뿐만 아니라 더 효율적이고 빠르며 일반적으로 더 작은 시스템보다 더 적은 오류를 생성하는 더 큰 AI 시스템을 만듭니다.
뉴스 헤드라인을 장식하는 기술 기업들은 이러한 추세를 뒷받침합니다. Microsoft CTO인 Kevin Scott은 Chat GPT-5를 구동하는 슈퍼컴퓨터에 대해 "방금 배포한 시스템은 규모 면에서 고래만큼 큽니다."라고 말합니다. Scott은 지난 5월 말 열린 회사의 최근 빌드 이벤트에서 Open AI의 최신 버전의 생성형 AI 챗봇에 대해 논의했습니다. "고래 크기의 슈퍼컴퓨터로도 엄청난 양의 AI를 구축할 수 있다는 것이 밝혀졌습니다."
한편, NVIDIA의 시가총액은 6월에 3조 달러를 돌파했습니다. 이 칩 제조업체는 점점 더 대형화되는 언어 모델, 슈퍼컴퓨터, 전 세계적으로 급증하는 데이터 센터를 구동하는 칩을 생산하면서 어지러울 정도로 빠른 속도로 성장하고 있습니다.
하지만 더 큰 것이 항상 더 나은가요? 관점에 따라 달라집니다. 대규모 언어 모델을 개발하는 회사의 경우 대부분의 경우 규모를 확장하는 것이 유리합니다. 하지만 기업들이 과대광고와 AI가 진정한 가치를 더할 수 있는 부분을 분리하려 할 때, 점점 더 큰 언어 모델이 항상 더 나은 기업 솔루션으로 이어질 것이라는 점은 명확하지 않습니다.
IBM의 Mixture of Experts 팟캐스트의 최근 에피소드에서 IBM의 생성형 AI 연구 프로그램 디렉터인 Kate Soule은 앞으로 "가치의 대부분을 추출하기 위해 현재의 100배에 달하는 모델은 필요하지 않을 것"이라고 말했습니다. 이미 AI 투자에 대한 수익을 얻고 있는 많은 기업들이 분류 및 요약과 같은 작업에 AI를 사용하고 있으며, 이는 현재 언어 모델의 전체 용량을 사용하지도 않습니다.
"클수록 좋다"는 말은 Prasanth Kolachina가 머신 러닝에 스케일링 법칙을 적용한 2012년 논문으로 화제가 된 데이터 스케일링 법칙에서 유래했습니다. Kolachina와 그의 동료들은 모델이 커질수록 일반적으로 더 정확하고 더 나은 성능을 보인다는 것을 보여주었습니다. 2017년, Hestness 등은 딥러닝 스케일링이 경험적으로도 예측 가능하다는 것을 보여주었습니다. 그리고 2020년에 Kaplan 등은 데이터 스케일링 법칙이 언어 모델에도 적용된다는 사실을 보여주었습니다.
이러한 법률은 인공 일반 지능을 만들고자 하는 언어 모델 제공업체에 도움이 되지만, 기업이 가치를 최대한 활용하기 위해 이러한 규모의 투자 또는 AI가 필요하다는 것은 분명하지 않습니다.
"n차 규모의 모델을 학습하는 가장 비용 효율적인 방법을 알고 있다고 해서 해당 모델에서 얻을 수 있는 실제 이점이 비용을 정당화할 수 있을까요?"라고 IBM의 Soule은 말합니다. "그것은 스케일링 법칙이 답하지 못하는 전혀 다른 질문입니다."
AI 모델 학습에 사용되는 고품질 데이터가 점점 부족해짐에 따라 데이터 비용이 증가하고 있습니다. AI 연구 조직인 Epoch AI의 논문에 따르면 AI 모델이 현재 인터넷에서 사용 가능한 모든 고품질 언어 데이터를 빠르면 2026년에 모두 소진할 수 있다고 합니다.
따라서 기업들은 모델을 학습하고 비용을 관리하기 위해 새로운 데이터에 액세스하는 측면에서 창의력을 발휘하고 있습니다. 예를 들어, Open AI의 최신 버전의 Chat GPT는 일부 사용자 및 타사 데이터와 교환하여 사용자에게 무료로 제공됩니다. 주요 업체들은 실제 데이터와 함께 인공 지능을 학습시키는 데 사용되는 2D 이미지, 3D 데이터, 텍스트 등으로 구성된 합성 데이터를 검토하고 있습니다.
LLM을 개발하는 회사는 데이터 비용을 부담하지만, 점점 더 큰 언어 모델로 인한 기후 비용은 대부분 간과되어 왔습니다. 이러한 모델은 복잡성과 사용량이 증가함에 따라 방대한 계산 리소스를 소비합니다. 이러한 모델을 구동하는 슈퍼컴퓨터를 수용하는 데이터 센터는 상당한 양의 에너지를 소비하며 그에 상응하는 탄소 배출량을 발생시킵니다.
"여기에는 막대한 에너지 영향이 있을 뿐 아니라, 그로 인한 탄소 영향이 이 기술의 혜택을 받지 못하는 사람들에게 우선적으로 비용을 전가하게 된다는 점이 문제입니다."라고, 라는 논문을 발표한 워싱턴대학교 언어학과 교수 Emily Bender는 말했습니다.
"비용-편익 분석을 할 때는 누가 혜택을 받고 누가 비용을 지불하는지를 고려하는 것이 중요합니다."라고 Bender는 워싱턴 대학교 보도 자료에서 말했습니다.
기업이 비용과 편익의 균형을 맞추는 한 가지 방법은 더 큰 모델을 먼저 사용하여 가장 까다로운 비즈니스 문제를 해결하는 것입니다. 그런 다음 답을 얻으면 대규모 모델의 결과를 복제하지만 비용은 더 적게 들고 지연 시간은 단축되는 더 작은 모델로 전환합니다.
대규모 언어 모델의 대안으로 소규모 언어 모델의 사용도 증가하고 있습니다.
"작은 LLM은 ChatGPT나 Anthropic의 Claude 같은 대형 언어 모델에 비해 사용자에게 더 많은 제어권을 제공하여 많은 경우 더 선호된다"고 클라우드 기반 AI 기반 플랫폼인 Dialpad의 공동 창립자이자 최고기술책임자인 Brian Peterson은 PYMNTS에 말했습니다.
"데이터의 더 작은 하위 집합을 필터링할 수 있으므로 더 빠르고 경제적으로 만들 수 있으며, 자체 데이터가 있는 경우 훨씬 더 맞춤화되고 훨씬 더 정확합니다." 더 크고 강력한 LLM을 구축하기 위한 경쟁은 당분간 진정되지 않을 것입니다. 그러나 앞으로 대부분의 전문가들은 특정 분야에서 뛰어나고 AI 모델이 가치와 비용의 균형을 더 잘 맞추려는 기업에 대안을 제공하는 작지만 강력한 AI 모델이 급증할 것이라는 데 동의합니다.
