오픈 소스 대규모 언어 모델(LLM)은 누구나 쉽게 수정하고 사용할 수 있기 때문에 많은 사랑을 받고 있습니다. 그러나 모델을 학습하고 조정하는 데 필요한 데이터를 준비하는 데 비용과 시간이 많이 소요되면 오픈 소싱의 이점을 잃게 됩니다.
IBM Research의 생성형 AI용 데이터 엔지니어링 수석 연구원인 Petros Zerfos는 "AI에서의 모든 대화는 모델에서 시작하여 실제로는 데이터로 끝납니다."라고 말합니다. 기업의 경우 이는 AI 팀이 실제로 모델 자체보다 모델용 데이터를 준비하는 데 더 많은 시간을 할애한다는 것을 의미한다고 Zerfos는 말합니다.
어떻게 이 문제를 해결했을까요? 일부 대형 기술 기업에서는 데이터 준비 도구를 오픈소스로 제공하고 있습니다. 예를 들어, IBM의 Data Prep Kit와 NVIDIA NeMo Curator를 사용하면 모든 규모의 기업이 LLM을 학습하고 미세 조정할 수 있으므로, AI 애플리케이션에서 더 빠르고 비용 효율적으로 가치를 얻을 수 있습니다.
기업들이 LLM과 애플리케이션을 개발하고 배포하기 위해 경쟁할 때 가장 큰 병목 현상 중 하나는 데이터 준비입니다. 실제로 Gartner의 2023년 AI 개발 간소화를 위한 데이터 중심 AI 솔루션 살펴보기 보고서에서 설문 조사에 참여한 기업 AI 팀의 79%는 자신이 수행하는 가장 일반적인 전략적 과제가 데이터 준비 및 생성이라고 답했습니다.
데이터 준비는 일반적으로 LLM 개발의 두 가지 주요 단계에서 발생합니다. 사전 학습 단계에서 수백 테라바이트의 데이터로 모델을 학습시켜 일반 영어를 이해하고 다양한 영역에서 충분한 지식과 뉘앙스를 습득할 수 있도록 합니다. Zerfos에 따르면 모델을 처음부터 사전 교육하려면 수백 명의 인력과 수백만 달러가 필요하기 때문에 대기업이나 자본이 풍부한 소수의 스타트업만이 이러한 작업을 수행할 수 있는 리소스를 보유하고 있습니다.
데이터 준비의 두 번째 단계에서는 AI 팀이 소량의 타겟 데이터를 사용하여 보다 정확하고 관련성 높은 텍스트를 생성할 수 있도록 LLM을 미세 조정합니다. 리소스가 충분한 일부 대기업은 두 단계를 모두 수행하지만 대부분의 기업은 다른 기업이 이미 구축한 모델을 미세 조정하기 위한 데이터 준비에 집중합니다.
IBM과 NVIDIA를 비롯한 몇몇 회사는 최근에 개발자들이 데이터 준비라는 어려운 작업을 해결하는 데 도움이 되는 오픈 소스 도구를 보유하고 있습니다. IBM의 Data Prep Kit는 개발자가 파이프라인에 연결하여 사전 교육 또는 미세 조정 단계에서 데이터를 큐레이션할 수 있는 모듈 라이브러리입니다. 이 모듈은 텍스트(예: PDF) 및 코드(HTML)와 같은 비정형 데이터가 포함된 소스 문서에서 작동하며 데이터에 주석을 달고, 변환하고, 필터링하는 데 사용할 수 있습니다.
Zerfos는 IBM 팀이 이러한 도구를 오픈 소스로 제공하여 모든 규모의 기업이 사용할 수 있도록 했다고 말합니다. "개발자는 노트북, 서버 또는 클러스터에서 실행하든 특별한 작업을 수행할 필요가 없습니다."라고 그는 말합니다. "또한 모든 클라우드 인프라에서 실행할 수 있습니다."
2024년 5월 출시 이후, 개발자들은 GitHub을 통해 접근할 수 있는 Data Prep Kit 프레임워크 및 모듈을 실험해 왔습니다. 크고 작은 기술 회사를 포함하는 커뮤니티인 AI Alliance의 몇몇 회원들도 특정 모듈이 교육 및 미세 조정을 간소화하고 가속화할 수 있는 방법을 테스트하기 시작했다고 Zerfos는 말합니다.
AI 하드웨어 및 소프트웨어 대기업인 NVIDIA도 최근 생성형 AI 모델의 정확도를 개선하기 위해 일련의 데이터 준비 모듈을 오픈소스화했습니다. NVIDIA NeMo Curator는 텍스트, 이미지 및 비디오 데이터를 대규모로 처리합니다. 또한, 생성형 AI 시스템을 사용자 지정하고 평가하기 위한 합성 데이터를 생성하는 사전 구축된 파이프라인도 제공합니다.
NVIDIA의 NeMo Curator가 속도 향상을 약속하는 작업 중 하나는 중복 제거입니다. Common Crawl과 같은 대규모 웹 크롤링 소스에서 데이터를 다운로드할 때 일반적으로 모델은 서로 정확히 중복된 문서와 거의 중복된 문서를 모두 발견합니다.
곧 출시될 NeMo Curator 버전을 사용하면 조직은 현재보다 20배 더 빠르고 5배 더 저렴하게 중복 제거 작업을 완료할 수 있다고 이 도구의 개발자는 말합니다.
이러한 도구를 오픈소스로 공개하면 더 폭넓게 액세스할 수 있습니다. 그러나 엔터프라이즈 AI 팀은 이러한 도구로부터 가치를 창출하기 위해 여전히 일정 수준의 기술과 교육이 필요하다고 Gartner의 수석 부사장 분석가인 Mark A. Beyer와 같은 전문가들은 경고합니다.
"지침, 방법론, 지원 기능 없이 단순히 도구를 제공하는 것만으로도 실험이 되기 시작한다고 그는 말합니다. "단순히 기존 도구를 활용하는 것보다 4~5배 더 오래 걸릴 수 있습니다."
하지만 The Data Exchange 팟캐스트의 진행자인 Ben Lorica는 아직 초기 단계이긴 하지만 기업들이 멀티모달 데이터의 사용을 늘리면서 데이터 준비 도구의 잠재력이 매우 크다고 보고 있습니다.
"애플리케이션이 텍스트 외에도 비디오와 오디오에 점점 더 많이 의존함에 따라 더 큰 데이터 세트를 확장하고 사용할 수 있으며 사용 중인 하드웨어를 활용할 수 있는 일종의 도구가 필요합니다."라고 그는 말합니다. "특히 에이전트 업계에서 데이터는 차별화 요소가 될 것입니다. 적시에 올바른 데이터에 액세스하고 싶을테니까요."