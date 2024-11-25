IBM과 NVIDIA를 비롯한 몇몇 회사는 최근에 개발자들이 데이터 준비라는 어려운 작업을 해결하는 데 도움이 되는 오픈 소스 도구를 보유하고 있습니다. IBM의 Data Prep Kit는 개발자가 파이프라인에 연결하여 사전 교육 또는 미세 조정 단계에서 데이터를 큐레이션할 수 있는 모듈 라이브러리입니다. 이 모듈은 텍스트(예: PDF) 및 코드(HTML)와 같은 비정형 데이터가 포함된 소스 문서에서 작동하며 데이터에 주석을 달고, 변환하고, 필터링하는 데 사용할 수 있습니다.

Zerfos는 IBM 팀이 이러한 도구를 오픈 소스로 제공하여 모든 규모의 기업이 사용할 수 있도록 했다고 말합니다. "개발자는 노트북, 서버 또는 클러스터에서 실행하든 특별한 작업을 수행할 필요가 없습니다."라고 그는 말합니다. "또한 모든 클라우드 인프라에서 실행할 수 있습니다."

2024년 5월 출시 이후, 개발자들은 GitHub을 통해 접근할 수 있는 Data Prep Kit 프레임워크 및 모듈을 실험해 왔습니다. 크고 작은 기술 회사를 포함하는 커뮤니티인 AI Alliance의 몇몇 회원들도 특정 모듈이 교육 및 미세 조정을 간소화하고 가속화할 수 있는 방법을 테스트하기 시작했다고 Zerfos는 말합니다.

AI 하드웨어 및 소프트웨어 대기업인 NVIDIA도 최근 생성형 AI 모델의 정확도를 개선하기 위해 일련의 데이터 준비 모듈을 오픈소스화했습니다. NVIDIA NeMo Curator는 텍스트, 이미지 및 비디오 데이터를 대규모로 처리합니다. 또한, 생성형 AI 시스템을 사용자 지정하고 평가하기 위한 합성 데이터를 생성하는 사전 구축된 파이프라인도 제공합니다.

NVIDIA의 NeMo Curator가 속도 향상을 약속하는 작업 중 하나는 중복 제거입니다. Common Crawl과 같은 대규모 웹 크롤링 소스에서 데이터를 다운로드할 때 일반적으로 모델은 서로 정확히 중복된 문서와 거의 중복된 문서를 모두 발견합니다.

곧 출시될 NeMo Curator 버전을 사용하면 조직은 현재보다 20배 더 빠르고 5배 더 저렴하게 중복 제거 작업을 완료할 수 있다고 이 도구의 개발자는 말합니다.

이러한 도구를 오픈소스로 공개하면 더 폭넓게 액세스할 수 있습니다. 그러나 엔터프라이즈 AI 팀은 이러한 도구로부터 가치를 창출하기 위해 여전히 일정 수준의 기술과 교육이 필요하다고 Gartner의 수석 부사장 분석가인 Mark A. Beyer와 같은 전문가들은 경고합니다.

"지침, 방법론, 지원 기능 없이 단순히 도구를 제공하는 것만으로도 실험이 되기 시작한다고 그는 말합니다. "단순히 기존 도구를 활용하는 것보다 4~5배 더 오래 걸릴 수 있습니다."

하지만 The Data Exchange 팟캐스트의 진행자인 Ben Lorica는 아직 초기 단계이긴 하지만 기업들이 멀티모달 데이터의 사용을 늘리면서 데이터 준비 도구의 잠재력이 매우 크다고 보고 있습니다.

"애플리케이션이 텍스트 외에도 비디오와 오디오에 점점 더 많이 의존함에 따라 더 큰 데이터 세트를 확장하고 사용할 수 있으며 사용 중인 하드웨어를 활용할 수 있는 일종의 도구가 필요합니다."라고 그는 말합니다. "특히 에이전트 업계에서 데이터는 차별화 요소가 될 것입니다. 적시에 올바른 데이터에 액세스하고 싶을테니까요."