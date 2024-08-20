기술 대기업들은 합성 데이터에 큰 베팅을 하고 있습니다. NVIDIA는 최근 Nemotron-4 340B를 발표했는데, 이는 다양한 산업 분야에서 대형 언어 모델(LLM) 학습을 위한 학습 데이터를 생성하기 위해 설계된 개방형 모델 제품군입니다. 이러한 움직임은 AI 개발의 중요한 과제인 강력한 데이터 세트에 액세스하는 데 드는 엄청나게 높은 비용과 어려움을 해결합니다.

"고품질 학습 데이터는 사용자 지정 LLM의 성능, 정확도 및 응답 품질에 중요한 역할을 합니다."라고 NVIDIA는 블로그에 썼습니다. Nemotron-4 340B 제품군에는 합성 데이터를 생성하고 정제하기 위한 파이프라인을 형성하는 기본, 명령, 보상 모델이 포함되어 있어 강력한 도메인별 LLM 개발을 가속화할 잠재력이 있습니다.

IBM 연구원인 Akash Srivastava는 대규모 언어 모델의 맥락에서 하나의 AI 모델에서 합성 데이터가 생성되어 다른 모델을 학습시키거나 맞춤화하는 경우가 많다고 설명합니다. "업계의 연구원과 개발자는 이러한 모델을 사용하여 특정 대상 작업에 대한 데이터를 생성하고 있습니다."라고 Srivastava는 말합니다.

MIT-IBM Watson AI Lab와 IBM Research의 연구자들은 최근 합성 데이터를 사용해 LLM을 개선하는 새로운 접근법을 도입했습니다. LAB(Large-scale Alignment for chatBots)라고 불리는 이 방법은 사람의 주석과 GPT-4와 같은 독점 AI 모델에 대한 의존도를 줄이는 것을 목표로 합니다.

LAB은 분류 기반 합성 데이터 생성 프로세스와 다단계 학습 프레임워크를 사용합니다. 연구진은 "LAB로 학습된 모델은 사람이 주석을 추가한 기존의 데이터나 GPT-4 생성 합성 데이터로 학습한 모델에 비해 여러 벤치마크에서 경쟁력 있는 성능을 달성할 수 있다"고 보고했습니다.

LAB의 효과를 입증하기 위해 연구팀은 LABRADORITE-13B 및 MERLINITE-7B 두 모델을 만들었는데, 이는 몇 가지 주요 지표에서 동일한 기본 모델의 다른 미세 조정 버전보다 뛰어난 성능을 보인 것으로 알려졌습니다. 연구진은 오픈 소스 Mixtral 모델을 사용하여 합성 학습 데이터를 생성함으로써 잠재적으로 LLM을 개선하는 데 보다 비용 효율적인 접근 방식을 제공할 수 있었습니다.

합성 데이터의 품질은 그 효과를 위해 매우 중요합니다. Multiverse Computing의 엔지니어링, AI 및 Quantum 담당 이사인 Raul Salles de Padua는 다음과 같이 설명합니다. "합성 데이터의 충실도는 통계 및 분석 테스트를 통해 실제 데이터와 비교하여 계산됩니다. 여기에는 합성 데이터가 변수 간 평균, 분산, 상관관계와 같은 주요 통계적 속성을 얼마나 잘 보존하는지에 대한 평가가 포함됩니다."

합성 데이터는 그 가능성에도 불구하고 단점도 존재합니다. De Padua는 다음과 같이 지적합니다. "합성 데이터의 과제는 유용하면서도 개인 정보를 보호하는 데이터를 만드는 것입니다. 이러한 안전장치를 마련하지 않으면 합성 데이터가 개인 정보를 노출시켜 잠재적으로 신원 도용, 차별 또는 기타 개인정보 침해로 이어질 수 있습니다."

최근 연구에 따르면 합성 데이터에 너무 많이 의존하는 경우 발생할 수 있는 잠재적 위험이 밝혀졌습니다. Nature에 발표된 한 최근 연구에서는 '모델 붕괴'라는 현상을 밝혀냈습니다. AI 모델이 AI가 생성한 텍스트에 대해 반복적으로 학습하면 그 아웃풋이 점점 더 무의미해질 수 있으며, 특히 AI가 생성한 콘텐츠가 온라인에서 보편화됨에 따라 합성 데이터 사용의 장기적인 실행 가능성에 대한 우려가 제기되고 있습니다.

윤리적 고려 사항도 크게 대두되고 있습니다. De Padua는 "합성 데이터가 실제 인구의 다양성을 정확하게 나타내지 못해 다양한 인구 통계 그룹에서 공평하게 작동하지 않는 모델의 잠재적인 편향이 발생할 위험이 있다"고 경고합니다.