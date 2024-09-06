오픈 소스 구성 요소는 AI 공급망에서 중요한 역할을 합니다. 대기업만이 처음부터 모델을 학습시키는 데 필요한 방대한 양의 데이터에 액세스할 수 있기 때문에 LAION 5B 또는 Common Corpus와 같은 오픈 소스 데이터 세트에 크게 의존해야 합니다. 이러한 데이터 세트의 방대한 규모는 데이터 품질을 유지하고 저작권 및 개인정보 보호법을 준수하는 것이 매우 어렵다는 것을 의미합니다. 이와 대조적으로 ChatGPT와 같은 많은 주류 생성형 AI 모델은 자체적으로 큐레이팅된 데이터 세트를 사용한다는 점에서 블랙박스입니다. 이로 인해 자체적인 보안 문제도 따릅니다.

수직화 및 독점 모델은 자체 데이터 세트를 사용하여 추가 학습을 통해 오픈 소스 파운데이션 모델을 개선할 수 있습니다. 예를 들어, 차세대 고객 서비스 챗봇을 개발하는 회사는 이전 고객 커뮤니케이션 기록을 사용하여 특정 요구에 맞는 모델을 만들 수 있습니다. 이러한 데이터는 오랫동안 사이버 범죄자들의 표적이 되어 왔지만, 생성형 AI의 급격한 증가로 인해 사악한 행위자들에게 더욱 매력적으로 다가왔습니다.

사이버 범죄자는 이러한 데이터 세트를 표적으로 삼아 허위 정보나 악성 코드 및 데이터로 데이터를 감염시킬 수 있습니다. 그리고 손상된 정보가 AI 모델 훈련 프로세스에 입력되면 AI 소프트웨어 수명 주기 전체에 걸쳐 파급 효과가 나타나기 시작합니다. 대규모 언어 모델(LLM)을 훈련시키려면 수천 시간과 방대한 컴퓨팅 파워가 필요할 수 있습니다. 이는 재정적으로나 환경적으로 막대한 비용이 드는 작업입니다. 하지만 훈련에 사용된 데이터 세트가 손상된 경우 전체 프로세스를 처음부터 다시 시작해야 할 가능성이 있습니다.