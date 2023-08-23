대규모 언어 모델은 독점적인 데이터를 기반으로 훈련되어 특정 기업 사용 사례를 충족할 수 있습니다. 예를 들어, 회사는 ChatGPT를 사용하여 회사의 CRM 판매 데이터를 기반으로 학습된 비공개 모델을 만들 수 있습니다. 이 모델을 Slack 챗봇으로 배포하여 영업팀이 '제품 X가 지난 1년 동안 얼마나 많은 기회를 획득했어?'와 같은 질문에 대한 답을 찾도록 지원할 수 있습니다. 또는 'Y사와의 제품 Z의 기회에 대해 알려줘'라고 질문할 수도 있습니다.

이러한 LLM이 다양한 고객 서비스, HR 또는 마케팅 사용 사례에 맞게 조정되는 것을 쉽게 상상해 볼 수 있습니다. 법률 및 의료 자문을 강화하여 LLM을 의료 서비스 제공자가 사용하는 일차 진단 도구로 전환할 수도 있습니다. 문제는 이러한 사용 사례에서는 LLM에 민감한 독점 데이터 교육이 필요하다는 것입니다. 이는 본질적으로 위험합니다. 관련 위험은 다음과 같습니다.

1. 개인정보 보호 및 재식별 위험

AI 모델은 훈련 데이터로부터 학습하지만, 해당 데이터가 개인정보이거나 민감한 정보라면 어떻게 해야 할까요? 상당한 양의 데이터가 직접 또는 간접적으로 특정 개인을 식별하는 데 사용될 수 있습니다. 따라서 기업 고객에 대한 독점 데이터를 사용하여 LLM을 훈련하는 경우 해당 모델을 사용하는 과정에서 민감한 정보가 유출될 수 있는 상황이 발생할 수 있습니다.

2. 모델 내 학습 데이터

많은 간단한 AI 모델에는 먼저 학습 단계가 있고, 그 다음에 학습이 일시 중지되는 배포 단계가 있습니다. 하지만 LLM은 조금 다릅니다. LLM은 대화 맥락을 파악하고 이를 통해 학습한 다음 그에 따라 응답합니다.

이로 인해 모델 인풋 데이터를 관리하는 작업이 훨씬 더 복잡해졌습니다. 초기 학습 데이터만 신경 쓰면 되는 것이 아니게 되었습니다. 또한 모델을 쿼리할 때마다 걱정이 됩니다. 대화 중에 모델에게 민감한 정보를 제공하면 어떻게 될까요? 민감도를 파악하고 모델이 다른 상황에서 이를 사용하지 못하도록 할 수 있을까요?

3. 보안 및 액세스 위험

학습 데이터의 민감도에 따라 모델의 민감도가 어느 정도 결정됩니다. 데이터 접근을 제어하고 누가 어떤 데이터에 접근하는지 모니터링하며 상황에 따라 데이터를 동적으로 마스킹하는 메커니즘은 잘 확립되어 있지만, AI 배포 보안은 아직 개발 중입니다. 이 분야에서 솔루션이 등장하고 있지만, 여전히 모델을 사용하는 사람의 역할에 따라 모델 아웃풋의 민감도를 완전히 제어할 수는 없습니다(예: 모델이 특정 아웃풋이 민감할 수 있음을 식별한 다음 LLM을 쿼리하는 사람에 따라 아웃풋을 안정적으로 변경하는 방식). 이로 인해 이러한 모델은 모델 학습과 관련된 모든 유형의 민감한 정보를 쉽게 유출할 수 있습니다.

4. 지적 재산권 위험

드레이크의 모든 노래로 모델을 학습시킨 다음, 모델이 드레이크의 노래 스타일을 흉내내기 시작하면 어떤 일이 일어날까요? 모델이 드레이크의 저작권을 침해하는 것일까요? 모델이 작업을 어떻게든 모방하고 있다는 것을 증명할 수 있나요?

이 문제는 규제 당국이 여전히 파악 중이지만, 예술적 지적 재산으로부터 학습하는 모든 형태의 생성형 AI에서 주요 문제가 될 수 있습니다. 이는 향후 대규모 소송으로 이어질 것으로 예상되며, 학습에 사용되는 모든 데이터의 IP를 충분히 모니터링하여 이러한 문제를 완화해야 할 것입니다.

5. 동의 및 DSAR 위험

최신 데이터 개인정보 보호 규정의 핵심 개념 중 하나는 동의입니다. 고객은 자신의 데이터 사용에 동의해야 하며, 자신의 데이터 삭제를 요청할 수 있어야 합니다. 이는 AI 사용에 있어 독특한 문제를 야기합니다.

AI 모델이 민감한 고객 데이터를 학습하면 해당 모델은 해당 민감한 데이터에 대한 노출 소스가 될 수 있습니다. 고객이 회사의 데이터 사용을 취소(GDPR 요구 사항)했는데 해당 회사가 이미 모델에게 해당 데이터를 학습시킨 경우, 해당 모델은 기본적으로 사용을 중단하고 취소된 데이터에 대한 접근 권한을 허용하지 않고 다시 학습시켜야 합니다.

LLM을 기업 소프트웨어로서 유용하게 만들려면, 기업이 데이터의 안전성을 신뢰하고 LLM이 데이터를 사용하는 과정에 대한 감사 추적을 확보할 수 있도록 학습 데이터를 관리해야 합니다