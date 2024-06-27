생성형 AI는 대규모 언어 모델(LLM)을 통한 민감한 데이터 유출과 같은 새로운 데이터 위험을 도입하고 규제 기관 및 정부의 요구 사항을 증가시킴으로써 기술 산업을 변화시켰습니다. 이러한 환경을 성공적으로 탐색하려면 조직이 데이터 관리의 핵심 원칙을 살펴보는 것이 중요합니다. 또한 엔터프라이즈/비공개 데이터로 대규모 언어 모델을 보강하기 위해 올바른 접근 방식을 사용하고 있는지 확인합니다.

특히 생성형 AI 솔루션에서의 데이터 사용과 관련하여 조직이 데이터를 관리하는 방식을 새롭게 시작하는 것이 좋습니다. 예를 들면 다음과 같습니다.

데이터 보호 능력 검증 및 생성: 데이터 플랫폼은 더 높은 수준의 보호 및 모니터링을 위해 준비되어야 합니다. 이를 위해서는 암호화, 익명화 및 토큰화와 같은 기존 능력뿐만 아니라 머신 러닝을 사용하여 데이터를 자동으로 분류(민감도, 분류 정렬)하는 능력도 필요합니다. 데이터 디스커버리 및 카탈로그 툴이 도움이 될 수 있지만, 조직이 자신의 데이터에 대한 이해도에 맞게 분류할 수 있도록 보강해야 합니다. 이를 통해 조직은 새로운 정책을 효과적으로 적용하고 데이터에 대한 개념적 이해와 데이터 솔루션이 구현된 방식에 대한 현실 사이의 격차를 해소할 수 있습니다.

통제, 감사 가능성 및 감독 개선: 기업 데이터의 데이터 접근, 사용 및 타사 참여를 위해서는 기존 솔루션을 활용한 새로운 설계가 필요합니다. 예를 들어, 데이터의 승인된 사용을 보장하는 데 필요한 요구 사항의 일부를 캡처합니다. 그러나 기업에는 완벽한 감사 추적 및 모니터링 시스템이 필요합니다. 이는 데이터가 사용되는 방식, 데이터가 수정되는 시기, 생성형 AI와 비생성형 AI 솔루션 모두에 대한 타사 상호 작용을 통해 데이터가 공유되는지 여부를 추적하기 위한 것입니다. 데이터에 대한 액세스를 제한하여 데이터를 제어하는 것만으로는 더 이상 충분하지 않으며, 분석 및 운영 솔루션 내에서 데이터에 액세스하고 적용되는 사용 사례도 추적해야 합니다. 인프라 및 데이터 거버넌스 팀은 부적절한 액세스 및 사용(쿼리 분석, 데이터 유출 및 네트워크 이동으로 측정)에 대한 자동화된 경고 및 보고 기능을 개발하고 정기적으로 점검하여 선제적으로 규정 준수를 보장해야 합니다.

생성형 AI를 위한 데이터 관리: 기존의 데이터 관리 패턴 및 기술과는 거리가 멀기 때문에 생성형 AI 사용을 위한 언어 모델을 학습하고 확장하기 위한 데이터의 품질, 정확성 및 관련성을 보장하는 새로운 규율이 필요합니다. 벡터 데이터베이스가 생성형 AI 영역에서 보편화됨에 따라 비전통적인 데이터 관리 플랫폼을 고려하여 데이터 거버넌스를 개선해야 합니다. 이는 이러한 새로운 아키텍처 구성 요소에 동일한 거버넌스 관행이 적용되도록 하기 위한 것입니다. 규제 기관에서 모델에 '설명 가능성'을 제공할 것을 요구함에 따라 데이터 리니지의 중요성은 더욱 커지고 있습니다.

Enterprise 데이터는 복잡하고 다양하며 다양한 저장소에 흩어져 있는 경우가 많아 Enterprise AI 솔루션에 통합하기가 어렵습니다. 이러한 복잡성은 규제 준수를 보장하고, 위험을 완화하며, 데이터 통합 및 검색 증강 생성(RAG) 패턴의 기술 격차를 해결해야 할 필요성으로 인해 더욱 복잡해집니다. 더욱이 데이터는 생성형 AI 솔루션의 설계 및 배포에서 나중에 고려되는 경우가 많아 비효율성과 불일치로 이어집니다.