생성형 AI 시대의 데이터 관리 재평가

높은 창문이 있는 사무실의 책상 주위에 앉아 서 있는 네 명의 동료

작성자

Geoff Baird

Associate Partner

Data & Technology Transformation

생성형 AI는 대규모 언어 모델(LLM)을 통한 민감한 데이터 유출과 같은 새로운 데이터 위험을 도입하고 규제 기관 및 정부의 요구 사항을 증가시킴으로써 기술 산업을 변화시켰습니다. 이러한 환경을 성공적으로 탐색하려면 조직이 데이터 관리의 핵심 원칙을 살펴보는 것이 중요합니다. 또한 엔터프라이즈/비공개 데이터로 대규모 언어 모델을 보강하기 위해 올바른 접근 방식을 사용하고 있는지 확인합니다.

특히 생성형 AI 솔루션에서의 데이터 사용과 관련하여 조직이 데이터를 관리하는 방식을 새롭게 시작하는 것이 좋습니다. 예를 들면 다음과 같습니다.

  • 데이터 보호 능력 검증 및 생성: 데이터 플랫폼은 더 높은 수준의 보호 및 모니터링을 위해 준비되어야 합니다. 이를 위해서는 암호화, 익명화 및 토큰화와 같은 기존 능력뿐만 아니라 머신 러닝을 사용하여 데이터를 자동으로 분류(민감도, 분류 정렬)하는 능력도 필요합니다. 데이터 디스커버리 및 카탈로그 툴이 도움이 될 수 있지만, 조직이 자신의 데이터에 대한 이해도에 맞게 분류할 수 있도록 보강해야 합니다. 이를 통해 조직은 새로운 정책을 효과적으로 적용하고 데이터에 대한 개념적 이해와 데이터 솔루션이 구현된 방식에 대한 현실 사이의 격차를 해소할 수 있습니다.
  • 통제, 감사 가능성 및 감독 개선: 기업 데이터의 데이터 접근, 사용 및 타사 참여를 위해서는 기존 솔루션을 활용한 새로운 설계가 필요합니다. 예를 들어, 데이터의 승인된 사용을 보장하는 데 필요한 요구 사항의 일부를 캡처합니다. 그러나 기업에는 완벽한 감사 추적 및 모니터링 시스템이 필요합니다. 이는 데이터가 사용되는 방식, 데이터가 수정되는 시기, 생성형 AI와 비생성형 AI 솔루션 모두에 대한 타사 상호 작용을 통해 데이터가 공유되는지 여부를 추적하기 위한 것입니다. 데이터에 대한 액세스를 제한하여 데이터를 제어하는 것만으로는 더 이상 충분하지 않으며, 분석 및 운영 솔루션 내에서 데이터에 액세스하고 적용되는 사용 사례도 추적해야 합니다. 인프라 및 데이터 거버넌스 팀은 부적절한 액세스 및 사용(쿼리 분석, 데이터 유출 및 네트워크 이동으로 측정)에 대한 자동화된 경고 및 보고 기능을 개발하고 정기적으로 점검하여 선제적으로 규정 준수를 보장해야 합니다.
  • 생성형 AI를 위한 데이터 관리: 기존의 데이터 관리 패턴 및 기술과는 거리가 멀기 때문에 생성형 AI 사용을 위한 언어 모델을 학습하고 확장하기 위한 데이터의 품질, 정확성 및 관련성을 보장하는 새로운 규율이 필요합니다. 벡터 데이터베이스가 생성형 AI 영역에서 보편화됨에 따라 비전통적인 데이터 관리 플랫폼을 고려하여 데이터 거버넌스를 개선해야 합니다. 이는 이러한 새로운 아키텍처 구성 요소에 동일한 거버넌스 관행이 적용되도록 하기 위한 것입니다. 규제 기관에서 모델에 '설명 가능성'을 제공할 것을 요구함에 따라 데이터 리니지의 중요성은 더욱 커지고 있습니다.

Enterprise 데이터는 복잡하고 다양하며 다양한 저장소에 흩어져 있는 경우가 많아 Enterprise AI 솔루션에 통합하기가 어렵습니다. 이러한 복잡성은 규제 준수를 보장하고, 위험을 완화하며, 데이터 통합 및 검색 증강 생성(RAG) 패턴의 기술 격차를 해결해야 할 필요성으로 인해 더욱 복잡해집니다. 더욱이 데이터는 생성형 AI 솔루션의 설계 및 배포에서 나중에 고려되는 경우가 많아 비효율성과 불일치로 이어집니다.

생성형 AI를 위한 엔터프라이즈 데이터의 잠재력 최대한 활용

IBM은 이러한 데이터 문제를 해결하기 위한 접근 방식을 개발했습니다. IBM 생성형 AI 데이터 수집 팩토리는 AI의 '데이터 문제'를 해결하고 생성형 AI를 위한 엔터프라이즈 데이터의 잠재력을 최대한 활용하도록 설계된 관리형 서비스입니다. 관리형 서비스로 배포할 수 있는 사전 정의된 아키텍처 및 코드 청사진은 엔터프라이즈 데이터를 생성형 AI 솔루션에 통합하는 프로세스를 단순화하고 가속화합니다. 우리는 데이터 관리를 염두에 두고 이 문제에 접근하여, 처음부터 데이터 거버넌스, 데이터 위험 및 데이터 규정 준수를 위한 데이터를 준비합니다. 

IBM의 핵심 능력은 다음과 같습니다.

  • 확장 가능한 데이터 수집: 최적화된 청크 및 임베딩 패턴을 사용하여 생성형 AI 사용 사례 및 솔루션 전반에서 데이터 수집 및 RAG를 확장하는 재사용 가능한 서비스입니다.
  • 규제 및 규정 준수: 데이터는 현재 및 미래의 규정을 충족하는 생성형 AI 사용에 맞게 준비되어 기업이 생성형 AI에 중점을 둔 시장 규정의 규정 준수 요구 사항을 충족할 수 있도록 지원합니다.
  • 데이터 개인정보 보호 관리: 긴 형식의 텍스트는 발견되는 즉시 익명화하여 위험을 줄이고 데이터 프라이버시를 보장할 수 있습니다.

이 서비스는 장소에 구애받지 않으므로 어디서나 배포할 수 있으며 클라이언트 환경과 사용 사례에 맞게 사용자 지정할 수 있습니다. 기업은 IBM 생성형 AI 데이터 수집 팩토리를 사용하여 다음과 같은 몇 가지 주요 성과를 달성할 수 있습니다.

  • 데이터 통합에 소요되는 시간 단축: AI의 '데이터 문제'를 해결하는 데 필요한 시간과 노력을 줄이는 관리형 서비스입니다. 예를 들어, 데이터 '청크' 및 '임베딩'에 반복 가능한 프로세스를 사용하여 새로운 생성형 AI 사용 사례마다 개발 노력이 필요하지 않도록 합니다.
  • 규정 준수 데이터 사용: 기업에서 배포한 생성형 AI 애플리케이션에 중점을 둔 데이터 사용 규정 준수를 지원합니다. 예를 들어 RAG 패턴에서 소싱된 데이터가 생성형 AI 솔루션에서 엔터프라이즈 사용에 대해 승인되었는지 확인합니다.
  • 위험 완화: 생성형 AI 솔루션에 사용되는 데이터와 관련된 위험을 줄입니다. 예를 들어, 모델에서 아웃풋을 생성하기 위해 어떤 데이터가 소싱되었는지에 대한 투명한 결과를 제공하면 모델 위험과 정보 출처가 어떻게 제공되었는지 규제 기관에 증명하는 데 소요되는 시간을 줄일 수 있습니다.
  • 일관되고 재현 가능한 결과: LLM 및 생성형 AI 솔루션에서 일관되고 재현 가능한 결과를 제공합니다. 예를 들어, 계보를 포착하고 시간 경과에 따른 출력(즉, 생성된 데이터)을 비교하여 ROUGE 및 BLEU와 같은 표준 지표를 통해 일관성을 보고합니다.

데이터 위험의 복잡성을 탐색하려면 부서 간 전문 지식이 필요합니다. IBM® Consulting의 전직 규제 기관, 업계 리더 및 기술 전문가로 구성된 팀은 컨설팅 서비스 및 솔루션을 통해 이 문제를 해결할 수 있는 독보적인 위치에 있습니다. 

 
다음 단계 안내

탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선하는 데이터 전략을 구축하세요.

데이터 관리 솔루션 살펴보기 watsonx.data 알아보기