기존의 규칙 기반 AI 모델과 첨단 생성형 AI 모델 모두 데이터 관리에 도움이 될 수 있습니다.
현대의 기업은 금융 거래와 제품 재고부터 직원 기록과 고객 선호도에 이르기까지, 모든 것에 관해 방대한 양의 데이터를 보유하고 있습니다. 이 데이터를 활용해 의사 결정을 내리고 비즈니스 이니셔티브를 추진하는 조직은 경쟁업체에 비해 상당한 이점을 얻을 수 있습니다.
하지만 이러한 대규모 데이터 세트를 사람들이 실제로 사용할 수 있을 만큼 정확하고, 신뢰할 수 있고, 접근하기 쉽게 만들 수 있느냐가 관건입니다.
IBM® Data Differentiator 보고서에 따르면, 기업의 82%가 주요 워크플로에 방해가 되는 데이터 사일로를 경험하고 있습니다. 조직 데이터의 최대 68%는 분석에 사용되지조차 않습니다. 이는 기업이 데이터의 이점을 충분히 활용하지 못하고 있다는 사실을 방증합니다.
AI 도구와 ML 도구는 데이터 소스 통합, 데이터 정리, 데이터 검색과 같은 작업을 최적화해 조직이 데이터를 더 잘 활용할 수 있도록 도와줍니다. 따라서 기업은 조금 더 데이터에 기반한 의사 결정을 내릴 수 있습니다.
또한 AI 데이터 관리는 조직이 자체 AI 모델과 머신 러닝 알고리즘을 학습시키고 배포하는 데 필요한 고품질 데이터 파이프라인을 구축하는 데 도움이 됩니다.
이제 데이터 스토리지 솔루션, 데이터 통합 도구, 마스터 데이터 관리 도구, 거버넌스 솔루션 등 다양한 유형의 데이터 관리 도구에 ML 및 AI 기능이 통합되었습니다. 이러한 툴은 기존 AI 알고리즘과 생성형 AI 시스템을 모두 사용할 수 있습니다.
기존 AI 시스템은 사전 정의된 기준에 따라 데이터를 자동으로 분류하는 데이터베이스 관리 시스템과 같은 특정 규칙 기반 작업을 수행합니다.
Microsoft Copilot, Meta의 Llama 및 IBM Granite와 같은 생성형 AI 시스템은 자연어에 응답하고 독창적인 콘텐츠를 만들 수 있습니다. 예를 들어, 대규모 언어 모델(LLM)이 통합된 데이터베이스 관리 시스템은 데이터 요약을 생성하고 SQL 대신 일반 영어로 제공되는 쿼리를 처리할 수 있습니다.
AI와 ML은 데이터 관리 프로세스의 거의 모든 부분에 적용될 수 있지만, 가장 일반적인 사용 사례는 다음과 같습니다.
오늘날 조직은 다양한 소스에서 다양한 형식으로 제공되는 수많은 데이터를 활용해 비즈니스를 운영합니다. 이러한 데이터는 다양한 사용자에 의해 처리되어 퍼블릭 및 프라이빗 클라우드, 온프레미스 스토리지 시스템, 심지어 직원의 개인 엔드포인트에 흩어져 보관됩니다.
이 모든 데이터를 중앙에서 추적하고 관리하기가 어렵기 때문에 두 가지 문제가 발생할 수 있습니다.
첫째, 데이터 세트가 존재한다는 사실을 몰라 조직이 데이터 세트를 사용하지 못합니다.
둘째, 이처럼 발견되지 않고 관리되지 않는 '섀도 데이터'는 보안 위험을 초래합니다. IBM의 데이터 유출 비용(CODB) 보고서에 따르면 침해 사고 중 1/3이 섀도 데이터와 관련되어 있습니다. 이러한 침해로 인한 비용은 평균 527만 달러로, 전체적인 평균 침해 비용보다 16% 더 많습니다.
AI와 ML은 데이터 디스커버리의 여러 측면을 자동화하여 조직이 모든 데이터 자산에 대해 더 많은 가시성을 확보하고 제어할 수 있도록 지원합니다.
데이터 디스커버리에 사용되는 AI의 예시는 다음과 같습니다.
AI 기반의 데이터 디스커버리 도구는 네트워크 장치와 데이터 스토리지 저장소를 자동으로 스캔하여 거의 실시간으로 새로운 데이터를 인덱싱할 수 있습니다.
자동화된 데이터 분류 툴은 사전 정의된 규칙 또는 머신 러닝 모델을 기반으로 새 데이터에 태그를 지정할 수 있습니다. 예를 들어, 이 툴은 XXX-XX-XXXX 형식의 9자리 숫자를 미국 사회보장번호로 분류합니다.
LLM과 이외의 자연어 처리 도구가 다양한 형식의 텍스트 문서로 작성된 이력서에서 구직자의 연락처 정보와 경력 사항을 추출하는 등 비정형 데이터 소스에서 정형 데이터를 추출할 수 있습니다.오
품질이 불량한 데이터는 데이터가 전혀 없는 것보다 더 많은 문제를 일으킬 수 있습니다. 조직의 데이터가 불완전하거나 부정확하면 해당 데이터를 기반으로 구축된 비즈니스 이니셔티브와 AI 모델의 수준도 기대 이하로 떨어집니다.
AI 및 ML 도구는 조직 데이터 내의 오류를 식별하고 수정하는 데 도움을 주므로 시간이 많이 걸리는 수동 데이터 정리 작업을 사용자가 직접 처리하지 않아도 됩니다. 더구나 AI는 인간 사용자보다 더 짧은 시간 안에 더 많은 오류를 찾아낼 수 있습니다.
데이터 정리에 사용되는 AI의 예시는 다음과 같습니다.
AI가 지원되는 데이터 준비 도구가 유효성 검사를 수행해 부적절한 서식, 불규칙한 값 등의 오류를 표시하거나 수정할 수 있습니다. 일부 AI 기반 데이터 준비 도구는 비정형 형식으로 작성된 회의 노트를 정형화된 표로 변환하는 등 데이터를 적절한 형식으로 변환할 수도 있습니다.
합성 데이터 생성기는 누락된 값을 제공하고 데이터 세트 내의 다른 공백을 채울 수 있습니다. 이러한 생성기는 머신 러닝 모델을 사용해 기존 데이터의 패턴을 식별하고 매우 정확한 합성 데이터 포인트를 생성할 수 있습니다.
일부 마스터 데이터 관리(MDM) 도구는 AI와 ML을 사용해 중요한 기록의 오류와 중복을 감지하고 수정할 수 있습니다. 이름, 주소, 연락처 정보가 동일한 두 개의 고객 기록을 병합하는 것이 그 예입니다.
AI 기반의 데이터 관측성 도구는 데이터 리니지 레코드를 자동으로 생성해 조직에서 누가 데이터를 사용하고 시간이 지남에 따라 데이터가 어떻게 변화하는지 추적할 수 있습니다.
AI 기반 데이터 통합 도구는 서로 다른 데이터 세트 간의 관계를 자동으로 감지해 조직이 이를 연결하거나 병합할 수 있도록 지원합니다.
AI 기능을 갖춘 메타데이터 관리 도구는 태그 지정 및 분류를 기반으로 데이터 자산에 대한 설명을 작성해 데이터 카탈로그 생성을 자동화하도록 도와줍니다.
LLM 기반 인터페이스가 포함된 데이터베이스 및 데이터 카탈로그는 자연어 명령을 이해하고 처리할 수 있어 사용자는 사용자 지정 코드나 SQL 쿼리를 작성하지 않고도 데이터 자산과 제품을 찾을 수 있습니다. 일부 LLM 기반 인터페이스는 사용자가 쿼리를 구체화하거나, 데이터 세트를 보강하거나, 관련 데이터 포인트를 제안하도록 도와줍니다.
AI 기반 쿼리 엔진은 머신 러닝 알고리즘을 사용해 워크로드 패턴을 분석하고 쿼리 실행을 최적화함으로써 데이터베이스 성능을 개선할 수 있습니다.
AI 기반의 데이터 유출 방지 도구는 개인 식별 정보(PII)와 기타 민감한 데이터를 자동으로 감지하고, 보안 제어를 적용하며, 해당 데이터가 무단 사용된 경우 플래그를 지정하거나 차단할 수 있습니다.
사용자 및 개체 행동 분석(UEBA), 엔드포인트 탐지 및 대응(EDR)과 같은 이상 징후 기반 위협 탐지 도구는 AI와 ML 알고리즘을 사용해 네트워크 활동을 모니터링합니다. 이러한 도구는 많은 데이터가 갑자기 새로운 위치로 이동하는 것처럼 표준에서 벗어난 의심스러운 편차를 감지합니다.
LLM은 조직이 데이터 거버넌스 정책을 수립하고 구현하는 데 도움을 줄 수 있습니다. 예를 들어,역할 기반 액세스 제어(RBAC) 시스템에서 LLM은 보안팀이 다양한 종류의 역할과 권한을 파악하는 데 도움이 될 수 있습니다. 또한, 이러한 역할 설명을 ID 및 액세스 관리 시스템의 규칙으로 변환할 때도 LLM을 활용할 수 있습니다.
AI 기반 사기 탐지 도구는 AI와 ML을 사용해 패턴을 분석하고 비정상적인 거래를 탐지합니다.
AI는 데이터 디스커버리, 정리 및 카탈로그 작성과 같은 까다로운 작업을 자동화하는 동시에 데이터 검색과 분석을 간소화해 데이터 관리를 혁신하도록 지원할 수 있습니다. 조직은 오류 발생 가능성이 적으면서 데이터 과학, AI 이니셔티브, 데이터 개인정보 보호에 더 적합한 효율적인 데이터 관리 프로세스를 구축할 수 있습니다.
AvePoint의 AI 및 정보 관리 보고서에서 설문조사에 참여한 조직 중 64%는 최소 1페타바이트의 데이터를 관리한다고 답했습니다.1 이는 약 9경 비트의 정보에 해당하는 양입니다. 또한, 이 중 대부분은 텍스트 파일, 이미지, 동영상과 같은 비정형 형식입니다.
이 모든 데이터는 데이터 과학자들에게 도움이 될 수 있지만, 이렇게 방대한 양의 복잡한 데이터를 수동으로 관리하기란 불가능합니다. AI와 ML 도구는 디스커버리, 통합, 정리와 같은 중요한 작업을 자동화해 이러한 데이터를 사용할 수 있도록 도와줍니다.
데이터가 정제되고 접근 가능해지면 조직에서는 과거 데이터를 사용해 미래의 소비자 지출 추세를 예측하는 예측 분석 이니셔티브와 같은 고급 데이터 분석 프로젝트에 이 데이터를 활용할 수 있습니다.
또한, AI 기술을 사용하면 데이터 과학에 대한 배경지식이 없는 사용자도 데이터에 더 쉽게 접근할 수 있습니다. LLM 기반 데이터베이스 인터페이스와 자동화된 시각화 기능을 갖춘 사용자 친화적인 데이터 카탈로그를 통해 비즈니스 전반의 더 많은 사용자가 데이터를 사용해 의사 결정을 내릴 수 있습니다.
IBM 기업가치연구소(IBV)의 설문조사에 참여한 CEO 중 59%는 조직의 미래 경쟁 우위는 최첨단 생성형 AI를 보유 여부에 달려 있다고 생각합니다. 조직이 이러한 AI 모델을 구축하고 배포하려면 정제된 양질의 데이터를 꾸준히 확보해야 합니다.
AI 도구는 데이터 관리를 간소화함으로써 조직이 자체 AI 및 ML 모델을 학습시키는 데 필요한 신뢰할 수 있는 고품질 데이터 파이프라인을 구축할 수 있게 도와줍니다. 또한 이러한 모델은 비즈니스 데이터로 학습할 수 있기 때문에 특정 기업 및 고객과 관련된 작업을 수행하고 문제를 해결하도록 학습시킬 수 있습니다.
AI 기반의 보안 도구와 거버넌스 도구는 복구 비용이 많이 들 수 있는 사이버 공격과 데이터 침해를 방지하는 데 도움이 됩니다. 이러한 도구는 기업이 GDPR, 결제 카드 업계 데이터 보안 표준(PCI-DSS) 등의 데이터 프라이버시 규정과 보호 규정을 준수하면서 보유한 데이터를 사용할 수 있도록 지원합니다.
IBM 기업가치연구소(IBV)에 따르면 CEO의 57%는 데이터 보안이 생성형 AI도입의 장애물이라고 답했습니다. 45%는 데이터 프라이버시도 장애물이라고 답했습니다. 이러한 장애물은 의료 및 금융과 같이 규제가 심한 산업에서 특히 문제가 될 수 있습니다.
AI 지원 데이터 관리는 적절한 보호 및 데이터 사용 정책을 자동으로 적용해 도움을 줄 수 있습니다. 이렇게 하면 권한이 있는 사용자만 데이터에 액세스하고 업계 규정 및 회사 정책에서 허용된 방식으로만 데이터를 사용할 수 있습니다.
또한 합성 데이터 생성기는 조직에서 특정 방식으로 사용할 수 없는 민감한 개인 데이터를 제거하면서 전체 추세를 정확하게 반영하는 데이터 세트를 생성해 도움을 줄 수 있습니다.
탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선하는 데이터 전략을 구축하세요.
watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.
1 AI and Information Management Report 2024, AvePoint, 2024년.