데이터 인텔리전스(DI)는 핵심 데이터 관리 및 메타데이터 관리 원칙을 인공 지능 및 머신 러닝과 같은 고급 툴과 결합하여 조직이 엔터프라이즈 데이터가 생성되고 사용되는 방식을 이해할 수 있도록 지원합니다. DI 인사이트는 데이터의 비즈니스 가치를 실현하고 데이터 기반 의사 결정을 촉진할 수 있습니다.
다시 말해, 데이터 인텔리전스는 조직이 다음과 같은 데이터에 대한 핵심 질문에 답할 수 있도록 도와줍니다.
조직에는 어떤 데이터가 있나요? 이 데이터가 존재하는 이유는 무엇인가요?
데이터의 출처는 어디이며 어디에 저장되어 있나요?
누가 데이터를 사용하고 있나요? 어떻게 사용하고 있으며, 최상의 결과를 얻으려면 어떻게 사용해야 할까요?
서로 다른 데이터 세트는 서로 어떻게 관련되어 있나요?
데이터 인텔리전스는 상호 연결된 프로세스와 툴을 사용하여 메타데이터 관리, 데이터 디스커버리, 데이터 거버넌스, 품질 보증, 데이터 분석 및 기타 활동을 자동화하고 간소화함으로써 이러한 질문에 답합니다.
IBM Data Differentiator에 따르면 기업 데이터의 68%는 분석되지 않는다고 합니다. 조직이 사용하는 데이터의 양은 방대하기 때문에 품질 관리를 적용하고 거버넌스 정책을 시행하는 데 어려움을 겪을 수 있습니다. 사용자가 항상 자신의 업무에 적합한 데이터를 찾을 수 있는 것은 아니며 데이터가 언제 존재하는지조차 모를 수 있습니다.
데이터 인텔리전스는 데이터 카탈로그, 데이터 리니지 솔루션, 마켓플레이스, 인공 지능(AI) 및 머신 러닝(ML)과 같은 기존 툴을 하나의 포괄적인 프로세스로 통합하여 이 문제를 해결하기 위해 등장했습니다.
이 통합 프로세스를 통해 조직은 데이터에 대한 인사이트와 데이터에서 최대한의 가치를 창출하는 방법을 더 많이 얻을 수 있습니다. 이러한 방식으로 DI는 셀프 서비스 분석을 가능하게 하고 비즈니스 인텔리전스 및 생성형 AI와 같은 주요 이니셔티브를 지원합니다.
데이터 관리는 생성에서 폐기에 이르는 전체 데이터 수명 주기를 감독하는 광범위한 분야입니다. 데이터 관리는 데이터 수집, 저장 및 처리의 실용성과 관련이 있는 반면, 데이터 인텔리전스는 해당 데이터를 이해하는 것과 관련이 있습니다.
데이터 인텔리전스는 조직이 데이터 캡처, 보안, 정리 및 공유에 대해 보다 정보에 입각한 선택을 하는 데 필요한 인사이트를 제공하여 데이터 관리를 보완합니다.
웹 2.0의 등장과 클라우드 컴퓨팅의 등장 이후 조직은 더 많은 데이터 소스(웹 앱, 비즈니스 시스템, 사물인터넷 디바이스)에서 더 많은 데이터(고객 데이터, 운영 데이터, 거래 데이터)를 수집하고 있습니다. 생성형 AI의 탄생은 이 모든 데이터의 가치와 양을 증가시켰을 뿐입니다.
데이터가 어떻게 사용되고 어떻게 변경되는지 추적하고, 안전하게 저장하고, 액세스를 용이하게 하고, 데이터를 깔끔하고 최신 상태로 유지하는 등 데이터를 관리하는 것은 어려울 수 있습니다. 데이터가 제대로 관리되지 않으면 데이터 소비자가 필요한 데이터를 찾기가 어려울 수 있으며 데이터에서 실행 가능 인사이트를 얻는 것은 더욱 어려울 수 있습니다.
조직은 엔드투엔드 데이터 라이프사이클을 매핑하는 데이터 리니지 툴, 사용 정책을 정의하는 거버넌스 툴, 데이터 프로파일링 및 정리 툴 등 데이터를 관리할 수 있는 역량을 오랫동안 갖추고 있었습니다. 그러나 이러한 능력은 종종 단편화되어 여러 제품과 기능에 분산되어 있었습니다.
데이터 인텔리전스 분야의 주요 혁신은 이러한 툴을 고급 AI 및 ML 기술과 함께 단일 플랫폼이나 긴밀하게 통합된 데이터 스택으로 통합하는 것입니다.
IDC에 따르면 현재 데이터 인텔리전스 플랫폼 중 상당수는 데이터 카탈로그 툴에서 발전했습니다. 2020년 이후 공급업체는 데이터 리니지 툴 및 마켓플레이스와 같은 보완 솔루션과 함께 카탈로그를 점점 더 많이 번들로 제공하거나 이러한 기능을 카탈로그에 직접 내장했습니다.1
데이터 인텔리전스는 개발 중인 분야로, 다양한 공급업체와 실무자가 이 분야에 대한 각자의 견해를 제시합니다. 그러나 대부분의 사람들은 데이터 인텔리전스에 다음과 같은 5가지 핵심 기능이 포함된다는 데 동의합니다.
메타데이터는 파일 작성자 또는 크기와 같은 데이터 요소 또는 데이터 세트에 대한 정보입니다. 잘 관리된 메타데이터는 사용자가 복잡한 데이터 시스템을 쉽게 탐색할 수 있도록 도와주기 때문에 메타데이터 관리는 데이터 인텔리전스 이니셔티브의 기본입니다.
메타데이터 관리는 데이터 세트를 구성, 레이블 지정, 필터링 및 정렬하는 데 도움이 되므로 사용자는 사용 가능한 데이터 세트를 전체적으로 파악하고 필요한 정보를 빠르게 검색할 수 있습니다.
능동적인 메타데이터 관리는 데이터 인텔리전스에 특히 중요합니다. 기존의 메타데이터 관리는 대부분 수작업으로 이루어졌지만, 능동적 메타데이터 관리는 AI와 ML을 사용하여 메타데이터 처리를 자동화합니다.
데이터가 변환되고 사용됨에 따라 해당 메타데이터가 변경될 수 있습니다. 능동적인 메타데이터 관리는 이러한 변경 사항을 추적하고, 메타데이터를 자동으로 업데이트하고, 메타데이터를 사용하여 권장 사항 및 경고를 생성합니다. 이러한 방식으로 데이터 디스커버리를 간소화하고 데이터에 대한 신뢰도를 높이며 대규모 데이터 보호 및 거버넌스를 실현할 수 있습니다.
데이터 리니지는 시간 경과에 따른 데이터 흐름을 추적하는 프로세스입니다. 데이터가 어디에서 시작되었는지, 어떻게 변경되었는지, 데이터 파이프라인 내에서 데이터의 최종 목적지를 명확하게 이해할 수 있습니다.
데이터 리니지는 사용자가 라이프사이클 전반에 걸쳐 데이터가 어떻게 변경되는지 이해하여 엔터프라이즈 데이터의 안정성을 높이는 데 도움이 됩니다. 또한 조직이 오류를 감지하고, 종속성을 식별하고, 데이터 세트에 대한 변경 사항이 더 광범위한 기업 운영 및 IT 시스템에 어떤 영향을 미칠 수 있는지 예측하는 데 도움이 됩니다.
데이터 거버넌스는 데이터 수집, 소유권, 저장, 처리 및 사용에 대한 정책, 표준 및 절차를 정의하고 구현하여 데이터 무결성과 데이터 보안을 보장하는 데 도움이 됩니다.
데이터 거버넌스는 관련 규칙과 규정을 준수하고 쉽게 액세스할 수 있는 고품질의 안전한 데이터를 유지하는 데 도움이 됩니다. 데이터 인텔리전스 활동에서 거버넌스 정책은 사용자가 데이터를 사용할 수 있는 방법과 사용해야 하는 방법을 이해하는 데 도움이 됩니다.
예를 들어, 거버넌스 정책은 데이터 과학자가 데이터 개인정보 보호법을 위반하여 민감한 고객 데이터를 AI 모델에 제공하는 것을 방지할 수 있습니다.
데이터 품질 툴과 관행은 데이터 품질의 정확성, 완전성, 유효성, 일관성, 고유성, 적시성 및 목적에 대한 적합성을 보장하는 데 도움이 됩니다. 데이터 품질 향상을 위한 노력은 기업 데이터에서 도출한 결론과 인사이트에 대한 사용자의 신뢰를 구축합니다.
DI 이니셔티브에는 종종 Master Data Management(MDM)도 포함됩니다. 마스터 데이터는 고객, 제품 및 위치와 같은 주요 비즈니스 엔터티에 대한 조직의 핵심 데이터입니다. MDM은 유효성 검사, 병합, 중복 제거 및 보강을 통해 이 데이터가 정제되고 일관성이 있는지 확인합니다.
데이터 통합은 분석, 운영 및 의사 결정 목적으로 쉽게 사용할 수 있도록 여러 소스의 데이터를 결합하고 조화롭게 만드는 프로세스입니다. 통합에는 데이터 형식을 표준화하고, 데이터를 보다 사용 가능한 형식으로 변환하고, 공유 데이터 레이크, 데이터 웨어하우스 또는 데이터 레이크하우스에 서로 다른 소스의 데이터를 통합하는 작업이 포함될 수 있습니다.
데이터 통합은 데이터 접근과 데이터 공유를 간소화하여 데이터 소비자가 필요한 데이터를 더 쉽게 검색하고 서로 협업할 수 있도록 합니다.
일부 공급업체는 다양한 특징과 기능을 단일 솔루션에 결합한 데이터 인텔리전스 플랫폼을 제공합니다. 어떤 업체들은 상호 보완적인 솔루션의 통합 포트폴리오를 제공합니다. 두 경우 모두 대부분의 데이터 인텔리전스 이니셔티브의 기본 기술 툴에는 다음이 포함됩니다.
데이터 카탈로그는 메타데이터를 사용하여 조직의 모든 데이터 자산에 대한 자세하고 검색 가능한 재고를 만듭니다. 이를 통해 데이터 소비자는 모든 분석 또는 비즈니스 목적에 가장 적합한 데이터를 쉽게 검색할 수 있습니다.
최신 데이터 카탈로그의 대부분은 데이터 재고 외에도 다음과 같은 기능을 갖추고 있습니다.
민감한 정보를 자동으로 삭제하는 것과 같이 데이터 사용 및 데이터 개인 정보 보호 정책을 설정하고 시행하는 기능을 포함한 데이터 거버넌스 메커니즘.
AI와 ML을 사용하여 메타데이터를 자동으로 생성하고 데이터 변경에 따라 레코드를 업데이트하는 능동적인 메타데이터 관리.
조직이 조직 전체의 주요 용어, 개념 및 핵심 엔터티에 대한 표준 정의 및 프레임워크를 만들 수 있는 비즈니스 용어집.
데이터 프로파일링, 정리, 검증 및 품질 메트릭과 같은 데이터 품질 관리.
데이터 리니지 툴은 데이터 흐름, 변환 및 종속성을 자동으로 매핑하여 데이터 라이프사이클에 대한 주요 인사이트를 제공합니다. 데이터 리니지 솔루션을 통해 조직은 데이터의 출처, 엔터프라이즈 IT 에코시스템에서 데이터가 어떻게 이동하는지, 어떻게 변경되는지, 데이터 소비자가 데이터를 어떻게 사용하는지 확인할 수 있습니다.
데이터 마켓플레이스는 데이터 제품 허브라고도 하며, 사용자가 데이터 제품에 액세스하고 마켓플레이스에서 공유할 수 있는 디지털 플랫폼입니다.
데이터 제품은 사람들이 BI, 분석 및 데이터 과학 활동을 지원하는 데 사용할 수 있는 사전 패키징되고, 사전 처리되고, 쉽게 사용할 수 있는 데이터 또는 데이터 관련 자산 세트입니다. 데이터 제품의 예로는 선별된 데이터 세트, 분석 대시보드, 머신 러닝 모델, 특수 애플리케이션 및 데이터 시각화가 있습니다.
마켓플레이스는 데이터 제품의 생성, 큐레이션, 관리 및 공유를 중앙 집중화하고 간소화합니다. 마켓플레이스는 통합 거버넌스 프레임워크를 통해 데이터 품질과 규정 준수를 보장하는 데 도움이 됩니다. 또한 데이터 제품 제공을 자동화하고 서로 다른 소스의 데이터 제품을 대규모로 공유할 수 있도록 하여 데이터 사일로를 허물 수 있습니다.
AI 및 ML 툴, 새로운 생성형 AI 애플리케이션, 대규모 언어 모델(LLM)은 기존의 데이터 관리를 뛰어넘어 데이터 인텔리전스 관행을 개선하는 데 도움이 됩니다. AI 및 ML은 독립형 솔루션으로 제공되거나 다른 툴에 내장되어 있는지 여부에 관계없이 데이터 및 메타데이터 보강을 자동화하고 데이터 마이닝을 간소화하며 고급 AI 데이터 관리를 지원합니다.
예를 들어, 통합 LLM은 데이터 카탈로그에서 메타데이터를 자동으로 생성하고 업데이트하여 더 많은 이해관계자가 데이터에 더 쉽게 액세스할 수 있도록 보다 사용자 친화적인 설명을 제공할 수 있습니다. LLM을 기반으로 하는 자연어 인터페이스를 통해 사용자는 구조화된 쿼리 언어(SQL)나 기타 특수 언어를 사용하지 않고도 데이터 세트를 쿼리하고 인사이트를 얻을 수 있습니다.
또한 AI 툴은 민감한 데이터를 검색 및 분류하거나 중복 데이터 세트를 식별하는 등 거버넌스 정책 및 품질 관리를 시행하는 데 도움이 될 수 있습니다.
데이터 레이크, 데이터 웨어하우스 및 데이터 레이크하우스는 다양한 특징과 기능을 갖춘 데이터 관리 및 스토리지 솔루션입니다.
데이터웨어하우스는 데이터를 집계, 정리하고 준비하여 비즈니스 인텔리전스 및 데이터 분석에 사용할 수 있도록 합니다.
데이터 레이크는 저렴한 비용으로 많은 양의 원시 데이터를 저장합니다.
데이터 레이크하우스는 레이크의 유연한 데이터 스토리지와 웨어하우스의 고성능 분석 기능을 하나의 솔루션으로 결합합니다.
웨어하우스, 레이크, 레이크하우스는 조직이 서로 다른 소스의 데이터를 중앙 집중식 저장소에 통합할 수 있도록 하여 데이터 통합 노력을 지원합니다. 또한 이를 통해 분석, BI, AI, ML 및 데이터 과학 애플리케이션을 위해 해당 데이터에 더 쉽게 액세스하고 사용할 수 있습니다.
데이터 인텔리전스는 조직에 다음과 같은 이점을 제공합니다.
포괄적인 데이터 카탈로그, 데이터 리니지 툴 및 활성 메타데이터 관리를 통해 데이터를 이해합니다.
검색 가능한 데이터 카탈로그, 통합된 데이터 저장소, 중앙 집중화된 데이터 제품 허브를 통해 데이터 액세스를 용이하게 합니다.
자동으로 업데이트되는 메타데이터, 데이터 프로파일링 및 정리를 통해 데이터 품질을 보장합니다.
정의된 거버넌스 정책과 특정 용도에 맞게 선별된 자산을 호스팅하는 데이터 제품 허브를 통해 데이터 사용을 안내합니다.
결과적으로 조직은 다음과 같은 이점을 얻을 수 있습니다.
데이터 인텔리전스는 사용자가 엔터프라이즈 데이터를 이해하고 사용하는 데 필요한 인사이트를 제공함으로써 데이터 리터러시를 촉진하고 셀프 서비스 분석을 가능하게 합니다. 모든 수준과 역할의 이해관계자가 데이터를 사용하여 더 많은 정보에 입각한 의사 결정을 내릴 수 있습니다.
IBM Data Differentiator 보고서에 따르면, 기업의 82%가 주요 워크플로에 방해가 되는 데이터 사일로를 경험하고 있습니다.데이터 인텔리전스는 중앙 집중식 통합 데이터 카탈로그 및 마켓플레이스를 통해 이러한 사일로를 근절하고 데이터 인프라의 복잡성을 줄이는 데 도움이 됩니다.
조직 전체의 사용자가 자신의 목적에 적합한 데이터를 찾아 운영 효율성을 간소화하고 협업을 강화할 수 있습니다.
Gartner에 따르면 조직은 열악한 데이터 품질로 인해 평균 1,290만 달러의 손실을 입습니다.2 데이터 리니지, 데이터 프로파일링 및 거버넌스 노력을 통해 데이터 인텔리전스는 높은 수준의 데이터 품질을 유지하여 조직이 데이터에서 더 많은 가치를 얻을 수 있도록 지원합니다.
데이터 인텔리전스는 거버넌스 프레임워크를 데이터 카탈로그 및 데이터 마켓플레이스와 같은 주요 데이터 접근 지점에 통합합니다. 이를 통해 데이터 소비자가 승인된 목적으로만 데이터를 사용하도록 하여 해킹, 도난, 오용 및 규정 위반으로부터 보호할 수 있습니다. 거버넌스는 금융 및 의료와 같이 규제가 엄격한 산업에서 특히 중요합니다.
IBM 기업가치연구소(IBV)에 따르면, 최고 성과를 내는 CEO의 72%가 최첨단 생성형 AI 툴이 조직에 경쟁 우위를 가져다준다는 데 동의했습니다. 또한 고급 생성형 AI에는 쉽게 액세스할 수 있는 방대한 양의 고품질 데이터가 필요합니다.
데이터 인텔리전스는 데이터 품질을 개선하고, 액세스를 용이하게 하며, 데이터가 올바른 목적으로만 사용되도록 거버넌스 정책을 시행하는 데 도움이 되며, 이는 책임감 있는 AI의 핵심적인 부분입니다.
데이터 인텔리전스의 한 가지 특정 사용 사례는 AI 모델 인텔리전스 영역입니다. 모델 인텔리전스는 조직의 포트폴리오에 있는 다양한 AI 및 ML 모델의 라이프사이클을 이해, 관리 및 통제하는 관행입니다.
오늘날 많은 조직에서는 단일 모델에 의존하는 대신 다양한 목적을 위해 다양한 모델을 사용합니다. 데이터 인텔리전스 이니셔티브는 조직이 올바른 이유에 따라 올바른 모델에 적합한 데이터를 선택하는 데 필요한 투명성을 제공합니다.
특히 데이터 인텔리전스는 조직이 거버넌스 및 적합성 측면에서 올바른 데이터를 선택하는 데 도움이 될 수 있습니다(이 데이터가 이 모델에서 사용하도록 승인되었는가?, 데이터가 이 모델에 대해 충분히 정확하고 관련성이 있는가?)
또한 많은 공급업체가 모델 관리 기능을 데이터 인텔리전스 제품에 통합하고 있습니다. 예를 들어, 일부 데이터 카탈로그는 모델 카탈로그 기능을 도입하여 엔터프라이즈 데이터를 인벤토리화하는 것과 동일한 방식으로 조직의 AI 및 ML 모델을 인벤토리화할 수 있도록 합니다.
데이터 인텔리전스는 조직이 보유하고 있는 데이터, 즉 데이터를 정의하는 기능, 데이터에 액세스하는 방법 및 사용하는 방법을 이해하는 방법입니다. 데이터 분석, 데이터 과학 및 비즈니스 인텔리전스는 이러한 데이터를 사용하는 방법입니다.
데이터 분석은 데이터에서 실행 가능한 인사이트를 추출하여 더 나은 의사 결정을 내릴 수 있도록 지원합니다. 데이터 분석은 데이터를 사용하여 미래를 예측하는 예측 분석과 데이터를 사용하여 다음에 무엇을 해야 할지 결정하는 처방적 분석 등 다양한 형태를 취할 수 있습니다.
데이터 과학은 수학, 통계, 프로그래밍, 고급 분석, AI, ML 및 전문 지식을 결합한 특수 분야입니다.
비즈니스 인텔리전스(BI)는 사람들이 비즈니스 운영에 정보를 제공하기 위해 기업 데이터를 수집, 관리 및 분석하는 데 사용하는 툴과 기술을 말합니다.
데이터 인텔리전스는 사용자가 조직의 데이터 세트를 더 잘 이해하고 사용할 수 있도록 지원하여 데이터 분석, 데이터 과학 및 BI를 용이하게 합니다. 사용자가 조직에 어떤 종류의 데이터가 있고 어떤 용도로 사용할 수 있는지 알면 목적에 적합한 데이터 세트에 보다 쉽게 연결할 수 있습니다.
예를 들어, 데이터 과학자는 머신 러닝 알고리즘을 학습하기 위해 고품질의 규정을 준수하는 데이터를 찾을 수 있습니다. BI 사용자는 특정 도메인에 맞게 선별된 데이터 세트를 찾을 수 있습니다.
모든 링크는 ibm.com 외부에 있습니다.
1 IDC MarketScape: 2024년 전 세계 데이터 인텔리전스 플랫폼 소프트웨어 공급업체 평가, IDC, 2024년 11월.
2 데이터 품질: 정확한 인사이트를 위한 모범 사례, Gartner.
IBM, 2024년 Gartner Magic Quadrant 데이터 통합 툴 부문에서 19년 연속 리더 기업으로 선정
정형 및 비정형 데이터 준비를 촉진하고 AI 성과를 가속화하는 데 AI 기반 데이터 인텔리전스 및 데이터 통합이 중요한 이유를 알아보세요.
어디서나 모든 데이터를 사용하여 워크로드 비용 최적화, AI 및 분석 확장을 포함하여 데이터 레이크하우스 전략을 데이터 아키텍처에 통합하는 방법을 알아보세요.
데이터 리더가 데이터 기반 조직을 구축하고 비즈니스 우위를 확보하는 방법을 살펴보세요.
IBM Cloud Pak for Data로 데이터 통합을 현대화해야 하는 5가지 이유를 알아보보세요.
진화하는 ABI 솔루션 환경에 대한 고유한 인사이트를 제공하고 데이터 및 분석 리더를 위한 주요 결과, 가정 및 권장 사항을 강조합니다.
지능형 카탈로그 작업과 정책 관리를 통해 AI와 분석에 사용할 데이터를 활성화하세요. IBM Knowledge Catalog는 데이터 디스커버리, 데이터 품질 관리, 데이터 보호를 자동화하기 위한 데이터 카탈로그를 제공하는 데이터 거버넌스 소프트웨어입니다.
IBM이 어떻게 규정 준수를 지원하는 관리형 데이터 기반을 구축할 수 있는지 알아보세요. 지금 바로 IBM Manta Data Lineage로 데이터 투명성을 구현하여 데이터 이력, 흐름, 결과를 처음부터 끝까지 확인하세요.
IBM Data Product Hub를 통해 데이터 공유를 간소화하고 조직 전반의 데이터 소비자를 위한 데이터 제품 제공을 자동화하는 방법을 알아보세요.