IBM 기업가치연구소(IBV)의 새로운 연구에 따르면 활기찬 데이터 환경을 구축하는 것은 기업이 성장을 가속화하는 데 도움이 될 수 있습니다. 하지만 조직은 실제로 데이터가 활기차고 성장을 촉진할 준비가 되어 있는지 어떻게 알 수 있을까요?
데이터 품질 지표를 사용하면 도움이 될 수 있습니다.
데이터 품질 지표는 데이터 품질을 평가하기 위한 정량적 측정값입니다. 조직은 데이터 품질 지표를 활용하여 시간 경과에 따른 데이터 품질을 추적 및 모니터링할 수 있으며, 이는 데이터 기반 의사 결정 및 인공 지능(AI) 사용 사례에 적합한 고품질 데이터를 식별하는 데 도움을 줍니다.
지표는 조직마다 다르며 정확성, 적시성, 고유성과 같은 기존 데이터 품질 차원은 물론 파이프라인 지속 시간과 같은 최신 데이터 파이프라인의 특성을 반영할 수 있습니다. 데이터 품질 지표를 통해 데이터 품질의 차원을 수치 값에 매핑할 수 있습니다.
데이터 품질 관리 툴은 자동화 및 머신 러닝 기술을 기반으로 데이터 엔지니어가 데이터 품질 지표를 평가하고 실시간으로 데이터 품질 문제를 식별하는 데 도움을 줍니다. 이를 통해 조직과 데이터 팀은 데이터 세트 및 데이터 파이프라인의 신뢰성과 안정성을 최적화하기 위해 필요한 조치를 할 수 있습니다.
고품질의 신뢰할 수 있는 데이터를 유지보수하는 것은 많은 현대 조직의 목표이며, 그리고 그 이유는 분명합니다.
좋은 데이터는 가치 있는 비즈니스 인텔리전스, 운영 효율성, 최적화된 워크플로, 규정 준수, 고객 만족, 기업 성장 및 핵심 성과 지표(KPI) 구현에 기여합니다. 고품질 데이터는 효과적인 AI 프로젝트를 위해 필수적입니다. AI 모델은 유용한 아웃풋을 생성하기 위해 신뢰할 수 있는 정확한 데이터로 학습되어야 하기 때문입니다.
그러나 이러한 보상을 받으려면 조직은 데이터의 품질이 정말로 높은지 확인해야 합니다. 바로 이 부분에서 데이터 품질 지표가 중요한 역할을 합니다. 데이터 품질 지표는 데이터 품질 차원을 수치 값(예: 점수)에 매핑하여 데이터 품질을 평가하는 데 도움이 될 수 있습니다.1
조직은 데이터 품질 평가를 통해 비즈니스 의사 결정 및 AI 모델 학습을 위한 데이터의 유용성을 판단할 수 있습니다. 데이터 품질 측정을 통해 식별된 저품질 데이터는 데이터 수정 조치 노력을 통해 개선되는 경우가 많습니다.
데이터 품질 지표를 통해 추적되는 여섯 가지 기존 차원은 다음과 같습니다.
데이터 품질의 일반적인 차원은 간단한 비율을 통해 측정할 수 있습니다. 예를 들어 선호하는 결과 수(정확한 데이터 포인트 수, 유효한 데이터 입력 수 등)를 전체 결과 수로 나눈 비율입니다.2
예를 들어 데이터 완전성을 계산하는 기본적인 방법은 다음과 같습니다.
완전성 = (전체 데이터 요소 수)/(총 데이터 요소 수)
또한 나쁜 데이터에 초점을 맞춘 역 지표를 사용하는 것도 하나의 옵션입니다.
완전성 = 1 – [(누락된 데이터 요소)/(총 데이터 요소 수)]
다른 차원 측정 방법은 더 복잡한 계산이 필요합니다.
예를 들어 데이터 적시성을 계산하는 공식은 데이터의 나이, 전달 시간(데이터 전달 시점), 입력 시간(데이터 수신 시점), 변동성(데이터의 유효 시간)과 같은 변수를 사용할 수 있습니다.
기존 데이터 품질 차원을 나타내는 데이터 지표 외에도 다른 주요 지표는 조직이 데이터 파이프라인을 원활하게 운영하는 데 도움이 될 수 있습니다. 예를 들면 다음과 같습니다.
데이터 품질 지표는 데이터 거버넌스, 데이터 관측성 및 데이터 품질 관리와 같은 주요 데이터 프로세스를 지원합니다.
데이터 관측성은 조직 내 다양한 프로세스, 시스템 및 파이프라인에서 데이터의 품질, 가용성 및 안정성을 보장하기 위해 데이터를 모니터링하고 관리하는 관행을 말합니다. 데이터 관측성을 통해 추적하는 데이터 품질 지표에는 데이터 최신성, null 개수 및 스키마 변경 사항이 포함됩니다.
데이터 품질 관리(DQM)는 조직 데이터의 품질을 향상하고 유지보수하기 위한 관행의 모음입니다. 핵심 DQM 관행은 데이터 프로파일링입니다. 데이터 프로파일링에는 기존 데이터의 구조와 내용을 검토하여 품질을 평가하고 수정 조치를 측정할 기준선을 설정하는 작업이 포함됩니다. 데이터 품질은 데이터 품질 차원과 지표에 따라 평가됩니다.
프로파일링을 통해 드러난 불량한 데이터 품질은 또 다른 DQM 관행인 데이터 정제를 통해 해결할 수 있습니다. 데이터 정제는 데이터 정리라고도 하며, 원시 데이터 세트의 데이터 오류와 불일치를 수정하는 작업입니다. 데이터 정제는 데이터 변환의 필수적인 첫 번째 단계로, 원시 데이터를 분석에 사용할 수 있는 형식으로 변환하는 과정입니다.
소프트웨어 솔루션은 데이터 품질 지표에 대한 성능 추적 등 실시간 데이터 품질 모니터링을 제공할 수 있습니다. 주요 솔루션에는 다음과 같은 기능이 포함될 수 있습니다.
조직의 파이프라인과 데이터 자산을 집계하여 표시하면 데이터 스택 전반에서 데이터 인시던트를 관리할 수 있습니다.
데이터 품질 검사 및 누락된 데이터 전달, 스키마 변경 및 이상 징후와 관련된 서비스 수준 계약(SLA) 규칙 위반을 모니터링합니다.
Slack, PagerDuty 및 이메일과 같은 툴 및 플랫폼을 통해 데이터 이해관계자에게 전달되는 맞춤형 자동 알림입니다.
매일 작성되고 읽는 행과 작업에 대한 그래프는 기업이 중요한 트렌드와 문제가 있는 패턴을 식별하는 데 도움이 될 수 있습니다.
엔드투엔드 데이터 리니지는 데이터 품질 문제의 영향을 받는 종속 데이터 세트 및 파이프라인을 보여줍니다.
IBM은 정확성, 완전성, 일관성과 같은 핵심 요소를 최적화하는 데이터 품질 솔루션을 제공합니다.
IBM Databand는 실시간 데이터 품질 모니터링을 통해 데이터 품질 문제를 탐지하고 더 우수한 품질의 데이터를 보장합니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.
1, 2 'A Survey of Data Quality Measurement and Monitoring Tools', Frontiers in Big Data. 2023년 3월 30일.