태그

중요한 것은 데이터에 있다: 데이터 품질 지표가 기업의 경쟁 우위 확보에 도움이 되는 방법

제품 매니저가 회의 주재하며 화면의 그래픽으로 데이터를 설명하고 있습니다.

작성자

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

IBM 기업가치연구소(IBV)의 새로운 연구에 따르면 활기찬 데이터 환경을 구축하는 것은 기업이 성장을 가속화하는 데 도움이 될 수 있습니다. 하지만 조직은 실제로 데이터가 활기차고 성장을 촉진할 준비가 되어 있는지 어떻게 알 수 있을까요?

데이터 품질 지표를 사용하면 도움이 될 수 있습니다.

데이터 품질 지표는 데이터 품질을 평가하기 위한 정량적 측정값입니다. 조직은 데이터 품질 지표를 활용하여 시간 경과에 따른 데이터 품질을 추적 및 모니터링할 수 있으며, 이는 데이터 기반 의사 결정 및 인공 지능(AI) 사용 사례에 적합한 고품질 데이터를 식별하는 데 도움을 줍니다.

지표는 조직마다 다르며 정확성, 적시성, 고유성과 같은 기존 데이터 품질 차원은 물론 파이프라인 지속 시간과 같은 최신 데이터 파이프라인의 특성을 반영할 수 있습니다. 데이터 품질 지표를 통해 데이터 품질의 차원을 수치 값에 매핑할 수 있습니다.

데이터 품질 관리 툴은 자동화 및 머신 러닝 기술을 기반으로 데이터 엔지니어가 데이터 품질 지표를 평가하고 실시간으로 데이터 품질 문제를 식별하는 데 도움을 줍니다. 이를 통해 조직과 데이터 팀은 데이터 세트 및 데이터 파이프라인의 신뢰성과 안정성을 최적화하기 위해 필요한 조치를 할 수 있습니다.

데이터 품질 지표가 중요한 이유는 무엇인가요?

고품질의 신뢰할 수 있는 데이터를 유지보수하는 것은 많은 현대 조직의 목표이며, 그리고 그 이유는 분명합니다.

좋은 데이터는 가치 있는 비즈니스 인텔리전스, 운영 효율성, 최적화된 워크플로, 규정 준수, 고객 만족, 기업 성장 및 핵심 성과 지표(KPI) 구현에 기여합니다. 고품질 데이터는 효과적인 AI 프로젝트를 위해 필수적입니다. AI 모델은 유용한 아웃풋을 생성하기 위해 신뢰할 수 있는 정확한 데이터로 학습되어야 하기 때문입니다.

그러나 이러한 보상을 받으려면 조직은 데이터의 품질이 정말로 높은지 확인해야 합니다. 바로 이 부분에서 데이터 품질 지표가 중요한 역할을 합니다. 데이터 품질 지표는 데이터 품질 차원을 수치 값(예: 점수)에 매핑하여 데이터 품질을 평가하는 데 도움이 될 수 있습니다.¹

조직은 데이터 품질 평가를 통해 비즈니스 의사 결정 및 AI 모델 학습을 위한 데이터의 유용성을 판단할 수 있습니다. 데이터 품질 측정을 통해 식별된 저품질 데이터는 데이터 수정 조치 노력을 통해 개선되는 경우가 많습니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

데이터 품질의 주요 차원

데이터 품질 지표를 통해 추적되는 여섯 가지 기존 차원은 다음과 같습니다.

데이터 정확성: 데이터는 실제 이벤트와 가치를 정확하게 나타냅니다.

데이터 완전성: 데이터에 필요한 모든 기록이 포함되어 있으며 Missing Values가 없습니다.

데이터 일관성: 데이터는 조직 전체에서 일관되고 표준화되어 있으며, 서로 다른 데이터 세트에 저장된 데이터 기록이 호환됩니다.

데이터 적시성: 데이터 값이 최신 상태로 유지되어 조직에서 오래된 정보에 기반한 결정을 내리는 것을 방지할 수 있습니다.

데이터 고유성: 데이터는 분석을 왜곡할 수 있는 중복 또는 중복 기록이 없습니다.

데이터 유효성: 데이터는 특정 데이터 값에 대해 허용 범위 내에 있고 지정된 데이터 형식 표준을 충족하는 등 Business Rules을 준수합니다.

데이터 품질의 일반적인 차원은 간단한 비율을 통해 측정할 수 있습니다. 예를 들어 선호하는 결과 수(정확한 데이터 포인트 수, 유효한 데이터 입력 수 등)를 전체 결과 수로 나눈 비율입니다.²

예를 들어 데이터 완전성을 계산하는 기본적인 방법은 다음과 같습니다.

완전성 = (전체 데이터 요소 수)/(총 데이터 요소 수)

또한 나쁜 데이터에 초점을 맞춘 역 지표를 사용하는 것도 하나의 옵션입니다.

완전성 = 1 – [(누락된 데이터 요소)/(총 데이터 요소 수)]

다른 차원 측정 방법은 더 복잡한 계산이 필요합니다.

예를 들어 데이터 적시성을 계산하는 공식은 데이터의 나이, 전달 시간(데이터 전달 시점), 입력 시간(데이터 수신 시점), 변동성(데이터의 유효 시간)과 같은 변수를 사용할 수 있습니다.

추가 데이터 품질 지표

기존 데이터 품질 차원을 나타내는 데이터 지표 외에도 다른 주요 지표는 조직이 데이터 파이프라인을 원활하게 운영하는 데 도움이 될 수 있습니다. 예를 들면 다음과 같습니다.

데이터 최신성: 데이터 최신성은 데이터 적시성과 혼용되기도 하는데, 구체적으로 시스템 내에서 데이터가 업데이트되는 빈도를 나타냅니다. 데이터 노후화는 데이터 업데이트 간에 상당한 간격이 있을 때 발생합니다.

데이터 리니지: 데이터 리니지는 데이터의 이동 경로를 추적하고 관찰하는 프로세스로, 조직이 데이터의 정확성과 일관성을 확인하는 데 도움을 줍니다.

null 개수: 데이터 엔지니어와 분석가는 열 내의 null 개수 또는 null의 비율을 추적할 수 있습니다. null 개수가 증가하면 Missing Values나 데이터 드리프트와 같은 문제가 발생할 수 있습니다.

스키마 변경: 열 데이터 유형 변경이나 새로운 열 등 스키마가 자주 변경되는 경우 신뢰할 수 없는 데이터 소스를 나타낼 수 있습니다.

파이프라인 오류: 파이프라인 오류로 인해 스키마 변경, 데이터 작업 누락, 오래된 데이터 등의 데이터 상태 문제가 발생할 수 있습니다.

파이프라인 지속 시간: 복잡한 데이터 파이프라인은 일반적으로 서로 다른 실행을 완료하는 데 비슷한 시간이 걸립니다. 지속 시간이 크게 변경되면 오래된 데이터가 처리될 수 있습니다.

사용자 환경에 가장 적합한 데이터 품질 지표에 대해 자세히 알아보세요.

주요 데이터 프로세스의 데이터 품질 지표

데이터 품질 지표는 데이터 거버넌스, 데이터 관측성 및 데이터 품질 관리와 같은 주요 데이터 프로세스를 지원합니다.

데이터 거버넌스

데이터 거버넌스는 데이터 수집, 소유권, 저장, 처리 및 사용에 대한 정책, 품질 표준 및 절차를 정의하고 구현하여 데이터 무결성과 데이터 보안을 보장하는 데 도움이 되는 데이터 관리 분야입니다. 데이터 일관성 및 완전성과 같은 데이터 품질 지표는 조직이 거버넌스 관행을 통해 설정된 표준을 충족하기 위한 진행 상황을 평가하는 데 도움이 됩니다.

데이터 관측성

데이터 관측성은 조직 내 다양한 프로세스, 시스템 및 파이프라인에서 데이터의 품질, 가용성 및 안정성을 보장하기 위해 데이터를 모니터링하고 관리하는 관행을 말합니다. 데이터 관측성을 통해 추적하는 데이터 품질 지표에는 데이터 최신성, null 개수 및 스키마 변경 사항이 포함됩니다.

데이터 품질 관리

데이터 품질 관리(DQM)는 조직 데이터의 품질을 향상하고 유지보수하기 위한 관행의 모음입니다. 핵심 DQM 관행은 데이터 프로파일링입니다. 데이터 프로파일링에는 기존 데이터의 구조와 내용을 검토하여 품질을 평가하고 수정 조치를 측정할 기준선을 설정하는 작업이 포함됩니다. 데이터 품질은 데이터 품질 차원과 지표에 따라 평가됩니다.

프로파일링을 통해 드러난 불량한 데이터 품질은 또 다른 DQM 관행인 데이터 정제를 통해 해결할 수 있습니다. 데이터 정제는 데이터 정리라고도 하며, 원시 데이터 세트의 데이터 오류와 불일치를 수정하는 작업입니다. 데이터 정제는 데이터 변환의 필수적인 첫 번째 단계로, 원시 데이터를 분석에 사용할 수 있는 형식으로 변환하는 과정입니다.