데이터 품질은 기본적으로 데이터 무결성을 측정하는 척도입니다. 데이터 세트의 정확성, 완전성, 일관성, 유효성, 고유성 및 적시성은 조직이 특정 비즈니스 사용 사례에 대한 데이터의 유용성과 효율성을 결정하기 위해 사용하는 데이터 품질 측정입니다.

데이터 품질을 결정하는 방법

데이터 품질 분석가는 위에 나열된 차원을 사용하여 데이터 세트를 평가하고 전체 점수를 할당합니다. 데이터가 모든 차원에서 높은 순위를 차지하면 의도한 사용 사례 또는 애플리케이션에 대해 신뢰할 수 있고 신뢰할 수 있는 고품질 데이터로 간주됩니다. 데이터 품질을 측정하고 유지하기 위해 조직은 데이터 유효성 검사 규칙이라고도 하는 데이터 품질 규칙을 사용하여 데이터 세트가 조직에서 정의한 기준을 충족하는지 확인합니다.

우수한 데이터 품질의 이점

효율성 향상

비즈니스 사용자와 데이터 과학자는 서로 다른 시스템에서 데이터를 찾거나 형식을 지정하는 데 시간을 낭비할 필요가 없습니다. 대신 더 큰 확신을 가지고 데이터 세트에 쉽게 액세스하고 분석할 수 있습니다. 불완전하거나 부정확한 데이터에 대한 조치를 취하는 데 낭비되었을 추가 시간이 절약됩니다.

데이터 가치 향상

데이터가 사용자 또는 애플리케이션에 맞게 일관되게 형식이 지정되고 상황에 맞게 조정되므로 조직은 다른 방법으로는 폐기되거나 무시될 수 있는 데이터에서 가치를 창출할 수 있습니다.

협업 개선 및 의사 결정 개선

고품질 데이터는 시스템과 부서 간의 불일치를 제거하고 프로세스와 절차 전반에 걸쳐 일관된 데이터를 보장합니다. 이해관계자 간의 협업과 의사 결정은 모두 동일한 데이터에 의존하기 때문에 개선됩니다.

비용 절감 및 규정 준수 개선

고품질 데이터를 쉽게 찾고 액세스할 수 있습니다. 데이터 세트를 다시 생성하거나 추적할 필요가 없기 때문에 노동 비용이 줄어들고 수동 데이터 입력 오류가 발생할 가능성이 줄어듭니다. 또한 고품질 데이터를 올바른 환경에 쉽게 저장할 수 있을 뿐만 아니라 필수 보고서로 수집 및 컴파일할 수 있기 때문에 조직은 규정 준수를 더 잘 보장하고 규제 위반에 따른 벌금을 피할 수 있습니다.

직원 및 고객 경험 개선

높은 품질의 데이터는 조직이 직원과 고객에게 보다 개인화되고 영향력 있는 경험을 제공하는 데 사용할 수 있는 보다 정확하고 심층적인 통찰력을 제공합니다.

데이터 품질의 6가지 차원

데이터 품질을 결정하고 전체 점수를 할당하기 위해 분석가는 다음과 같은 6가지 차원(데이터 특성이라고도 함)을 사용하여 데이터 세트를 평가합니다.

정확성: 데이터가 정확하고 실제 지식을 반영하는가? 완전성: 데이터가 사용 가능한 모든 관련 정보로 구성되어 있는가? 누락된 데이터 요소나 빈 필드가 있는가? 일관성: 해당 데이터 값이 위치와 환경 전반에서 일치하는가? 유효성: 데이터가 의도한 용도에 맞는 올바른 형식으로 수집되고 있는가? 고유성: 데이터가 다른 데이터와 중복되거나 겹치는가? 적시성: 데이터가 최신 상태이며 필요할 때 쉽게 사용할 수 있는가?

이러한 각 차원에서 데이터 세트 점수가 높을수록 전체 점수가 높아집니다. 데이터 세트의 전체 점수가 높다는 것은 데이터 세트가 신뢰할 수 있고 쉽게 액세스할 수 있으며 관련성이 있음을 나타냅니다.

데이터 품질을 개선하는 방법

조직이 데이터 품질을 개선하기 위해 사용하는 몇 가지 일반적인 방법과 이니셔티브는 다음과 같습니다.

데이터 프로파일링

데이터 품질 평가라고도 하는 데이터 프로파일링은 조직의 데이터를 현재 상태로 감사하는 프로세스입니다. 이는 오류, 부정확성, 격차, 일관되지 않은 데이터, 중복 및 접근성 장벽을 발견하기 위해 수행됩니다. 다양한 데이터 품질 도구를 사용하여 데이터 세트를 프로파일링하고 수정이 필요한 데이터 이상 징후를 감지할 수 있습니다.

데이터 정제

데이터 정리는 데이터 프로파일링 중에 발견된 데이터 품질 문제와 불일치를 해결하는 프로세스입니다. 여기에는 여러 데이터 항목이 의도치 않게 여러 위치에 존재하지 않도록 데이터 세트의 중복 제거가 포함됩니다.

데이터 표준화

이는 서로 다른 데이터 자산과 구조화되지 않은 빅 데이터를 일관된 형식으로 준수하여 데이터 소스에 관계없이 데이터가 완전하고 사용할 수 있도록 하는 프로세스입니다. 데이터를 표준화하기 위해 데이터 세트가 조직의 표준 및 요구 사항을 준수하도록 비즈니스 규칙이 적용됩니다.

지오코딩

지오코딩은 조직의 데이터 세트에 위치 메타데이터를 추가하는 프로세스입니다. 데이터에 지리적 좌표로 태그를 지정하여 데이터의 출처, 위치 및 상주를 추적함으로써 조직은 국가 및 글로벌 지리 데이터 표준이 충족되고 있는지 확인할 수 있습니다. 예를 들어 지리적 메타데이터는 조직이 고객 데이터 관리를 GDPR을 준수하도록 하는 데 도움이 될 수 있습니다.

매칭 또는 연결

중복 또는 중복 데이터를 식별, 병합 및 해결하는 방법입니다.

데이터 품질 모니터링

우수한 데이터 품질을 유지하려면 지속적인 데이터 품질 관리가 필요합니다. 데이터 품질 모니터링은 이전에 점수가 매겨진 데이터 세트를 다시 검토하고 데이터 품질의 6가지 차원을 기반으로 데이터 세트를 재평가하는 관행입니다. 많은 데이터 분석가는 데이터 품질 대시보드를 사용하여 데이터 품질 KPI를 시각화하고 추적합니다.

배치 및 실시간 검증

이는 모든 데이터 세트가 특정 표준을 준수하는지 확인하기 위해 모든 애플리케이션과 데이터 유형에 대규모로 데이터 유효성 검사 규칙을 배포하는 것입니다. 이는 배치 프로세스로 주기적으로 수행하거나 변경 데이터 캡처와 같은 프로세스를 통해 실시간으로 지속적으로 수행할 수 있습니다.

Master Data Management

마스터 데이터 관리(MDM)는 모든 데이터가 카탈로그화되고 추적되는 조직 전체의 중앙 집중식 데이터 레지스트리를 생성하고 유지 관리하는 행위입니다. 이를 통해 조직은 데이터의 위치나 유형에 관계없이 단일 위치에서 데이터 세트를 빠르게 보고 평가할 수 있습니다. 예를 들어 고객 데이터, 공급망 정보 및 마케팅 데이터는 모두 MDM 환경에 상주합니다.