데이터 품질 관리란 무엇인가요?

한 여성이 그래프를 표시하는 대형 컴퓨터 모니터로 둘러싸인 카운터에 앉아 있습니다.

작성자

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

데이터 품질 관리란 무엇인가요?

데이터 품질 관리(DQM)는 조직 데이터의 품질을 향상하고 유지보수하기 위한 관행의 모음입니다.

 

전 세계 데이터 생산이 놀라운 속도로 계속되고 있는 가운데, 효과적인 데이터 품질 관리를 통해 기업은 비즈니스 프로세스에서 비용이 많이 드는 오류와 비효율성으로 이어질 수 있는 저품질 데이터를 방지할 수 있습니다. 신뢰할 수 있고 안정적인 데이터를 손쉽게 활용하면 기업은 가치 있는 인사이트를 얻고 더 나은 의사 결정을 내리며 인공 지능(AI)을 비즈니스 운영에 통합할 수 있습니다.

데이터 품질 관리에는 데이터 프로파일링, 데이터 정제, 데이터 유효성 검사, 데이터 품질 모니터링 및 메타데이터 관리와 같은 관행이 포함됩니다. 성공적인 데이터 품질 관리는 정확성, 완전성, 일관성, 적시성, 고유성 및 유효성과 같은 주요 품질 차원에 최적화된 데이터 세트를 생성합니다.

소프트웨어 솔루션은 조직과 데이터 전문가가 데이터 품질 문제를 해결하고 고품질 데이터 파이프라인을 만드는 데 도움이 될 수 있습니다. 이러한 툴은 데이터 품질 분석, 자동화된 이상 징후 탐지, 실시간 인시던트 경고 등 다양한 기능을 제공합니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

데이터 품질 관리가 중요한 이유는 무엇인가요?

데이터 품질 관리의 중요성을 이해하려면 이를 소홀히 할 경우 발생할 수 있는 문제를 생각해 보면 됩니다. 기업에서 데이터 기반 기능을 우선시함에 따라 데이터 품질이 좋지 않으면 오류, 지연, 재정적 손실, 평판 손상 등 심각한 결과가 초래될 수 있습니다. 이러한 위험은 '빅데이터' 시대에 조직이 방대하고 복잡한 데이터 세트를 처리하는 과정에서 더욱 커집니다.

다음과 같은 '나쁜 데이터' 시나리오를 상상해 보세요.

  • 소매업체의 고객 데이터 테이블은 부정확한 정보로 가득 차 있어 잘못된 방향의 마케팅 전략과 효과 없는 마케팅 활동으로 이어지고 있습니다.

  • 임상 연구에는 일관되지 않은 형식이 포함되어 있어 데이터 요소를 비교하기 어렵고 질병 진행 및 의료에 대한 연구를 방해합니다.

  • 규제가 엄격한 산업에 속한 기업은 GDPR 또는 사베인스-옥슬리(SOX)법과 같은 정부 법률 및 규정에 위배되는 데이터 품질 문제로 어려움을 겪고 있습니다.

반면 고품질 데이터비즈니스 인텔리전스 이니셔티브에 기여하여 효율적인 운영, 최적화된 워크플로, 규정 준수, 고객 만족 및 기업 성장을 실현합니다.

인공 지능이 널리 도입됨에 따라 고품질 데이터로 얻을 수 있는 이점은 더욱 커졌습니다. 알고리즘은 효과적인 모델 성능을 위해 고품질 데이터가 필요합니다. 좋은 데이터 품질은 더 정확하고 유용한 AI 모델 아웃풋을 가능하게 합니다.

실제로 IBM 기업가치연구소(IBV)의 연구에 따르면 내부 및 외부 이해관계자가 신뢰하는 대규모 데이터 저장소를 보유한 기업은 AI 기능에 대한 투자 수익률이 거의 두 배에 달했습니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

데이터 품질의 여섯 가지 차원은 무엇인가요?

성공적인 데이터 품질 관리는 조직의 데이터가 다음 여섯 가지 주요 데이터 품질 차원을 충족하도록 보장합니다:

  • 정확도
  • 완전성
  • 일관성
  • 적시성
  • 고유성
  • 유효성
데이터 정확성

정확한 데이터, 즉 실제 이벤트와 가치를 올바르게 나타내는 데이터를 보장하려면 데이터 세트에서 오류나 잘못된 표현을 식별하고 수정해야 합니다.

데이터 완전성

데이터 완전성은 데이터 세트가 필요한 모든 기록을 포함하고 간격이나 Missing Values가 없을 때 달성됩니다.

데이터 일관성

일관된 데이터는 조직 전체에서 일관성 있고 표준화되어 다양한 데이터 세트의 데이터 기록이 서로 호환되도록 합니다.

데이터 적시성

데이터 적시성은 데이터 값이 얼마나 최신 상태인지를 측정한 척도로, 조직이 오래된 정보에 기반한 결정을 내리는 것을 방지합니다.

데이터 고유성

데이터 고유성은 분석을 왜곡할 수 있는 중복 데이터나 중복 기록이 없음을 의미합니다.

데이터 유효성

데이터 유효성은 데이터가 특정 데이터 값에 대해 허용 범위 내에 있는지, 지정된 데이터 형식 표준을 충족하는지 등 Business Rules을 준수하는지를 반영합니다.

이러한 요소는 데이터 전문가가 가장 자주 사용하는 데이터 품질 차원 중 일부입니다. 그러나 데이터 품질 지표에는 접근성, 관련성, 간결한 표현, 적절한 데이터양 또는 볼륨 등이 포함됩니다.1

데이터 품질 관리에는 어떤 관행이 포함되나요?

데이터 스튜어드와 기타 데이터 전문가 사이에서 일반적으로 적용되는 보완적인 데이터 품질 관리 관행은 다음과 같습니다.

  • 데이터 프로파일링
  • 데이터 정제
  • 데이터 유효성 검사
  • 데이터 품질 모니터링
  • 메타데이터 관리

데이터 프로파일링

데이터를 개선하기 전에 개선이 필요한 부분을 결정하는 것이 중요합니다. 데이터 프로파일링은 기존 데이터의 구조와 내용을 검토하여 품질을 평가하고 수정 조치를 측정할 기준선을 설정하는 프로세스입니다.

데이터 프로파일링 중에 수행한 분석을 통해 데이터 유형에 대한 정보를 제공하고 이상 징후를 발견하며, 유효하지 않거나 불완전한 데이터 값을 식별하고 데이터 세트 간의 관계를 평가할 수 있습니다.

데이터 정제

데이터 정제는 데이터 정리라고도 하며, 원시 데이터 세트의 오류와 불일치를 수정하는 작업입니다. 깨끗한 데이터를 얻기 위한 방법에는 표준화(형식과 구조를 일관되게 만들기), 이상치 조정 또는 제거, 데이터 중복 제거 및 Missing Values 처리가 포함됩니다.

데이터 유효성 검사

데이터 유효성 검사는 때때로 데이터 정제 방식의 일부로 간주하는데, 데이터가 깨끗하고 정확하며 특정 데이터 품질 규칙과 요구 사항(예: 범위 또는 참조 무결성 제약 조건)을 충족하여 사용할 준비가 되었는지 확인하는 과정입니다.

데이터 품질 모니터링

데이터 품질 보장은 지속적인 프로세스입니다. 스키마 변경, 데이터 노후화 및 중복 기록은 모두 시간이 지남에 따라 데이터 무결성을 손상할 수 있습니다. 지속적인 데이터 모니터링은 조직의 데이터 품질 기준 및 핵심 성과 지표(KPI)를 더 이상 충족하지 않는 기존 데이터 자산을 식별합니다.

메타데이터 관리

메타데이터 관리는 보안 및 거버넌스와 같은 여러 기능을 지원하지만 종종 DQM의 범위에 포함되기도 합니다.메타데이터 보강과 같은 메타데이터 관리 기술을 사용하면 메타데이터에 데이터 규칙, 데이터 정의 및 데이터 리니지에 대한 정보가 포함되도록 할 수 있습니다. 이를 통해 데이터 품질 이니셔티브 등 데이터 관리 노력을 알리고 간소화할 수 있습니다.

데이터 품질 관리와 기타 데이터 프로세스 비교

데이터 품질 관리, 데이터 관리, 마스터 데이터 관리 및 데이터 거버넌스는 조직의 데이터 자산의 가치를 극대화하기 위해 서로 구별되지만 관련이 있는 프로세스입니다.

데이터 관리

데이터 관리는 데이터의 전체 라이프사이클 동안 데이터의 감독 및 관리를 포함합니다. 데이터 관리 전략은 조직이 다양한 데이터 소스의 사용을 관리하고 데이터 재해 복구 계획을 수립하는 데 도움이 됩니다. 데이터 품질 관리는 데이터 관리의 분야 또는 하위 집합으로 간주할 수 있습니다.

Master Data Management

마스터 데이터 관리는 조직 전체에서 중요 데이터(마스터 데이터)를 처리하기 위한 일관성을 설정하는 포괄적인 접근 방식입니다.

마스터 데이터 관리를 통해 조직 내 다양한 애플리케이션과 시스템에서 중요 데이터를 공유하고 사용하여 데이터 단편화, 데이터 사일로화, 중복 및 부정확성을 줄일 수 있습니다. 이는 데이터 정제와 같은 데이터 품질 관리에 통합된 프로세스와 기술 툴의 모음을 통해 이루어집니다.

데이터 거버넌스

데이터 거버넌스는 데이터 수집, 데이터 스토리지, 소유권, 처리 및 사용에 대한 정책, 표준 및 절차를 정의하고 구현합니다. 데이터 품질 관리와 마찬가지로 데이터 거버넌스도 데이터 관리 분야로 간주할 수 있습니다. 동시에 일관된 데이터 처리에 대한 거버넌스 정책과 같은 데이터 거버넌스 프레임워크를 통해 확립된 절차는 DQM 이니셔티브를 지원할 수 있습니다.

데이터 품질 관리 툴

데이터 품질 관리 툴 및 소프트웨어 솔루션은 수동 DQM 작업을 크게 줄일 수 있습니다. AI의 확산은 데이터 품질 관리의 필요성을 촉진하는 주요 요인 중 하나이지만, AI는 더 강력한 DQM 솔루션을 가능하게 합니다. 예를 들어 자동화된 데이터 이상 탐지를 위해 머신 러닝을 배포할 수 있습니다.

데이터 품질 관리 솔루션이 제공하는 기타 능력은 다음과 같습니다.

  • 사전 정의된 데이터 품질 검사 및 사용자 지정 가능한 규칙

  • 데이터 품질 분석 기능이 내장된 데이터 카탈로그

  • 데이터 인시던트 관리용 종합 대시보드

  • 이상 징후 및 기타 데이터 문제에 대한 실시간 경고

  • 인시던트 해결을 위한 근본 원인 분석

  • 데이터 변환의 투명성을 위한 메타데이터 리니지 추적
각주