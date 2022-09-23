데이터 품질이란 무엇인가요?

IBM의 데이터 품질 솔루션 살펴보기 AI 업데이트 신청
구름의 픽토그램, 파이 차트, 그래프 픽토그램의 콜라주가 있는 그림
데이터 품질이란 무엇인가요?

데이터 품질은 데이터 세트가 정확성, 완전성, 유효성, 일관성, 고유성, 적시성 및 목적 적합성에 대한 기준을 얼마나 잘 충족하는지 측정하며, 조직 내의 모든 데이터 거버넌스 이니셔티브에 매우 중요합니다.

데이터 품질 표준은 기업이 비즈니스 목표를 달성하기 위해 데이터 기반 의사 결정을 내릴 수 있도록 보장합니다. 중복 데이터, 누락값, 이상값과 같은 데이터 문제를 제대로 해결하지 않으면 비즈니스 결과에 부정적인 영향이 발생할 위험이 높아집니다. Gartner 보고서에 따르면 데이터 품질 저하로 인해 조직은 매년 평균 USD 1,290만에 달하는 비용을 지출하고 있습니다1. 그 결과, 데이터 품질 저하와 관련된 부정적인 영향을 완화하기 위한 데이터 품질 도구가 등장했습니다.

데이터 품질이 사용 목적에 맞는 표준을 충족하면 데이터 소비자는 데이터를 신뢰하고 이를 활용하여 의사 결정을 개선함으로써 새로운 비즈니스 전략을 개발하거나 기존 전략을 최적화할 수 있습니다. 그러나 품질이 표준을 충족하지 못하는 경우, 데이터 품질 도구는 기업이 근본적인 데이터 문제를 진단할 수 있도록 지원함으로써 가치를 제공합니다. 팀은 근본 원인 분석을 수행하여 빠르고 효과적으로 데이터 품질 문제를 해결할 수 있습니다.

데이터 품질은 일상적인 비즈니스 운영에서만 우선 순위를 차지하는 것이 아닙니다. 기업이 인공 지능(AI) 및 자동화 기술을 워크플로에 통합함에 따라 이러한 도구를 효과적으로 도입하려면 고품질 데이터가 중요해질 것입니다. 옛말에 '쓰레기가 들어가면 쓰레기가 나올 수밖에 없다.'라는 말이 있습니다. 이는 머신 러닝 알고리즘에서도 마찬가지입니다. 알고리즘이 잘못된 데이터를 사용해 예측 또는 분류를 학습하는 경우 부정확한 결과가 나올 수 있습니다.

 
데이터 품질, 데이터 무결성, 데이터 프로파일링 비교

데이터 품질, 데이터 무결성, 데이터 프로파일링은 모두 서로 연관되어 있습니다. 데이터 품질은 조직이 데이터의 정확성, 완전성, 유효성, 일관성, 고유성, 적시성 및 목적 적합성을 평가하는 데 사용하는 더 넓은 기준의 범주입니다. 데이터 무결성은 이러한 속성 중 일부인 정확성, 일관성, 완전성에만 특히 초점을 맞춥니다. 또한 데이터 보안의 관점에서 여기에 더욱 집중해 악의적인 공격자에 의한 데이터 손상을 방지하기 위한 안전장치를 구현합니다.

반면 데이터 프로파일링은 조직 내에서 데이터 품질 표준을 유지하기 위해 데이터를 검토하고 정리하는 프로세스입니다. 여기에는 이러한 프로세스를 지원하는 기술도 포함될 수 있습니다.

데이터 품질의 차원

데이터 품질은 정보 소스에 따라 달라질 수 있는 여러 차원을 기준으로 평가됩니다. 이러한 차원은 데이터 품질 메트릭을 분류하는 데 사용됩니다.

  • 완전성: 사용 가능하거나 완전한 데이터의 양을 나타냅니다. 누락값의 비율이 높으면 데이터가 일반적인 데이터 표본을 대표하지 않는 경우 편향되거나 오해의 소지가 있는 분석이 발생할 수 있습니다.
  • 고유성: 데이터 세트에서 중복 데이터의 양을 고려합니다. 예를 들어, 고객 데이터를 검토할 때는 각 고객에게 고유한 고객 ID가 있어야 합니다.
  •  유효성: 모든 비즈니스 규칙에 필요한 형식과 일치하는 데이터의 양을 측정합니다. 형식 지정에는 일반적으로 유효한 데이터 유형, 범위, 패턴 등과 같은 메타데이터가 포함됩니다.
  • 적시성: 예상 시간 내의 데이터 준비 상태를 나타냅니다. 예를 들면 고객은 구매 후 즉시 주문 번호를 받을 거라 예상합니다. 그리고 해당 데이터는 실시간으로 생성되어야 합니다.
  • 정확성: 합의된 '신뢰할 수 있는 소스'에 기반을 둔 데이터 값의 정확성을 나타냅니다. 동일한 메트릭을 보고하는 소스가 여러 개 있을 수 있으므로 기본 데이터 소스를 지정하는 것이 중요하며, 다른 데이터 소스는 기본 데이터 소스의 정확성을 확인하는 데 사용할 수 있습니다. 예를 들어, 툴은 각 데이터 소스가 동일한 방향으로 추세를 보이고 있는지 확인하여 데이터 정확도에 대한 신뢰도를 높일 수 있습니다.
  • 일관성: 이 차원은 서로 다른 두 데이터 세트의 데이터 레코드를 평가합니다. 앞서 언급했듯, 하나의 메트릭을 보고하기 위해 여러 소스를 사용할 수 있습니다. 다양한 소스를 사용해 일관된 데이터 추세와 동작을 확인하면 분석에서 얻은 실행 가능한 인사이트를 더 신뢰할 수 있습니다. 이 논리는 데이터 간의 관계에도 적용됩니다. 예를 들어 한 부서의 직원 수가 회사의 전체 직원 수를 초과할 수 없습니다.
  • 목적 적합성: 마지막으로, 목적 적합성은 데이터 자산이 비즈니스 요구 사항을 충족하는지 확인하는 데 도움이 됩니다. 특히 새로 등장하는 데이터 세트의 경우에 이 차원을 평가하기 어려울 수 있습니다.                                                                                                          

이러한 메트릭을 통해 팀은 조직 전체에서 데이터 품질 평가를 수행하여 데이터가 주어진 목적에 얼마나 유익하고 유용한지 평가할 수 있습니다.
데이터 품질이 왜 중요한가요?

지난 10년 동안 하이브리드 클라우드, 인공 지능, 사물인터넷 (IoT), 엣지 컴퓨팅 분야의 발전으로 빅 데이터가 기하급수적으로 증가했습니다. 그로 인해 마스터 데이터 관리(MDM)를 실행하기가 더욱 복잡해졌고 우수한 데이터 품질을 보장하기 위해 더 많은 데이터 관리자와 엄격한 보호 장치가 필요하게 되었습니다.

기업은 비즈니스 인텔리전스 대시보드와 같은 데이터 분석 이니셔티브를 지원하려면 데이터 품질 관리를 사용해야 합니다. 데이터 품질 관리가 없으면 치명적 결과, 심지어 윤리적인 결과까지 겪게 되는 산업 분야(예: 의료)도 있습니다. 데이터 품질 솔루션은 기업이 데이터 사용을 극대화할 수 있도록 지원하기 위해 존재하며, 다음과 같은 주요 이점을 제공합니다.

  • 더 나은 비즈니스 의사 결정: 조직은 고품질 데이터를 통해 핵심 성과 지표(KPI)를 식별하여 다양한 프로그램의 성과를 측정할 수 있으며, 팀은 이를 활용해 프로그램을 보다 효과적으로 개선하거나 성장시킬 수 있습니다. 데이터 품질을 우선시하는 조직이 경쟁업체보다 우위를 점할 것임에는 의심의 여지가 없습니다.
  • 비즈니스 프로세스 개선: 데이터가 우수하면 팀이 운영 워크플로에서 문제가 있는 부분을 식별할 수 있다는 의미이기도 합니다. 특히 배송 후 적절한 재고와 위치를 파악하기 위해 실시간 데이터에 의존하는 공급망 업계의 경우 더욱 그렇습니다.
  • 고객 만족도 향상: 우수한 데이터 품질은 조직, 특히 마케팅 및 영업 팀에 대상 구매자에 대한 깊이 있는 인사이트를 제공합니다. 영업 및 마케팅 퍼널 전반에 걸쳐 다양한 데이터를 통합하여 제품을 더 효과적으로 판매할 수 있습니다. 예를 들어, 조직은 인구통계학적 데이터와 웹 행동의 조합을 통해 기존 또는 잠재 고객에게 서비스를 제공하기 위해 메시지를 작성하거나, 마케팅 예산을 투자하거나, 영업팀에 인력을 배치할 방법을 결정할 수 있습니다.
관련 제품 및 솔루션
AI 컨설팅 서비스

AI로 작업하는 방식을 새롭게 상상해 보세요. 20,000여 명의 다양한 글로벌 AI 전문가로 구성된 IBM 팀은 비즈니스 전반에 걸쳐 AI 및 자동화를 신속하고 자신 있게 설계하고 확장할 수 있도록 지원합니다. 자체 IBM watsonx 기술과 파트너사의 개방형 에코시스템을 통해 모든 클라우드에서 모든 AI 모델을 윤리와 신뢰에 기반하여 제공합니다.

 IBM AI 컨설팅 서비스 살펴보기
AI 솔루션

비즈니스 전반에 AI를 구현하여 신속하고 윤리적인 이점을 제공합니다.  IBM의 광범위한 비즈니스 등급 AI 제품 및 분석 솔루션 포트폴리오는 AI 도입 장벽을 낮추고 적절한 데이터 기반을 구축하는 동시에 결과와 윤리적인 사용을 최적화하도록 설계되었습니다.

 IBM AI 솔루션 살펴보기
IBM watsonx.data

지금 시작해 보세요. 오픈 데이터 레이크하우스 아키텍처를 기반으로 구축된 목적에 맞는 데이터 저장소로, 어디서나 모든 데이터에 대해 AI 워크로드를 확장할 수 있습니다.

watsonx.data 살펴보기 watsonx.data 사용해 보기
리소스
마스크와 안경을 쓰고 태블릿을 든 채 건물 밖에 서 있는 사람
데이터 리더를 위한 데이터 거버넌스 및 데이터 프라이버시
데이터 거버넌스 및 개인정보 보호의 기본 요소에 대한 IBM 가이드를 읽어보세요.
사무실에서 모니터로 데이터를 검토하는 사람들
데이터 품질 및 AI 성능을 위한 3단계
이 단계별 가이드에서 데이터 품질 및 AI 관행에 대한 가치 중심 접근 방식을 취하는 방법에 관한 전문가의 이야기를 확인해보세요.
비즈니스 회의에 참석한 사람들의 모습
Gartner Magic Quadrant™
IBM, 2023년 Gartner Magic Quadrant™ 데이터 통합 툴 부문에서 18년 연속 리더 기업으로 선정
다음 단계 안내

오픈 데이터 레이크하우스 아키텍처를 기반으로 특별 제작된 데이터 저장소인 IBM watsonx.data를 통해 어디서나 모든 데이터에 대한 AI 워크로드를 확장할 수 있습니다.

 watsonx.data 살펴보기 라이브 데모 예약하기
인용

1 Gartner, "How to Improve Your Data Quality" (ibm.com 외부 링크), 2021년 7월 14일