데이터 프로파일링이란 무엇일까요?
모범사례와 데이터 품질을 개선하는 접근법을 포함하여 데이터 프로파일링의 사용 방법과 장점에 대해 알아봅니다.
IBM 뉴스레터 구독
두 명의 직원이 한 공유 책상에 앉아 컴퓨터 모니터를 보고 있는 모습
데이터 프로파일링이란 무엇일까요?

데이터 프로파일링 또는 데이터 고고학은 데이터의 구조를 더 잘 이해하고 조직 내에서 데이터 품질 표준을 유지하기 위해 데이터를 검토하고 정제하는 프로세스입니다. 주된 목적은 데이터를 검토 및 요약한 후 그 상태를 평가하여 데이터 품질에 대한 인사이트를 확보하는 것입니다. 이 작업은 다양한 비즈니스 규칙과 분석 알고리즘을 사용하는 데이터 엔지니어가 보통 수행합니다.

데이터 프로파일링은 데이터에 일관성 또는 정확성이 결여되어 있거나 널(null) 값이 있는지 보여주기 위해 정확성, 일관성, 적시성과 같은 요인을 기반으로 데이터를 평가합니다. 데이터 세트에 따라 결과는 열 형태의 숫자 또는 값과 같은 통계만큼 단순할 수 있습니다. 데이터 프로파일링은 데이터 웨어하우징 또는 비즈니스 인텔리전스를 활용하는 프로젝트에 사용될 수 있으며, 빅데이터에는 훨씬 더 유용합니다. 데이터 프로파일링은 데이터 처리 및 데이터 분석의 중요한 전단계 작업일 수 있습니다.

watsonx.data 살펴보기

어디서나 모든 데이터에 대해 AI 워크로드를 확장합니다.

데이터 프로파일링의 작동 방식

기업들은 데이터 세트를 적절하게 준비하고 불량 데이터를 제거하여 최대한 유용하게 활용하기 위해 소프트웨어와 애플리케이션을 통합합니다. 구체적으로 말하자면, 어느 소스에 데이터 품질 문제가 있는지, 또는 어느 소스가 이러한 문제를 유발하고 있는지 결정할 수 있습니다. 데이터 품질 문제가 있으면 궁극적으로 전반적인 비즈니스 운영 및 재무 활동의 성공에 영향을 끼치게 됩니다. 이 프로세스는 또한 필요한 데이터 품질 평가도 수행합니다.

데이터 프로파일링의 첫 단계는 분석을 위해 데이터 소스와 관련 메타데이터를 수집하는 것입니다. 이를 통해 종종 외래 키 관계를 발견할 수 있습니다. 그 다음으로 따라야 할 단계는 무엇보다도 통합된 구조를 유지하고 중복성을 제거하기 위해 데이터를 정리하는 것입니다. 데이터 정리를 완료하면 데이터 프로파일링 소프트웨어는 데이터 세트를 설명하는 통계를 반환합니다. 여기에는 평균값, 최소값/최대값 또는 빈도 등이 포함될 수 있습니다. 아래에서는 적절한 데이터 프로파일링 기법에 대해 설명합니다.

데이터 프로파일링 및 데이터 마이닝 비교

데이터 마이닝과 공통점이 있지만, 데이터 프로파일링은 목표가 다릅니다. 차이점은 무엇일까요?

  • 데이터 프로파일링은 데이터와 데이터의 특징에 대한 이해를 돕는 반면, 데이터 마이닝은 데이터 분석을 통해 패턴과 트렌드를 발견하는 프로세스입니다.
  • 데이터 프로파일링은 메타데이터를 수집한 다음 분석 방법을 사용하여 데이터 관리를 지원하는 데 중점을 둡니다.
  • 데이터 마이닝과 다르게, 데이터 프로파일링은 데이터의 특징을 요약하고 데이터의 사용을 지원합니다.

다시 말해, 데이터 프로파일링은 데이터가 정확하고, 부정확한 데이터가 없음을 확인하기 위해 사용할 수 있는 첫 번째 툴입니다.

데이터 프로파일링의 유형

데이터 프로파일링은 조직이 데이터를 처리하는 데 필수적인 부분이 되어야 하며, 기업들은 데이터 프로파일링을 데이터 정리의 중요한 구성 요소로 간주해야 합니다. 데이터 프로파일링은 데이터를 이해하도록 도울 수 있을 뿐만 아니라 데이터가 표준 통계 측정 기준에 부합하는지 검증할 수도 있습니다. 분석가들은 데이터 프로파일링에 다양한 방식으로 접근할 수 있지만, 이러한 방식은 일반적으로 세 가지 주요 범주로 나뉩니다. 그러나 그 목표는 공통적으로 데이터 품질을 향상하고 이해를 높이는 것입니다.

분석가가 데이터 프로파일링을 위해 사용할 수 있는 접근법은 아래와 같습니다.

  • 구조 발견: 이 접근법은 데이터의 형식과 데이터베이스 전반의 일관성에 중점을 둡니다. 데이터베이스를 살펴볼 때 이 유형을 위해 분석가가 따를 수 있는 다양한 프로세스가 있습니다. 하나는 형식별 정보를 이해하도록 돕는 패턴 매칭입니다. 한 예는 전화번호를 일렬로 정리하는데 누락된 값이 있는 경우입니다. 구조 발견은 이러한 경우를 포착할 수 있습니다.
  • 콘텐츠 발견: 이 유형은 데이터 행을 분석하여 오류 또는 구조적 문제를 찾는 것입니다. 이 프로세스는 데이터베이스의 개별 요소를 자세히 살펴볼 수 있으며, 부정확한 값을 찾는 데 도움이 됩니다.
  • 관계 발견: 이 유형은 어떤 데이터가 사용 중인지 알아보고 각 세트 사이의 연결 관계를 파악하는 작업을 수반합니다. 이를 위해 분석가들은 데이터 사이의 관계를 알아낸 다음 구체적인 필드 간의 연결 관계로 그 범위를 좁히기 위해 먼저 메타데이터 분석을 시작합니다.
데이터 프로파일링의 장점 및 해결과제

일반적으로, 데이터를 프로파일링할 때 실패는 거의 또는 전혀 없습니다. 충분한 양의 데이터를 갖고 있는 것도 중요하지만, 데이터의 품질 또한 중요합니다. 데이터 프로파일링은 바로 데이터 품질과 관련된 지원을 제공합니다. 정확하게 형식이 지정된 표준화된 데이터가 있으면 고객이 불만족하거나 커뮤니케이션 오류가 발생할 가능성이 거의 또는 전혀 없습니다.

문제점은 대부분 그 속성이 구조적입니다. 예를 들어 모든 데이터가 한 장소에 존재하지 않으면 이를 찾기가 매우 어렵습니다. 그러나 특정 데이터 툴과 애플리케이션을 설치하면 문제될 건 없으며, 회사의 의사 결정에 도움이 될 수 있습니다. 다른 주요 이점과 해결과제도 자세히 알아보겠습니다.

장점

데이터 프로파일링은 다른 툴과 다르게 데이터에 대한 개괄적인 개요를 제공할 수 있습니다. 보다 구체적인 장점은 다음과 같습니다.

  • 분석 정확성 향상: 완전한 데이터 프로파일링을 수행하면 데이터의 품질과 신뢰성을 높일 수 있습니다. 데이터를 적절히 프로파일링하면 여러 데이터 세트와 소스 사이의 관계를 더 잘 이해할 수 있고, 데이터 거버넌스 절차를 지원할 수 있습니다.
  • 정보를 중앙집중식으로 관리: 데이터 프로파일링을 통해 데이터를 살펴보고 분석하면 데이터 품질이 향상되고 데이터가 잘 정돈될 것으로 기대할 수 있습니다. 소스 데이터를 검토하면 오류를 방지하고 가장 많이 문제가 발생하는 부분을 알아낼 수 있습니다. 그러면 인사이트를 확보하고 체계성을 구현하여 최상의 방식으로 데이터를 중앙집중식으로 관리할 수 있습니다.

해결과제

데이터 프로파일링의 문제는 일반적으로 관련 작업의 복잡성에서 비롯됩니다. 구체적으로 다음과 같은 문제를 예상할 수 있습니다.

  • 비용이 많이 들고 시간 소모적임: 성공적인 프로그램을 구현하려고 할 때 데이터 프로파일링은 매우 복잡해질 수 있습니다. 그 부분적인 이유는 일반적으로 조직이 방대한 양의 데이터를 수집하기 때문입니다. 올바른 툴 없이 결과를 분석하고 의사 결정을 내리기 위해 훈련받은 전문가를 고용하면 매우 비용과 시간이 많이 들 수 있습니다.
  • 부적절한 리소스: 데이터 프로파일링 프로세스를 시작하려면 기업은 한 장소에 모든 데이터를 보관해야 합니다. 그러나 이런 경우는 많지 않습니다. 데이터가 여러 부서에 걸쳐 존재하고 훈련된 데이터 전문가가 없다면, 회사 전체에서 데이터 프로파일링을 수행하기가 매우 어려워질 수 있습니다.
데이터 프로파일링 툴과 모범사례

어떤 접근법을 취하든, 다음 데이터 프로파일링 툴과 모범사례는 데이터 프로파일링의 정확성과 효율성을 최적화합니다.

열 프로파일링: 이 방법은 테이블을 스캔하여 각 값이 각 열 안에서 등장하는 횟수를 셉니다. 열 프로파일링은 열 안에서 빈도 분포와 패턴을 파악할 때 유용할 수 있습니다.

교차 열 프로파일링: 이 기법은 키 분석 및 종속성 분석의 두 가지 프로세스로 구성됩니다. 키 분석 프로세스는 가능한 기본 키를 찾아 일련의 속성 값을 살펴봅니다. 한편, 종속성 분석 프로세스는 데이터 세트 내에 포함된 관계 또는 패턴을 찾아냅니다.

교차 테이블 프로파일링: 이 기법은 키 분석을 사용하여 이탈 데이터(stray data)를 찾습니다. 외래 키 분석은 여러 테이블의 열 세트 간의 관계를 살펴보기 위해 고아 레코드(orphaned record) 또는 일반적인 차이점을 찾습니다.

데이터 규칙 검증: 이 방법은 기존의 규칙 및 표준을 기준으로 데이터 세트를 평가하여 데이터 세트가 이러한 사전 정의된 규칙을 따르는지 확인합니다.

키 무결성: 키가 항상 데이터에 존재하는지 확인하고 문제가 될 수 있는 고아 키(orphan key)를 찾습니다.

카디널리티(Cardinality): 이 기법은 데이터 세트 간에 일대일 및 일대다와 같은 관계를 확인합니다.

패턴 및 빈도 분포: 이 기법은 데이터 필드의 형식이 올바른지 확인합니다.

데이터 프로파일링 사용 사례

데이터 프로파일링은 여러 산업의 다양한 환경에서 정확성, 품질, 사용성을 향상할 수 있지만, 데이터 프로파일링의 두드러진 사용 사례는 다음과 같습니다.

데이터 변환: 데이터를 처리하기 전에 사용 가능하고 정돈된 세트로 변환해야 합니다. 이 단계는 예측 모델을 만들거나 데이터를 살펴보기 전에 수행해야 하는 중요한 단계이므로 이러한 단계를 하나라도 수행하기 전에 데이터 프로파일링을 반드시 완료해야 합니다. IBM Db2 Warehouse on Cloud는 고성능 분석 및 AI를 위해 구축된 탄력적인 클라우드 데이터 웨어하우스입니다. 이 데이터 웨어하우스를 사용하면 비즈니스 전반의 데이터를 집계할 수 있습니다.  

또한, ELT(extra, load, transform) 및 ETL(extract, transform, load)은 원시 데이터를 소스 시스템에서 타겟 데이터베이스로 이동하는 데이터 통합 프로세스입니다. IBM은 비즈니스에 최적화된 데이터 파이프라인을 지원하고 효율적으로 확장하는 데 필요한 툴을 기업에 제공하는 데이터 통합 서비스 및 솔루션을 제공합니다.

데이터 통합: 여러 데이터 세트를 제대로 통합하려면 먼저 각 데이터 세트 간의 관계를 이해해야 합니다. 이것은 데이터의 지표를 이해하고 이들을 연결하는 방법을 결정하려고 할 때 꼭 필요한 단계입니다. 

쿼리 최적화: 회사에 대한 가장 정확하고 최적화된 정보를 얻길 원한다면 데이터 프로파일링이 해답입니다. 데이터 프로파일링은 데이터베이스의 특징에 대한 정보를 고려하고 각 데이터베이스에 대한 통계를 냅니다. IBM i 7.2 소프트웨어는 바로 이러한 목적에 최적화된 데이터베이스 성능과 쿼리 기능을 제공합니다. 데이터베이스 전환의 목표는 시스템 리소스를 가장 잘 활용하여 쿼리 응답 시간을 최소화하는 것입니다.  

관련 솔루션
IBM InfoSphere Information Analyzer

IBM InfoSphere Information Analyzer는 일관성과 품질을 위해 데이터의 콘텐츠와 구조를 평가합니다. 또한 InfoSphere Information Analyzer는 추론 및 이상 식별을 통해 데이터의 정확성을 향상하도록 돕습니다.

IBM InfoSphere Information Analyzer
IBM® InfoSphere QualityStage

IBM® InfoSphere QualityStage는 데이터 품질과 정보 거버넌스 이니셔티브를 지원하도록 설계되었습니다. 이를 활용하면 데이터의 조사, 정리 및 관리가 가능하므로, 이는 고객, 벤더, 위치 및 제품을 포함한 주요 객체들의 일관된 뷰를 유지하는 데 도움이 됩니다.

IBM® InfoSphere QualityStage
다음 단계

IBM은 가장 효율적인 방식으로 데이터를 처리하고 데이터 프로파일링 경험을 극대화하는 많은 리소스를 제공합니다. 데이터의 양이 얼마든, IBM InfoSphere Information Analyzer와 IBM® InfoSphere QualityStage는 데이터 훈련 프로세스를 향상하고 데이터 품질 및 정보 거버넌스 이니셔티브를 지원할 수 있습니다. 이를 통해 데이터를 조사, 정리 및 관리할 수 있으므로, 고객, 공급업체, 위치 및 제품을 포함하여 주요 엔터티에 대한 일관된 관점을 유지할 수 있습니다.

IBM® InfoSphere QualityStage