데이터 프로파일링 또는 데이터 고고학은 데이터의 구조를 더 잘 이해하고 조직 내에서 데이터 품질 표준을 유지하기 위해 데이터를 검토하고 정제하는 프로세스입니다. 주된 목적은 데이터를 검토 및 요약한 후 그 상태를 평가하여 데이터 품질에 대한 인사이트를 확보하는 것입니다. 이 작업은 다양한 비즈니스 규칙과 분석 알고리즘을 사용하는 데이터 엔지니어가 보통 수행합니다.
데이터 프로파일링은 데이터에 일관성 또는 정확성이 결여되어 있거나 널(null) 값이 있는지 보여주기 위해 정확성, 일관성, 적시성과 같은 요인을 기반으로 데이터를 평가합니다. 데이터 세트에 따라 결과는 열 형태의 숫자 또는 값과 같은 통계만큼 단순할 수 있습니다. 데이터 프로파일링은 데이터 웨어하우징 또는 비즈니스 인텔리전스를 활용하는 프로젝트에 사용될 수 있으며, 빅데이터에는 훨씬 더 유용합니다. 데이터 프로파일링은 데이터 처리 및 데이터 분석의 중요한 전단계 작업일 수 있습니다.
어디서나 모든 데이터에 대해 AI 워크로드를 확장합니다.
기업들은 데이터 세트를 적절하게 준비하고 불량 데이터를 제거하여 최대한 유용하게 활용하기 위해 소프트웨어와 애플리케이션을 통합합니다. 구체적으로 말하자면, 어느 소스에 데이터 품질 문제가 있는지, 또는 어느 소스가 이러한 문제를 유발하고 있는지 결정할 수 있습니다. 데이터 품질 문제가 있으면 궁극적으로 전반적인 비즈니스 운영 및 재무 활동의 성공에 영향을 끼치게 됩니다. 이 프로세스는 또한 필요한 데이터 품질 평가도 수행합니다.
데이터 프로파일링의 첫 단계는 분석을 위해 데이터 소스와 관련 메타데이터를 수집하는 것입니다. 이를 통해 종종 외래 키 관계를 발견할 수 있습니다. 그 다음으로 따라야 할 단계는 무엇보다도 통합된 구조를 유지하고 중복성을 제거하기 위해 데이터를 정리하는 것입니다. 데이터 정리를 완료하면 데이터 프로파일링 소프트웨어는 데이터 세트를 설명하는 통계를 반환합니다. 여기에는 평균값, 최소값/최대값 또는 빈도 등이 포함될 수 있습니다. 아래에서는 적절한 데이터 프로파일링 기법에 대해 설명합니다.
데이터 마이닝과 공통점이 있지만, 데이터 프로파일링은 목표가 다릅니다. 차이점은 무엇일까요?
다시 말해, 데이터 프로파일링은 데이터가 정확하고, 부정확한 데이터가 없음을 확인하기 위해 사용할 수 있는 첫 번째 툴입니다.
데이터 프로파일링은 조직이 데이터를 처리하는 데 필수적인 부분이 되어야 하며, 기업들은 데이터 프로파일링을 데이터 정리의 중요한 구성 요소로 간주해야 합니다. 데이터 프로파일링은 데이터를 이해하도록 도울 수 있을 뿐만 아니라 데이터가 표준 통계 측정 기준에 부합하는지 검증할 수도 있습니다. 분석가들은 데이터 프로파일링에 다양한 방식으로 접근할 수 있지만, 이러한 방식은 일반적으로 세 가지 주요 범주로 나뉩니다. 그러나 그 목표는 공통적으로 데이터 품질을 향상하고 이해를 높이는 것입니다.
분석가가 데이터 프로파일링을 위해 사용할 수 있는 접근법은 아래와 같습니다.
일반적으로, 데이터를 프로파일링할 때 실패는 거의 또는 전혀 없습니다. 충분한 양의 데이터를 갖고 있는 것도 중요하지만, 데이터의 품질 또한 중요합니다. 데이터 프로파일링은 바로 데이터 품질과 관련된 지원을 제공합니다. 정확하게 형식이 지정된 표준화된 데이터가 있으면 고객이 불만족하거나 커뮤니케이션 오류가 발생할 가능성이 거의 또는 전혀 없습니다.
문제점은 대부분 그 속성이 구조적입니다. 예를 들어 모든 데이터가 한 장소에 존재하지 않으면 이를 찾기가 매우 어렵습니다. 그러나 특정 데이터 툴과 애플리케이션을 설치하면 문제될 건 없으며, 회사의 의사 결정에 도움이 될 수 있습니다. 다른 주요 이점과 해결과제도 자세히 알아보겠습니다.
장점
데이터 프로파일링은 다른 툴과 다르게 데이터에 대한 개괄적인 개요를 제공할 수 있습니다. 보다 구체적인 장점은 다음과 같습니다.
해결과제
데이터 프로파일링의 문제는 일반적으로 관련 작업의 복잡성에서 비롯됩니다. 구체적으로 다음과 같은 문제를 예상할 수 있습니다.
어떤 접근법을 취하든, 다음 데이터 프로파일링 툴과 모범사례는 데이터 프로파일링의 정확성과 효율성을 최적화합니다.
열 프로파일링: 이 방법은 테이블을 스캔하여 각 값이 각 열 안에서 등장하는 횟수를 셉니다. 열 프로파일링은 열 안에서 빈도 분포와 패턴을 파악할 때 유용할 수 있습니다.
교차 열 프로파일링: 이 기법은 키 분석 및 종속성 분석의 두 가지 프로세스로 구성됩니다. 키 분석 프로세스는 가능한 기본 키를 찾아 일련의 속성 값을 살펴봅니다. 한편, 종속성 분석 프로세스는 데이터 세트 내에 포함된 관계 또는 패턴을 찾아냅니다.
교차 테이블 프로파일링: 이 기법은 키 분석을 사용하여 이탈 데이터(stray data)를 찾습니다. 외래 키 분석은 여러 테이블의 열 세트 간의 관계를 살펴보기 위해 고아 레코드(orphaned record) 또는 일반적인 차이점을 찾습니다.
데이터 규칙 검증: 이 방법은 기존의 규칙 및 표준을 기준으로 데이터 세트를 평가하여 데이터 세트가 이러한 사전 정의된 규칙을 따르는지 확인합니다.
키 무결성: 키가 항상 데이터에 존재하는지 확인하고 문제가 될 수 있는 고아 키(orphan key)를 찾습니다.
카디널리티(Cardinality): 이 기법은 데이터 세트 간에 일대일 및 일대다와 같은 관계를 확인합니다.
패턴 및 빈도 분포: 이 기법은 데이터 필드의 형식이 올바른지 확인합니다.
데이터 프로파일링은 여러 산업의 다양한 환경에서 정확성, 품질, 사용성을 향상할 수 있지만, 데이터 프로파일링의 두드러진 사용 사례는 다음과 같습니다.
데이터 변환: 데이터를 처리하기 전에 사용 가능하고 정돈된 세트로 변환해야 합니다. 이 단계는 예측 모델을 만들거나 데이터를 살펴보기 전에 수행해야 하는 중요한 단계이므로 이러한 단계를 하나라도 수행하기 전에 데이터 프로파일링을 반드시 완료해야 합니다. IBM Db2 Warehouse on Cloud는 고성능 분석 및 AI를 위해 구축된 탄력적인 클라우드 데이터 웨어하우스입니다. 이 데이터 웨어하우스를 사용하면 비즈니스 전반의 데이터를 집계할 수 있습니다.
또한, ELT(extra, load, transform) 및 ETL(extract, transform, load)은 원시 데이터를 소스 시스템에서 타겟 데이터베이스로 이동하는 데이터 통합 프로세스입니다. IBM은 비즈니스에 최적화된 데이터 파이프라인을 지원하고 효율적으로 확장하는 데 필요한 툴을 기업에 제공하는 데이터 통합 서비스 및 솔루션을 제공합니다.
데이터 통합: 여러 데이터 세트를 제대로 통합하려면 먼저 각 데이터 세트 간의 관계를 이해해야 합니다. 이것은 데이터의 지표를 이해하고 이들을 연결하는 방법을 결정하려고 할 때 꼭 필요한 단계입니다.
쿼리 최적화: 회사에 대한 가장 정확하고 최적화된 정보를 얻길 원한다면 데이터 프로파일링이 해답입니다. 데이터 프로파일링은 데이터베이스의 특징에 대한 정보를 고려하고 각 데이터베이스에 대한 통계를 냅니다. IBM i 7.2 소프트웨어는 바로 이러한 목적에 최적화된 데이터베이스 성능과 쿼리 기능을 제공합니다. 데이터베이스 전환의 목표는 시스템 리소스를 가장 잘 활용하여 쿼리 응답 시간을 최소화하는 것입니다.
IBM InfoSphere Information Analyzer는 일관성과 품질을 위해 데이터의 콘텐츠와 구조를 평가합니다. 또한 InfoSphere Information Analyzer는 추론 및 이상 식별을 통해 데이터의 정확성을 향상하도록 돕습니다.
IBM® InfoSphere QualityStage는 데이터 품질과 정보 거버넌스 이니셔티브를 지원하도록 설계되었습니다. 이를 활용하면 데이터의 조사, 정리 및 관리가 가능하므로, 이는 고객, 벤더, 위치 및 제품을 포함한 주요 객체들의 일관된 뷰를 유지하는 데 도움이 됩니다.