데이터 프로파일링 또는 데이터 고고학은 데이터가 구조화되는 방식을 더 잘 이해하고 조직 내에서 데이터 품질 표준을 유지하기 위해 데이터를 검토하고 정리하는 프로세스입니다.
주요 목적은 데이터를 검토하고 요약하는 방법을 사용한 다음 상태를 평가하여 데이터의 품질에 대한 통찰력을 얻는 것입니다. 이 작업은 일반적으로 다양한 비즈니스 규칙과 분석 알고리즘을 사용하는 데이터 엔지니어가 수행합니다.
데이터 프로파일링은 정확성, 일관성, 적시성과 같은 요소를 기반으로 데이터를 평가하여 데이터에 일관성이나 정확성이 부족하거나 null 값이 있는지 표시합니다. 결과는 데이터 세트에 따라 숫자 또는 열 형태의 값과 같은 통계처럼 단순한 것일 수 있습니다. 데이터 프로파일링은 데이터 웨어하우징이나 비즈니스 인텔리전스와 관련된 프로젝트에 사용할 수 있으며 빅데이터에 더욱 유용합니다. 데이터 프로파일링은 데이터 처리 및 데이터 분석의 중요한 전조가 될 수 있습니다.
기업은 소프트웨어 또는 애플리케이션을 통합하여 데이터 세트가 적절하게 준비되도록 하고 불량 데이터를 제거하는 데 최대한 활용할 수 있습니다. 특히 데이터 품질 문제가 발생하거나 발생하는 소스를 확인할 수 있으며, 이는 궁극적으로 전반적인 비즈니스 운영 및 재정적 성공에 영향을 미칩니다. 이 프로세스는 필요한 데이터 품질 평가도 수행합니다.
데이터 프로파일링의 첫 번째 단계는 분석을 위해 데이터 소스 및 관련 메타데이터를 수집하는 것이며, 이 과정에서 종종 외래 키 관계를 발견할 수 있습니다. 다음 단계는 무엇보다도 통합된 구조를 보장하고 중복을 제거하기 위해 데이터를 정리하는 것입니다. 데이터가 정리되면 데이터 프로파일링 소프트웨어가 데이터 세트를 설명하는 통계를 반환하며 평균, 최소/최대값, 빈도 등의 정보를 포함할 수 있습니다. 아래에서는 적절한 데이터 프로파일링 기술에 대해 간략하게 설명합니다.
데이터 마이닝과 겹치는 부분이 있지만 데이터 프로파일링은 다른 목표를 염두에 두고 있습니다. 차이점은 무엇일까요?
즉, 데이터 프로파일링은 데이터가 정확하고 부정확성이 없는지 확인하기 위해 사용하는 첫 번째 툴입니다.
데이터 프로파일링은 조직이 데이터를 처리하는 방법의 필수적인 부분이어야 하며 기업은 데이터 정리의 핵심 구성 요소로 간주해야 합니다. 데이터를 이해하는 데 도움이 될 뿐만 아니라 데이터가 표준 통계 측정값에 부합하는지 확인할 수도 있습니다. 분석가 팀은 다양한 방식으로 데이터 프로파일링에 접근할 수 있지만 일반적으로 데이터 품질을 개선하고 더 잘 이해한다는 동일한 목표를 염두에 두고 세 가지 주요 범주로 나뉩니다.
분석가가 데이터를 프로파일링하는 데 사용할 수 있는 접근 방식은 다음과 같습니다.
일반적으로 데이터를 프로파일링할 때 단점이 거의 또는 전혀 없습니다. 데이터의 양이 많을 때도 중요하지만 품질이 중요하기 때문에 데이터 프로파일링이 중요한 역할을 합니다. 정확한 형식의 데이터를 표준화하면 고객이 불만을 품거나 의사소통이 잘못될 가능성이 거의 또는 전혀 없습니다.
이러한 문제는 대부분 시스템적인 문제인데, 예를 들어 데이터가 모두 한 곳에 있지 않으면 찾기가 매우 어렵기 때문입니다. 그러나 특정 데이터 툴 및 응용 프로그램을 설치하면 문제가 되지 않으며 의사 결정과 관련하여 회사에만 도움이 될 수 있습니다. 다른 주요 이점과 과제에 대해 자세히 살펴보겠습니다.
데이터 프로파일링은 다른 툴과 달리 데이터에 대한 높은 수준의 개요를 제공할 수 있습니다. 보다 구체적으로 다음을 기대할 수 있습니다.
데이터 프로파일링 문제는 일반적으로 관련된 작업의 복잡성에서 비롯됩니다. 보다 구체적으로 다음을 기대할 수 있습니다.
접근 방식이 무엇이든 다음 데이터 프로파일링 툴 및 모범 사례는 데이터 프로파일링의 정확성과 효율성을 최적화합니다.
열 프로파일링: 이 방법은 테이블을 스캔하여 각 열에 각 값이 표시되는 횟수를 계산합니다. 열 프로파일링은 열 내에서 빈도 분포와 패턴을 찾는 데 유용할 수 있습니다.
교차 열 프로파일링: 이 기술은 키 분석과 종속성 분석의 두 가지 프로세스로 구성됩니다. 키 분석 프로세스는 가능한 기본 키를 스카우트하여 속성 값의 배열을 확인합니다. 종속성 분석 프로세스는 데이터 집합 내에 포함된 관계 또는 패턴을 식별하기 위해 작동합니다.
크로스 테이블 프로파일링: 이 기법은 키 분석을 사용하여 표류 데이터를 식별합니다. 외래 키 분석은 분리된 레코드 또는 일반적인 차이점을 식별하여 서로 다른 테이블의 열 집합 간의 관계를 조사합니다.
데이터 규칙 유효성 검사: 이 방법은 설정된 규칙 및 표준에 따라 데이터 세트를 평가하여 실제로 사전 정의된 규칙을 따르고 있는지 확인합니다.
키 무결성: 키가 항상 데이터에 존재하고 문제가 될 수 있는 분리된 키를 식별하도록 합니다.
카디널리티: 이 기술은 데이터 세트 간의 일대일 및 일대다와 같은 관계를 확인합니다.
패턴 및 주파수 분포: 이 기술을 사용하면 데이터 필드의 형식이 올바르게 지정됩니다.
데이터 프로파일링은 산업 전반의 여러 컨텍스트에서 정확성, 품질 및 유용성을 향상시킬 수 있지만 더 두드러진 사용 사례는 다음과 같습니다.
데이터 변환: 데이터를 처리하려면 먼저 사용 가능하고 체계적인 집합으로 변환해야 합니다. 이는 예측 모델을 만들고 데이터를 검사하기 전에 중요한 단계이므로 이러한 단계 전에 데이터 프로파일링을 수행해야 합니다. 이는 데이터 변환을 지원하기 위해 구축된 클라우드 네이티브 데이터베이스인 IBM Db2를 통해 수행할 수 있습니다.
또한 ELT(추가, 로드, 변환) 및 ETL(추출, 변환, 로드)은 원시 데이터를 소스 시스템에서 대상 데이터베이스로 이동하는 데이터 통합 프로세스입니다. IBM은 비즈니스 지원 데이터 파이프라인을 지원하고 기업이 효율적으로 확장하는 데 필요한 툴을 제공하는 데이터 통합 서비스 및 솔루션을 제공합니다.
데이터 통합: 여러 데이터세트를 제대로 통합하기 위해서는 먼저 각 데이터세트 간의 관계를 이해해야 합니다. 이는 데이터의 메트릭을 이해하고 이를 연결하는 방법을 결정할 때 매우 중요한 단계입니다.
쿼리 최적화: 회사에 대한 가장 정확하고 최적화된 정보를 얻으려면 데이터 프로파일링이 핵심입니다. 데이터 프로파일링은 데이터베이스 특성에 대한 정보를 고려하여 각 데이터베이스에 대한 통계를 생성합니다. IBM i 7.2 소프트웨어는 바로 이러한 목적을 위한 데이터베이스 성능 및 쿼리 최적화를 제공합니다. 데이터베이스 전환의 목표는 시스템 리소스를 최대한 활용하여 쿼리의 응답 시간을 최소화하는 것입니다.
진화하는 ABI 솔루션 환경에 대한 고유한 인사이트를 제공하고 데이터 및 분석 리더를 위한 주요 결과, 가정 및 권장 사항을 강조합니다.
데이터 접근을 간소화하고 데이터 거버넌스를 자동화하세요. 어디서나 모든 데이터를 사용하여 워크로드 비용 최적화, AI 및 분석 확장을 포함하여 데이터 레이크하우스 전략을 데이터 아키텍처에 통합하는 방법을 알아보세요.
데이터 리더가 데이터 기반 조직을 구축하고 비즈니스 우위를 확보하는 방법을 살펴보세요.
오픈 데이터 레이크하우스 접근 방식을 통해 신뢰할 수 있는 데이터를 제공하고 분석 및 AI 프로젝트를 더 빠르게 실행하는 방법을 알아보세요.
다음 4가지 주요 단계를 통해 데이터 및 분석 전략을 비즈니스 목표에 연결하세요.
비즈니스 인텔리전스 문제가 지속되는 이유와 이러한 문제가 조직 전체 사용자에게 어떤 의미가 있는지 자세히 알아보세요.
기업이 성공하려면 데이터를 활용하여 고객 충성도를 높이고 비즈니스 프로세스를 자동화하며 AI 기반 솔루션으로 혁신을 이루어야 합니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.
더 나은 의사 결정을 위한 AI 기반 인사이트인 Cognos Analytics 12.0을 소개합니다.