데이터 큐레이션

데이터 큐레이션은 프로젝트나 카탈로그에 데이터 자산을 추가하고, 분류, 데이터 클래스와 비즈니스 용어를 지정하여 강화하고, 데이터 품질을 분석하고 개선하는 프로세스입니다.

기본 프리미엄 표준 별도로 명시되지 않는 한, 이 정보는 모든 에디션에 적용됩니다 IBM Knowledge Catalog.

큐레이션은 한 번에 데이터 자산을 큐레이팅하는 대부분의 수동 프로세스일 수 있습니다. 고급 선별은 여러 데이터 자산에 대해 동시에 자동으로 완료되는 많은 선별 태스크가 있는 자동화된 프로세스입니다.

요구사항 및 제한사항

데이터 큐레이션에는 다음과 같은 요구사항과 제한 사항이 존재합니다.

데이터 큐레이션 도구

다음 도구들을 사용합니다:

  • Metadata import
  • 메타데이터 강화

필수 서비스

데이터 큐레이션에는, IBM Knowledge Catalog Standard, 또는 IBM Knowledge Catalog 이 필요합니다 IBM Knowledge Catalog Premium. 메타데이터 보강(고급 프로파일링 및 심층적인 키 및 관계 분석)의 맥락에서 수행되는 고급 분석 역시 해당 DataStage 서비스를 필요로 합니다.

서비스 해당 IBM Knowledge Catalog 서비스는 기본적으로 사용할 수 없습니다. 관리자가 서비스를 설치해야 합니다. 서비스가 설치되었는지 확인하려면 서비스 카탈로그 를 엽니다. 서비스가 설치되어 사용 준비가 완료된 경우, 카탈로그의 타일에는 IBM Knowledge Catalog '사용 준비 완료'가 표시됩니다.

데이터 형식

다음 데이터 형식이 지원됩니다:

  • 관계형 및 비관계형 데이터 소스의 테이블, Amazon S3Delta Lake 테이블
  • Metadata import 파일 기반 데이터 소스 연결 형식부터 외부 도구 연결 시 도구별 형식에 이르기까지 모든 형식
  • 메타데이터 보강: 표 형식: CSV, TSV, Avro, Parquet, Microsoft Excel

지원되는 커넥터에 대한 정보는 큐레이션 및 데이터 품질을 위한 지원되는 데이터 소스를 참조하십시오.

데이터 크기

데이터 큐레이션은 모든 규모의 데이터와 함께 작동합니다.

필요 권한

귀하의 역할에 따라 수행할 수 있는 큐레이션 작업이 결정됩니다:

  • 데이터 관리자 역할 또는 최소한 동일한 권한 세트를 가진 사용자 정의 역할을 보유해야 합니다. 사전 정의된 역할 및 권한을 참조하십시오.
  • 큐레이션 도구와 관련된 자산을 사용하려면 프로젝트 및 카탈로그에서 특정 역할도 부여받아야 합니다. 정확한 요구 사항은 개별 도구를 참조하십시오.

작업공간

다음 작업 공간에서 큐레이션 작업을 수행할 수 있습니다:

  • 프로젝트
  • 카탈로그

수행할 큐레이션에 따라, 다른 사용자가 사용하도록 데이터가 준비되기 전에 프로젝트, 카탈로그의 데이터 자산을 작업해야 합니다.

프로젝트는 사용자 조직의 다른 사용자가 데이터를 사용할 수 있도록 카탈로그에 공개하기 전에 보통 데이터를 준비하고 분석하는 협업적인 작업공간입니다. 추가 준비 없이 바로 공유할 수 있는 데이터라면 카탈로그에 직접 추가할 수도 있습니다. 특정 유형의 데이터는 카탈로그에만 추가할 수 있습니다.

큐레이션 태스크

다음 큐레이션 태스크로 귀중한 데이터 자산을 개발할 수 있습니다.

  • 프로젝트나 카탈로그에 데이터 자산 추가:

    • 데이터 소스 연결에서 자산을 추가합니다. 수동으로 하나씩 추가하거나 메타데이터 가져오기를 통해 여러 데이터 자산을 자동으로 추가할 수 있습니다. 데이터는 클라우드나 온프레미스에 그대로 두고, 프로젝트나 카탈로그 내에서 데이터에 접근하기 위한 자산 메타데이터와 연결 정보만 추가하면 됩니다.
    • 프로젝트나 카탈로그와 연관된 스토리지에 개별 파일을 업로드하십시오.
    • 카탈로그에서 작업할 프로젝트로 자산을 수동으로 추가하십시오.
  • 사용자 데이터 분석 및 강화:

    • 프로젝트 또는 카탈로그 내에서 개별 데이터 자산을 프로파일링하여 자산 콘텐츠에 대한 기본 통계를 얻고 데이터 클래스를 할당합니다. 데이터 자산 프로파일링을 참조하십시오.

    • 프로젝트의 메타데이터 인리치먼트를 작성하고 실행합니다.

      • 단일 실행으로 다중 데이터 자산을 프로파일링하여 자동으로 데이터 클래스를 지정하고 데이터 유형과 열 형식을 식별하십시오.
      • 단일 실행에서 여러 데이터 세트에 대해 품질 분석을 수행하여 누락된 값이나 데이터 클래스 위반과 같은 일반적인 데이터 품질 문제를 검사합니다.
      • 자산에 비즈니스 용어를 자동으로 할당하고 데이터 분류 또는 머신러닝 알고리즘을 기반으로 용어 제안을 생성합니다.
      • 프로파일링 통계 및 열 간 이름 유사성을 기반으로 자산과 열 간의 기본 키, 외래 키 및 후보 관계를 제공합니다.
    • 강화 결과를 검토하십시오. 데이터 자산의 품질 점수에 대한 전체 보기는 프로젝트의 메타데이터 강화 자산에서 사용 가능합니다. 각 데이터 자산 또는 열의 상세한 결과를 보려면 품질 점수를 클릭하세요. 또는 프로젝트 또는 카탈로그 내에서 자산의 '데이터 품질' 탭에서 해당 정보에 접근할 수 있습니다.

    • 실제 데이터에 대한 심층 분석 수행: 기본 키 분석, 키 관계 분석, 중복 분석 또는 고급 데이터 프로파일링

    • 데이터 자산의 변경사항을 발견하고 평가하려면 간격으로 가져오기 및 강화 작업을 다시 실행하십시오. 이 작업을 수동으로 수행하거나 가져오기 및 강화 스케줄을 설정할 수 있습니다.

  • 데이터 품질 규칙을 실행하여 데이터 품질을 평가합니다.

  • 데이터를 세분화하여 프로젝트에서 해당 품질과 유용성을 개선하십시오.

  • 프로젝트에서 카탈로그로 자산을 공개하십시오.

  • 카탈로그 내 데이터 자산을 등급 지정하고 검토하십시오.

  • 태그를 작성하고 카탈로그 내 데이터 자산에 추가하십시오.

  • 분류와 비즈니스 용어를 카탈로그 내 개별 데이터 자산에 추가하십시오.

큐레이션 태스크
태스크 어디에서 수동으로 수행할 수 있습니까? 어디에서 자동으로 수행할 수 있습니까?
자산 작성 프로젝트
카탈로그
프로젝트
카탈로그
데이터 클래스 지정 프로젝트
카탈로그
프로젝트
카탈로그
분류 지정 카탈로그
비즈니스 용어 지정 프로젝트
카탈로그
프로젝트
데이터 품질 분석
(메타데이터 보강)
프로젝트 프로젝트
키, 키 관계 및 중복 데이터를 식별합니다 프로젝트 프로젝트
데이터 품질 평가 (규칙)
베이스 프리미엄
프로젝트 프로젝트

샘플 흐름: 고급 큐레이션

큐레이션 흐름에는 다음과 같은 작업이 포함될 수 있습니다:

  1. 프로젝트에서 '발견' 목표를 가진 메타데이터 가져오기를 생성하고 실행하여 연결에서 프로젝트로 메타데이터를 일괄 가져옵니다. 메타데이터 가져오기를 일회성 또는 반복 일정으로 실행하도록 구성할 수도 있습니다.

  2. 동일한 프로젝트 내에서 메타데이터 보강 작업을 생성하고 실행하여, 가져온 데이터 자산 집합에 대해 다음 작업을 단일 실행으로 완료하십시오:

    • 데이터 자산을 프로파일링합니다.
    • 데이터 자산에 대한 품질 분석을 실행합니다.
    • 가져온 자산에 비즈니스 용어를 자동으로 지정하고 용어 제안을 생성합니다.
    • 자산과 열 간의 후보 관계를 생성하기 위해 기본 키와 외래 키를 식별합니다.

    메타데이터 보강을 위해 일회성 또는 반복 일정을 설정할 수도 있습니다. 메타데이터 가져오기에 구성된 일정과 귀하의 강화 일정을 일치시킬 수 있습니다.

  3. 데이터 자산 및 해당 열에 대한 강화 결과를 검토하십시오.

  4. 선택 사항: 메타데이터 보강 작업에서 데이터 자산에 대한 추가 분석을 실행합니다.

  5. 카탈로그에 강화된 데이터 자산을 공개하십시오.

샘플 흐름: 강화된 자산과 그 계보를 소비 가능하게 제공

MANTA Automated Data Lineage for IBM Cloud Pak for Data 와 함께

비즈니스 사용자가 소비할 수 있도록 카탈로그에 풍부한 자산과 그 계보를 함께 제공하는 MANTA Automated Data Lineage 작업에는 다음이 포함될 수 있습니다:

  1. 프로젝트에서 '발견' 목표를 가진 메타데이터 가져오기 자산을 생성하고 실행하여 연결된 데이터 자산의 메타데이터를 프로젝트로 가져옵니다.

  2. 동일한 프로젝트 내에서 가져온 자산을 위한 메타데이터 보강 자산을 생성하고 실행하십시오. 1단계에서 메타데이터 가져오기 자산을 데이터 범위로 선택하십시오.

  3. 강화 결과를 검토하고 강화된 자산을 카탈로그 A에 게시하십시오.

  4. 계보 추적을 목표로 하는 또 다른 메타데이터 가져오기 자산을 생성하고 실행하여 계보를 확보한 후, 해당 메타데이터를 보강된 자산을 게시한 카탈로그(카탈로그 A)로 가져옵니다. 1단계에서 데이터 자산을 가져온 데이터 소스에 대한 계보별 연결을 선택하십시오.

    가져오기가 완료되면 카탈로그 A의 기존 자산이 업데이트됩니다. BI 보고서와 같은 새로운 자산이 카탈로그에 추가됩니다.

    연계 정보가 MANTA Automated Data Lineage 첨부된 자산이 이후에 업데이트될 경우(예: 메타데이터 보강 결과를 새로 게시하는 경우), 연계 링크가 삭제됩니다. 해당 자산에 대한 계보 가져오기를 다시 실행하여 해당 연결을 재설정해야 합니다.

프로세스를 자동화하려면 메타데이터 가져오기 및 보강 작업을 예약하고 해당 일정을 조정할 수 있습니다.

이 흐름을 위해 서비스와 MANTA Automated Data Lineage for IBM Cloud Pak for Data 계보 가져오기를 위한 라이선스 키가 설치되어야 합니다.

Manta Data Lineage 와 함께

비즈니스 사용자에게 강화된 자산과 그 계보를 제공하는 작업에는 다음이 포함될 Manta Data Lineage 수 있습니다:

  1. 플랫폼 자산 카탈로그에서 스캔하려는 연결을 포함하는 데이터 소스 정의를 생성하십시오.
  2. 프로젝트 내에서 데이터 소스에 대한 연결의 참조 사본을 생성하십시오.
  3. 자산 메타데이터 가져오기 및 계보 메타데이터 가져오기 목표를 모두 포함하는 메타데이터 가져오기를 생성하고 실행합니다. 자산 메타데이터를 가져오기 위한 대상은 프로젝트여야 합니다.
  4. 동일한 프로젝트 내에서 가져온 자산을 위한 메타데이터 보강 자산을 생성하고 실행하십시오. 1단계에서 메타데이터 가져오기 자산을 데이터 범위로 선택하십시오.
  5. 강화 결과를 검토하고 강화된 자산을 카탈로그에 게시하십시오.
  6. 혈통 정보를 확인하십시오. 데이터 > 데이터 계보 > 계보 보기로 이동하십시오.

프로세스를 자동화하려면 메타데이터 가져오기 및 보강 작업을 예약하고 해당 일정을 조정할 수 있습니다.

대부분의 큐레이션 작업은 사용자 인터페이스 대신 API를 통해 수행할 수 있습니다. 각 해당 작업에 대해 API IBM Knowledge Catalog 링크가 나열되어 있습니다.

자세히 보기