도수 분포 테이블

데이터 자산에 대해 고급 프로파일링을 실행하면, 소스 데이터를 기반으로 해당 자산의 각 열에 포함된 고유 값에 대한 상세한 빈도 분포가 산출됩니다.

기본, 프리미엄, 스탠다드. 별도로 명시되지 않는 한, 이 정보는 ‘ IBM Knowledge Catalog ’의 모든 에디션에 적용됩니다.

고급 프로파일링 실행 설정을 구성할 때, 빈도 분포 정보의 전부 또는 일부를 데이터베이스 테이블에 기록하도록 선택할 수 있습니다. 이 테이블은 상세 열 프로필을 통해 확인할 수 있습니다.

그러나 열 프로필에서는 문자열 값과 같은 비수치형 값의 분포 통계는 실제로 저장된 값의 개수와 관계없이 고유한 값 중 처음 100개만 표시됩니다. 출력 테이블의 모든 값에 액세스하려면 표준 데이터베이스 쿼리나 IBM Knowledge Catalog API를 사용하십시오.

테이블에는 각 고유 값에 대해 다음 정보가 포함되어 있습니다:

도수 분포 테이블
컬럼 이름 설명
AssetId 프로젝트 내 데이터 자산의 ID.
ChangeDate 정보가 업데이트된 날짜.
ColumnName 데이터 자산 내 열의 이름.
DataClassification 데이터 자산의 해당 열에 할당된 데이터 클래스의 ID 목록으로, 쉼표(,)로 구분됩니다. 해당 열에 데이터 클래스가 할당되지 않은 경우, 표에는 ‘.’이 표시됩니다 U.
DistinctValue 해당 열의 실제 데이터 값. 최대 길이는 4096바이트 또는 유니코드 기준 2,048자입니다. 실제 데이터
유형과 관계없이 모든 값은 문자열로 저장됩니다. 따라서 상세 열 프로필의 값을 정렬할 때 문자열 정렬 순서가 적용됩니다.
FrequencyCount 이 값이 얼마나 자주 나타나는지.
GeneralFormat 데이터 값의 문자 패턴을 나타내는 형식. 모든 알파벳 문자는 해당 문자의 대소문자 여부에 따라 대문자 A 또는 소문자 a로 표현됩니다.
모든 숫자 문자는 숫자 9로 표현됩니다. 공백과 특수 문자는 실제 표시되는 그대로 나타납니다.
InferredDataType 추론된 데이터 유형(예: 정수, 문자열, 날짜 등).
ProjectId 분석이 수행된 프로젝트의 ID.
PropertyLength 문자열 필드의 길이.
PropertyPrecision 숫자 필드의 전체 길이.
PropertyScale 숫자 값의 스케일은 숫자 필드의 10진수 컴포넌트에 대한 총 길이입니다.

이 추가 열들은 내부 용도로만 사용되며, 사전 공지 없이 변경될 수 있습니다:

  • 클래스
  • ChangedByUser
  • DataClassificationStatusFlag
  • DomainPattern
  • DomainValueFlag
  • DomainValueFlagDate
  • DomainValueFlaggedByUser
  • FieldNumber
  • FormatFlag
  • FormatFlagDate
  • FormatFlaggedByUser
  • InvalidReasonCode
  • ODBC 유형
  • SourceOfDistinctValue
  • TypeCode
  • TypeOfDomainValue

자세히 보기