도수 분포 테이블
데이터 자산에 대해 고급 프로파일링을 실행하면, 소스 데이터를 기반으로 해당 자산의 각 열에 포함된 고유 값에 대한 상세한 빈도 분포가 산출됩니다.
기본, 프리미엄, 스탠다드. 별도로 명시되지 않는 한, 이 정보는 ‘ IBM Knowledge Catalog ’의 모든 에디션에 적용됩니다.
고급 프로파일링 실행 설정을 구성할 때, 빈도 분포 정보의 전부 또는 일부를 데이터베이스 테이블에 기록하도록 선택할 수 있습니다. 이 테이블은 상세 열 프로필을 통해 확인할 수 있습니다.
그러나 열 프로필에서는 문자열 값과 같은 비수치형 값의 분포 통계는 실제로 저장된 값의 개수와 관계없이 고유한 값 중 처음 100개만 표시됩니다. 출력 테이블의 모든 값에 액세스하려면 표준 데이터베이스 쿼리나 IBM Knowledge Catalog API를 사용하십시오.
테이블에는 각 고유 값에 대해 다음 정보가 포함되어 있습니다:
| 컬럼 이름 | 설명 |
|---|---|
| AssetId | 프로젝트 내 데이터 자산의 ID. |
| ChangeDate | 정보가 업데이트된 날짜. |
| ColumnName | 데이터 자산 내 열의 이름. |
| DataClassification | 데이터 자산의 해당 열에 할당된 데이터 클래스의 ID 목록으로, 쉼표(,)로 구분됩니다. 해당 열에 데이터 클래스가 할당되지 않은 경우, 표에는 ‘.’이 표시됩니다 U. |
| DistinctValue | 해당 열의 실제 데이터 값. 최대 길이는 4096바이트 또는 유니코드 기준 2,048자입니다. 실제 데이터 유형과 관계없이 모든 값은 문자열로 저장됩니다. 따라서 상세 열 프로필의 값을 정렬할 때 문자열 정렬 순서가 적용됩니다. |
| FrequencyCount | 이 값이 얼마나 자주 나타나는지. |
| GeneralFormat | 데이터 값의 문자 패턴을 나타내는 형식. 모든 알파벳 문자는 해당 문자의 대소문자 여부에 따라 대문자 A 또는 소문자 a로 표현됩니다. 모든 숫자 문자는 숫자 9로 표현됩니다. 공백과 특수 문자는 실제 표시되는 그대로 나타납니다. |
| InferredDataType | 추론된 데이터 유형(예: 정수, 문자열, 날짜 등). |
| ProjectId | 분석이 수행된 프로젝트의 ID. |
| PropertyLength | 문자열 필드의 길이. |
| PropertyPrecision | 숫자 필드의 전체 길이. |
| PropertyScale | 숫자 값의 스케일은 숫자 필드의 10진수 컴포넌트에 대한 총 길이입니다. |
이 추가 열들은 내부 용도로만 사용되며, 사전 공지 없이 변경될 수 있습니다:
- 클래스
- ChangedByUser
- DataClassificationStatusFlag
- DomainPattern
- DomainValueFlag
- DomainValueFlagDate
- DomainValueFlaggedByUser
- FieldNumber
- FormatFlag
- FormatFlagDate
- FormatFlaggedByUser
- InvalidReasonCode
- ODBC 유형
- SourceOfDistinctValue
- TypeCode
- TypeOfDomainValue