데이터 설명

데이터를 설명하는 방법은 여러 가지가 있지만 대부분의 설명은 데이터의 수량 및 품질(얼마나 많은 데이터가 사용 가능하며 데이터의 상태는 어떠한가)에 초점을 맞춥니다. 아래에는 데이터를 설명할 때 다루어야 하는 몇 가지 핵심 특성이 나열되어 있습니다.

  • 데이터의 양. 대부분의 모델링 기법에는 데이터 크기와 연관된 장단점이 있습니다. 큰 데이터 세트는 더 정확한 모델을 생성할 수 있지만 처리 시간이 늘어날 수 있습니다. 데이터의 서브세트를 사용하는 것이 적절한지 여부를 고려하십시오. 최종 보고서에 대한 설명을 작성할 때, 모든 데이터 세트의 크기 통계를 포함해야 하고 데이터를 설명할 때 레코드 수 뿐만 아니라 필드(속성)도 고려해야 하는 것을 명심하십시오.
  • 값 유형. 데이터는 숫자 또는 범주형(문자열) 또는 부울(true/false)와 같은 다양한 형식을 가질 수 있습니다. 값 유형에 주의하면 이후 모델링 중에 문제를 피할 수 있습니다.
  • 코딩 체계. 데이터베이스의 값은 성별 또는 제품 유형과 같은 특성의 표현인 경우가 빈번합니다. 예를 들어, 한 데이터 세트는 남성여성을 나타내기 위해 MF를 사용하고 다른 데이터 세트는 숫자 값 12를 사용할 수 있습니다. 데이터 보고서에서 충돌하는 체계를 확인하십시오.

이 지식을 갖췄으므로 이제 데이터 설명 보고서를 작성하고 결과물을 더 많은 대상과 공유할 준비가 되었습니다.