결측값의 개요
데이터 마이닝의 데이터 준비 단계 동안 종종 데이터에서 결측값을 대체하려고 할 수 있습니다. 결측값은 알려지지 않고, 수집되지 않거나 잘못 입력된 데이터 세트의 값입니다. 일반적으로 이러한 값은 필드에 유효하지 않습니다. 예를 들어, 성별 필드에는 M 및 F 값이 포함되어야 합니다. 필드에 Y 또는 Z 값이 있다면 이를 유효하지 않은 값으로 가정하여 공백으로 해석해야 합니다. 마찬가지로 연령 필드의 음수값은 의미가 없으므로 공백으로 해석되어야 합니다. 때때로 무응답을 보여주기 위해 질문지에 이렇게 명백하게 잘못된 값을 고의로 입력하거나 필드를 공백으로 두기도 합니다. 때로는 이러한 공백을 자세히 조사하여 누군가가 나이 제공을 거부하는 등 무응답한 것이 특정 결과를 예측하는 데 있어서 요인인지 여부를 판별하려고 할 수 있습니다.
몇몇 모델링 기술은 다른 기술보다 결측 데이터를 보다 잘 처리합니다. 예를 들어, C5.0 및 Apriori는 유형 노드에서 "결측"으로 명시적으로 선언된 값에 잘 대처합니다. 다른 모델링 기법은 결측값을 다루는 데 문제가 있고 학습 시간이 길고 정확성이 떨어지는 모델을 생성합니다.
IBM® SPSS® Modeler에 의해 인지되는 결측값에는 몇 가지 유형이 있습니다.
- 널 또는 시스템 결측값. 이들은 데이터베이스나 소스 파일에 공백으로 남겨졌고 소스 또는 유형 노드에서 "결측"으로 정의되지 않은 문자열이 아닌 값입니다. 시스템 결측값은 $null$로 표시됩니다. 빈 문자열은 특정 데이터베이스에 의해 널로 처리되더라도 IBM SPSS Modeler에서는 널로 간주되지 않음을 유의하십시오.
- 빈 문자열 및 공백.빈 문자열 값과 공백(눈에 보이는 문자가 없는 문자열)은 널값과는 별개로 처리됩니다. 빈 문자열은 대부분의 경우에서 공백과 동일하게 처리됩니다. 예를 들어, 소스나 유형 노드에서 공백을 공란으로 처리하는 옵션을 선택한 경우 이 설정은 빈 문자열에도 적용됩니다.
- 공백 또는 사용자 정의 결측값.이들은 소스 노드 또는 유형 노드에서
결측으로 명백하게 정의되어 있는
unknown,99또는–1등과 같은 값입니다. 또는 널과 공백을 공란으로 처리하기로 선택할 수도 있는데 그러면 이들은 특수 처리용으로 플래그가 지정되고 대부분의 계산에서 제외됩니다. 예를 들어,@BLANK함수를 사용하여 이들 값 및 다른 유형의 결측값을 공란으로 처리할 수 있습니다.
혼합 데이터 읽기. 숫자 저장 공간(정수, 실수, 시간, 시간소인 또는 날짜)이 있는 필드를 읽을 때 숫자가 아닌 값은 널 또는 시스템 결측값으로 설정됨을 유의하십시오. 이는 몇몇 애플리케이션과는 달리 필드 내에서 혼합된 저장 유형을 허용하지 않기 때문입니다. 이를 피하려면 혼합 데이터가 있는 필드는 소스 노드나 외부 애플리케이션에서 필요에 따라 저장 유형을 변경하여 문자열로 읽어야 합니다.
Oracle에서 빈 문자열 읽기. Oracle 데이터베이스에서 읽거나 Oracle 데이터베이스에 쓸 때 IBM SPSS Modeler 및 대부분의 다른 데이터베이스와 달리 Oracle은 빈 문자열 값을 널값과 같다고 간주하고 저장합니다. 이는 Oracle 데이터베이스에서 추출된 동일한 데이터가 파일 또는 다른 데이터베이스에서 추출된 경우와 다르게 동작하고 데이터가 다른 결과를 리턴할 수 있음을 의미합니다.