Обзор пропущенных значений

На этапе подготовки данных к исследованию часто требуется заменить пропущенные значения. Пропущенные значения - эта значения в наборе данных, которые неизвестны, не собраны или введены с ошибками. Обычно это недопустимые значения для соответствующих полей. Например, пусть поле Пол должно содержать только значения М и Ж. Обнаружив в этом поле значения Д или X, вы можете смело предположить, что эти значения некорректны и должны считаться пропусками. Аналогичным образом, отрицательное значение в поле Возраст не имеет смысла и тоже должно интерпретироваться как пропущенное. Иногда такие очевидно неверные значения вводятся при опросе специально, чтобы сообщить об отказе от ответа. Иногда нужно изучить такие пробелы внимательнее, чтобы выяснить, не служит ли отказ от ответа, например, отказ назвать свой возраст, фактором в предсказании конкретного исхода.

Некоторые технологии моделирования хорошо справляются с пропущенными значениями, некоторые хуже. Так, C5.0 и Apriori хорошо справляются со значениями, которые явным образом объявляются "пропущенными" на узле типа. Другие технологии моделирования испытывают трудности при обработки пропущенных значений, увеличивается время обучения, снижается точность генерируемых моделей.

Существует несколько типов пропущенных значений, распознаваемых IBM® SPSS Modeler:

  • Пустые или системные пропущенные значения. Это те нестроковые значения, которые были оставлены в виде пробельных символов в базе данных или файле источника, а не были особо определены как "пропущенные" на узле источника или типа. Системные пропущенные значения выводятся как $null$. Имейте в виду, что пустые строки не рассматриваются как пустые значения (NULL) в IBM SPSS Modeler, хотя и могут обрабатываться как пустые значения некоторыми базами данных.
  • Пустые строки и пробельные значения. Значения пустых строк и пробельные значения (строки без видимых символов) обрабатываются не так, как пустые значения (NULL). Пустые строки обрабатываются для большинства целей как эквивалент пробельным значениям. Например, если выбрать опцию для обработки пробельных значений как пробельных символов на узле источника или типа, эта настройка будет также применена и к пустым строкам.
  • Пустые или пользовательские пропущенные значения. Существуют значения (например, unknown, 99 или –1), которые определяются на узле источника или узле типа явным образом как пропущенные значения. Дополнительно можно выбрать опцию обработки пустых значений (NULL) и пробельных значений как пробельных символов, что позволит пометить их флагами для специальной обработки и исключить из большинства вычислений. Например, функция @BLANK позволяет обрабатывать эти значения (также, как и пропущенные значения других типов) как пробельные символы.

Считывание смешанных данных. Обратите внимание на то, что при чтении полей с числовыми данными (таким как целые числа, действительные числа, время, отметка времени, дата) нечисловые значения задаются как пустые или пропущенные значения системы. Это связано с тем, что, в отличие от некоторых других прикладных программ, здесь не допускается смешение разных типов данных в одном поле. Чтобы предотвратить это, поля со смешанными данными следует считывать как строки, изменив им тип на узле источника или во внешней прикладной программе.

Чтение пустых строк из Oracle. При чтении из базы данных Oracle или записи в нее данных следует знать, что в отличие от IBM SPSS Modeler и от большинства других баз данных Oracle обрабатывает и хранит значения пустых строк, приравнивая их к пустым значениям (NULL). Это означает, что данные, извлеченные из базы данных Oracle, могут вести себя не так, как данные, извлеченные из файла или другой базы данных, и могут возвратить другие результаты.