Импутация пропущенных значений
В отчете аудита выводится процент полных записей для каждого поля наряду с числом допустимых, пустых и пробельных значений. Можно выбрать импутацию пропущенных значений для конкретных полей нужным вам образом, а затем сгенерировать надузел для применения этих преобразований.
- В столбце Импутировать пропущенные задайте тип значений, которые вы хотите импутировать (если они есть). Можно выбрать импутацию пробельных значений или/и пустых значений либо задать пользовательское условие или выражение, выбирающее значение для импутации.
Существует несколько типов пропущенных значений, распознаваемых IBM® SPSS Modeler:
- Пустые или системные пропущенные значения. Это те нестроковые значения, которые были оставлены в виде пробельных символов в базе данных или файле источника, а не были особо определены как "пропущенные" на узле источника или типа. Системные пропущенные значения выводятся как $null$. Имейте в виду, что пустые строки не рассматриваются как пустые значения (NULL) в IBM SPSS Modeler, хотя и могут обрабатываться как пустые значения некоторыми базами данных.
- Пустые строки и пробельные значения. Значения пустых строк и пробельные значения (строки без видимых символов) обрабатываются не так, как пустые значения (NULL). Пустые строки обрабатываются для большинства целей как эквивалент пробельным значениям. Например, если выбрать опцию для обработки пробельных значений как пробельных символов на узле источника или типа, эта настройка будет также применена и к пустым строкам.
- Пустые или пользовательские пропущенные значения. Существуют значения (например,
unknown,99или–1), которые определяются на узле источника или узле типа явным образом как пропущенные значения. Дополнительно можно выбрать опцию обработки пустых значений (NULL) и пробельных значений как пробельных символов, что позволит пометить их флагами для специальной обработки и исключить из большинства вычислений. Например, функция@BLANKпозволяет обрабатывать эти значения (также, как и пропущенные значения других типов) как пробельные символы.
- В столбце Метод задайте метод, который вы хотите использовать.
Для импутации пропущенных значений доступны следующие методы:
Фиксированная. Подставляет фиксированное значение (среднее значение поля, среднюю точку диапазона либо задаваемую вами константу).
Переменный. Подставляет случайное значение на основе нормального или равномерного распределения.
Выражение. Позволяет задать пользовательское выражение. Например, можно заменить значения на глобальную переменную, созданную узлом задания глобальных значений.
Алгоритм. Подставляет значение, предсказанное моделью на основе алгоритма C&RT. Для каждого поля, импутированного этим методом, будет отдельная модель C&RT наряду с узлом заполнения, заменяющим пробелы и пустые значение на значение, предсказанное моделью. Затем узел заполнения будет использован для удаления сгенерированных моделью полей предсказания.
- Чтобы сгенерировать надузел пропущенных значений, в меню выберите:
Откроется диалоговое окно Надузел пропущенных значений.
- Выберите Все поля или Только выбранные поля и задайте размер выборки (по желанию). (Выборка задается в процентах; по умолчанию выбирается 10% всех записей.)
- Нажмите кнопку OK, чтобы добавить сгенерированный надузел на холст потока.
- Присоедините надузел к потоку, чтобы применить преобразования.
На надузле должным образом используется сочетание узлов слепка модели, заполнения и фильтра. Чтобы понять, как оно работает, можно отредактировать надузел и нажать кнопку Увеличить; можно также добавить, отредактировать или удалить конкретные узлы для надузла, чтобы точно настроить его поведение.