Проверка качества данных
Данные редко бывают идеальными. Фактически, в большинстве данных содержатся ошибки кодирования, пропущенные значения или несогласованности другого типа, которые иногда сильно затрудняют анализ. Один из способов исключить возможные проколы - провести подробный анализ качества доступных данных, прежде чем переходить к моделированию.
Инструменты составления отчетов в IBM® SPSS Modeler (такие как Аудит данных, Таблица и другие узлы выходных данных) могут помочь найти проблемы следующего типа:
- Отсутствующие данные, в том числе значения, представленные пробельными символами, а также закодированные как отсутствие ответа (например, $-$, ? или 999).
- Ошибки данных - обычно это опечатки при вводе данных.
- Ошибки измерений включают в себя данные, которые введены правильно, но основаны на неправильной схеме измерений.
- Несогласованность кодирования обычно связана с использованием нестандартных единиц измерения или несогласованности значений, например, использование и буквы M, и слова муж. для указания гендерной принадлежности.
- Плохие метаданные включают в себя несогласованности между очевидным значение поля и названием поля или определением.
Не забудьте записать обнаруженные проблемы качества. Дополнительную информацию смотрите в разделе Написание отчета о качестве данных.