Проверка качества данных

Данные редко бывают идеальными. Фактически, в большинстве данных содержатся ошибки кодирования, пропущенные значения или несогласованности другого типа, которые иногда сильно затрудняют анализ. Один из способов исключить возможные проколы - провести подробный анализ качества доступных данных, прежде чем переходить к моделированию.

Инструменты составления отчетов в IBM® SPSS Modeler (такие как Аудит данных, Таблица и другие узлы выходных данных) могут помочь найти проблемы следующего типа:

  • Отсутствующие данные, в том числе значения, представленные пробельными символами, а также закодированные как отсутствие ответа (например, $-$, ? или 999).
  • Ошибки данных - обычно это опечатки при вводе данных.
  • Ошибки измерений включают в себя данные, которые введены правильно, но основаны на неправильной схеме измерений.
  • Несогласованность кодирования обычно связана с использованием нестандартных единиц измерения или несогласованности значений, например, использование и буквы M, и слова муж. для указания гендерной принадлежности.
  • Плохие метаданные включают в себя несогласованности между очевидным значение поля и названием поля или определением.

Не забудьте записать обнаруженные проблемы качества. Дополнительную информацию смотрите в разделе Написание отчета о качестве данных.