Частота, количество валидных значений и пропущенные значения

Часто бывает полезным показать количество наблюдений, которые использовались для подсчета итожащих статистик, таких как среднее значение, и вы можете небезосновательно полагать, что эту информацию можно получить при помощи итожащей статистики Количество. Однако эта статистика не даст вам правдивую информацию в том случае, если в данных присутствуют пропущенные наблюдения. Для получения реального количества наблюдений, использованных в расчетах, необходимо задать статистику Валидные.

  1. Откройте мастер таблиц (меню Анализ, Таблицы, Настраиваемые таблицы) .
  2. Щелкните правой кнопкой мыши по любой из трех количественных переменных на панели макета в мастере таблиц и выберите во всплывающем меню Итожащие статистики.
  3. В диалоговом окне Итожащие статистики выберите в списке Статистики Количество и щелкните по кнопке со стрелкой, чтобы добавить ее в список Показать.
  4. Выберите в списке Статистики Валидные и щелкните по кнопке со стрелкой, чтобы добавить ее в список Показать.
  5. Щелкните Применить ко всем, чтобы применить сделанные изменения ко всем трем количественным переменным.
  6. Щелкните OK в построителе таблиц для создания таблицы.
    Рис. 1. Сравнение значения частоты с количеством валидных значений
    Сравнение значения частоты с количеством валидных значений

    Для всех трех переменных значение статистики Частота одинаково: 2832. И это не является случайностью, поскольку таково общее количество наблюдений в файле данных. Поскольку количественные переменные не являются вложенными в категориальные переменные, Частота представляет собой общее количество наблюдений в файле данных.

    Значения статистики Валидные, с другой стороны, отличаются для различных переменных; особенно сильно значение данной статистики отличается от значения статистики Количество для переменной Число часов в день, проводимых у телевизора. Причина заключается в том, что данная переменная имеет большое количество пропущенных значений -- наблюдений, в которых данная переменная не имеет значений или имеет значения, помеченные пользователем как пропущенные (такие как код 99, описывающий вариант Не применим для мужчин при вопросе о беременности).

  7. Откройте мастер таблиц (меню Анализ, Таблицы, Настраиваемые таблицы) .
  8. Щелкните правой кнопкой мыши по любой из трех количественных переменных на панели холста в мастере таблиц и выберите во всплывающем меню Итожащие статистики.
  9. В диалоговом окне Итожащие статистики щелкните по статистике Валидные в списке Показать, а затем нажмите кнопку со стрелкой, чтобы удалить данную статистику из списка Показать.
  10. В диалоговом окне Итожащие статистики щелкните по статистике Количество в списке Показать, а затем нажмите кнопку со стрелкой, чтобы удалить данную статистику из списка Показать.
  11. Выберите в списке Статистики Пропущенные и нажмите кнопку со стрелкой, чтобы добавить данную статистику в список Показать.
  12. Щелкните Применить ко всем, чтобы применить сделанные изменения ко всем трем количественным переменным.
  13. Щелкните OK в мастере таблиц для создания таблицы.
Рис. 2. Число пропущенных значений, выведенное в таблице вместе с итожащими статистиками для количественных переменных
Число пропущенных значений, выведенное в таблице вместе с итожащими статистиками для количественных переменных

Теперь в таблице показано количество пропущенных значений для каждой количественной переменной. Теперь мы видим, что переменная Число часов в день, проводимых у телевизора имеет большое количество пропущенных значений, в то время как две другие переменные имеют мало пропущенных значений. Данный фактор нужно учитывать до того, как принимать какие-либо решения на основе полученных итожащих статистик.