Анализ пропущенных значений

Процедура Анализ пропущенных значений выполняет три основных функции:

  • Описывает структуру пропущенных данных. Где расположены пропущенные значения? Насколько широкую область они охватывают? Есть ли тенденция к пропуску значений в нескольких наблюдениях у пар переменных? Принимают ли данные крайние значения? Носят ли пропуски случайный характер?
  • Оценивает средние, среднеквадратичные отклонения, ковариации и корреляции для различных методов обработки пропущенных значений: по спискам, попарно, регрессия или ОМП (максимизация ожиданий). Попарный метод выводит также частоты полных пар наблюдений.
  • Производит вставку (импутацию) на место пропущенных значений оценочных значений, используя метод регрессии или ОМП (максимизация ожиданий); впрочем, есть метод, который обычно дает более точные результаты - это множественная импутация.

Анализ пропущенных значений помогает в борьбе с рядом серьезных проблем, порождаемых неполнотой данных. Если наблюдения с пропущенными значениями имеют систематические отличия от наблюдений без пропущенных значений, результаты могут вводить в заблуждение. Кроме того, пропущенные данные могут снизить точность рассчитанной статистики, поскольку информации окажется меньше, чем планировалось. Во многих статистических процедурах подразумевается, что анализ основан на полных наблюдениях, а для учета отсутствующих значений требуется более сложная теория.

Пример. При оценки терапии лейкемии измеряется несколько переменных. Но не для всех пациентов доступны все измерения. Структуры пропущенных данных выведены, сведены в таблицы и признаны случайными. При помощи анализа ОМП (максимизация ожиданий) оцениваются средние, корреляции и ковариации. Он же используется, чтобы определить, что пропуски в данных вполне случайны. Затем пропущенные значения заменяются на значения импутации и сохраняются в новом файле данных для дальнейшего анализа.

Статистика. Одномерная статистика, включая число непропущенных значений, среднее, среднеквадратичное отклонение, число пропущенных значений и число крайних значений. Оценки среднего, ковариационные матрицы и матрицы корреляции, полученные списочным методом, попарно, методом ОМП или регрессией. Критерий Литтла MCAR с результатами ОМП. Сводка средних по разным методам. Для групп, определенных по соотношению пропущенных и непропущенных значений: t-критерии. Для всех переменных: структуры пропущенных значений, выведенные как наблюдения по переменным.

Данные

Данные. Данные могут быть категориальными или количественными (непрерывными). Но оценка статистики и импутация пропущенных значений возможны только для количественных данных. Для каждой переменной пропущенные значения, не помеченные как системные значения отсутствия, должны быть определены как пользовательские значения отсутствия. Например, если ответу Не знаю на пункт анкеты присвоен код 5 и нужно обработать его как пропущенный, пометьте для этого пункта значение 5 как пользовательское значение отсутствия. Дополнительную информацию смотрите в разделе Пропущенные значения.

Частотные веса Эта процедура учитывает частотные веса (веса репликации). Наблюдения с отрицательным или нулевым значением веса репликации игнорируются. Нецелые веса усекаются.

Допущения. Оценка списком, попарно и регрессией зависит от предположения, что структура пропусков не зависит от значений данных. (Это условие называется missing completely at random, или MCAR.) Таким образом, все методы оценки (включая ОМП) дают согласованные и неискаженные оценки корреляций и ковариаций, если все данные - MCAR. Нарушение предположения о MCAR может приводить к искаженным оценкам по списочному или попарному методу или при регрессии. Если данные - не MCAR, нужно использовать оценку ОМП.

Оценка ОМП зависит от предположения, что структура пропущенных значений связана только с наблюдаемыми данными. (Это условие называется missing at random, или MAR.) Это предположение позволяет уточнять оценку, используя доступную информацию. Например, пусть при исследовании образования и дохода пропуски значений дохода чаще встречаются у субъектов с низким уровнем образования. В этом случае данные - MAR, а не MCAR. Другими словами, в случае MAR вероятность указать в анкете доход зависит от уровня образования субъекта. Вероятность может меняться с уровнем образования, но не с доходом в пределах того же уровня образования. Если вероятность записать доход изменяется в зависимости от дохода при одном уровне образования (например, люди с высокими доходами отказываются сообщать об этом), то эти данные ни MCAR, ни MAR. Это достаточно распространенная ситуация, и в ней ни один из методов не применим.

Родственные процедуры. Многие процедуры дают возможность проводить оценки списком или попарно. При линейной регрессии и факторном анализе можно заменить пропущенные значения на средние. В дополнительном модуле Прогнозирование доступно несколько методов для замены пропущенных значений во временных рядах.

Чтобы выполнить анализ пропущенных значений

Для этой функциональной возможности требуется модуль Missing Values.

  1. Выберите в меню:

    Анализ > Анализ пропущенных значений...

  2. Выберите хотя бы одну количественную переменную для оценки статистики и, если нужно, импутации пропущенных значений.

Дополнительно вы можете:

  • Выберите категориальные переменные (числовые или строковые) и введите предел для числа категорий (Максимум категорий).
  • Выберите Структуры, чтобы представить в табличном виде структуры пропущенных данных. Дополнительную информацию смотрите в разделе Вывод структур пропущенных значений.
  • Выберите Описательные, чтобы вывести описательную статистику пропущенных значений. Дополнительную информацию смотрите в разделе Вывод описательной статистики для пропущенных значений.
  • Выберите метод для оценки статистики (средних, ковариаций и корреляций) и, возможно, импутации пропущенных значений. Дополнительную информацию смотрите в разделе Оценка статистики и импутация пропущенных значений.
  • Если выбрать ОМП (максимизация ожиданий) или Регрессия, нужно щелкнуть по Переменные и задать поднабор, используемый для оценки. Дополнительную информацию смотрите в разделе Предсказанные переменные и переменные-предикторы.
  • Выберите переменную меток наблюдений. Эта переменная служит для меток наблюдений в таблицах структуры, содержащих отдельные наблюдения.