Введение в обработку пропущенных значений
Наблюдения с пропущенными значениями представляют значительную трудность; обычно процедуры моделирования просто исключали такие наблюдения из анализа. Если пропусков значений немного (грубо говоря, меньше 5% от общего числа наблюдений) и при том их можно считать случайными (то есть пропуск значения не зависит от значений остальных переменных), то обычный метод - исключить их всем списком - более или менее безопасен. Опция Пропущенные значения поможет вам выяснить, можно ли обойтись исключением их всем списком, и если нет - предложит другие методы обработки пропущенных значений.
Сравнение процедур Анализ пропущенных значений и Множественная импутация
Опция Пропущенные значения содержит два набора процедур для обработки пропущенных значений:
- Процедуры Множественной импутации поддерживают анализ структур пропущенных данных, конечная цель которого - импутация пропущенных значений. Это значит, что генерируются разные версии набора данных, содержащие свои наборы значений импутации. При статистическом анализе сводятся вместе оценки параметров для всех наборов данных, полученных при разных импутациях, и получаются оценки, которые обычно точнее, чем при одиночной импутации.
- Анализ пропущенных значений поддерживает набор описательных инструментов анализа пропущенных данных, имеющий свои особенности (прежде всего, критерий Литтла MCAR) и содержащий целый ряд методов одиночной импутации. Имейте в виду, что множественная импутация обычно рассматривается как более мощная процедура по сравнению с одиночной.
Задачи пропущенных значений
Вы можете начать работу с анализом пропущенных значений, выполнив следующие основные шаги:
- Изучить пропуски. При помощи процедур Анализ пропущенных значений и Анализ структур можно изучить структуры пропусков в данных и выяснить, есть ли необходимость во множественной импутации.
- Импутировать пропущенные значения При помощи процедуры Заполнить пропущенные значения можно выполнить множественную импутацию пропущенных значений.
- Анализировать "полные" данные. Можно использовать любую процедуру, которая поддерживает множественную импутацию пропущенных значений. Информацию об анализе наборов данных множественной импутации и список процедур, поддерживающих такие данные, смотрите в разделе Анализ данных множественной импутации.