Análisis de valores perdidos

El procedimiento Análisis de valores perdidos realiza tres funciones principales:

  • Describe el patrón de los datos perdidos. ¿Dónde se encuentran los valores perdidos? ¿Con qué frecuencia aparecen? ¿Hay pares de variables que tienden a tener valores perdidos en varios casos? ¿Son los valores de los datos extremos? ¿Están los valores perdidos de forma aleatoria?
  • Estimar las medias, desviaciones estándar, covarianzas y correlaciones para los diferentes métodos de valores perdidos: por lista, por parejas, regresión o EM (maximización esperada). El método por parejas muestra, además, recuentos de los casos completos por parejas.
  • Rellena (imputa) los valores perdidos con valores estimados utilizando el método EM o el de regresión; sin embargo, por lo general se considera que la imputación múltiple proporciona resultados más precisos.

El análisis de valores perdidos ayuda a resolver varios problemas ocasionados por los datos incompletos. Si los casos con valores perdidos son sistemáticamente diferentes de los casos sin valores perdidos, los resultados pueden ser equívocos. Además, los datos perdidos pueden reducir la precisión de los estadísticos calculados, porque no se dispone de tanta información como originalmente se pensaba. Otro problema radica en que los supuestos subyacentes a muchos procedimientos estadísticos se basan en casos completos y los valores perdidos pueden complicar la teoría exigida.

Ejemplo. En la evaluación de un tratamiento contra la leucemia se miden diversas variables. Sin embargo, no todas las mediciones se encuentran disponibles para todos los pacientes. Los patrones de los datos perdidos se inspeccionan, se tabulan y se consideran aleatorios. Se utiliza un análisis EM para estimar las medias, las correlaciones y las covarianzas. También se utiliza para determinar que los datos están perdidos completamente al azar. A continuación, los valores perdidos se reemplazan por los valores imputados y se guardan en un nuevo archivo de datos para análisis posteriores.

Estadísticas. Estadísticos univariados, incluido el número de valores no perdidos, media, desviación estándar, número de valores perdidos y número de valores extremos. Medias estimadas, matriz de covarianza y matriz de correlaciones, utilizando los métodos de regresión, EM, por lista o por parejas. Prueba MCAR de Little con resultados EM. Resumen de medias a través de varios métodos. Para los grupos definidos por valores perdidos frente a valores no perdidos: pruebas t. Para todas las variables: los patrones de valores perdidos representados como casos respecto a variables.

Consideraciones sobre los datos

Datos. Los datos pueden ser categóricos o cuantitativos (de escala o continuos). Sin embargo, puede estimar los estadísticos e imputar los datos perdidos únicamente en el caso de variables cuantitativas. Para cada variable, los valores perdidos que no están codificados como valores perdidos del sistema deben definirse como valores perdidos del usuario. Por ejemplo, si un elemento del cuestionario tiene la respuesta No sabe codificada como 5 y desea tratarlo como valor perdido, el elemento debería tener el 5 codificado como valor perdido del usuario. Consulte el tema Valores perdidos para obtener más información.

Ponderaciones de frecuencia. Este procedimiento respeta las ponderaciones de frecuencia (réplica). Los casos con un valor negativo o cero de valor de ponderación de réplica se ignoran. Las ponderaciones no enteras se truncan.

Supuestos. La estimación por lista, por parejas y mediante regresión depende del supuesto de que el patrón de valores perdidos no depende de los valores de los datos (esta condición se conoce como perdidos completamente al azar o MCAR). (Esta condición se conoce como perdida completamente al azar o MCAR). Por tanto, todos los métodos (incluido el método EM) de estimación ofrecen estimaciones coherentes y no sesgadas de las correlaciones y las covarianzas cuando los datos son MCAR. El incumplimiento del supuesto MCAR puede dar lugar a estimaciones sesgadas producidas por los métodos de regresión, por lista o por parejas. Si los datos no son MCAR, es necesario utilizar la estimación EM.

La estimación EM depende del supuesto de que el patrón de los datos perdidos está relacionado únicamente con los datos observados. (Esta condición se llama perdido al azar, o MAR). Esta suposición permite ajustar las estimaciones utilizando la información disponible. Por ejemplo, en un estudio sobre la educación y los ingresos, los sujetos con un menor nivel educativo pueden tener más valores perdidos de ingresos. En este caso, los datos son MAR, no MCAR. Es decir, para MAR, la probabilidad de que se registren los ingresos depende del nivel educativo del sujeto. La probabilidad puede variar según el nivel educativo pero no según los ingresos dentro de ese nivel educativo. Si la probabilidad de que los ingresos se registren también varía según el valor de los ingresos dentro de cada nivel educativo (por ejemplo, las personas con ingresos altos no los reportan), entonces los datos no son ni MCAR ni MAR. No se trata de una situación poco común y, si corresponde, ninguno de los métodos es apropiado.

Procedimientos relacionados. Muchos procedimientos permiten utilizar la estimación por lista o por parejas. Regresión lineal y Análisis factorial permiten reemplazar los valores perdidos por los valores de las medias. El módulo adicional Predicciones ofrece varios métodos para reemplazar los valores perdidos en las series temporales.

Para obtener un análisis de valores perdidos

Esta característica requiere la opción Valores perdidos.

  1. En los menús seleccione:

    Analizar > Análisis de valores perdidos ...

  2. Seleccione al menos una variable cuantitativa (de escala) para estimar los estadísticos y, si lo desea, imputar los valores perdidos.

Si lo desea, puede:

  • Seleccionar variables categóricas (numéricas o de cadena) y establecer un límite para el número de categorías (N.º máximo de categorías).
  • Pulse en Patrones para tabular los patrones de los datos perdidos. Consulte el tema Visualización de patrones de valores perdidos para obtener más información.
  • Pulse en Descriptivos para mostrar los estadísticos descriptivos de los valores perdidos. Consulte el tema Visualización de estadísticos descriptivos para valores perdidos para obtener más información.
  • Seleccione un método para estimar los estadísticos (medias, covarianzas y correlaciones) y posiblemente imputar los valores perdidos. Consulte el tema Estimación de estadísticas e imputación de valores perdidos para obtener más información.
  • Si selecciona EM o Regresión, pulsar en Variables para especificar el subconjunto que se va a utilizar para la estimación. Consulte el tema Variables predictoras y predictoras para obtener más información.
  • Seleccione una variable de etiqueta de caso. Esta variable se utiliza para etiquetar los casos en las tablas de patrones que muestran los casos individuales.