Análisis discriminante

El análisis discriminante crea un modelo predictivo para la pertenencia al grupo. El modelo está compuesto por una función discriminante (o, para más de dos grupos, un conjunto de funciones discriminantes) basada en combinaciones lineales de las variables predictoras que proporcionan la mejor discriminación posible entre los grupos. Las funciones se generan a partir de una muestra de casos para los que se conoce el grupo de pertenencia; posteriormente, las funciones pueden ser aplicadas a nuevos casos que dispongan de mediciones para las variables predictoras pero de los que se desconozca el grupo de pertenencia.

Nota: La variable de agrupación puede tener más de dos valores. Los códigos de la variable de agrupación han de ser números enteros y es necesario especificar sus valores máximo y mínimo. Los casos con valores fuera de estos límites se excluyen del análisis.
Ejemplo
Por término medio, las personas de los países de zonas templadas consumen más calorías por día que las de los trópicos, y una proporción mayor de la población de las zonas templadas vive en núcleos urbanos. Un investigador desea combinar esta información en una función para determinar cómo de bien un individuo es capaz de discriminar entre los dos grupos de países. El investigador considera además que el tamaño de la población y la información económica también pueden ser importantes. El análisis discriminante permite estimar los coeficientes de la función discriminante lineal, que tiene el aspecto de la parte derecha de una ecuación de regresión lineal múltiple. Es decir, utilizando los coeficientes a, b, c y d, la función es:

D = a * clima + b * urbanos + c * población + d * producto interior bruto per cápita
Si estas variables resultan útiles para discriminar entre las dos zonas climáticas, los valores de D serán diferentes para los países templados y para los tropicales. Si se utiliza un método de selección de variables por pasos, quizás no se necesite incluir las cuatro variables en la función.
Estadísticos
Para cada variable: medias, desviaciones estándar, ANOVA univariado. Para cada análisis: M de Box, matriz de correlaciones intra-grupos, matriz de covarianzas intra-grupos, matriz de covarianzas de los grupos separados, matriz de covarianzas total. Para cada función discriminante canónica: autovalores, porcentaje de varianza, correlación canónica, lambda de Wilks, chi-cuadrado. Para cada paso: probabilidades previas, coeficientes de la función de Fisher, coeficientes de función no estandarizados, lambda de Wilks para cada función canónica.

Consideraciones sobre los datos

Datos
La variable de agrupación debe tener un número limitado de categorías distintas, codificadas como números enteros. Las variables independientes que sean nominales deben ser recodificadas a variables auxiliares o de contraste.
Supuestos
Los casos deben ser independientes. Las variables predictoras deben tener una distribución normal multivariada y las matrices de varianzas-covarianzas intra-grupos deben ser iguales en todos los grupos. Se asume que la pertenencia al grupo es mutuamente exclusiva (es decir, ningún caso pertenece a más de un grupo) y exhaustiva de modo colectivo (es decir, todos los casos son miembros de un grupo). El procedimiento es más efectivo cuando la pertenencia al grupo es una variable verdaderamente categórica; si la pertenencia al grupo se basa en los valores de una variable continua (por ejemplo, un cociente de inteligencia alto respecto a uno bajo), considere el uso de la regresión lineal para aprovechar la información más rica ofrecida por la propia variable continua.

Obtención de un análisis discriminante

Esta característica requiere la edición Base de Statistics.

  1. Seleccione en los menús:

    Analizar > Clasificación > Análisis discriminante

  2. Pulse Seleccionar variable en la sección Variable dependiente y seleccione una variable de agrupación de valores enteros que especifique las categorías de interés. Pulse Aceptar tras seleccionar la variable.
  3. Pulse el enlace Definir rango* junto a la variable dependiente y especifique el valor mínimo y máximo de la variable de agrupación para el análisis. Los casos con valores fuera de este rango no se utilizan en el análisis discriminante, pero sí se clasifican en uno de los grupos existentes a partir de los resultados que obtengan en el análisis. Los valores mínimo y máximo deben ser números enteros. Pulse Aceptar cuando haya terminado.
  4. Pulse Seleccionar variables en la sección Variables independientes y seleccione variables numéricas independientes (o predictores) que predicen mejor el valor de la variable dependiente. Pulse Aceptar tras seleccionar la variables.
    Nota: Si la variable de agrupación no tiene valores enteros, Transformar > Recodificación automática creará una variable que lo haga.
  5. Si lo desea, puede seleccionar el método para introducir las variables independientes.
    Introducir independientes juntas
    Introducir simultáneamente todas las variables independientes que satisfacen el criterio de tolerancia. Éste es el valor predeterminado.
    Usar método por pasos
    Utiliza el análisis por pasos para controlar la entrada y la eliminación de variables. Seleccione el estadístico que se va a utilizar para introducir o eliminar nuevas variables. Los métodos disponibles incluyen:
    Lambda de Wilks
    Método para la selección de variables por pasos del análisis discriminante que selecciona las variables para su introducción en la ecuación basándose en cuánto contribuyen a disminuir la lambda de Wilks. En cada paso se introduce la variable que minimiza la lambda de Wilks global.
    Varianza no explicada
    En cada paso se introduce la variable que minimiza la suma de la variación no explicada entre los grupos.
    Distancia de Mahalanobis
    Medida de cuánto difieren del promedio para todos los casos los valores en las variables independientes de un caso dado. Una distancia de Mahalanobis grande identifica un caso que tenga valores extremos en una o más de las variables independientes.
    Menor razón F
    Método para la selección de variables en los análisis por pasos que se basa en maximizar la razón F, calculada a partir de la distancia de Mahalanobis entre los grupos.
    V de Rao
    Medida de las diferencias entre las medias de los grupos. También se denomina la traza de Lawley-Hotelling. En cada paso, se incluye la variable que maximiza el incremento de la V de Rao. Después de seleccionar esta opción, introduzca el valor mínimo que debe tener una variable para poder incluirse en el análisis.
  6. Si lo desea, pulse Seleccionar variable en la sección Variable de selección de casos y seleccione una variable que limite el análisis a un subconjunto de casos que incluyan valores concretos para la variable seleccionada. Pulse Aceptar tras seleccionar la variable.
  7. Opcionalmente, puede seleccionar las opciones siguientes del menú Configuración adicional:
    • Pulse Clasificación para especificar constantes, métodos por pasos y valores perdidos.
    • Pulse Estadísticos para seleccionar qué estadísticos se incluirán en el procedimiento.
    • Pulse Gráficos para especificar valores de gráficos.
    • Pulse Opciones para seleccionar las estadísticas o los valores que se van a utilizar para entrar o eliminar nuevas variables.
    • Pulse Guardar en conjunto de datos para añadir pertenencia a grupos pronosticados, probabilidades pronosticadas de pertenencia a grupos y/o puntuaciones de función discriminante.
    • Pulse Exportación del modelo para exportar coeficientes de función, matriz de funciones en centroides de grupo y previas al archivo XML especificado.
    • Pulse Programa de arranque para derivar estimaciones robustas de errores estándar e intervalos de confianza para estimaciones como, por ejemplo, la media, mediana, proporción, razón de probabilidad, coeficiente de correlación o coeficiente de regresión.

Este procedimiento pega la sintaxis de comandos DISCRIMINANT.