Medidas para datos binarios (mandato PROXIMITIES)
Diferentes medidas binarias enfatizan diferentes aspectos de la relación entre conjuntos de valores binarios. Sin embargo, todas las medidas se especifican de la misma manera. Cada medida tiene dos parámetros de valor entero opcionales, p (presente) y np (no presente).
- Si se especifican ambos parámetros,
PROXIMITIESutiliza el valor del primer parámetro como indicador de la presencia de una característica yPROXIMITIESutiliza el valor del segundo parámetro como indicador de la ausencia de una característica.PROXIMITIESomite todos los demás valores. - Si sólo se especifica el primer parámetro,
PROXIMITIESutiliza ese valor para indicar la presencia y utiliza todos los demás valores para indicar la ausencia. - Si no se especifica ningún parámetro,
PROXIMITIESpresupone que 1 indica presencia y 0 indica ausencia.
Utilizando los indicadores de presencia y ausencia dentro de cada elemento (caso o variable), PROXIMITIES construye una tabla de contingencia 2 × 2 para cada par de elementos y utiliza esta tabla para calcular una medida de proximidad para el par.
| Características del elemento 2 presentes | Características del artículo 2 Ausente | |
|---|---|---|
| Características del elemento 1 presentes | A | b |
| Características del artículo 1 Ausente | c | d |
PROXIMITIES calcula todas las medidas binarias a partir de los valores de a, b, cy d. Estos valores se contabilizan entre variables (cuando los elementos son casos) o casos (cuando los elementos son variables). Por ejemplo, si las variables V, W, X, Y, Z tienen los valores 0, 1, 1, 0, 1 para el caso 1 y tienen los valores 0, 1, 1, 0, 0 para el caso 2 (donde 1 indica presencia y 0 indica ausencia), la tabla de contingencia es la siguiente:
Características del caso 1 Presente. 2
Características del caso 2 Ausencia. 0
La tabla de contingencia indica que ambos casos están presentes para dos variables (W y X), ambos casos están ausentes para dos variables (V e Y), y el caso 1 está presente y el caso 2 está ausente para una variable (Z). No hay variables para las que el caso 1 esté ausente y el caso 2 esté presente.
Las medidas binarias disponibles incluyen coeficientes coincidentes, probabilidades condicionales, medidas de previsibilidad y otras medidas.
Coeficientes coincidentes. La tabla siguiente muestra un esquema de clasificación para los coeficientes coincidentes de PROXIMITIES . En este esquema, las coincidencias son presencias conjuntas (valor a en la tabla de contingencia) o ausencias conjuntas (valor d). Las no coincidencias son iguales en número al valor b más el valor c. Las coincidencias y las no coincidencias se pueden ponderar por igual o no. Los tres coeficientes JACCARD, DICEy SS2 están relacionados de forma monótona, al igual que SM, SS1y RT. Todos los coeficientes de la tabla son medidas de similitud y todos los coeficientes exceptoK1 y SS3 van de 0 a 1. K1 y SS3 tienen un valor mínimo de 0 y no tienen límite superior.
| Ausencias conjuntas excluidas del numerador | Ausencias conjuntas incluidas en el numerador | |
|---|---|---|
| Todas las coincidencias incluidas en el denominador, igual peso para las coincidencias y no coincidencias | RR | SM |
| Todas las coincidencias incluidas en el denominador, peso doble para las coincidencias | SS1 | |
| Todas las coincidencias incluidas en el denominador, peso doble para las no coincidencias | RT | |
| Ausencias conjuntas excluidas del denominador, igual peso para las coincidencias y no coincidencias | jaccard | |
| Ausencias conjuntas excluidas del denominador, doble peso para las coincidencias | Fragmento | |
| Ausencias conjuntas excluidas del denominador, doble peso para las no coincidencias | SS2 | |
| Todas las coincidencias excluidas del denominador, igual peso para coincidencias y no coincidencias | K1 | SS3 |
RR [(p [, np])]. Medida de similaridad de Russell y Rao. Esta medida es el producto de punto binario.
SM [(p [, np])]. Medida de similitud coincidente simple. Esta medida es la relación entre el número de coincidencias y el número total de características.
JACCARD [(p [, np])]. Medida de similaridad de Jaccard. Esta medida también se conoce como proporción de similitud.
DICE [(p [, np])]. Medida de similitud de Dice (o Czekanowski o Sorenson).
SS1[(p[, np])]. Medida de similaridad de Sokal y Sneath 1.
RT [(p [, np])]. Medida de similitud de Rogers y Tanimoto.
SS2[(p[, np])]. Medida de similaridad de Sokal y Sneath 2.
K1[(p[, np])]. Medida de similaridad de Kulczynski 1. Esta medida tiene un valor mínimo de 0 y ningún límite superior. La medida no está definida cuando no hay no coincidencias (b= 0 y c= 0).
SS3[(p[, np])]. Medida de similaridad de Sokal y Sneath 3. Esta medida tiene un valor mínimo de 0 y ningún límite superior. La medida no está definida cuando no hay no coincidencias (b= 0 y c= 0).
Probabilidades condicionales. Las siguientes medidas binarias producen valores que se pueden interpretar en términos de probabilidad condicional. Las tres medidas son medidas de similitud.
K2[(p[, np])]. Medida de similaridad de Kulczynski 2. Esta medida produce la probabilidad condicional promedio de que una característica esté presente en un elemento dado que la característica está presente en el otro elemento. La medida es un promedio en ambos elementos que actúan como predictores. La medida tiene un rango de 0 a 1.
SS4[(p[, np])]. Medida de similaridad de Sokal y Sneath 4. Esta medida produce la probabilidad condicional de que una característica de un elemento esté en el mismo estado (presencia o ausencia) que la característica del otro elemento. La medida es un promedio en ambos elementos que actúan como predictores. La medida tiene un rango de 0 a 1.
HAMANN [(p [, np])]. Medida de similaridad de Hamann. Esta medida da la probabilidad de que una característica tenga el mismo estado en ambos elementos (presentes en ambos o ausentes de ambos) menos la probabilidad de que una característica tenga estados diferentes en los dos elementos (presentes en uno y ausentes en el otro). HAMANN tiene un rango de − 1 a + 1 y está relacionado monotónicamente con SM, SS1y RT.
Medidas de previsibilidad. Las siguientes cuatro medidas binarias evalúan la asociación entre los ítems como la previsibilidad de un ítem dado el otro ítem. Las cuatro medidas arrojan similitudes.
LAMBDA [(p [, np])]. La lambda de Goodman y Kruskal (similitud). Este coeficiente evalúa la previsibilidad del estado de una característica en un elemento (presente o ausente) dado el estado en el otro elemento. Específicamente, LAMBDA mide la reducción proporcional del error, utilizando un elemento para predecir el otro elemento cuando las direcciones de predicción son de igual importancia. LAMBDA tiene un rango de 0 a 1.
D [(p [, np])]. Anderberg D (similitud). Este coeficiente evalúa la previsibilidad del estado de una característica en un elemento (presente o ausente) dado el estado en el otro elemento. D mide la reducción real de la probabilidad de error cuando se utiliza un elemento para predecir el otro elemento. El rango de D es de 0 a 1.
Y [(p [, np])]. Coeficiente de coligación Y de Yule (similitud). Esta medida es una función de la relación cruzada para una tabla de 2 × 2 y tiene un rango de − 1 a +1.
Q [(p [, np])]. Yule P (similitud). Esta medida es la versión 2 × 2 de la medida ordinal de Goodman y Kruskal gamma. Al igual que Yde Yule, Q es una función de la razón cruzada para una tabla 2 × 2 y tiene un rango de − 1 a +1.
Otras medidas binarias. Las medidas binarias restantes que están disponibles en PROXIMITIES son equivalentes binarios de medidas de asociación para variables continuas o medidas de propiedades especiales de la relación entre elementos.
OCHIAI [(p [, np])]. Medida de similaridad de Ochiai. Esta medida es la forma binaria del coseno y tiene un rango de 0 a 1.
SS5[(p[, np])]. Medida de similaridad de Sokal y Sneath 5. El rango oscila entre 0 y 1.
PHI [(p [, np])]. Correlación de punto cuádruple (similitud). Esta medida es la forma binaria del coeficiente de correlación producto-momento de Pearson.
BEUCLID [(p [, np])]. Distancia euclídea binaria. Esta medida es una medida de distancia. Su valor mínimo es 0 y no tiene límite superior.
BSEUCLID [(p [, np])]. Distancia euclídea cuadrática binaria. Esta medida es una medida de distancia. Su valor mínimo es 0 y no tiene límite superior.
TAMAÑO [(p [, np])]. Diferencia de tamaño. Esta medida es una medida de disimilaridad con un valor mínimo de 0 y sin límite superior.
PATRÓN [(p [, np])]. Diferencia de configuración. Esta medida es una medida de disimilaridad. El rango oscila entre 0 y 1.
BSHAPE [(p [, np])]. Diferencia de forma binaria. Esta medida de disimilaridad no tiene límite superior o inferior.
DISPER [(p [, np])]. Medida de similaridad de dispersión. El rango es de − 1 a +1.
VARIANCE [(p [, np])]. Medida de disimilaridad de varianza. Esta medida tiene un valor mínimo de 0 y ningún límite superior.
BLWMN [(p [, np])]. Medida de disimilaridad no métrica de Lance-and-Williams binaria. Esta medida también se conoce como coeficiente no métrico Bray-Curtis. El rango oscila entre 0 y 1.
Ejemplo
PROXIMITIES A B C
/MEASURE=RR(1,2).
MEASUREcalcula los coeficientes Russell y Rao a partir de los datos en los que 1 indica la presencia de una característica y 2 indica la ausencia. Se hace caso omiso de otros valores.
Ejemplo
PROXIMITIES A B C
/MEASURE=SM(2).
MEASUREcalcula coeficientes de coincidencia simples a partir de datos en los que 2 indica presencia y todos los demás valores indican ausencia.