Distancias: Medidas de similaridad para datos binarios

Las siguientes medidas de similaridad están disponibles para datos binarios:

  • Russel y Rao. Se trata de una versión binaria del producto interno (punto). Se ofrece una ponderación igual a las coincidencias y a las no coincidencias. Ésta es la medida predeterminada para los datos de similaridad binarios.
  • Concordancia simple. Se trata de la razón de coincidencias respecto al número total de valores. Se ofrece una ponderación igual a las coincidencias y a las no coincidencias.
  • Jaccard. Se trata de un índice en el que no se toman en cuenta las ausencias conjuntas. Se ofrece una ponderación igual a las coincidencias y a las no coincidencias. Se conoce también como razón de similaridad.
  • Dados. Éste es un índice en el que no se toman en cuenta las ausencias conjuntas y donde las coincidencias se ponderan doblemente. También se conoce como medida de Czekanowski o Sorensen.
  • Rogers y Tanimoto. Se trata de un índice en el que se ofrece una ponderación doble a las no coincidencias.
  • Sokal y Sneath 1. Este es un índice en el cual se proporciona una ponderación doble a las coincidencias.
  • Sokal y Sneath 2. Este es un índice en el cual se proporciona ponderación doble a las no coincidencias y las ausencias conjuntas se excluyen de la consideración.
  • Sokal y Sneath 3. Esta es la razón de las coincidencias con respecto a las no coincidencias. Este índice tiene un límite inferior de 0 y carece de límite superior. No está definido teóricamente cuando no existen no coincidencias; sin embargo, Distancias asigna un valor arbitrario de 9999,999 cuando el valor no está definido o cuando es mayor que esta cantidad.
  • Kulczynski 1. Esta es la razón de presencias conjuntas con respecto a todas las no coincidencias. Este índice tiene un límite inferior de 0 y carece de límite superior. No está definido teóricamente cuando no existen no coincidencias; sin embargo, Distancias asigna un valor arbitrario de 9999,999 cuando el valor no está definido o cuando es mayor que esta cantidad.
  • Kulczynski 2. Este índice se basa en la probabilidad condicional de que la características esté presente en un elemento, siempre que esté presente en el otro. Para calcular este valor se promedian los distintos valores para cada elemento que actúa como predictor del otro.
  • Sokal y Sneath 4. Este índice se basa en la probabilidad condicional de que una característica de un elemento coincida con el valor del otro. Para calcular este valor se promedian los distintos valores para cada elemento que actúa como predictor del otro.
  • Hamann. Este índice es el número de coincidencias menos el número de no coincidencias, dividido por el número total de elementos. Oscila entre -1 y 1.
  • Lambda. Este índice es la lambda de Goodman y Kruskal. Corresponde a la reducción proporcional del error (RPE o PRE) utilizando un elemento para pronosticar el otro (pronosticando en ambas direcciones). Los valores oscilan entre 0 y 1.
  • D de Anderberg. Similar a lambda, este índice corresponde a la reducción real del error utilizando un elemento para predecir el otro (predicción en ambas direcciones). Los valores oscilan entre 0 y 1.
  • Y de Yule. Este índice es una función de la razón cruzada para una tabla de 2 x 2 y es independiente de los totales marginales. Varía entre -1 y 1. También se denomina coeficiente de coligación.
  • Q de Yule. Este índice es un caso especial de gamma de Goodman y Kruskal. Es una función de la razón cruzada y es independiente de los totales marginales. Varía entre -1 y 1.
  • Ochiai. Este índice es la forma binaria de la medida de similaridad del coseno. Varía entre 0 y 1.
  • Sokal y Sneath 5. Este índice es la media geométrica al cuadrado de las probabilidades condicionales de coincidencias positivas y negativas. Es independiente de la codificación de elementos. Varía entre 0 y 1.
  • Correlación Phi de 4 puntos. Este índice es un análogo binario del coeficiente de correlación de Pearson. Varía entre -1 y 1.
  • Dispersión. Este índice tiene un rango de -1 a 1.

Si lo desea, puede cambiar los campos Presente y Ausente para especificar los valores que indican que una característica está presente o ausente. El procedimiento ignorará todos los demás valores.