Comparación MULT_ALIGN

Puntúa la similitud de dos secuencias de términos. Esta comparación combina su conocimiento de lo similares que son los términos, el orden de los términos similares y la proximidad de los términos similares. Puede utilizar MULT_ALIGN para comparar direcciones en las que las secuencias de términos están en distintos órdenes.

Tres puntuaciones independientes factor en la puntuación final:
  • Similitud de los términos
  • Orden de términos similares en su secuencia original
  • Proximidad de términos similares en su secuencia original

Columnas necesarias

Se necesitan las siguientes columnas de origen de datos y de origen de referencia:
  • datos. La serie de caracteres del origen de datos.
  • Referencia. La serie de caracteres del origen de referencia (sólo se aplica a una coincidencia de dos orígenes).

Parámetros

Los tres parámetros siguientes controlan la importancia relativa que cada una de las tres puntuaciones independientes tiene para la puntuación final. Asigne el número más alto a la puntuación que es la más importante para usted. Por ejemplo, si ingresa un valor de200 para MatchMix,100 para OrderMix, y100 para CompactMix, eso significa que la puntuación de similitud es dos veces más importante que la puntuación de orden y la puntuación de proximidad. También significa que la puntuación de orden y la puntuación de proximidad son igualmente importantes.
MatchMix
Especifique un entero positivo que represente la importancia relativa de la puntuación de similitud para todos los términos coincidentes.
OrderMix
Especifique un entero positivo que represente la importancia relativa de la puntuación de orden para los términos coincidentes que puntúan en o por encima del valor que especifique para el parámetro FactorCutoff .
CompactMix
Especifique un entero positivo que represente la importancia relativa de la puntuación de proximidad para los términos coincidentes que puntúan en o por encima del valor que especifique para el parámetro FactorCutoff .
Los parámetros siguientes controlan la puntuación de similitud:
MatchParm
Especifique un entero positivo de 0 a 900 que represente el peso que utiliza la comparación de coincidencias UNCERT para determinar su tolerancia a errores. Este parámetro es una indicación de la tolerancia de la comparación. Los números más altos significan que la comparación es menos tolerante con las diferencias en las series. MatchParm es similar al parámetro Param 1 para la comparación UNCERT. Utilice estos valores como una directriz aproximada:
  • 900. Las dos series deben ser idénticas.
  • 850. Las dos series se pueden considerar de forma segura como iguales.
  • 800. Las dos cadenas son probablemente las mismas.
  • 750. Las dos cadenas son probablemente diferentes.
  • 700. Es casi seguro que las dos cuerdas son diferentes.

La ponderación asignada se proporcionara linealmente entre las ponderaciones de acuerdo y desacuerdo. Por ejemplo, si especifica 700 y la puntuación es 700 o menos, se asigna toda la ponderación de desacuerdo. Si las series coinciden exactamente, se asigna el peso de acuerdo completo.

Como otro ejemplo, supongamos que especifica850 Para el MatchParm, lo que significa que la tolerancia es relativamente baja. Una puntuación de 800 obtendría el peso de desacuerdo completo porque es menor que el parámetro que ha especificado. Aunque una puntuación de 800 significa que las cadenas son probablemente las mismas, se requiere una tolerancia baja.

MultType
Seleccione uno de los siguientes valores que determinan cómo desea que la coincidencia normalice la puntuación para dos secuencias de términos cuando las secuencias no contienen el mismo número de términos:
  • 0-Número máximo de palabras en las dos secuencias
  • 1-Número mínimo de palabras en las dos secuencias
  • 2-Número de palabras en la primera secuencia
  • 3-Número de palabras en la segunda secuencia
  • 6-Número mínimo de palabras más x, donde x es el resultado del cálculo de ExtraTerms .
ExtraTerm
Cuando el valor de MultType es 6, especifique un entero positivo para el porcentaje de la diferencia entre el mayor y el menor de los recuentos de dos palabras para añadir al recuento mínimo de palabras. Un valor de ExtraTerm de 0 es equivalente a un valor de MultType de 1. Un valor de ExtraTerm de 100 es equivalente a un valor de MultType de 0.
MatchRange
Especifique un entero positivo para el porcentaje del número de términos en el más largo de las dos secuencias (porcentaje del recuento máximo de palabras). El número resultante de términos establece un radio de comparación que determina cuán diferente puede ser la posición de dos términos en sus respectivas secuencias y todavía se puede comparar. Por ejemplo, si la secuencia más larga contiene 20 términos y especifica 50 para el parámetro MatchRange , la coincidencia sólo compara los términos que están dentro de 10 posiciones entre sí.
OutOfRangeScore
Especifique un entero positivo para el porcentaje de la ponderación de desacuerdo de valor predeterminado o raro que se utiliza para calcular una ponderación de término que falta. Todos los términos de la secuencia más corta se deben puntuar contra algo. Si todos los términos de la secuencia más larga que están dentro del rango determinado por el MatchRange parámetro se emparejan con otros términos, el valor del OutOfRangeScore El parámetro se utiliza como puntuación para los términos no apareados.
Este parámetro controla qué pares de términos coincidentes se utilizan en los cálculos de las puntuaciones de orden y proximidad:
FactorCutoff
Especifique un entero positivo para el porcentaje de la ponderación de acuerdo de valor predeterminado o raro que se utiliza para establecer un punto de corte para los términos coincidentes que se puntúan por orden y proximidad. Establecer una puntuación de corte elimina puntuaciones marginalmente positivas y negativas porque estos términos realmente no coinciden. Por ejemplo, para un FactorCutoff de 33, el tercio de puntuación más baja de los pares de términos no se puntuará por orden y proximidad.
El parámetro siguiente controla la puntuación de orden:
OrderParm
El valor de este parámetro determina la tolerancia de puntuación de orden para los errores. Especifique un entero positivo para el porcentaje de la diferencia entre el acuerdo predeterminado y las ponderaciones de desacuerdo que se utiliza para penalizar cada término coincidente desordenado. Un número más bajo se traduce en más tolerancia y un número más alto se traduce en menos tolerancia.
Los parámetros siguientes controlan la puntuación de proximidad:
GapOpen
Especifique un entero positivo para el porcentaje de la ponderación de acuerdo de valor predeterminado o raro que se utiliza para determinar la penalización de puntuación de proximidad para la aparición de cada diferencia entre términos coincidentes.
GapExtend
Especifique un entero positivo para el porcentaje de la ponderación de acuerdo de valor predeterminado o raro que se utiliza para determinar la penalización de puntuación de proximidad para cada espacio adicional de un espacio.

Ejemplo

Los ejemplos siguientes ilustran cómo se puntúan el orden de términos y la proximidad de términos.

En el primer ejemplo, la puntuación de orden es mayor para el primer par porque todos los términos coincidentes están en el mismo orden.

Apartment 4-B Building 5
Apartment 4-B Building 5
Building 5 Apartment 4-B
Apartment 4-B Building 5

En el ejemplo siguiente, la puntuación de proximidad es mayor para el primer par de términos porque el segundo par tiene un término que interrumpe la secuencia de términos coincidentes.

Building 5 Apartment 4-B
Apartment 4-B Building 5
Building 5 Apartment 4-B
Apartment 4-B Upstairs Building 5