Comparación MULT_ALIGN
Puntúa la similitud de dos secuencias de términos. Esta comparación combina su conocimiento de lo similares que son los términos, el orden de los términos similares y la proximidad de los términos similares. Puede utilizar MULT_ALIGN para comparar direcciones en las que las secuencias de términos están en distintos órdenes.
- Similitud de los términos
- Orden de términos similares en su secuencia original
- Proximidad de términos similares en su secuencia original
Columnas necesarias
- datos. La serie de caracteres del origen de datos.
- Referencia. La serie de caracteres del origen de referencia (sólo se aplica a una coincidencia de dos orígenes).
Parámetros
- MatchMix
- Especifique un entero positivo que represente la importancia relativa de la puntuación de similitud para todos los términos coincidentes.
- OrderMix
- Especifique un entero positivo que represente la importancia relativa de la puntuación de orden para los términos coincidentes que puntúan en o por encima del valor que especifique para el parámetro FactorCutoff .
- CompactMix
- Especifique un entero positivo que represente la importancia relativa de la puntuación de proximidad para los términos coincidentes que puntúan en o por encima del valor que especifique para el parámetro FactorCutoff .
- MatchParm
- Especifique un entero positivo de 0 a 900 que represente el peso que utiliza la comparación de coincidencias UNCERT para determinar su tolerancia a errores. Este parámetro es una indicación de la tolerancia de la comparación. Los números más altos significan que la comparación es menos tolerante con las diferencias en las series. MatchParm es similar al parámetro Param
1 para la comparación UNCERT. Utilice estos valores como una directriz aproximada:
- 900. Las dos series deben ser idénticas.
- 850. Las dos series se pueden considerar de forma segura como iguales.
- 800. Las dos cadenas son probablemente las mismas.
- 750. Las dos cadenas son probablemente diferentes.
- 700. Es casi seguro que las dos cuerdas son diferentes.
La ponderación asignada se proporcionara linealmente entre las ponderaciones de acuerdo y desacuerdo. Por ejemplo, si especifica 700 y la puntuación es 700 o menos, se asigna toda la ponderación de desacuerdo. Si las series coinciden exactamente, se asigna el peso de acuerdo completo.
Como otro ejemplo, supongamos que especifica850 Para el MatchParm, lo que significa que la tolerancia es relativamente baja. Una puntuación de 800 obtendría el peso de desacuerdo completo porque es menor que el parámetro que ha especificado. Aunque una puntuación de 800 significa que las cadenas son probablemente las mismas, se requiere una tolerancia baja.
- MultType
- Seleccione uno de los siguientes valores que determinan cómo desea que la coincidencia normalice la puntuación para dos secuencias de términos cuando las secuencias no contienen el mismo número de términos:
- 0-Número máximo de palabras en las dos secuencias
- 1-Número mínimo de palabras en las dos secuencias
- 2-Número de palabras en la primera secuencia
- 3-Número de palabras en la segunda secuencia
- 6-Número mínimo de palabras más x, donde x es el resultado del cálculo de ExtraTerms .
- ExtraTerm
- Cuando el valor de MultType es 6, especifique un entero positivo para el porcentaje de la diferencia entre el mayor y el menor de los recuentos de dos palabras para añadir al recuento mínimo de palabras. Un valor de ExtraTerm de 0 es equivalente a un valor de MultType de 1. Un valor de ExtraTerm de 100 es equivalente a un valor de MultType de 0.
- MatchRange
- Especifique un entero positivo para el porcentaje del número de términos en el más largo de las dos secuencias (porcentaje del recuento máximo de palabras). El número resultante de términos establece un radio de comparación que determina cuán diferente puede ser la posición de dos términos en sus respectivas secuencias y todavía se puede comparar. Por ejemplo, si la secuencia más larga contiene 20 términos y especifica 50 para el parámetro MatchRange , la coincidencia sólo compara los términos que están dentro de 10 posiciones entre sí.
- OutOfRangeScore
- Especifique un entero positivo para el porcentaje de la ponderación de desacuerdo de valor predeterminado o raro que se utiliza para calcular una ponderación de término que falta. Todos los términos de la secuencia más corta se deben puntuar contra algo. Si todos los términos de la secuencia más larga que están dentro del rango determinado por el MatchRange parámetro se emparejan con otros términos, el valor del OutOfRangeScore El parámetro se utiliza como puntuación para los términos no apareados.
- FactorCutoff
- Especifique un entero positivo para el porcentaje de la ponderación de acuerdo de valor predeterminado o raro que se utiliza para establecer un punto de corte para los términos coincidentes que se puntúan por orden y proximidad. Establecer una puntuación de corte elimina puntuaciones marginalmente positivas y negativas porque estos términos realmente no coinciden. Por ejemplo, para un FactorCutoff de 33, el tercio de puntuación más baja de los pares de términos no se puntuará por orden y proximidad.
- OrderParm
- El valor de este parámetro determina la tolerancia de puntuación de orden para los errores. Especifique un entero positivo para el porcentaje de la diferencia entre el acuerdo predeterminado y las ponderaciones de desacuerdo que se utiliza para penalizar cada término coincidente desordenado. Un número más bajo se traduce en más tolerancia y un número más alto se traduce en menos tolerancia.
- GapOpen
- Especifique un entero positivo para el porcentaje de la ponderación de acuerdo de valor predeterminado o raro que se utiliza para determinar la penalización de puntuación de proximidad para la aparición de cada diferencia entre términos coincidentes.
- GapExtend
- Especifique un entero positivo para el porcentaje de la ponderación de acuerdo de valor predeterminado o raro que se utiliza para determinar la penalización de puntuación de proximidad para cada espacio adicional de un espacio.
Ejemplo
Los ejemplos siguientes ilustran cómo se puntúan el orden de términos y la proximidad de términos.
En el primer ejemplo, la puntuación de orden es mayor para el primer par porque todos los términos coincidentes están en el mismo orden.
Apartment 4-B Building 5
Apartment 4-B Building 5
Building 5 Apartment 4-B
Apartment 4-B Building 5
En el ejemplo siguiente, la puntuación de proximidad es mayor para el primer par de términos porque el segundo par tiene un término que interrumpe la secuencia de términos coincidentes.
Building 5 Apartment 4-B
Apartment 4-B Building 5Building 5 Apartment 4-B
Apartment 4-B Upstairs Building 5