Confronto MULT_ALIGN
Calcola il punteggio della similarità di due sequenze di termini. Questo confronto combina la conoscenza di quanto sono simili i termini, l'ordine dei termini simili e la vicinanza dei termini simili. È possibile utilizzare MULT_ALIGN per confrontare gli indirizzi in cui le sequenze di termini sono in ordini differenti.
- Somiglianza dei termini
- Ordine dei termini simili nella sequenza originale
- Prossimità di termini simili nella loro sequenza originale
Colonne obbligatorie
- Dai dati. La stringa di caratteri dall'origine dati.
- Riferimento. La stringa di caratteri dall'origine di riferimento (si applica solo a una corrispondenza a due origini).
Parametri
- MatchMix
- Immettere un numero intero positivo che rappresenti l'importanza relativa del punteggio di similarità per tutti i termini corrispondenti.
- OrderMix
- Immettere un numero intero positivo che rappresenti l'importanza relativa del punteggio dell'ordine per i termini corrispondenti che hanno un punteggio pari o superiore al valore immesso per il parametro FactorCutoff .
- CompactMix
- Immettere un numero intero positivo che rappresenti l'importanza relativa del punteggio di prossimità per i termini corrispondenti che hanno un punteggio pari o superiore al valore immesso per il parametro FactorCutoff .
- MatchParm
- Immettere un numero intero positivo compreso tra 0 e 900 che rappresenta il peso utilizzato dal confronto di corrispondenza UNCERT per determinare la tolleranza degli errori. Questo parametro è un'indicazione della tolleranza del confronto. I numeri più elevati indicano che il confronto è meno tollerante delle differenze nelle stringhe. MatchParm è simile al parametro Param
1 per il confronto UNCERT. Utilizzare questi valori come linea guida:
- 900. Le due stringhe devono essere identiche.
- 850. Le due stringhe possono essere tranquillamente considerate uguali.
- 800. Le due corde sono probabilmente le stesse.
- 750. Le due stringhe sono probabilmente diverse.
- 700. Le due corde sono quasi certamente diverse.
Il peso assegnato viene proporzionato linearmente tra i pesi di accordo e di disaccordo. Ad esempio, se si specifica 700 e il punteggio è 700 o inferiore, viene assegnato il peso di disaccordo completo. Se le stringhe concordano esattamente, viene assegnato il peso di accordo completo.
Come altro esempio, supponiamo di specificare850 per il MatchParm, il che significa che la tolleranza è relativamente bassa. Un punteggio di 800 otterrebbe il peso di disaccordo completo perché è inferiore al parametro specificato. Anche se un punteggio di 800 significa che le stringhe sono probabilmente le stesse, è necessaria una bassa tolleranza.
- MultType
- Selezionare uno dei seguenti valori che determina come si desidera che la corrispondenza normalizzi il punteggio per due sequenze di termini quando le sequenze non contengono lo stesso numero di termini:
- 0 - Numero massimo di parole nelle due sequenze
- 1 - Numero minimo di parole nelle due sequenze
- 2 - Numero di parole nella prima sequenza
- 3 - Numero di parole nella seconda sequenza
- 6 - Numero minimo di parole più x, dove x è il risultato del calcolo ExtraTerms .
- ExtraTerm
- Quando il valore MultType è 6, immettere un numero intero positivo per la percentuale della differenza tra il maggiore e il minore dei due conteggi delle parole da aggiungere al conteggio minimo delle parole. Un valore ExtraTerm pari a 0 equivale a un valore MultType pari a 1. Un valore ExtraTerm di 100 è equivalente a un valore MultType di 0.
- MatchRange
- Immettere un numero intero positivo per la percentuale del numero di termini nella sequenza più lunga (percentuale del numero massimo di parole). Il numero risultante di termini stabilisce un raggio di comparazione che determina quanto può essere e può essere confrontata la posizione di due termini nelle rispettive sequenze. Ad esempio, se la sequenza più lunga contiene 20 termini e si immette 50 per il parametro MatchRange , la corrispondenza confronta solo i termini che si trovano entro 10 posizioni l'uno dall'altro.
- OutOfRangeScore
- Immettere un numero intero positivo per la percentuale del peso di disaccordo del valore predefinito o raro utilizzato per calcolare un peso del termine mancante. Tutti i termini nella sequenza più breve devono essere segnati rispetto a qualcosa. Se tutti i termini nella sequenza più lunga che rientrano nell'intervallo determinato da MatchRange Il parametro è accoppiato con altri termini, il valore del OutOfRangeScore Il parametro viene utilizzato come punteggio per i termini spaiati.
- FactorCutoff
- Immettere un numero intero positivo per la percentuale del peso di accordo del valore predefinito o raro utilizzato per impostare un punto di interruzione per i termini corrispondenti a cui viene assegnato un punteggio per ordine e prossimità. L'impostazione di un punteggio di interruzione elimina marginalmente i punteggi positivi e negativi perché tali termini non corrispondono. Ad esempio, per un FactorCutoff di 33, il terzo con il punteggio più basso delle coppie di termini non verrà calcolato per ordine e prossimità.
- OrderParm
- Il valore di questo parametro determina la tolleranza del punteggio dell'ordine per gli errori. Immettere un valore intero positivo per la percentuale della differenza tra l'accordo predefinito e i pesi di disaccordo utilizzati per penalizzare ciascun termine non corrispondente. Un numero più basso si traduce in una maggiore tolleranza e un numero più alto si traduce in una minore tolleranza.
- GapOpen
- Immettere un numero intero positivo per la percentuale del peso di accordo del valore predefinito o raro utilizzato per determinare la penalità del punteggio di prossimità per la ricorrenza di ogni divario tra termini corrispondenti.
- GapExtend
- Immettere un numero intero positivo per la percentuale del peso di accordo del valore predefinito o del valore raro utilizzato per determinare la penalità del punteggio di prossimità per ogni spazio aggiuntivo in un divario.
Esempio
I seguenti esempi illustrano il modo in cui vengono assegnati i punteggi all'ordine e alla prossimità dei termini.
Nel primo esempio, il punteggio dell'ordine è più alto per la prima coppia perché tutti i termini corrispondenti sono nello stesso ordine.
Apartment 4-B Building 5
Apartment 4-B Building 5
Building 5 Apartment 4-B
Apartment 4-B Building 5
Nell'esempio successivo, il punteggio di prossimità è maggiore per la prima coppia di termini perché la seconda coppia ha un termine che interrompe la sequenza di termini corrispondenti.
Building 5 Apartment 4-B
Apartment 4-B Building 5Building 5 Apartment 4-B
Apartment 4-B Upstairs Building 5