Confronto MULT_ALIGN

Calcola il punteggio della similarità di due sequenze di termini. Questo confronto combina la conoscenza di quanto sono simili i termini, l'ordine dei termini simili e la vicinanza dei termini simili. È possibile utilizzare MULT_ALIGN per confrontare gli indirizzi in cui le sequenze di termini sono in ordini differenti.

Tre punteggi indipendenti entrano nel punteggio finale:

Somiglianza dei termini
Ordine dei termini simili nella sequenza originale
Prossimità di termini simili nella loro sequenza originale

Colonne obbligatorie

Sono richieste le seguenti colonne di origine dati e di origine di riferimento:

Dai dati. La stringa di caratteri dall'origine dati.
Riferimento. La stringa di caratteri dall'origine di riferimento (si applica solo a una corrispondenza a due origini).

Parametri

I seguenti tre parametri controllano l'importanza relativa che ciascuno dei tre punteggi indipendenti ha per il punteggio finale. Assegna il numero più alto al punteggio che è il più importante per te. Ad esempio, se inserisci un valore di200 per MatchMix,100 per OrderMix, E100 per CompactMix, ciò significa che il punteggio di somiglianza è due volte più importante del punteggio di ordine e del punteggio di prossimità. Significa anche che il punteggio dell'ordine e il punteggio di prossimità sono ugualmente importanti.

MatchMix: Immettere un numero intero positivo che rappresenti l'importanza relativa del punteggio di similarità per tutti i termini corrispondenti.
OrderMix: Immettere un numero intero positivo che rappresenti l'importanza relativa del punteggio dell'ordine per i termini corrispondenti che hanno un punteggio pari o superiore al valore immesso per il parametro FactorCutoff .
CompactMix: Immettere un numero intero positivo che rappresenti l'importanza relativa del punteggio di prossimità per i termini corrispondenti che hanno un punteggio pari o superiore al valore immesso per il parametro FactorCutoff .

I seguenti parametri controllano il punteggio di similarità:

MatchParm

Immettere un numero intero positivo compreso tra 0 e 900 che rappresenta il peso utilizzato dal confronto di corrispondenza UNCERT per determinare la tolleranza degli errori. Questo parametro è un'indicazione della tolleranza del confronto. I numeri più elevati indicano che il confronto è meno tollerante delle differenze nelle stringhe. MatchParm è simile al parametro Param 1 per il confronto UNCERT. Utilizzare questi valori come linea guida:

900. Le due stringhe devono essere identiche.
850. Le due stringhe possono essere tranquillamente considerate uguali.
800. Le due corde sono probabilmente le stesse.
750. Le due stringhe sono probabilmente diverse.
700. Le due corde sono quasi certamente diverse.

Il peso assegnato viene proporzionato linearmente tra i pesi di accordo e di disaccordo. Ad esempio, se si specifica 700 e il punteggio è 700 o inferiore, viene assegnato il peso di disaccordo completo. Se le stringhe concordano esattamente, viene assegnato il peso di accordo completo.

Come altro esempio, supponiamo di specificare850 per il MatchParm, il che significa che la tolleranza è relativamente bassa. Un punteggio di 800 otterrebbe il peso di disaccordo completo perché è inferiore al parametro specificato. Anche se un punteggio di 800 significa che le stringhe sono probabilmente le stesse, è necessaria una bassa tolleranza.

MultType

Selezionare uno dei seguenti valori che determina come si desidera che la corrispondenza normalizzi il punteggio per due sequenze di termini quando le sequenze non contengono lo stesso numero di termini:

0 - Numero massimo di parole nelle due sequenze
1 - Numero minimo di parole nelle due sequenze
2 - Numero di parole nella prima sequenza
3 - Numero di parole nella seconda sequenza
6 - Numero minimo di parole più x, dove x è il risultato del calcolo ExtraTerms .

ExtraTerm

Quando il valore MultType è 6, immettere un numero intero positivo per la percentuale della differenza tra il maggiore e il minore dei due conteggi delle parole da aggiungere al conteggio minimo delle parole. Un valore ExtraTerm pari a 0 equivale a un valore MultType pari a 1. Un valore ExtraTerm di 100 è equivalente a un valore MultType di 0.

MatchRange

Immettere un numero intero positivo per la percentuale del numero di termini nella sequenza più lunga (percentuale del numero massimo di parole). Il numero risultante di termini stabilisce un raggio di comparazione che determina quanto può essere e può essere confrontata la posizione di due termini nelle rispettive sequenze. Ad esempio, se la sequenza più lunga contiene 20 termini e si immette 50 per il parametro MatchRange , la corrispondenza confronta solo i termini che si trovano entro 10 posizioni l'uno dall'altro.

OutOfRangeScore

Immettere un numero intero positivo per la percentuale del peso di disaccordo del valore predefinito o raro utilizzato per calcolare un peso del termine mancante. Tutti i termini nella sequenza più breve devono essere segnati rispetto a qualcosa. Se tutti i termini nella sequenza più lunga che rientrano nell'intervallo determinato da MatchRange Il parametro è accoppiato con altri termini, il valore del OutOfRangeScore Il parametro viene utilizzato come punteggio per i termini spaiati.

Questo parametro controlla quali coppie di termini corrispondenti vengono utilizzate nei calcoli dei punteggi di ordine e prossimità:

FactorCutoff: Immettere un numero intero positivo per la percentuale del peso di accordo del valore predefinito o raro utilizzato per impostare un punto di interruzione per i termini corrispondenti a cui viene assegnato un punteggio per ordine e prossimità. L'impostazione di un punteggio di interruzione elimina marginalmente i punteggi positivi e negativi perché tali termini non corrispondono. Ad esempio, per un FactorCutoff di 33, il terzo con il punteggio più basso delle coppie di termini non verrà calcolato per ordine e prossimità.

Il seguente parametro controlla il punteggio dell'ordine:

OrderParm: Il valore di questo parametro determina la tolleranza del punteggio dell'ordine per gli errori. Immettere un valore intero positivo per la percentuale della differenza tra l'accordo predefinito e i pesi di disaccordo utilizzati per penalizzare ciascun termine non corrispondente. Un numero più basso si traduce in una maggiore tolleranza e un numero più alto si traduce in una minore tolleranza.

I seguenti parametri controllano il punteggio di prossimità:

GapOpen: Immettere un numero intero positivo per la percentuale del peso di accordo del valore predefinito o raro utilizzato per determinare la penalità del punteggio di prossimità per la ricorrenza di ogni divario tra termini corrispondenti.
GapExtend: Immettere un numero intero positivo per la percentuale del peso di accordo del valore predefinito o del valore raro utilizzato per determinare la penalità del punteggio di prossimità per ogni spazio aggiuntivo in un divario.

Esempio

I seguenti esempi illustrano il modo in cui vengono assegnati i punteggi all'ordine e alla prossimità dei termini.

Nel primo esempio, il punteggio dell'ordine è più alto per la prima coppia perché tutti i termini corrispondenti sono nello stesso ordine.

Apartment 4-B Building 5
Apartment 4-B Building 5

Building 5 Apartment 4-B
Apartment 4-B Building 5

Nell'esempio successivo, il punteggio di prossimità è maggiore per la prima coppia di termini perché la seconda coppia ha un termine che interrompe la sequenza di termini corrispondenti.

Building 5 Apartment 4-B
Apartment 4-B Building 5

Building 5 Apartment 4-B
Apartment 4-B Upstairs Building 5