Les comparaisons de correspondance analysent les valeurs dans les colonnes afin de calculer la contribution au poids composite. Parmi les plus de 24 comparaisons disponibles, choisissez une comparaison exacte ou tolérante aux erreurs qui correspond à la fois à vos objectifs de correspondance et à vos données.
Les comparaisons marquées d'un signe égal (=) peuvent être utilisées à la fois pour les correspondances à une source et pour les correspondances à deux sources. Toutes les autres comparaisons s'appliquent uniquement aux correspondances à deux sources.
Les comparaisons pouvant également être utilisées pour faire correspondre des vecteurs sont signalées par un astérisque (*). Si vous souhaitez créer des vecteurs à utiliser dans Match Designer, consultez la section « Make Vector stage » (Création de vecteurs de correspondance) dans le document « DataStage » (Guide de conception de correspondance).
Tableau 1. Comparaisons de correspondances qui s'appliquent aux caractères
| Comparaison |
Description |
| CHAR * = |
Compare les valeurs des données caractère par caractère. Cette comparaison est souvent utilisée pour détecter les fautes d'orthographe ou les lettres inversées. |
| LR_CHAR |
Compare les informations de localisation provenant d'une source de données avec des fichiers de référence de géocodage à l'aide d'une comparaison de chaînes de caractères de gauche à droite. |
| LR_INCERTAIN |
Compare les informations de localisation provenant d'une source de données avec des fichiers de référence de géocodage à l'aide d'un algorithme de comparaison de chaînes de caractères de gauche à droite basé sur les principes de la théorie de l'information. |
| INCERTAIN * = |
Évalue la similarité de deux chaînes de caractères à l'aide d'un algorithme basé sur les principes de la théorie de l'information. |
Tableau 2. Comparaisons de correspondances qui s'appliquent aux nombres
| Comparaison |
Description |
| ABS_DIFF * = |
Compare la différence absolue entre deux nombres à une valeur que vous spécifiez. |
| CNT_DIFF * = |
Compare deux chaînes de chiffres et attribue des pondérations de concordance ou de discordance en fonction du nombre de différences entre les chiffres des chaînes. Les pondérations sont calculées au prorata en fonction de l'importance du désaccord. |
| DATE8 * = |
Compare les dates au format AAAAMMJJ en mesurant le nombre de jours qui séparent deux dates. Les pondérations sont calculées au prorata en fonction de l'importance du désaccord. |
| DELTA_PERCENT * = |
Compare les colonnes dans lesquelles la différence est mesurée en pourcentage de la valeur comparée. Une utilisation de DELTA_PERCENTAGE consiste à comparer l'âge. |
| DISTANCE = |
Calcule la distance entre deux points et répartit le poids proportionnellement à la distance entre les points. Vous pouvez utiliser cette comparaison pour faire correspondre des coordonnées géographiques où plus les points sont éloignés les uns des autres, moins le poids appliqué est important. |
| NUMÉRIQUE * = |
Convertit deux chaînes en nombres entiers, puis effectue une comparaison numérique entre ces nombres entiers. Lors de la conversion des chaînes en nombres entiers, les espaces en début et en fin sont ignorés. |
| PRORATISÉ * = |
Compare les colonnes numériques et autorise un écart maximal que vous spécifiez. Toute différence entre 0 et le montant spécifié reçoit une pondération proportionnellement égale à cette différence. |
| TEMPS * = |
Compare les valeurs dans les DataStage colonnes de QualityStage temps ou de caractères au format HHMM ou HHMMSS. TIME attribue des pondérations proportionnelles aux différences de temps qui se situent entre une correspondance exacte et la différence maximale que vous autorisez. |
Tableau 3. Comparaisons de correspondances qui s'appliquent aux chaînes
| Comparaison |
Description |
| MULT_ALIGN = |
Évalue la similarité entre deux séquences de termes. Cette comparaison combine votre connaissance du degré de similitude entre les termes, l'ordre des termes similaires et la proximité des termes similaires. Vous pouvez utiliser MULT_ALIGN pour comparer des adresses où les séquences de termes sont dans des ordres différents. |
| MULT_EXACT = |
Compare tous les mots d'une colonne d'un enregistrement avec tous les mots de la même colonne d'un deuxième enregistrement. |
| MULT_RANGE |
Compare une chaîne dans une colonne à une série de chaînes dans une autre colonne. Vous pouvez utiliser MULT_RANGE pour comparer des numéros de maison individuels à une liste de plages de numéros de maison. |
| MULT_UNCERT = |
Compare tous les mots d'une colonne d'un enregistrement avec tous les mots de la même colonne d'un deuxième enregistrement à l'aide d'un algorithme de comparaison de chaînes basé sur les principes de la théorie de l'information. |
| NAME_UNCERT * = |
Compare deux chaînes de caractères. Tout d'abord, il tronque la chaîne la plus longue à droite afin qu'elle contienne le même nombre de caractères que la chaîne la plus courte. Si cette comparaison ne donne pas de correspondance exacte, elle évalue la similitude des chaînes en effectuant une comparaison UNCERT. Vous pouvez utiliser NAME_UNCERT pour comparer des prénoms, lorsque l'une des chaînes de caractères est plus courte que l'autre. |
| PRÉFIXE * = |
Compare deux chaînes caractère par caractère après avoir tronqué la chaîne la plus longue à droite afin qu'elle contienne le même nombre de caractères que la chaîne la plus courte. |
Tableau 4. Comparaisons de correspondances qui s'appliquent aux intervalles
| Comparaison |
Description |
| AN_DINT |
Compare une chaîne alphanumérique provenant d'une source de données à deux intervalles alphanumériques provenant d'une source de référence. Vous pouvez utiliser cette comparaison pour comparer les numéros de maison avec les fichiers du recensement, Etak, GDT DynaMap,, les codes postaux ou d'autres fichiers. |
| AN_INTERVAL |
Compare un nombre unique provenant d'une source de données à un intervalle ou une plage de nombres provenant d'une source de référence à l'aide d'une comparaison alphanumérique d'intervalles pairs/impairs. |
| D_INT |
Compare une chaîne numérique provenant d'une source de données à deux intervalles numériques provenant d'une source de référence. Vous pouvez utiliser cette comparaison pour comparer les numéros de maison avec les fichiers du recensement, Etak, GDT DynaMap, ou les fichiers de codes postaux. |
| D_USPS |
Compare un numéro de maison alphanumérique provenant d'une source de données à deux intervalles de numéros de maison alphanumériques provenant d'une source de référence à l'aide d'une comparaison d'intervalles gauche-droite. Des colonnes de contrôle indiquant la parité paire ou impaire des intervalles de référence sont requises. |
| INT_TO_INT = |
Compare un intervalle provenant d'une source de données à un intervalle provenant d'une source de référence. Les résultats correspondent si un intervalle dans un fichier chevauche ou est entièrement contenu dans un intervalle dans un autre fichier. |
| INTERVAL_NOPAR |
Compare un nombre unique provenant d'une source de données à un intervalle provenant d'une source de référence. Le numéro unique doit se trouver dans l'intervalle (y compris les points d'extrémité) pour être considéré comme une correspondance. La parité paire ou impaire du nombre unique n'a pas besoin de correspondre à la parité de la valeur initiale de l'intervalle. |
| INTERVAL_PARITY |
Compare un nombre unique provenant d'une source de données à un intervalle provenant d'une source de référence. La parité paire ou impaire du nombre doit correspondre à la parité de la valeur initiale de l'intervalle. |
| USPS |
Compare un numéro de maison alphanumérique provenant d'une source de données à deux intervalles de numéros de maison alphanumériques provenant de fichiers de codes postaux USPS ou d'autres sources de référence pouvant contenir des plages alphanumériques. Des informations de contrôle de parité paire/impaire, telles que la colonne de contrôle USPS ZIP+4, sont requises. |
| USPS_DINT |
Compare un intervalle provenant d'une source de données à deux intervalles provenant d'une source de référence pour les colonnes qui contiennent un numéro primaire d'adresse. Cette comparaison peut être utilisée pour comparer les informations contenues dans un fichier USPS ZIP+4 à des fichiers de référence géographique tels que le fichier TIGER du Bureau du recensement, les fichiers GDT Dynamap ou les fichiers Etak MapBase. Des informations de contrôle de parité paire/impaire, telles que la colonne de contrôle USPS ZIP+4, sont requises. |
| USPS_INT = |
Compare un intervalle provenant d'une source de données à un intervalle provenant d'une source de référence pour les colonnes contenant le numéro principal de l'adresse. Les résultats correspondent si l'intervalle dans la source de données chevauche une partie quelconque de l'intervalle provenant d'une source de référence et si la parité paire-impaire correspond. Les informations de contrôle de parité telles que la colonne de contrôle de l'USPS ( ZIP+4 ) sont obligatoires. |