Spécification de conditions classées pour une fusion
Une fusion de condition classée peut être considérée comme une fusion de jointure externe à gauche par condition ; la partie de gauche de la fusion correspond au jeu de données principal dans lequel chaque enregistrement est un événement. Par exemple, dans un modèle qui est utilisé pour rechercher des motifs dans des données de criminalité, chaque enregistrement dans le jeu de données principal représente un crime et les informations associées (emplacement, type, etc.). Dans cet exemple, la partie de droite peut contenir les jeux de données géospatiales pertinentes.
La fusion utilise une condition de fusion et une expression de classement. La condition de fusion peut utiliser une fonction géospatiale telle que within ou close_to. Au cours de la fusion, tous les champs de la partie de droite des jeux de données sont ajoutés au jeu de données de gauche, mais plusieurs correspondances génèrent une zone de liste. Exemple :
- A gauche : données de criminalité
- A droite : jeu de données des départements et jeu de données des routes
- Conditions de fusion : données de criminalité dans (within) les départements et près (close_to) des routes, avec une définition pour close_to.
Dans cet exemple, si un crime est survenu dans le rayon close_to requis de trois routes (et que le nombre de correspondances à renvoyer est d'au moins trois), les trois routes sont renvoyées sous forme d'éléments de liste.
En définissant la méthode de fusion Condition classée, vous pouvez spécifier une ou plusieurs conditions à remplir pour que la fusion ait lieu.
Jeu de données principal Sélectionnez le jeu de données principal pour la fusion ; les champs de tous les autres jeux de données sont ajoutés au jeu de données que vous sélectionnez. Ce jeu de données peut être considéré comme la partie de gauche d'une fusion de jointure externe.
Lorsque vous sélectionnez un jeu de données principal, tous les autres jeux de données d'entrée qui sont connectés au noeud Fusionner sont répertoriés automatiquement dans la table Fusions.
Ajouter des balises pour dupliquer les noms de champ afin d'éviter les conflits de fusion Si plusieurs jeux de données à fusionner contiennent les mêmes noms de champ, sélectionnez cette case à cocher pour ajouter une balise de préfixe différente au début des en-têtes de colonne de champ. Par exemple, s'il existe deux champs appelés Nom, le résultat de la fusion contient 1_Nom et 2_Nom. Si la balise est renommée dans la source de données, le nouveau nom est utilisé à la place de la balise de préfixe représentant un nombre. Si vous ne sélectionnez pas cette case à cocher et qu'il existe des noms en double dans les données, un avertissement s'affiche à droite de la case à cocher.
Fusions
- Jeu de données
- Affiche le nom des jeux de données secondaires qui sont connectés en tant qu'entrées au noeud Fusionner. Par défaut, lorsqu'il existe plusieurs jeux de données secondaires, ils sont répertoriés dans l'ordre dans lequel ils ont été connectés au noeud Fusionner.
- Condition de fusion
-
Entrez les conditions uniques pour la fusion de chaque jeu de données dans la table avec le jeu de données principal. Vous pouvez entrer les conditions directement dans la cellule ou les construire à l'aide du générateur de formules en cliquant sur le symbole de la calculatrice à droite de la cellule. Par exemple, vous pouvez utiliser des prédicats géospatiaux pour créer une condition de fusion qui place les données de criminalité d'un jeu de données dans les données de département d'un autre jeu de données. La condition de fusion par défaut dépend du niveau de mesure géospatial, conformément à la liste ci-dessous.
- Point, Chaîne, Multipoint, Multichaîne - condition par défaut de close_to.
- Polygone, Multipolygone - condition par défaut de within.
Pour plus d'informations sur ces niveaux, voir Sous-niveaux de mesure géospatiaux.
Si un jeu de données contient plusieurs champs géospatiaux de types différents, la condition par défaut qui est utilisée dépend du premier niveau de mesure trouvé dans les données, dans l'ordre décroissant ci-dessous.
- point
- Chaîne
- polygone
Remarque : Les valeurs par défaut ne sont disponibles que s'il existe un champ de données géospatiales dans la base de données secondaire. - Expression de classement
-
Spécifiez une expression selon laquelle classer la fusion des jeux de données ; cette expression est utilisée pour trier plusieurs correspondances dans un ordre reposant sur les critères de classement. Vous pouvez entrer les conditions directement dans la cellule ou les construire à l'aide du générateur de formules en cliquant sur le symbole de la calculatrice à droite de la cellule.
Les expressions de classement par défaut des distances et des zones sont fournies dans le générateur de formules ; elles vont de faible à élevé, ce qui signifie par exemple que la meilleure correspondance pour la distance est la valeur la plus faible. Par exemple, pour un classement en fonction de la distance, le jeu de données principal contient des crimes et leur emplacement, et chaque autre jeu de données contient des objets et leur emplacement ; dans ce cas, la distance entre les crimes et les objets peut être utilisée comme critère de classement. L'expression de classement par défaut dépend du niveau de mesure géospatial, conformément à la liste ci-dessous.
- Point, Chaîne, Multipoint, Multichaîne - l'expression par défaut est distance.
- Polygone, Multipolygone - l'expression par défaut est area.
Remarque : Les valeurs par défaut ne sont disponibles que s'il existe un champ de données géospatiales dans la base de données secondaire. - Nombre de correspondances
- Spécifiez le nombre de correspondances qui sont renvoyées, en fonction des expressions de condition et de classement.
Le nombre de correspondances par
défaut dépend du niveau de mesure géospatial dans le jeu de données secondaire, conformément à la liste ci-dessous. Toutefois, vous pouvez cliquer deux
fois dans la cellule pour entrer votre propre valeur, jusqu'à 100.
- Point, Chaîne, Multipoint, Multichaîne - la valeur par défaut est 3.
- Polygone, Multipolygone - la valeur par défaut est 1.
- Le jeu de données ne contient pas de champ géospatial - la valeur par défaut est 1.
Par exemple, si vous configurez une fusion qui repose sur une condition de fusion close_to et une expression de classement distance, les trois meilleures correspondances (les plus proches) des jeux de données secondaires pour chaque enregistrement dans le jeu de données principal sont renvoyées comme valeurs dans la zone de liste résultante.