Actifs de données identiques

Les ressources de données connectées dans les catalogues gérés font référence à un ensemble de propriétés partagées afin que vous puissiez gérer ces ressources de manière cohérente dans plusieurs catalogues gérés et projets sélectionnés.

Les actifs de données connectés ayant la même clé de ressource ou d'identité et représentant la même ressource physique (actifs de données identiques) peuvent faire référence au même ensemble de propriétés (propriétés partagées) afin de conserver une vue précise et cohérente d'un ensemble spécifique de propriétés d'actifs. Lorsque les propriétés partagées et leurs valeurs sont mises à jour, les modifications sont immédiatement visibles dans tous les actifs de données identiques dans les espaces de travail spécifiés.

En fonction de votre rôle d'actif, vous pouvez modifier ou afficher les propriétés partagées.

Limitations

  • Seules les ressources de données connectées dans des catalogues régis qui imposent l'utilisation de propriétés partagées dans tous les espaces de travail peuvent être reconnues comme des ressources de données identiques et faire référence au même enregistrement de propriétés partagées.
  • Les ressources de données créées à partir de fichiers téléchargés localement et les ressources de requêtes SQL (ressources de données avec le query sous-type) ne sont pas reconnues comme des ressources de données identiques et ne font pas référence à des enregistrements de propriétés partagées.
  • Si vous travaillez sur des Git projets basés sur, vous devez d'abord extraire une branche dans le Git projet pour publier les ressources du catalogue vers un Git projet.

Activation des propriétés partagées pour les ressources dans les catalogues non gérés

Lorsque vous créez un catalogue, vous pouvez spécifier s'il faut activer l'utilisation de propriétés partagées pour les ressources de données connectées identiques dans tous les espaces de travail pour les catalogues régis. Vous ne pouvez pas modifier ce paramètre après avoir créé le catalogue.

Pour les catalogues régis existants, toutes les ressources de données connectées ayant la même clé de ressource ou d'identité font automatiquement référence à un enregistrement de propriétés partagées.

Actifs de données et identifiants uniques

Vous pouvez ajouter des ressources de données connectées qui représentent la même ressource physique résidant dans une source de données distante à un ou plusieurs catalogues, projets et espaces de déploiement. En conséquence, le même actif physique est représenté dans différents espaces de travail par plusieurs actifs de données connectés. Ces actifs sont appelés actifs de données identiques. Ils font référence aux mêmes propriétés partagées et se voient attribuer le même identifiant unique, soit une clé d'identité, soit une clé de ressource.

Si une définition de source de données (DSD) est présente pour les connexions ou les sources de données, des clés d'identité sont utilisées pour identifier les ressources de données identiques dans les espaces de travail. Si les DSD ne sont pas définis dans le système, les clés de ressource sont utilisées à la place.

Pour les bases de données avec plusieurs adresses IP, au lieu de vous fier aux clés de ressources, définissez des DSD pour les connexions. Avec les DSD, plusieurs adresses hôtes ou IP sont associées à la même connexion, de sorte que les tables physiques issues de ces connexions peuvent être reconnues comme des ressources de données identiques et non comme des ressources distinctes.

Si vous n'utilisez pas de DSD, les mêmes tables physiques pourraient ne pas être reconnues comme des ressources de données identiques. Pour résoudre ce problème, vous pouvez attribuer les DSD ultérieurement afin que les clés d'identité DSD soient attribuées. Par conséquent, si de nouveaux actifs sont détectés comme étant des doublons les uns des autres, ils sont consolidés.

Les ressources de données dans les projets et les produits de données sont identifiées comme des ressources de données identiques si elles ont été ajoutées au projet à partir d'un catalogue régi.

Propriétés partagées et non partagées

Si plusieurs ressources de données connectées partagent la même clé d'identité ou clé de ressource, elles sont considérées comme identiques et disposent donc d'un ensemble de propriétés communes, telles que les termes métier, les classes de données et les classifications qui leur sont attribués. Les propriétés d'actif qui ne sont pas partagées, les propriétés non partagées, spécifient d'autres informations de métadonnées, telles que le nom de l'actif, les relations entre actifs ou les informations de connexion, qui s'appliquent à l'actif de données uniquement dans le contexte de l'espace de travail auquel l'actif de données connecté a été ajouté. Vous pouvez configurer les propriétés personnalisées comme propriétés partagées ou non partagées.

Propriétés partagées
Les propriétés partagées sont stockées dans un seul enregistrement. Toutes les ressources de données identiques dans les catalogues régis y font référence. Les ressources de données identiques qui ont été ajoutées à des projets à partir de catalogues gérés et qui ne sont pas modifiées dans le projet font également référence à l'enregistrement. Si les mêmes données sont publiées dans un ou plusieurs catalogues régis, les métadonnées restent identiques.

Voici la liste des propriétés partagées :

  • Adhésion aux actifs : propriétaires d'actifs, éditeurs, visualisateurs dans les actifs du catalogue
  • Description
  • Nom d'affichage et description
  • Balises
  • Catégorie
  • Pays d'origine
  • Termes métier affectés
  • Classifications affectées
  • Score de qualité
  • Métadonnées de colonne
  • Classes de données attribuées aux colonnes
  • Propriétés personnalisées créées en tant que propriétés partagées
  • Statistiques du profil de données

Propriétés non partagées
Les propriétés non partagées ne sont pas stockées dans un enregistrement de propriétés partagées et les ressources de données identiques dans les catalogues régis ne font pas référence à cet enregistrement. Dans différents espaces de travail, des ressources de données identiques peuvent avoir des propriétés non partagées différentes.

Voici la liste des propriétés non partagées.

  • Nom de l'actif
  • Paramètres de confidentialité dans les ressources du catalogue (public, privé ou masqué)
  • Créé par, créé à
  • Modifié par, modifié le
  • Horodatage
  • Informations utilisateur
  • Connexion
  • Révisions
  • Relations entre les actifs : actif à actif, actif à colonne, actif à artefact, colonne à actif, colonne à colonne, colonne à artefact
  • Pièces jointes
  • Lignée commerciale et lignée technique importées avec MANTA Automated Data Lineage

Voir Propriétés d'actif.

Propriétés partagées dans les catalogues, projets et espaces de déploiement gérés

Lorsque vous ajoutez un élément de données connecté à un catalogue régi et qu'il est identifié comme un élément de données identique parce qu'il existe déjà dans un autre catalogue régi, vous ne vous voyez pas attribuer le rôle de propriétaire ou d'éditeur de l'élément. Vous êtes désigné comme créateur de ressources et avez le rôle de visualiseur de ressources. Par conséquent, vous ne pouvez pas mettre à jour les propriétés partagées et vous risquez de ne pas pouvoir terminer certaines tâches de création, d'importation et de publication. Vous devrez peut-être d'abord modifier votre rôle d'utilisateur des ressources.

Si un propriétaire ou un éditeur d'actif modifie les propriétés partagées, il s'agit du comportement attendu.

Propriétés partagées dans les catalogues

Lorsqu'une propriété partagée est mise à jour pour un élément de données identique dans un catalogue :

  • La mise à jour est immédiatement visible pour toutes les ressources de données identiques publiées dans différents catalogues.
  • La mise à jour n'est pas automatiquement visible pour les ressources de données connectées qui se trouvent déjà dans des espaces de déploiement.
  • Si l'actif n'a pas été mis à jour dans le projet (n'est pas à l'état Brouillon ), la mise à jour est visible pour les actifs de données connectés qui se trouvent dans les projets.

Propriétés partagées dans les projets

Lorsqu'une propriété partagée est mise à jour pour un élément de données identique dans un projet :

  • Le statut de l'actif passe à « Brouillon ». Les données restent à l'état Brouillon jusqu'à ce qu'elles soient publiées dans un catalogue.
  • La mise à jour n'est visible que par les membres du projet. Si un élément de données identique est à l'état Brouillon et que ses propriétés partagées sont mises à jour dans un catalogue, les mises à jour ne sont pas visibles pour l'élément de données identique à l'état Brouillon.
  • Lorsque l'élément brouillon est publié dans un catalogue, la mise à jour est visible pour tous les autres éléments de données identiques publiés dans différents catalogues et projets (éléments de données clonés d'un catalogue vers un projet) et qui ne sont pas à l'état Brouillon.

Propriétés partagées dans les espaces de déploiement

Les ressources de données dans les espaces de déploiement ne font pas référence aux propriétés partagées, même si elles sont reconnues comme des ressources de données identiques.

Si les propriétés partagées sont mises à jour dans les catalogues, ces mises à jour ne sont pas disponibles pour les ressources de données identiques dans les espaces de déploiement.