Qu'est-ce qu'IBM Watson Knowledge Catalog ?

IBM Watson® Knowledge Catalog est un référentiel de métadonnées d'entreprise basé sur le cloud qui vous permet de cataloguer vos actifs de connaissances et d'analyse, y compris des modèles de machine learning et des données structurées, non structurées, où qu'elles résident. Ils sont ainsi facilement accessibles et utilisables pour alimenter la science des données et toutes les formes d'IA.

Pour certains types de source, Watson Knowledge Catalog peut découvrir et enregistrer automatiquement les actifs de données à la connexion fournie. Au fur et à mesure que les actifs sont ajoutés au catalogue, ils sont automatiquement indexés et classifiés, ce qui permet aux utilisateurs, tels que les ingénieurs en traitement de données, les spécialistes des données, les responsables de données et les analystes métier, de rechercher, comprendre, partager et utiliser ces actifs. La recherche et les recommandations basées sur l'IA guident les utilisateurs vers les actifs les plus pertinents du catalogue, en fonction de la compréhension des relations entre les actifs, de la manière dont ces actifs sont utilisés et des connexions sociales entre les utilisateurs.

Watson Knowledge Catalog fournit également une infrastructure de gouvernance intelligente et robuste qui permet de définir et d'appliquer des règles relatives aux données et aux accès, afin de garantir que les bonnes données parviennent aux bonnes personnes. 

Grâce au glossaire métier de Watson Knowledge Catalog, les utilisateurs peuvent créer un vocabulaire métier commun et l'associer à vos actifs, poliques et règles, en créant un lien entre le domaine métier et vos actifs techniques.

Dans quelles régions pouvez-vous déployer Watson Knowledge Catalog ?

Si vous avez des restrictions liées aux données régionales, vous pouvez le déployer vers l'une des villes suivantes : Dallas,  Londres,  Francfort  ou  Tokyo.

Watson Knowledge Catalog est-il disponible partout dans le monde ?

Oui. Outre les États-Unis, vous pouvez vous inscrire à Watson Knowledge Catalog en France, en Allemagne,  et au Japon.

Dois-je transférer mes données dans Watson Knowledge Catalog ?

Non. Vous pouvez conserver vos données dans leurs référentiels existants. Watson Knowledge Catalog stocke les métadonnées de vos actifs.

Quels types de source et d'actif de données sont pris en charge ?

IBM fournit plus de 30 connecteurs à des types de source de données cloud ou sur site qui vous permettront de vous connecter à distance à vos actifs de données. Par exemple, des connecteurs à IBM Db2® dans le cloud ou sur site, IBM Cloudant®, IBM Cloud™ Object Storage, Oracle, Microsoft SQL Server, Microsoft Azure, Amazon S3, Salesforce.com, Hortonworks HDFS, Sybase et beaucoup d'autres sont disponibles auprès d'IBM.

Outre les actifs issus de sources de données distantes, Watson Knowledge Catalog prend en charge d'autres types d'actif, tels que les données structurées (ligne/colonne), les données semi-structurées et les données non structurées. Vous pouvez notamment ajouter au catalogue des fichiers CSV, Microsoft Excel, PDF, texte, Microsoft Word, Jupyter Notebook (IPYNB), image et HTML pour les profiler et les partager avec d'autres utilisateurs.

Quel est le nombre maximal d'actifs dont je peux disposer dans Watson Knowledge Catalog ?

Avec le plan Professional, il n'y a pas de limite au nombre d'actifs dont vous pouvez disposer dans Knowledge Catalog. Avec les plans Standard et Lite, les limites sont respectivement de 500 et 50 actifs.

Watson Knowledge Catalog fournit-t-il des services de gouvernance ?

Watson Knowledge Catalog inclut un moteur automatisé d'application des règles qui détermine les résultats en fonction des politiques et de l'action entreprise. Watson Knowledge Catalog permet de configurer vos règles de gouvernance au sein du système, afin de restreindre l'accès aux données ou de transformer les données en masquant le contenu sensible. 

Est-il possible de supprimer ou de modifier la source d'origine des données avec une stratégie de données qui masque les données ?

Non. Lorsqu'une règle de protection des données rend anonyme des données sensibles dans le catalogue, seules les données de prévisualisation qui sont gérées par l'application sont transformées. Les données de la source d'origine ne sont pas modifiées.

Watson Knowledge Catalog fournit-t-il des services de classification ?

Watson Knowledge Catalog peut classer automatiquement les colonnes de vos actifs de données lorsqu'elles sont ajoutées au catalogue. Des composants intégrés fournissent plus de 160 classificateurs d'attributs : noms, e-mails, adresses postales, numéros de carte de crédit, permis de conduire, numéros d'identification émis par le gouvernement, dates de naissance, informations démographiques, numéro DUNS, etc. Des catalogues peuvent également profiler des actifs de données non structurées et extraire des métadonnées à partir de contenus tels que des catégories, des concepts, des sentiments et des émotions. Voir le profilage des actifs de données.

Existe-t-il des fonctions de préparation de données dans Watson Knowledge Catalog ?

Oui. Les fonctions de préparation des données sont disponibles via Data Refinery, qui fait partie intégrante de Watson Knowledge Catalog. Data Refinery fournit non seulement une large gamme de fonctionnalités permettant de découvrir, nettoyer et transformer vos données avec des opérations intégrées, mais aussi des outils de profilage et de visualisation puissants tels que des graphiques, des diagrammes et des statistiques pour vous aider à interagir avec vos données et à les comprendre. Les politiques d'accès aux données et de transformation définies dans Watson Knowledge Catalog sont également appliquées dans Data Refinery afin de garantir que les données sensibles issues de catalogues gouvernés restent protégées.

Est-il possible de mettre en place des groupes d'accès pour des personnes de différents secteurs d'activité ?

Oui. Des groupes d'accès peuvent être définis via IBM Cloud Identity and Asset Management. Dans le module de contrôle d'accès de Watson Knowledge Catalog, vous pouvez ajouter un collaborateur ou un groupe d'utilisateurs.

À quoi correspondent les unités de capacité par heure ?

Les tâches de flux, d'IU interactive et de profilage de Data Refinery sont facturées en fonction du nombre d'unités de capacité complètes ou partielles requises par heure pour chaque type de capacité :

  • Data Refinery requiert 1,5 unité de capacité par heure avec un environnement Spark par défaut. Pour les autres environnements personnalisés, le calcul dépend du nombre d'exécuteurs et de ressources utilisés pour le pilote et l'exécuteur Spark.
  • L'interface utilisateur interactive Data Refinery requiert 1,5 unité de capacité par heure, à partir du démarrage de l'IU jusqu'à son arrêt.
  • Les travaux de profilage nécessitent six unités de capacité par heure. Un minimum de 0,96 (équivalent à 10 minutes) s'applique pour chaque exécution de travail.

Un nombre défini d'unités de capacité gratuites est inclus dans chaque plan pour le mois. Dans les plans Standard et Professional, les frais s'appliquent une fois le plafond atteint pour le mois concerné. Dans le plan Lite, lorsque le plafond du mois est atteint, aucune tâche de flux de données ou de profilage Data Refinery ne peut être exécutée avant le mois suivant, ou avant une mise à niveau vers le plan Standard ou Professional.

Exemples de flux Data Refinery utilisant le type de capacité par défaut 3 :

  1. Un flux Data Refinery s'exécute pendant 1 heure : 1,5 unité de capacité par heure
  2. Deux flux Data Refinery s'exécutent pendant 1 heure chacun : 2 heures * 1,5 unité de capacité par heure = 3 unités de capacité par heure
  3. Un flux Data Refinery s'exécute pendant 30 minutes : 0,5 heure * 1,5 unité de capacité par heure = 0,75 unité de capacité par heure
  4. L'IU interactive Data Refinery est utilisée pendant 1 heure : 1,5 unité de capacité par heure

Exemples de profilage (les tâches de profilage peuvent être déclenchées automatiquement ou manuellement) :

  1. Une tâche de profilage s'exécute pendant 30 minutes : 0,5 heure * 6 unités de capacité par heure = 3 unités de capacité par heure
  2. Une tâche de profilage s'exécute pendant 9 minutes. Des frais minimum s'appliquent dans ce scénario : 0,16 heure * 6 unités de capacité par heure = 0,96 unité de capacité par heure

Après l'achat d'un plan Standard ou Professional, quel est le degré de configuration requis pour tirer pleinement parti du produit ?

Watson Knowledge Catalog est en libre-service ; un administrateur peut donc commencer par créer un catalogue, puis ajouter et organiser des actifs. Autres tâches possibles :

  • Création d'un glossaire métier
  • Définition des règles de protection des données pour régir l'accès aux données
  • Invitation d'utilisateurs au catalogue

Ce produit est-il disponible sur IBM Cloud Pak for Data ?

Oui. Découvrez la dernière plateforme de données intégrée d'IBM : IBM Cloud Pak for Data

Mise en route

Watson Knowledge Catalog est disponible où que vous soyez.