Was ist IBM Watson Knowledge Catalog?

IBM Watson ® Knowledge Catalog ist ein cloudbasiertes Metadatenrepository für Unternehmen, mit dem Sie Ihre Wissens- und Analyseressourcen wie Modelle für maschinelles Lernen und strukturierte und unstrukturierte Daten – unabhängig von deren Standort – katalogisieren können. Somit sind diese Daten leicht zugänglich und können für Data-Science-Zwecke und alle Arten von KI verwendet werden.

Für bestimmte Quellentypen kann Watson Knowledge Catalog automatisch Datenressourcen bei der bereitgestellten Verbindung erkennen und registrieren. Werden dem Katalog Ressourcen hinzugefügt, werden diese automatisch indexiert und klassifiziert. So können Benutzer wie Datenentwickler, Data-Scientists, Data-Stewards und Geschäftsanalysten die Ressourcen problemlos auffinden, verstehen, gemeinsam nutzen und verwenden. KI-basierte Suchen und Empfehlungen führen die Benutzer zu den relevantesten Ressourcen im Katalog. Basis hierfür bildet das Verständnis der Beziehungen zwischen den Ressourcen, die Art und Weise, wie diese Ressourcen verwendet werden, und die sozialen Verbindungen zwischen den Benutzern.

Watson Knowledge Catalog stellt außerdem ein intelligentes und robustes Governance-Framework bereit, mit dem Sie Daten und Zugriffsrichtlinien definieren und durchsetzen können. So stellen Sie sicher, dass die richtigen Daten an die richtigen Personen gesendet werden.  

Über das Watson Knowledge Catalog Business Glossary können Benutzer ein gemeinsames Geschäftsvokabular erstellen und es Ressourcen, Richtlinien und Regeln zuordnen. Somit ist die Überbrückung zwischen Geschäftsbereich und Ihren technischen Ressourcen gewährleistet.

In welchen Regionen können Sie Watson Knowledge Catalog implementieren?

Wenn es regionale Dateneinschränkungen gibt, können Sie die Implementierung über eine der folgenden Städten vornehmen: Dallas, LondonFrankfurt oder Tokio.

Ist Watson Knowledge Catalog weltweit verfügbar?

Ja. Außer in den USA können Sie sich für Watson Knowledge Catalog auch in  GroßbritannienDeutschland, und Japan anmelden.

Müssen meine Daten in Watson Knowledge Catalog verschoben werden?

Nein. Sie können Ihre Daten in den vorhandenen Repositorys beibehalten. Watson Knowledge Catalog speichert die Metadaten  Ihrer Ressourcen.

Welche Datenquellen und Ressourcentypen werden unterstützt?

IBM stellt über 30 Connectors für Cloud- oder On-Premises-Datenquellentypen zur Verfügung. Mit diesen Connectors können Sie eine Verbindung zu Ihren fernen Datenressourcen herstellen. Zum Beispiel bietet IBM Connectors zur Cloudversion oder lokalen Version von IBM Db2®, IBM Cloudant®, IBM Cloud™ Object Storage, Oracle, Microsoft SQL Server, Microsoft Azure, Amazon S3, Salesforce.com, Hortonworks HDFS, Sybase und vielen weiteren Produkten an.

Zusätzlich zu den Ressourcen aus fernen Datenquellen unterstützt Watson Knowledge Catalog andere Ressourcentypen wie strukturierte (Zeile/Spalte), teilstrukturierte und unstrukturierte Daten. Zum Beispiel können Sie Dateien in den Formaten CSV, Microsoft Excel, PDF, Text, Microsoft Word, Jupyter Notebook (IPYNB), Image und HTML hinzufügen, um den Katalog für die Profilerstellung zu verwenden und mit anderen Benutzern zu teilen.

Was ist die maximal zulässige Anzahl an Ressourcen in Watson Knowledge Catalog?

Beim Professional-Tarif gibt es keine Begrenzung der Anzahl an Ressourcen in Knowledge Catalog. Bei den Tarifen Standard und Lite liegen die Grenzwerte bei 500 bzw. 50 Assets.

Stellt Watson Knowledge Catalog Governance-Services bereit?

Watson Knowledge Catalog enthält eine automatisierte Engine für die Richtliniendurchsetzung, die die Ergebnisse anhand der Richtlinien und der ergriffenen Maßnahmen ermittelt. Watson Knowledge Catalog bietet die Möglichkeit, Ihre Governancerichtlinien innerhalb des Systems zu konfigurieren. So können Sie den Datenzugriff einschränken oder die Daten durch Maskierung sensibler Inhalte transformieren.  

Lässt sich die ursprüngliche Datenquelle mit einer Datenrichtlinie löschen oder ändern, durch die Daten maskiert werden?

Nein. Wenn über eine Datenschutzrichtlinie sensible Daten im Katalog anonymisiert werden, werden nur die Vorschaudaten, die von der Anwendung verwaltet werden, transformiert. Die ursprünglichen Quellendaten werden nicht geändert.

Stellt Watson Knowledge Catalog Klassifizierungsservices bereit?

Watson Knowledge Catalog kann Spalten in Ihren Datenressourcen automatisch klassifizieren, wenn sie zum Katalog hinzugefügt werden. Integrierte Komponenten bieten über 160 attributspezifische Klassifikationsmerkmale wie Namen, E-Mails, Postanschriften, Kreditkartennummern, Führerscheinnummern, behördliche Identifikationsnummern, Geburtsdaten, demografische Informationen, DUNS-Nummern (Data Universal Numbering System) und vieles mehr. Über Kataloge werden zudem Profile für unstrukturierte Datenressourcen erstellt und Metadaten aus Inhalten wie Kategorien, Konzepte, Stimmungen und Emotionen extrahiert. Siehe hierzu auch Profilerstellung für Datenressourcen.

Gibt es in Watson Knowledge Catalog Datenaufbereitungsfunktionen?

Ja. Funktionen zur Datenaufbereitung sind über Data Refinery verfügbar. Diese Komponente ist Teil des Watson Knowledge Catalog. Data Refinery bietet zahlreiche Funktionen, mit denen Sie nicht nur Ihre Daten über integrierte Operationen erkennen, bereinigen und transformieren können. Die Lösung enthält auch leistungsfähige Tools für die Profilerstellung und Visualisierung, wie Diagramme, Grafiken und Statistiken, über die Sie mit Ihren Daten interagieren und besser verstehen können. Richtlinien für Datenzugriff und -transformation, die in Watson Knowledge Catalog definiert sind, werden auch in Data Refinery durchgesetzt. So wird sichergestellt, dass sensible Daten aus regulierten Katalogen geschützt bleiben.

Lassen sich Zugriffsgruppen für Personen in verschiedenen Geschäftsbereichen einrichten?

Ja. Zugriffsgruppen können über IBM Cloud Identity and Asset Management eingerichtet werden.  Im Modul Access Control von Watson Knowledge Catalog können Sie einen Mitarbeiter oder eine Benutzergruppe hinzufügen.

Was sind Capacity-Unit-Stunden?

Data Refinery-Datenflüsse, die interaktive Data Refinery-Benutzerschnittstelle und Profilerstellungsjobs werden auf Basis der Gesamtzahl oder per Capacity-Units (Kapazitätseinheiten) berechnet, die pro Stunde für jeden Kapazitätstyp benötigt werden:

  • Data Refinery-Datenflüsse erfordern 1,5 Capacity-Units pro Stunde in einer Spark-Standardumgebung. Für andere angepasste Umgebungen hängt die Berechnung von der Anzahl der Ausführungen und Ressourcen ab, die für Spark-Treiber und Executors (Steuerprogramme) verwendet werden.
  • Die interaktive Data Refinery-Benutzerschnittstelle erfordert 1,5 Capacity-Units pro Stunde – beginnend beim Data Refinery-Start bis zur Data Refinery-Beendigung.
  • Für Profilerstellungsjobs sind sechs Capacity-Units pro Stunde erforderlich. Für jede Jobausführung gilt eine Mindestgebühr von 0,96 (entspricht 10 Minuten).

In jedem Tarif ist pro Monat eine festgelegte Anzahl von kostenlosen Capacity-Unit-Stunden enthalten. Bei den Tarifen Standard und Professional fallen nach Erreichen des tarifspezifischen Grenzwerts Gebühren für den betreffenden Monat an. Beim Tarif Lite können nach Erreichen des tarifspezifischen Grenzwerts für den betreffenden Monat keine Data Refinery-Datenflüsse oder Profilerstellungsjobs mehr bis zum Folgemonat ausgeführt werden. Sie können in diesem Fall auch ein Tarifupgrade auf Standard oder Professional vornehmen.

Beispiele für Data Refinery-Datenflüsse mit Standardkapazitätstyp 3:

  1. Ein Data Refinery-Datenfluss läuft eine 1 Stunde: 1,5 CUHs
  2. Zwei Data Refinery-Datenflüsse laufen jeweils 1 Stunde: 2 Stunden * 1,5 CUHs = 3 CUHs
  3. Ein Data Refinery-Datenfluss läuft 30 Minuten: 0,5 Stunden * 1,5 CUHs = 0,75 CUHs
  4. Die interaktive Data Refinery-Benutzerschnittstelle wird 1 Stunde lang verwendet: 1,5 CUHs

Beispiele für Profilerstellungsjobs (diese Jobs können automatisch oder manuell ausgelöst werden):

  1. Ein Profilerstellungsjob läuft 30 Minuten: 0,5 Stunden * 6 CUHs = 3 CUHs
  2. Ein Profilerstellungsjob läuft 9 Minuten. Für dieses Szenario gilt eine Mindestgebühr: 0,16 Stunden * 6 CUHs = 0,96 CUHs

Wie hoch ist der Einrichtungsaufwand nach Kauf eines Standard- oder Professional-Tarifs, um alle Vorteile des Produkts nutzen zu können?

Watson Knowledge Catalog ist ein Self-Service-Angebot. Ein Administrator kann also mit der Erstellung eines Katalogs beginnen und dann sofort Ressourcen hinzuzufügen und kuratieren. Weitere Aufgaben:

  • Business-Glossar erstellen
  • Datenschutzrichtlinien definieren, um den Datenzugriff zu steuern
  • Benutzer zur Nutzung des Katalogs einladen

Ist dies in IBM Cloud Pak for Data verfügbar?

Ja. Weitere Informationen zur neuesten integrierten Datenplattform von IBM: IBM Cloud Pak™ for Data

IBM Watson Knowledge Catalog testen

Aktivieren Sie mit intelligenter Katalogisierung einsatzbereite Daten für KI und Analysen.