Automatische Begriffszuordnung

Die automatische Begriffszuweisung ist der Prozess der automatischen Zuordnung von Geschäftsbegriffen zu Datenbeständen und Bestandesspalten als Teil der Metadatenanreicherung.

Basis Premium Standard Sofern nicht anders angegeben, gelten diese Informationen für alle Editionen von IBM Knowledge Catalog.

Zusätzlich zu automatisch zugewiesenen Geschäftsbegriffen können Sie Begriffe auch manuell zuweisen, indem Sie die Eigenschaften der Datenressource in einem Projekt oder Katalog bearbeiten oder wenn Sie mit Anreicherungsergebnissen arbeiten.

Wenn die automatische Begriffszuweisung als Teil der Metadatenanreicherung konfiguriert ist, werden solche Zuweisungen durch verschiedene Methoden generiert. Diese Methoden generieren auch Vorschläge für zuzuweisende Begriffe.

Die Begriffe werden basierend auf dem Konfidenzniveau zugeordnet. Zunächst werden diese Zuordnungen als Kandidaten dargestellt, die von Fachleuten und Datenverantwortlichen manuell überprüft und zugeordnet werden können. Die Konfidenz für einen zugewiesenen oder vorgeschlagenen Begriff wird als Prozentwert angezeigt. Dieser Wert steht für das allgemeine Vertrauen. Siehe Wie das Gesamtvertrauen berechnet wird. Das Konfidenzniveau für den Fall, dass ein Begriff vorgeschlagen oder automatisch zugewiesen wird, wird durch die Aufbereitungseinstellungen des Projekts bestimmt. Das Standardkonfidenzniveau, das überschritten werden soll, beträgt 75 % für Begriffsvorschläge und 90 % für die automatische Zuweisung von Kandidatenbegriffen. Siehe Standard-Anreicherungseinstellungen. Ein Projektadministrator kann diese Einstellungen anpassen.

Es können nur publizierte Geschäftsbegriffe zugeordnet werden. Zugewiesene Begriffe haben keinen Einfluss auf die Zuordnung von Datenklassen.

Premium Je nach Begriffskonfiguration kann in der Metadatenanreicherung eine Datenqualitätsprüfung für alle Datenbestände oder Spalten erstellt werden, denen dieser Begriff zugewiesen ist.

Qualität der Semesterarbeiten

Um qualitativ hochwertige Semesterarbeiten zu erstellen, beachten Sie bitte die folgenden Tipps:

  • Stellen Sie sicher, dass die Kategorien, die Sie für die Metadatenanreicherung verwenden möchten, nur relevante Governance-Artefakte enthalten. Das sollten Sie vielleicht schon bei der Erstellung Ihres Geschäftswortschatzes berücksichtigen.

  • Experimentieren Sie mit den Schwellenwerten für die Begriffszuweisung. Eine Änderung der Schwellenwerte kann sich erheblich auf die Anzahl der zugewiesenen Begriffe auswirken. Finden Sie den Schwellenwert, bei dem die Anzahl der Fehlalarme gering ist und nicht zu viele echte Alarme übersehen werden.

  • Analysieren Sie einige der Fehlalarme, um ein Muster oder einen triftigen Grund dafür zu finden, warum diese Begriffe vorgeschlagen oder zugewiesen wurden. Wenn die meisten Fehlalarme auf einen bestimmten Algorithmus zurückzuführen sind, sollten Sie diesen Algorithmus in den Anreicherungseinstellungen deaktivieren und die Begriffszuweisung erneut ausführen. Überprüfen Sie, ob dadurch die Anzahl der Fehlalarme reduziert wird.

  • Stellen Sie sicher, dass Sie das ML-Modell anhand eines Katalogs trainieren, in dem Sie nur sorgfältig geprüfte Begriffszuordnungen veröffentlichen. Verwenden Sie vorzugsweise einen Katalog für das Modelltraining.

  • Für die Zuordnung von Begriffen auf der Grundlage von Spaltendaten oder Metadaten erstellen Sie Beziehungen zwischen Begriffen und Datenklassen. Stellen Sie sicher, dass die von Ihnen verwendeten Datenklassen keine Fehlalarme erzeugen.

Methoden zur Begriffszuweisung

Sie können alle oder einen Teil der verfügbaren Methoden zur Begriffszuweisung verwenden.

Namensabgleich

Die Namensabgleichmethode stützt ihr Ergebnis auf die Ähnlichkeit zwischen dem Begriffsnamen oder den Abkürzungen und dem Namen des Datenbestands oder der Spalte. Beispiel: Eine Spalte CREDNUM könnte aufgrund der Ähnlichkeit der beiden Namen einem Begriff Credit Card Number zugeordnet werden. Bei der Namensabgleichung werden nur Datenbestands- und Spaltennamen mit Begriffsnamen und Abkürzungen abgeglichen, wobei die ursprünglichen Namen aus der Datenquelle und die zugewiesenen KI-generierten Namen berücksichtigt werden. Beschreibungen werden nicht berücksichtigt. Die ML-basierte Begriffszuweisung verarbeitet Namen und Beschreibungen.

Basierend auf der Datenklassenzuweisung

Die klassenbasierte Zuweisungsmethode generiert Zuweisungen auf der Grundlage der Datenklassifizierung. Wenn eine Datenklasse für eine Asset-Spalte entweder als Ergebnis einer Spaltenanalyse oder manuell ausgewählt wurde und wenn diese Datenklasse mit einem oder mehreren Geschäftsbegriffen verknüpft ist, werden diese Begriffe vorgeschlagen oder zugewiesen, wenn sie die jeweiligen Schwellenwerte überschreiten. Der Begriff „Konfidenzniveau“ entspricht der Konfidenz der Datenklasse, mit der der Begriff verknüpft ist. Beispiel: Eine Spalte COL1, die als E-Mail-Adresse mit 90 % Konfidenz klassifiziert ist, wird wahrscheinlich dem Begriff "E-Mail-Adresse" zugeordnet, wenn die Datenklasse und der Begriff verknüpft sind. Da keine Ähnlichkeit zwischen dem Namen der Spalte und dem Begriff besteht, kann die Namensabgleichmethode diese Zuordnung nicht vornehmen.

Um die klassenbasierte Zuordnungsmethode zu aktivieren, ist es wichtig, die Verknüpfung zwischen Datenklasse und Begriff vor der Durchführung der Begriffszuordnung zu überprüfen, da eine korrekte Verknüpfung eine wichtige Voraussetzung für qualitativ hochwertige Ergebnisse ist.

Maschinelles Lernen

Das integrierte ML-Modell für die Begriffszuweisung wird auf der Grundlage veröffentlichter Begriffe und der in den Trainingsdaten eines Projekts oder Katalogs vorhandenen Begriffszuweisungen trainiert. Siehe Trainingsdaten für maschinelle Lernmodelle. Wenn keine Begriffszuweisungen verfügbar sind, konzentriert sich das Training für das Begriffszuweisungsmodell auf die sprachliche Ähnlichkeit von Wörtern in Namen und Beschreibungen von Begriffen und Datenbeständen oder Spalten. Begriffe können basierend auf dieser Ähnlichkeit zugewiesen werden. Mit einer steigenden Anzahl von überprüften Zuordnungen können Begriffe unabhängig von sprachlicher Ähnlichkeit zugewiesen werden, da Begriffszuweisungen für Spalten mit ähnlichen Merkmalen verfügbar werden.

Gen KI-basierte Semesterarbeit

Standard Premium Diese Methode ist nur verfügbar, wenn IBM Knowledge Catalog Standard oder IBM Knowledge Catalog Premium installiert ist und gen AI-basierte Anreicherungsfunktionen aktiviert sind.

Diese Methode verwendet ein fein abgestimmtes IBMFoundation-Modell um domänenspezifische Geschäftsbegriffe zuzuweisen und vorzuschlagen. Das Modell berücksichtigt Namen und Beschreibungen von Assets und Spalten und gleicht Begriffe semantisch mit diesen Metadaten ab. Somit können Begriffe auch dann zugeordnet werden, wenn sie nicht exakt übereinstimmen.

Regelbasierte Begriffszuweisung

Diese Methode verwendet Regeln, die in einer „ CSV “-Datei im Projekt definiert sind. Der Dateiname muss. sein ikc-term-assignment-rules.csv. Weitere Informationen finden Sie in der Datei „ CSV “ zur regelbasierten Terminzuweisung.

Angepasster Service

Die Option zur Verwendung eines benutzerdefinierten Dienstes ist nur verfügbar, wenn in Ihrer Cloud Pak for Data Umgebung Watson Machine Learning bereitgestellt ist. Anweisungen und ein Beispielnotizbuch zum Erstellen eines benutzerdefinierten Modells finden Sie im IBM Knowledge CatalogGitHub Beispielrepository: https://github.com/IBM/knowledge-catalog-samples/tree/main/metadata-enrichment/term-assignment/custom-term-assignment

Die Arbeit mit einem benutzerdefinierten Dienst, den Sie erstellen und verwalten, ist eine separate Methode zur Begriffszuweisung, die Sie in Kombination mit jeder anderen Methode zur Begriffszuweisung oder eigenständig verwenden können.

Der Schulungsumfang muss im benutzerdefinierten Modell festgelegt werden. Der Modellbesitzer ist für die Nachschulung des benutzerdefinierten Modells verantwortlich.

Abgelehnte Begriffe

Wenn Sie die Begriffszuweisungen in den Ergebnissen der Metadatenanreicherung überprüfen, finden Sie möglicherweise Begriffe, die Ihrer Meinung nach für eine Datenressource nicht zutreffend sind. Sie können solche Begriffe entfernen und so negatives Feedback geben. Solche Bedingungen gelten als abgelehnt. Wenn der Trainingsumfang das Projekt ist, können die Konfidenzwerte der Begriffszuweisungen auf der Grundlage dieser abgelehnten Begriffe angepasst werden, wenn Sie die automatische Begriffszuweisung erneut ausführen. Die einzelnen Konfidenzwerte, die von jeder ausgewählten Begriffszuweisungsmethode zurückgegeben werden, werden um diesen negativen Konfidenzwert angepasst, um die Gesamtkonfidenzbewertung eines Begriffs zu berechnen. Siehe Wie die Gesamtvertrauensbewertung berechnet wird.

Trainingsdaten für maschinelle Lernmodelle

Für jedes Projekt können Sie in den Standard-Anreicherungseinstellungen festlegen, ob das integrierte ML-Modell für die automatische Begriffszuweisung mit Assets aus dem Projekt oder mit Assets aus einem Katalog Ihrer Wahl trainiert wird. Die Anpassung der Konfidenzwerte auf der Grundlage von Ablehnungen ist nur verfügbar, wenn der Trainingsumfang das Projekt ist.

Bei benutzerdefinierten Modellen ist der Modellbesitzer für das Training des Modells verantwortlich.

Integrierte Modelle

Wenn Sie einen Katalog als Trainingsumfang auswählen, wird das Begriffszuordnungsmodell mit allen veröffentlichten Geschäftsbegriffen und allen im ausgewählten Katalog verfügbaren Begriffszuordnungen trainiert. Wenn Sie sich entscheiden, die Modelle innerhalb des Projekts zu trainieren, wird das integrierte Begriffszuweisungsmodell mit allen veröffentlichten Geschäftsbegriffen und allen verfügbaren Begriffszuweisungen trainiert, die im Projekt als überprüft markiert wurden. Das Modell zur Anpassung des Konfidenzwerts wird anhand von Begriffsabweisungen in Spalten trainiert, die im Projekt als überprüft markiert wurden.

Die Standardeinstellung ist, das Modell für die Begriffszuweisung aus dem Standardkatalog zu trainieren, aber Sie können jeden Katalog auswählen, auf den Sie Zugriff haben. Wenn der Standardkatalog nicht vorhanden ist, wird der Schulungsumfang standardmäßig auf das Projekt festgelegt.

Wann werden die Modelle trainiert?

Das Modelltraining für die integrierten ML-Modelle wird ausgelöst, wenn ein Metadatenanreicherungsjob gestartet wird und eine der folgenden Bedingungen zutrifft:

  • Es ist noch kein Modell verfügbar.

  • Seit dem letzten Training des Modells wurde ein neuer Geschäftsbegriff erstellt oder ein bestehender Begriff aktualisiert. Der Begriff muss keinen Vermögenswerten oder Spalten zugeordnet werden.

  • Umfang des Trainingsprojekts: Seit dem letzten Training des Modells wurden mindestens 21 Spalten als überprüft markiert.

    Schulungsumfangskatalog: Die Zuweisungen in mindestens 21 Spalten des ausgewählten Katalogs wurden geändert, da seit dem letzten Training des Modells Begriffe zugewiesen oder entfernt wurden.

  • Die letzte Schulung wurde nicht erfolgreich oder nicht innerhalb eines angemessenen Zeitraums abgeschlossen.

Wenn bei der ersten Verwendung des Modells für die Anpassung der Konfidenzwerte keine Informationen über abgelehnte Begriffe verfügbar sind, erfolgt das anfängliche Training für dieses Modell zu einem späteren Zeitpunkt, d. h. es wird zunächst trainiert, wenn Informationen über abgelehnte Begriffe in einem nachfolgenden Modelltrainingszyklus verfügbar sind.

Berechnung der Gesamtkonfidenz

Ein Verfahren, das einen Begriff mit einem Datenbestand verknüpft, berechnet eine Konfidenz, die ein numerischer Wert zwischen einem konfigurierbaren Minimum und 1 ist. Der Mindestwert wird durch die Vorschlagsschwelle für die Begriffszuweisung definiert, die in den Standard-Anreicherungseinstellungen konfiguriert werden kann.

Die Konfidenz für einen zugewiesenen oder vorgeschlagenen Begriff wird als Prozentwert angezeigt. Dieser Wert steht für das allgemeine Vertrauen. Das Gesamtvertrauen ist das Maximum der Vertrauenswerte, die von den ausgewählten Begriffszuweisungsmethoden zurückgegeben werden, und kann durch jeden negativen Vertrauenswert angepasst werden, der vom ML-Modell für die Entfernung von Begriffen zurückgegeben wird.

Sie können wählen, ob die von den ausgewählten Begriffszuweisungsmethoden zurückgegebenen Konfidenzwerte auf der Grundlage zuvor abgelehnter Geschäftsbegriffe angepasst werden sollen.

Beispiel:

Angenommen, alle Methoden sind aktiviert, dann lauten die Konfidenzwerte für die Spalte ADDRESS und den Begriff Home Address:

Name matching: 0.5
Class-based assignment: 0.4
ML-based assignment: 0.3
Semantic assignment: 0.5
ML model for rejections: -0.4

Der tatsächliche Konfidenzwert für jede Methode wird berechnet, indem der für abgelehnte Begriffe zurückgegebene Konfidenzwert abgezogen wird:

Name matching: 0.5 - 0.4 = 0.1
Class-based assignment: 0.4 - 0.4 = 0
ML-based assignment: 0.3 - 0.4 = -0.1
Semantic assignment: 0.5 - 0.4 = 0.1

Das Gesamtvertrauen ist, 0.1 da es sich um den höchsten für eine Methode berechneten Wert handelt.

Wenn für einen Begriff derselbe Konfidenzwert für mehrere Methoden berechnet wird, wird automatisch nur einer zugewiesen. Die Reihenfolge, in der ein solcher Begriff ausgewählt wird, ist wie folgt:

  1. Begriff, der durch die datenklassenbasierte Zuordnungsmethode gefunden wurde
  2. Vom Kundendienst gefundener Begriff
  3. Begriff, der durch die semantische Begriffszuordnung gefunden wurde
  4. Vom integrierten ML-Modell gefundener Begriff
  5. Begriff, der durch die Namensabgleichmethode gefunden wurde

Wie neue Analyseergebnisse vorhandene Begriffszuordnungen aktualisieren

Wenn Sie eine Aufbereitung erneut ausführen, aktualisiert ein neues Analyseergebnis Begriffszuordnungen wie folgt:

Wie Terminaufträge aktualisiert werden
Art der Begriffszuweisung Datenbestand oder Spalte wird überprüft Datenbestand oder Spalte wird nicht überprüft
Manuell zugewiesene Begriffe Die Bedingungen bleiben unverändert. Die Bedingungen bleiben unverändert.
Abgelehnte Begriffe Die Bedingungen bleiben unverändert. Die Bedingungen bleiben unverändert.
Vorgeschlagene Begriffe Begriffe werden gelöscht und durch die neuen vorgeschlagenen Begriffe ersetzt. Begriffe werden gelöscht und durch die neuen vorgeschlagenen Begriffe ersetzt.
Automatisch zugewiesene Begriffe Bestehende Bedingungen bleiben unverändert. Neu erkannte Begriffe werden als vorgeschlagene Begriffe hinzugefügt. Bestehende Begriffszuweisungen werden aktualisiert.

Weitere Informationen