CSV-Datei für die Zuweisung von Begriffen auf der Grundlage von Regeln

Erstellen Sie eine CSV-Datei mit dem Namen ikc-term-assignment-rules.csv , in der die Regeln für die Termzuordnung definiert sind, und laden Sie sie in das Projekt hoch. Die CSV-Datei muss den Formatierungsregeln entsprechen.

Allgemeine Formatierungsregeln
Regel Spalten
Optionen für Regeldateien

Allgemeine Formatierungsregeln

Die CSV-Datei muss dem Common Format and MIME Type for comma-separated values (CSV) Files entsprechen und in UTF-8 kodiert sein.

Einschränkungen

Die empfohlene maximale Größe der CSV-Importdatei beträgt 50 MB.

Kopfzeile

Die Kopfzeile der CSV-Datei enthält die Eigenschaften, aus denen die Regel besteht, sowie die zu ergreifende Maßnahme.

Befolgen Sie diese Richtlinien für die Kopfzeile:

Die Kopfzeile muss die erste Zeile in der Datei sein und darf sich nicht wiederholen.
Trennen Sie die Spaltennamen durch ein Komma. Wenn Sie die Datei in einem Tabellenkalkulationsprogramm erstellen, werden die Kommas automatisch hinzugefügt, wenn Sie die Datei im CSV-Format speichern.
Die Kopfzeile muss die Pflichtspalten für die Regel enthalten.
Sie können alle optionalen Spalten weglassen.
Sie können beliebige andere Spalten hinzufügen, die dann ignoriert werden.
Verwenden Sie die genauen Spaltennamen in der Kopfzeile. Bei Spaltennamen wird zwischen Groß- und Kleinschreibung unterschieden.
Achten Sie darauf, dass die Spaltennamen keine zusätzlichen Leerzeichen enthalten. Leerzeichen können von einer Tabellenkalkulation oder einem Texteditor hinzugefügt werden, sind aber nicht sichtbar. Wenn Sie eine Importfehlermeldung erhalten, dass die Spaltennamen falsch sind, obwohl Ihre Spalten richtig geschrieben und großgeschrieben sind, prüfen Sie, ob Leerzeichen vorhanden sind.

Spezifikation der Säule

Verwenden Sie ein Komma, um Werte für verschiedene Spalten zu trennen. Wenn Sie die Datei in einem Tabellenkalkulationsprogramm erstellen, werden die Kommas automatisch hinzugefügt, wenn Sie die Datei im CSV-Format speichern.

Um einen Wert für eine Spalte auszulassen, verwenden Sie ein Komma direkt nach dem vorherigen Komma und ohne weitere Zeichen. Zwei aufeinanderfolgende Kommas bedeuten zum Beispiel, dass die zweite Spalte leer ist.

Um Werte einzuschließen, verwenden Sie doppelte Anführungszeichen (").

Begriffskategorie Pfade

Sie müssen den vollständigen Kategoriepfad für einen Begriff angeben. Um den Kategoriepfad abzugrenzen, verwenden Sie zwei Größer-als-Zeichen (>>) zwischen jeder Ebene der Kategorienhierarchie und zwischen dem Kategoriepfad und dem Artefaktnamen. Wenn Sie den Pfad mit >> beginnen, ist die Stammkategorie [uncategorized].

Regel Spalten

Die CSV-Datei kann obligatorische und optionale Spalten enthalten.

Um die Regelbedingung zu definieren, fügen Sie diese Spalten ein:

OBJECT_TYPE

Die Art des Objekts, dem Begriffe zugewiesen werden sollen. Die gültigen Werte sind im Folgenden aufgelistet:

asset
column

Diese Spalte ist obligatorisch und darf nicht leer sein.

PROPERTY

Die passende Eigenschaft. Die gültigen Werte sind im Folgenden aufgelistet:

nameDer Name des Datenbestands oder der Spalte.
descriptionDie Beschreibung des Datenbestands oder der Spalte.
mostfreqvalues: Jeder der häufigsten Werte des Datenprofils. Regeln mit dieser Eigenschaft erfordern eine Datenprofilierung, bevor die Regel ordnungsgemäß angewendet werden kann.
OBJECT_TYPE muss sein column.
dataclassnameDer Name der Datenklasse, die einer Spalte zugewiesen ist.
OBJECT_TYPE muss sein column.
assetidDie ID des Datenbestands.

Diese Spalte ist obligatorisch und darf nicht leer sein.

MATCH_STRING

Die Zeichenkette, die mit der Eigenschaft abgeglichen werden soll. Sie können jeden beliebigen Wert einstellen. Diese Spalte ist obligatorisch und darf nicht leer sein.

MATCH_TYPE

Beschreibt, wie der Match-String mit der Eigenschaft abgeglichen werden soll. Diese Spalte ist obligatorisch und darf nicht leer sein. Die gültigen Werte sind im Folgenden aufgelistet:

equals
Groß- und Kleinschreibung wird nicht berücksichtigt.
equalscs
Exakte Übereinstimmung unter Berücksichtigung der Groß-/Kleinschreibung.
contains
Übereinstimmung, wenn die Eigenschaft die Übereinstimmungszeichenfolge enthält. Die Groß- und Kleinschreibung wird nicht berücksichtigt.
containscs
Übereinstimmung, wenn die Eigenschaft die Übereinstimmungszeichenfolge enthält. Beim Abgleich muss die Groß-/Kleinschreibung beachtet werden.

Um festzulegen, welche Begriffe mit welcher Wahrscheinlichkeit zugeordnet werden sollen, fügen Sie diese Spalten ein:

TERM_NAME

Der Name des Begriffs einschließlich des Kategoriepfads, wie in Begriffskategoriepfad beschrieben. Zum Beispiel Category 1 >> Category2 >> MyTerm.

Entweder TERM_NAME oder TERM_ID müssen vorhanden sein. Sie können beides angeben. In diesem Fall hat die Website TERM_ID Vorrang. Wenn Sie planen, die Regeldatei in verschiedenen Systemen mit ähnlichen Begriffen und Kategorienhierarchien zu verwenden, sollten Sie Termnamen anstelle von Term-IDs verwenden.

TERM_ID

Die ID des Begriffs. Sie können die Artefakt-ID oder die globale ID verwenden.

CONFIDENCE

Ein Fließkommawert zwischen 0 und 1, der angibt, wie viel Vertrauen zu vergeben ist. Der Standardwert ist 1.0 (=100%). Unabhängig vom Gebietsschema wird das Dezimalkomma .

Zusätzliche Spalten, die Sie aufnehmen können:

ACTIVE

Wenn Sie den Wert no einstellen, wird die Regel bei der Zuweisung nicht berücksichtigt. Während der Entwicklung kann es vorkommen, dass Sie bestimmte Regeln deaktivieren möchten, ohne sie aus der CSV-Datei zu entfernen.

GROUP

Eine Gruppe von Regeln, die es Ihnen ermöglicht, komplexere Zuweisungsregeln aufzustellen, z. B, If a column name contains X and its description contains Y, then assign term T1 and T2.

Pro Regelgruppe muss mindestens eine Bedingung und eine Aktion definiert werden.

Optionen für Regeldateien

Im Beschreibungsfeld der hochgeladenen Regeldatei können Sie zusätzliche Optionen angeben, um zu beeinflussen, wie die Regeln angewendet werden. Fügen Sie Zeilen im Format <option-name>=<option-value> hinzu. Das Beschreibungsfeld kann auch einen beliebigen anderen Text enthalten.

default_confidence_if_missing

Ein Float-Wert zwischen 0 und 1, der eine andere Standardkonfidenz als 1.0 angibt, wenn die Spalte CONFIDENCE leer ist.

use_expanded_names

Legt fest, wann ein generierter Name auch bei der Auswertung von Regeln berücksichtigt werden soll. Diese Option ist nur gültig, wenn die KI-basierten Anreicherungsfunktionen in IBM Knowledge Catalog Standard oder IBM Knowledge Catalog Premium aktiviert sind.

Mögliche Werte:

NEVER: Berücksichtigen Sie keine generierten Namen.
SUGGESTED: Überlegen Sie sich einen vorgeschlagenen Namen.
ACCEPTED: Betrachten Sie einen zugewiesenen generierten Namen.

Der Standardwert istACCEPTED.

use_generated_descriptions

Legt fest, wann eine generierte Beschreibung bei der Auswertung von Regeln auch als Beschreibung betrachtet werden soll. Diese Option ist nur gültig, wenn die KI-basierten Anreicherungsfunktionen in IBM Knowledge Catalog Standard oder IBM Knowledge Catalog Premium aktiviert sind.

Mögliche Werte:

NEVER: Generierte Beschreibungen nicht berücksichtigen
SUGGESTED: Betrachten Sie eine vorgeschlagene generierte Beschreibung.
ACCEPTED: Betrachten Sie eine zugewiesene generierte Beschreibung.

Der Standardwert istACCEPTED.

Beispiele

Beispiele für Regeln

Das folgende Beispiel beschreibt drei Regeln:

Wenn eine Spalte einen Namen hat, der die Zeichenfolge address enthält, weisen Sie den Begriff personal data mit 100%iger Sicherheit zu. 100% ist der Standardwert, wenn die Spalte CONFIDENCE leer ist.
Wenn eine Spalte einen Namen hat, der die Zeichenfolge customer enthält, weisen Sie den Begriff data subject mit 90%iger Sicherheit zu.
Wenn ein Asset eine Beschreibung hat, die die Zeichenfolge client enthält, ordnen Sie auch den Begriff data subject zu, aber mit 100%iger Sicherheit.

Die Begriffsnamen werden als Pfad im Kategorienbaum geschrieben: GDPR ist eine Stammkategorie, die die Begriffe personal data und data subject enthält.

Die Spalte COMMENT enthält zusätzliche Informationen über die Regel, hat aber keinen Einfluss auf die Begriffszuordnung.

OBJECT_TYPE	EIGENSCHAFT	MATCH_TYPE	MATCH_STRING	TERM_NAME	KONFIDENZ	COMMENT
Spalte	Name	enthält	Adresse	GDPR >> personenbezogene Daten		Adresse ist personenbezogene Daten
Spalte	Name	enthält	Kunde	GDPR >> Datensubjekt	0.9	Kunden sind betroffene Personen
Asset	Beschreibung	enthält	Client	GDPR >> Datensubjekt		Kunden sind betroffene Personen

Beispiel für eine Regelgruppe

Das folgende Beispiel zeigt eine Regelgruppe G1 , die zwei Bedingungen verbindet, und eine Regelgruppe G2 , die zwei zuzuordnende Begriffe für eine Bedingung definiert:

G1Wenn der Name einer Spalte enthält address und ihre Beschreibung enthält identifier, ordnen Sie den Begriff online identifier mit einer Zuverlässigkeit von 92 % zu.
G2: Wenn eine Spalte postfach hat (" P.O. Box" auf Deutsch) als einen seiner häufigsten Werte, weisen Sie dem Begriff European Union eine Konfidenz von 90 % und dem Begriff data subject eine Konfidenz von 95 % zu.

OBJECT_TYPE	EIGENSCHAFT	MATCH_TYPE	MATCH_STRING	TERM_NAME	KONFIDENZ	GRUPPE
Spalte	Name	enthält	Adresse			G1
Spalte	Beschreibung	enthält	Kennung	GDPR >> Online-Kennung	0.92	G1
Spalte	Häufigste Werte	enthält	Postfach	GDPR >> Europäische Union	0.9	G2
				GDPR >> Datensubjekt	0.95	G2

Beschreibung der Musterregeldatei

Das folgende Beispiel ist eine gültige Beschreibung einer Regeldatei:

This the best rule file in the world.

default_confidence_if_missing = 0.95
use_expanded_names = ACCEPTED
use_generated_descriptions = SUGGESTED

Closing remarks.