CSV-Datei für die Zuweisung von Begriffen auf der Grundlage von Regeln
Erstellen Sie eine CSV-Datei mit dem Namen ikc-term-assignment-rules.csv , in der die Regeln für die Termzuordnung definiert sind, und laden Sie sie in das Projekt hoch. Die CSV-Datei muss den Formatierungsregeln entsprechen.
Allgemeine Formatierungsregeln
Die CSV-Datei muss dem Common Format and MIME Type for comma-separated values (CSV) Files entsprechen und in UTF-8 kodiert sein.
Einschränkungen
Die empfohlene maximale Größe der CSV-Importdatei beträgt 50 MB.
Kopfzeile
Die Kopfzeile der CSV-Datei enthält die Eigenschaften, aus denen die Regel besteht, sowie die zu ergreifende Maßnahme.
Befolgen Sie diese Richtlinien für die Kopfzeile:
- Die Kopfzeile muss die erste Zeile in der Datei sein und darf sich nicht wiederholen.
- Trennen Sie die Spaltennamen durch ein Komma. Wenn Sie die Datei in einem Tabellenkalkulationsprogramm erstellen, werden die Kommas automatisch hinzugefügt, wenn Sie die Datei im CSV-Format speichern.
- Die Kopfzeile muss die Pflichtspalten für die Regel enthalten.
- Sie können alle optionalen Spalten weglassen.
- Sie können beliebige andere Spalten hinzufügen, die dann ignoriert werden.
- Verwenden Sie die genauen Spaltennamen in der Kopfzeile. Bei Spaltennamen wird zwischen Groß- und Kleinschreibung unterschieden.
- Achten Sie darauf, dass die Spaltennamen keine zusätzlichen Leerzeichen enthalten. Leerzeichen können von einer Tabellenkalkulation oder einem Texteditor hinzugefügt werden, sind aber nicht sichtbar. Wenn Sie eine Importfehlermeldung erhalten, dass die Spaltennamen falsch sind, obwohl Ihre Spalten richtig geschrieben und großgeschrieben sind, prüfen Sie, ob Leerzeichen vorhanden sind.
Spezifikation der Säule
Verwenden Sie ein Komma, um Werte für verschiedene Spalten zu trennen. Wenn Sie die Datei in einem Tabellenkalkulationsprogramm erstellen, werden die Kommas automatisch hinzugefügt, wenn Sie die Datei im CSV-Format speichern.
Um einen Wert für eine Spalte auszulassen, verwenden Sie ein Komma direkt nach dem vorherigen Komma und ohne weitere Zeichen. Zwei aufeinanderfolgende Kommas bedeuten zum Beispiel, dass die zweite Spalte leer ist.
Um Werte einzuschließen, verwenden Sie doppelte Anführungszeichen (").
Begriffskategorie Pfade
Sie müssen den vollständigen Kategoriepfad für einen Begriff angeben. Um den Kategoriepfad abzugrenzen, verwenden Sie zwei Größer-als-Zeichen (>>) zwischen jeder Ebene der Kategorienhierarchie und zwischen dem Kategoriepfad und dem Artefaktnamen. Wenn Sie den Pfad mit >> beginnen, ist die Stammkategorie [uncategorized].
Regel Spalten
Die CSV-Datei kann obligatorische und optionale Spalten enthalten.
Um die Regelbedingung zu definieren, fügen Sie diese Spalten ein:
OBJECT_TYPEDie Art des Objekts, dem Begriffe zugewiesen werden sollen. Die gültigen Werte sind im Folgenden aufgelistet:
assetcolumn
Diese Spalte ist obligatorisch und darf nicht leer sein.
PROPERTYDie passende Eigenschaft. Die gültigen Werte sind im Folgenden aufgelistet:
nameDer Name des Datenbestands oder der Spalte.descriptionDie Beschreibung des Datenbestands oder der Spalte.mostfreqvalues: Jeder der häufigsten Werte des Datenprofils. Regeln mit dieser Eigenschaft erfordern eine Datenprofilierung, bevor die Regel ordnungsgemäß angewendet werden kann.OBJECT_TYPEmuss seincolumn.dataclassnameDer Name der Datenklasse, die einer Spalte zugewiesen ist.OBJECT_TYPEmuss seincolumn.assetidDie ID des Datenbestands.
Diese Spalte ist obligatorisch und darf nicht leer sein.
MATCH_STRINGDie Zeichenkette, die mit der Eigenschaft abgeglichen werden soll. Sie können jeden beliebigen Wert einstellen. Diese Spalte ist obligatorisch und darf nicht leer sein.
MATCH_TYPEBeschreibt, wie der Match-String mit der Eigenschaft abgeglichen werden soll. Diese Spalte ist obligatorisch und darf nicht leer sein. Die gültigen Werte sind im Folgenden aufgelistet:
equals
Groß- und Kleinschreibung wird nicht berücksichtigt.equalscs
Exakte Übereinstimmung unter Berücksichtigung der Groß-/Kleinschreibung.contains
Übereinstimmung, wenn die Eigenschaft die Übereinstimmungszeichenfolge enthält. Die Groß- und Kleinschreibung wird nicht berücksichtigt.containscs
Übereinstimmung, wenn die Eigenschaft die Übereinstimmungszeichenfolge enthält. Beim Abgleich muss die Groß-/Kleinschreibung beachtet werden.
Um festzulegen, welche Begriffe mit welcher Wahrscheinlichkeit zugeordnet werden sollen, fügen Sie diese Spalten ein:
TERM_NAMEDer Name des Begriffs einschließlich des Kategoriepfads, wie in Begriffskategoriepfad beschrieben. Zum Beispiel
Category 1 >> Category2 >> MyTerm.Entweder
TERM_NAMEoderTERM_IDmüssen vorhanden sein. Sie können beides angeben. In diesem Fall hat die WebsiteTERM_IDVorrang. Wenn Sie planen, die Regeldatei in verschiedenen Systemen mit ähnlichen Begriffen und Kategorienhierarchien zu verwenden, sollten Sie Termnamen anstelle von Term-IDs verwenden.TERM_IDDie ID des Begriffs. Sie können die Artefakt-ID oder die globale ID verwenden.
Entweder
TERM_NAMEoderTERM_IDmüssen vorhanden sein. Sie können beides angeben. In diesem Fall hat die WebsiteTERM_IDVorrang. Wenn Sie planen, die Regeldatei in verschiedenen Systemen mit ähnlichen Begriffen und Kategorienhierarchien zu verwenden, sollten Sie Termnamen anstelle von Term-IDs verwenden.CONFIDENCEEin Fließkommawert zwischen 0 und 1, der angibt, wie viel Vertrauen zu vergeben ist. Der Standardwert ist 1.0 (=100%). Unabhängig vom Gebietsschema wird das Dezimalkomma
.
Zusätzliche Spalten, die Sie aufnehmen können:
ACTIVEWenn Sie den Wert
noeinstellen, wird die Regel bei der Zuweisung nicht berücksichtigt. Während der Entwicklung kann es vorkommen, dass Sie bestimmte Regeln deaktivieren möchten, ohne sie aus der CSV-Datei zu entfernen.GROUPEine Gruppe von Regeln, die es Ihnen ermöglicht, komplexere Zuweisungsregeln aufzustellen, z. B,
If a column name contains X and its description contains Y, then assign term T1 and T2.Pro Regelgruppe muss mindestens eine Bedingung und eine Aktion definiert werden.
Optionen für Regeldateien
Im Beschreibungsfeld der hochgeladenen Regeldatei können Sie zusätzliche Optionen angeben, um zu beeinflussen, wie die Regeln angewendet werden. Fügen Sie Zeilen im Format <option-name>=<option-value> hinzu. Das Beschreibungsfeld kann auch einen beliebigen anderen Text enthalten.
default_confidence_if_missingEin Float-Wert zwischen 0 und 1, der eine andere Standardkonfidenz als 1.0 angibt, wenn die Spalte
CONFIDENCEleer ist.use_expanded_namesLegt fest, wann ein generierter Name auch bei der Auswertung von Regeln berücksichtigt werden soll. Diese Option ist nur gültig, wenn die KI-basierten Anreicherungsfunktionen in IBM Knowledge Catalog Standard oder IBM Knowledge Catalog Premium aktiviert sind.
Mögliche Werte:
NEVER: Berücksichtigen Sie keine generierten Namen.SUGGESTED: Überlegen Sie sich einen vorgeschlagenen Namen.ACCEPTED: Betrachten Sie einen zugewiesenen generierten Namen.
Der Standardwert ist
ACCEPTED.use_generated_descriptionsLegt fest, wann eine generierte Beschreibung bei der Auswertung von Regeln auch als Beschreibung betrachtet werden soll. Diese Option ist nur gültig, wenn die KI-basierten Anreicherungsfunktionen in IBM Knowledge Catalog Standard oder IBM Knowledge Catalog Premium aktiviert sind.
Mögliche Werte:
NEVER: Generierte Beschreibungen nicht berücksichtigenSUGGESTED: Betrachten Sie eine vorgeschlagene generierte Beschreibung.ACCEPTED: Betrachten Sie eine zugewiesene generierte Beschreibung.
Der Standardwert ist
ACCEPTED.
Beispiele
Beispiele für Regeln
Das folgende Beispiel beschreibt drei Regeln:
- Wenn eine Spalte einen Namen hat, der die Zeichenfolge
addressenthält, weisen Sie den Begriffpersonal datamit 100%iger Sicherheit zu. 100% ist der Standardwert, wenn die SpalteCONFIDENCEleer ist. - Wenn eine Spalte einen Namen hat, der die Zeichenfolge
customerenthält, weisen Sie den Begriffdata subjectmit 90%iger Sicherheit zu. - Wenn ein Asset eine Beschreibung hat, die die Zeichenfolge
cliententhält, ordnen Sie auch den Begriffdata subjectzu, aber mit 100%iger Sicherheit.
Die Begriffsnamen werden als Pfad im Kategorienbaum geschrieben: GDPR ist eine Stammkategorie, die die Begriffe personal data und data subject enthält.
Die Spalte COMMENT enthält zusätzliche Informationen über die Regel, hat aber keinen Einfluss auf die Begriffszuordnung.
| OBJECT_TYPE | EIGENSCHAFT | MATCH_TYPE | MATCH_STRING | TERM_NAME | KONFIDENZ | COMMENT |
|---|---|---|---|---|---|---|
| Spalte | Name | enthält | Adresse | GDPR >> personenbezogene Daten | Adresse ist personenbezogene Daten | |
| Spalte | Name | enthält | Kunde | GDPR >> Datensubjekt | 0.9 | Kunden sind betroffene Personen |
| Asset | Beschreibung | enthält | Client | GDPR >> Datensubjekt | Kunden sind betroffene Personen |
Beispiel für eine Regelgruppe
Das folgende Beispiel zeigt eine Regelgruppe G1 , die zwei Bedingungen verbindet, und eine Regelgruppe G2 , die zwei zuzuordnende Begriffe für eine Bedingung definiert:
G1Wenn der Name einer Spalte enthältaddressund ihre Beschreibung enthältidentifier, ordnen Sie den Begriffonline identifiermit einer Zuverlässigkeit von 92 % zu.G2: Wenn eine Spaltepostfachhat (" P.O. Box" auf Deutsch) als einen seiner häufigsten Werte, weisen Sie dem BegriffEuropean Unioneine Konfidenz von 90 % und dem Begriffdata subjecteine Konfidenz von 95 % zu.
| OBJECT_TYPE | EIGENSCHAFT | MATCH_TYPE | MATCH_STRING | TERM_NAME | KONFIDENZ | GRUPPE |
|---|---|---|---|---|---|---|
| Spalte | Name | enthält | Adresse | G1 | ||
| Spalte | Beschreibung | enthält | Kennung | GDPR >> Online-Kennung | 0.92 | G1 |
| Spalte | Häufigste Werte | enthält | Postfach | GDPR >> Europäische Union | 0.9 | G2 |
| GDPR >> Datensubjekt | 0.95 | G2 |
Beschreibung der Musterregeldatei
Das folgende Beispiel ist eine gültige Beschreibung einer Regeldatei:
This the best rule file in the world.
default_confidence_if_missing = 0.95
use_expanded_names = ACCEPTED
use_generated_descriptions = SUGGESTED
Closing remarks.