Filtern von Inhalten Foundation-Modell mit KI-Sicherheitsvorkehrungen
KI-Sicherheitsvorkehrungen entfernen potenziell schädliche Inhalte wie Hassreden, Beleidigungen und Obszönitäten aus den Ausgaben und Eingaben Foundation-Modell.
Funktionen
KI-Leitplanken verwenden Satzklassifikatoren, um sowohl die Eingabe für ein Foundation-Modell als auch den vom Modell generierten Ausgabetext zu analysieren.
Der Satzklassifikator zerlegt den Eingabe- und Ausgabetext des Modells in Sätze und überprüft dann jeden Satz, um schädliche Inhalte zu finden und zu kennzeichnen. Das Klassifikationsmerkmal bewertet jedes Wort, Beziehungen zwischen den Wörtern und den Kontext des Satzes, um festzustellen, ob ein Satz schädliche Sprache enthält. Das Klassifikationsmerkmal weist dann einen Score zu, der die Wahrscheinlichkeit darstellt, dass unzulässiger Inhalt vorhanden ist.
KI-Sicherheitsvorkehrungen werden automatisch aktiviert, wenn Sie Inferenz auf Foundation-Modelle für natürliche Sprache durchführen.
Wenn Sie in „ Prompt Lab “ KI-Leitplanken verwenden und auf „Generieren“ klicken, überprüft der Filter den gesamten Eingabe- und Ausgabetext des Modells. Unzulässiger Text wird wie folgt behandelt:
Als unzulässig markierter Eingabetext wird nicht an das Basismodell übergeben. Anstelle der Modellausgabe wird die folgende Nachricht angezeigt:
[The input was rejected as inappropriate]Modellausgabetext, der als unzulässig markiert ist, wird durch die folgende Nachricht ersetzt:
[Potentially harmful text removed]
Einschränkungen
- KI-Leitplanken können schädliche Inhalte nur in englischen Texten erkennen.
- Sie können keine KI-Leitplanken mit programmatischen Sprachfundamentmodellen anwenden.
KI-Leitplankenfilter
Sie können die folgenden Filter so konfigurieren, dass sie auf die Benutzereingabe und die Modellausgabe angewendet werden, und gegebenenfalls die Filterempfindlichkeit anpassen:
Filter für Hass, Beleidigungen und Obszönitäten (HAP)
Der HAP-Filter, auch HAP-Detektor genannt, ist ein Satzklassifikator, der aus einem großen Sprachmodell der IBM Slate-Familie Slate-Modelle sind von IBM Research entwickelte Modelle zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), die ausschließlich auf Encodern basieren.
Verwenden Sie den HAP-Filter, um die folgenden Arten von Sprache zu erkennen und zu kennzeichnen:
Hassrede: Äußerungen des Hasses gegenüber einer Person oder Gruppe aufgrund von Merkmalen wie Ethnie, Religion, ethnischer Herkunft, sexueller Orientierung, Behinderung oder Geschlecht. Hassreden zeigen eine Absicht, die Mitglieder einer Gruppe zu verletzen, zu erniedrigen oder zu beleidigen oder Gewalt oder soziale Störungen zu fördern.
Beleidigende Sprache: Unhöfliche oder verletzende Sprache, die darauf abzielt, jemanden oder etwas zu schikanieren, herabzusetzen oder zu erniedrigen.
Obszönität: Giftige Wörter wie Schimpfwörter, Beleidigungen oder sexuell eindeutige Sprache.
Sie können den HAP-Filter unabhängig voneinander für Benutzereingaben und Modellausgaben verwenden.
Sie können die Filterempfindlichkeit ändern, indem Sie einen Schwellenwert festlegen. Der Schwellenwert stellt den Wert dar, den die vom HAP-Klassifikator generierten Punktzahlen erreichen müssen, damit der Inhalt als schädlich eingestuft wird. Der Schwellenwert für die Bewertung liegt zwischen 0.0 und 1.0.
Ein niedrigerer Wert, z. B. 0.1 oder 0.2, ist sicherer, weil der Schwellenwert niedriger ist. Schädliche Inhalte werden mit größerer Wahrscheinlichkeit erkannt, wenn ein niedrigerer Wert den Filter auslösen kann. Der Klassifikator kann jedoch auch ausgelöst werden, wenn der Inhalt sicher ist.
Ein Wert, der näher an 1 liegt, wie z. B. 0.8 oder 0.9, ist risikoreicher, da der Schwellenwert für die Bewertung höher ist. Wenn eine höhere Punktzahl erforderlich ist, um den Filter auszulösen, werden möglicherweise schädliche Inhalte übersehen. Die als schädlich gekennzeichneten Inhalte sind jedoch mit größerer Wahrscheinlichkeit auch schädlich.
Um AI-Leitplanken zu deaktivieren, setzen Sie den HAP-Schwellenwert auf 1.
Filter für persönlich identifizierbare Informationen (PII)
Der PII-Filter verwendet ein NLP-KI-Modell, um Inhalte zu identifizieren und zu kennzeichnen. Eine vollständige Liste der Entitätstypen, die gekennzeichnet sind, finden Sie unter Regelbasierte Extraktion für allgemeine Entitäten.
Verwenden Sie den PII-Filter, um festzulegen, ob personenbezogene Daten wie Telefonnummern und E-Mail-Adressen aus den Benutzereingaben und der Ausgabe des Stiftungsmodells herausgefiltert werden sollen. Sie können PII-Filter für Benutzereingaben und Modellausgaben unabhängig voneinander einstellen.
Der Schwellenwert des PII-Filters ist auf 0.8 eingestellt, und Sie können die Empfindlichkeit des Filters nicht ändern.
Wege zur Arbeit
Sie können schädliche Inhalte entfernen, wenn Sie mit Foundation-Modelle in „ watsonx.ai “ arbeiten. Dazu stehen Ihnen folgende Methoden zur Verfügung:
- Aus der Prompt Lab. Weitere Informationen finden Sie unter „Konfigurieren von KI-Sicherheitsvorkehrungen“ im Handbuch „ Prompt Lab “
- Programmgesteuert mit der REST-API und der Bibliothek „ Python “. Weitere Informationen finden Sie unter Programmgesteuertes Konfigurieren von AI-Sicherheitsvorkehrungen
Konfigurieren von KI-Sicherheitsvorkehrungen in der „ Prompt Lab “
Um schädliche Inhalte zu entfernen, wenn Sie mit Foundation-Modelle in der „ Prompt Lab ” arbeiten, stellen Sie den Schalter für KI-Sicherheitsvorkehrungen auf „Ein ”.
Die KI-Sicherheitsbarriere-Funktion wird automatisch für alle natürlichen Foundation-Modelle in englischer Sprache aktiviert.
Um AI Guardrails in der „ Prompt Lab “ zu konfigurieren, führen Sie die folgenden Schritte aus:
Wenn die KI-Leitplanken aktiviert sind, klicken Sie auf das Symbol für die
KI-Leitplanken-Einstellungen.
Sie können verschiedene Filter konfigurieren, die auf die Benutzereingaben und Modellausgaben angewendet werden sollen, und gegebenenfalls die Filterempfindlichkeit anpassen.
HAP-Filter
Um die KI-Sicherheitsvorkehrungen zu deaktivieren, stellen Sie den HAP-Schieberegler auf
1. Um die Empfindlichkeit der Leitplanken zu ändern, verschieben Sie die HAP -Schieberegler.PII-Filter
Um den PII-Filter zu aktivieren, stellen Sie den PII -Schalter auf „Ein “.
Probieren Sie verschiedene Einstellungen aus, um die für Ihre Bedürfnisse optimalen Einstellungen zu finden.
Klicken Sie auf „Speichern “.
Programmgesteuerte Konfiguration von KI-Sicherheitsvorkehrungen
Sie können AI-Leitplanken programmgesteuert festlegen, um den Eingabetext für ein Foundation-Modell und die vom Modell generierte Ausgabe auf verschiedene Weise zu moderieren.
Wenn Sie ein Foundation-Modell über die API aufrufen, können Sie das moderations Feld verwenden, um Filter auf die Ein- und Ausgabe Foundation-Modell anzuwenden. Weitere Informationen finden Sie in der API-Referenz zu „ watsonx.ai “.
Weitere Informationen zum Anpassen von Filtern mit der Python Bibliothek finden Ein Foundation-Modell programmgesteuert ableiten (Python)Sie unter.
REST-API
Sie können die folgenden API-Endpunkte von watsonx.ai verwenden, um KI-Sicherheitsvorkehrungen für Eingabe- und Ausgabetexte in natürlicher Sprache zu konfigurieren und anzuwenden:
Wenn Sie ein Foundation-Modell mithilfe der Textgenerierungs-API ableiten, können Sie das
moderationsFeld verwenden, um Filter auf die Eingabe und Ausgabe Foundation-Modell anzuwenden. Weitere Informationen finden Sie unter „Textgenerierung “ in der Referenzdokumentation zur API „ watsonx.ai “.Wenn Sie Inhalte mithilfe der Text-Erkennungs-API überprüfen, können Sie das
detectorsFeld verwenden, um Filter auf den Text anzuwenden. Weitere Informationen finden Sie unter „Texterkennung“ in der Referenzdokumentation zur API „ watsonx.ai “.
Python
Mit dem SDK „ watsonx.ai “ ( Python ) können Sie KI-Sicherheitsvorkehrungen für natürliche Spracheingaben und -ausgaben auf folgende Weise konfigurieren und anwenden:
Passen Sie die AI-Guardrails-Filter mit der Bibliothek „ Python “ an, wenn Sie das Foundation-Modell mithilfe der Textgenerierungs-API inferieren. Weitere Informationen finden Sie unter Ein Foundation-Modell programmgesteuert ableiten (Python).
Passen Sie die AI Guardrails-Filter mit der Bibliothek „ Python “ an, wenn Sie das Foundation-Modell mithilfe der Textdetektions-API inferieren. Weitere Informationen finden Sie in der Guardian-Klasse der Bibliothek „ watsonx.ai “ ( Python ).
Das folgende Codebeispiel zeigt Ihnen, wie Sie die Filter mit der Texterkennungs-API konfigurieren und verwenden können:
from ibm_watsonx_ai import APIClient, Credentials
from ibm_watsonx_ai.foundation_models.moderations import Guardian
credentials = Credentials(
url = "https://{region}.ml.cloud.ibm.com",
api_key ="{my-IBM-Cloud-API-key}"
)
api_client = APIClient(credentials, space_id="{my-space-ID}")
detectors = {
"granite_guardian": {"threshold": 0.4},
"hap": {"threshold": 0.4},
"pii": {},
}
guardian = Guardian(
api_client=api_client, # required
detectors=detectors # required
)
Um den benutzerdefinierten Filter mit der Bibliothek „ Python “ zu verwenden, fügen Sie den folgenden Parameter in die Text-Erkennungsanfrage ein:
text = "I would like to say some `Indecent words`."
response = guardian.detect(
text=text, # required
detectors=detectors # optional
)
Weitere Informationen finden Sie unter „ watsonx.aiPython SDK “.