Das Internet erleichtert die Vernetzung, beschleunigt das Wachstum von Unternehmen und stellt uns jahrhundertealtes Wissen zur Verfügung.
Aber trotz all seiner Vorteile kann es auch ein Sündenpfuhl für hasserfüllte Sprache und schädliche Inhalte sein. Und dieser Sumpf fließt in den größeren Ozean von Internetdaten, die zum Trainieren vieler der heutigen Foundation Models verwendet werden, wie z. B. große Sprachmodelle (Large Language Models, LLMs) und deren Funktionen zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP).
Dieses Durchsickern beleidigender Sprache bedroht die Integrität und Nutzbarkeit dieser KI-Modelle (künstliche Intelligenz). Warum? Wenn LLMs auf Datensätzen trainiert werden, die hasserfülltes menschliches Verhalten enthalten, könnten sie folglich schädliche Ergebnisse produzieren. Darüber hinaus können diese schädlichen Inhalte auch während der Feinabstimmung, der Optimierung durch Retrieval-Augmented Generation (RAG) oder bei der Interaktion eines LLM mit einem Benutzer in die KI-Modelle eindringen.
Die Filterung und Entfernung von anstößigen Inhalten ist von zentraler Bedeutung, um sicherzustellen, dass KI-Modelle sicher, inklusiv und unvoreingenommen sind und den Nutzern ein positives Erlebnis bieten. Eine solche Lösung ist die modellgestützte systematische Filterung von Hass, Beleidigungen und Obszönitäten (Hate, Abuse, Profanity, HAP), die auch als HAP-Filterung bezeichnet wird.
Die HAP-Filterung ist ein System, das ein Klassifizierungsmodell verwendet, um Hassrede, Schimpfwörter und Obszönitäten aus den Eingabe- und Ausgabetexten eines LLMs zu erkennen und zu entfernen.
Um die HAP-Filterung vollständig zu verstehen, ist es hilfreich, Klassifikationsmodelle zu verstehen. Klassifizierungsmodelle sind Modelle des maschinellen Lernens, die Datenpunkte in vordefinierte Gruppen, sogenannte Klassen, einteilen. Sie lernen Klassenmerkmale aus den Eingabedaten und ordnen dann neuen Daten mögliche Klassen entsprechend dieser gelernten Merkmale zu. Ein Filter für Spam-E-Mails verwendet zum Beispiel einen Klassifizierungsalgorithmus. Ein Klassifizierungsmodell zur HAP-Filterung kann auch als Satzklassifizierer oder einfacher als HAP-Filter oder HAP-Detektor bezeichnet werden.
Hassrede, Beleidigungen und Obszönitäten können wie folgt definiert werden:
In der Praxis bewertet ein Satzklassifikator mit HAP-Filterung jedes Wort des Eingabe- oder Ausgabetextes eines Modells, um festzustellen, ob es HAP-Inhalte enthält. Anschließend vergibt er eine Punktzahl, die für die Wahrscheinlichkeit des Vorhandenseins von HAP-Inhalten steht, z. B. von 0 bis 1. In diesem Fall bedeutet eine Punktzahl, die näher an 1 liegt, eine höhere Wahrscheinlichkeit für HAP-Inhalte. Je nach dem Schwellenwert, den der Benutzer für HAP-Inhalte festlegt (z. B. „eine Punktzahl von mehr als 0,5 = HAP“), würde das Modell dann jedem Satz eine Kennzeichnung zuweisen, die angibt, ob er HAP enthält oder nicht.
Zum Abschluss könnte der HAP-Inhalt markiert und entfernt werden, wenn er in den Daten vor dem Training enthalten ist. Falls der HAP-Inhalt eine Ausgabe ist, könnte er durch eine entsprechende Warnmeldung ersetzt werden, die besagt, dass die Ausgabe problematischen Text enthielt und entfernt wurde.
Laut IBM Research gibt es derzeit drei Hauptanwendungsfälle für HAP-Filter:
LLMs werden in der Regel auf eine Vielzahl von Datenquellen trainiert, von denen einige hasserfüllte oder unangemessene Inhalte enthalten können. Die HAP-Filterung kann dazu beitragen, dass LLMs nicht aus solchen Inhalten lernen. Dies geschieht oft während der Vorverarbeitung der Daten, wenn noch eine große Menge an Rohdaten vorhanden ist.
HAP-Modelle werden auch bei der Ausrichtung verwendet. Bei der Ausrichtung durch verstärkendes Lernen wird das Output beispielsweise danach belohnt, wie sie mit den beabsichtigten Zielen übereinstimmen. Wenn die Belohnung anhand eines HAP-Filters bewertet wird, könnte die Belohnung eine „Nicht-HAP“-Bewertung sein, für deren Maximierung das Modell dann trainiert wird.
HAP-Modelle können helfen, das Output generativer KI-Modelle zu kontrollieren, ohne das ursprüngliche Modell neu trainieren zu müssen. Diese Kontrolle erfordert eine Änderung des Generierungsprozesses, um die Modellvorhersagen sowohl mit der ursprünglichen Bewertungsmethode als auch mit der HAP-Bewertung zu bewerten, um akzeptable, hassfreie Inhalte sicherzustellen.
Zu beachten ist, dass neben der HAP-Filterung häufig weitere Schritte zur Datenbereinigung, Datenqualität und zum Datenabgleich unternommen werden, um zu verhindern, dass falsche, ungeeignete oder verzerrte Daten in das Modell einfließen oder es verlassen.
Wie bei vielen KI-bezogenen Technologien schreitet die Innovation in der Welt der HAP-Filterung schnell voran. IBM Forscher haben zwei Möglichkeiten zur Verbesserung von HAP-Filtern identifiziert: kleinere, quelloffene Modelle und ein Tool zur Identifizierung beleidigender Bereiche.
In einer idealen Welt würde die HAP-Filterung in jeder Phase des LLM-Lebenszyklus erfolgen. Diese Verwendung würde jedoch eine Geschwindigkeit erfordern, die den meisten heutigen HAP-Filtern aufgrund ihrer Größe fehlt.
Dies war die Inspiration für den schnelleren, neueren HAP-Filter von IBM: Granite-Guardian-HAP-38m. Dieses Encoder-Modell mit 38 Millionen Parametern ist kleiner als sein Vorgänger mit 125 Millionen Parametern (Granite-Guardian-HAP-125m). Als solches kann es achtmal schneller auf einer zentralen Recheneinheit (CPU) und doppelt so schnell auf einem Grafikprozessor (GPU) (beide in Smartphones und PCs zu finden) laufen, um Daten in jeder Phase des LLM-Lebenszyklus schnell zu filtern.
Varianten beider HAP-Filtermodelle sind auf watsonx.ai verfügbar. Aber um ein vertrauenswürdiges KI-Ökosystem weiter zu fördern, hat IBM beide HAP-Filter auf Hugging Face freigegeben.
Um den HAP-Filtern eine größere Granularität und Sprachenvielfalt zu verleihen, haben IBM Forscher ein HAP-Visualisierungstool namens MUTED entwickelt, was für „MUltilingual Targeted Demonstration“ steht.
MUTED geht über die Annotation auf Satzebene hinaus und unterteilt Sätze in „Ziele“ und beleidigende Bereiche (oder das beleidigende Argument). Zum Beispiel ist in dem Satz „Diese Leute sind schreckliche Autofahrer“ das Ziel „diese Leute“ und der beleidigende Bereich ist „schreckliche Autofahrer“. Die Idee dahinter ist, dass MUTED anstößige Bereiche identifiziert, ihre Intensität mithilfe von Heatmaps einstuft und sie dann vor Nutzern verbirgt, falls sie als schädlich angesehen werden.1
1 „Muted: Multilingual Targeted Offensive Speech Identification and Visualization“. Association for Computational Linguistics. Dezember 2023.
Unsere dritte Generation von KI-Sprachmodellen ist da. Diese auf Unternehmen abgestimmten und als Open-Source-Lösungen bereitgestellten Modelle bieten eine außergewöhnliche Leistung bei Sicherheitsbenchmarks und in einem breiten Spektrum von Unternehmensaufgaben von Cybersicherheit bis RAG.
Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.
Erschließen Sie das volle Potenzial Ihrer KI und erfahren Sie, wie KI-Governance dazu beitragen kann, das Vertrauen Ihrer Mitarbeiter in KI zu stärken, die Akzeptanz und Innovation zu beschleunigen und das Vertrauen Ihrer Kunden zu verbessern.