Reinigung von KI: HAP-Filterung gegen schädliche Inhalte

Autoren

Staff Editor

IBM Think

Staff Writer

IBM Think

Das Internet erleichtert die Vernetzung, beschleunigt das Wachstum von Unternehmen und stellt uns jahrhundertealtes Wissen zur Verfügung.

Aber trotz all seiner Vorteile kann es auch ein Sündenpfuhl für hasserfüllte Sprache und schädliche Inhalte sein. Und dieser Sumpf fließt in den größeren Ozean von Internetdaten, die zum Trainieren vieler der heutigen Foundation Models verwendet werden, wie z. B. große Sprachmodelle (Large Language Models, LLMs) und deren Funktionen zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP).

Dieses Durchsickern beleidigender Sprache bedroht die Integrität und Nutzbarkeit dieser KI-Modelle (künstliche Intelligenz). Warum? Wenn LLMs auf Datensätzen trainiert werden, die hasserfülltes menschliches Verhalten enthalten, könnten sie folglich schädliche Ergebnisse produzieren. Darüber hinaus können diese schädlichen Inhalte auch während der Feinabstimmung, der Optimierung durch Retrieval-Augmented Generation (RAG) oder bei der Interaktion eines LLM mit einem Benutzer in die KI-Modelle eindringen.

Die Filterung und Entfernung von anstößigen Inhalten ist von zentraler Bedeutung, um sicherzustellen, dass KI-Modelle sicher, inklusiv und unvoreingenommen sind und den Nutzern ein positives Erlebnis bieten. Eine solche Lösung ist die modellgestützte systematische Filterung von Hass, Beleidigungen und Obszönitäten (Hate, Abuse, Profanity, HAP), die auch als HAP-Filterung bezeichnet wird.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Was ist HAP-Filterung?

Die HAP-Filterung ist ein System, das ein Klassifizierungsmodell verwendet, um Hassrede, Schimpfwörter und Obszönitäten aus den Eingabe- und Ausgabetexten eines LLMs zu erkennen und zu entfernen.

Was ist ein Klassifikationsmodell?

Um die HAP-Filterung vollständig zu verstehen, ist es hilfreich, Klassifikationsmodelle zu verstehen. Klassifizierungsmodelle sind Modelle des maschinellen Lernens, die Datenpunkte in vordefinierte Gruppen, sogenannte Klassen, einteilen. Sie lernen Klassenmerkmale aus den Eingabedaten und ordnen dann neuen Daten mögliche Klassen entsprechend dieser gelernten Merkmale zu. Ein Filter für Spam-E-Mails verwendet zum Beispiel einen Klassifizierungsalgorithmus. Ein Klassifizierungsmodell zur HAP-Filterung kann auch als Satzklassifizierer oder einfacher als HAP-Filter oder HAP-Detektor bezeichnet werden.

Was gilt als HAP-Inhalt?

Hassrede, Beleidigungen und Obszönitäten können wie folgt definiert werden:

Hassrede: Äußerungen des Hasses gegenüber einer Person oder Gruppe aufgrund von Merkmalen wie Ethnie, Religion, ethnischer Herkunft, sexueller Orientierung, Behinderung oder Geschlecht. Hassrede zeigt die Absicht, die Mitglieder einer Gruppe zu verletzen, zu demütigen oder zu beleidigen, oder Gewalt oder soziale Unruhe zu fördern.
Beleidigende Sprache: Unhöfliche oder verletzende Sprache, die darauf abzielt, jemanden oder etwas zu schikanieren, herabzusetzen oder zu erniedrigen.
Obszönität: Toxische Ausdrücke wie Schimpfwörter, Beleidigungen oder sexuell explizite Sprache.

Wie funktioniert die HAP-Filterung?

In der Praxis bewertet ein Satzklassifikator mit HAP-Filterung jedes Wort des Eingabe- oder Ausgabetextes eines Modells, um festzustellen, ob es HAP-Inhalte enthält. Anschließend vergibt er eine Punktzahl, die für die Wahrscheinlichkeit des Vorhandenseins von HAP-Inhalten steht, z. B. von 0 bis 1. In diesem Fall bedeutet eine Punktzahl, die näher an 1 liegt, eine höhere Wahrscheinlichkeit für HAP-Inhalte. Je nach dem Schwellenwert, den der Benutzer für HAP-Inhalte festlegt (z. B. „eine Punktzahl von mehr als 0,5 = HAP“), würde das Modell dann jedem Satz eine Kennzeichnung zuweisen, die angibt, ob er HAP enthält oder nicht.

Zum Abschluss könnte der HAP-Inhalt markiert und entfernt werden, wenn er in den Daten vor dem Training enthalten ist. Falls der HAP-Inhalt eine Ausgabe ist, könnte er durch eine entsprechende Warnmeldung ersetzt werden, die besagt, dass die Ausgabe problematischen Text enthielt und entfernt wurde.

AI Academy

Vertrauen, Transparenz und Governance in der KI

KI-Vertrauen ist zweifelsohne das wichtigste Thema in der KI. Es ist verständlicherweise auch ein überwältigendes Thema. Wir werden uns mit Problemen wie Halluzinationen, Voreingenommenheit und Risiken auseinandersetzen und Schritte für eine ethische, verantwortungsvolle und faire Einführung von KI aufzeigen.

Zur Episode wechseln

Anwendungsfälle für HAP-Filter

Laut IBM Research gibt es derzeit drei Hauptanwendungsfälle für HAP-Filter:

Filterung von LLM-Trainingsdaten
Ausrichtung von Modellen mithilfe von verstärkendem Lernen
Steuerung der generativen KI-Ausgaben

Filterung von LLM-Trainingsdaten

LLMs werden in der Regel auf eine Vielzahl von Datenquellen trainiert, von denen einige hasserfüllte oder unangemessene Inhalte enthalten können. Die HAP-Filterung kann dazu beitragen, dass LLMs nicht aus solchen Inhalten lernen. Dies geschieht oft während der Vorverarbeitung der Daten, wenn noch eine große Menge an Rohdaten vorhanden ist.

Ausrichtung von Modellen mithilfe von verstärkendem Lernen

HAP-Modelle werden auch bei der Ausrichtung verwendet. Bei der Ausrichtung durch verstärkendes Lernen wird das Output beispielsweise danach belohnt, wie sie mit den beabsichtigten Zielen übereinstimmen. Wenn die Belohnung anhand eines HAP-Filters bewertet wird, könnte die Belohnung eine „Nicht-HAP“-Bewertung sein, für deren Maximierung das Modell dann trainiert wird.

Steuerung generativer KI-Outputs

HAP-Modelle können helfen, das Output generativer KI-Modelle zu kontrollieren, ohne das ursprüngliche Modell neu trainieren zu müssen. Diese Kontrolle erfordert eine Änderung des Generierungsprozesses, um die Modellvorhersagen sowohl mit der ursprünglichen Bewertungsmethode als auch mit der HAP-Bewertung zu bewerten, um akzeptable, hassfreie Inhalte sicherzustellen.

Zu beachten ist, dass neben der HAP-Filterung häufig weitere Schritte zur Datenbereinigung, Datenqualität und zum Datenabgleich unternommen werden, um zu verhindern, dass falsche, ungeeignete oder verzerrte Daten in das Modell einfließen oder es verlassen.

Die HAP-Filter der nächsten Generation von IBM: Open Source und offensive Bereiche

Wie bei vielen KI-bezogenen Technologien schreitet die Innovation in der Welt der HAP-Filterung schnell voran. IBM Forscher haben zwei Möglichkeiten zur Verbesserung von HAP-Filtern identifiziert: kleinere, quelloffene Modelle und ein Tool zur Identifizierung beleidigender Bereiche.

Kleinere Open-Source-HAP-Filter

In einer idealen Welt würde die HAP-Filterung in jeder Phase des LLM-Lebenszyklus erfolgen. Diese Verwendung würde jedoch eine Geschwindigkeit erfordern, die den meisten heutigen HAP-Filtern aufgrund ihrer Größe fehlt.

Dies war die Inspiration für den schnelleren, neueren HAP-Filter von IBM: Granite-Guardian-HAP-38m. Dieses Encoder-Modell mit 38 Millionen Parametern ist kleiner als sein Vorgänger mit 125 Millionen Parametern (Granite-Guardian-HAP-125m). Als solches kann es achtmal schneller auf einer zentralen Recheneinheit (CPU) und doppelt so schnell auf einem Grafikprozessor (GPU) (beide in Smartphones und PCs zu finden) laufen, um Daten in jeder Phase des LLM-Lebenszyklus schnell zu filtern.

Varianten beider HAP-Filtermodelle sind auf watsonx.ai verfügbar. Aber um ein vertrauenswürdiges KI-Ökosystem weiter zu fördern, hat IBM beide HAP-Filter auf Hugging Face freigegeben.

Hier klicken, um mehr über die Open-Source-HAP-Filter von IBM zu erfahren

Identifizierung beleidigender Bereiche

Um den HAP-Filtern eine größere Granularität und Sprachenvielfalt zu verleihen, haben IBM Forscher ein HAP-Visualisierungstool namens MUTED entwickelt, was für „MUltilingual Targeted Demonstration“ steht.

MUTED geht über die Annotation auf Satzebene hinaus und unterteilt Sätze in „Ziele“ und beleidigende Bereiche (oder das beleidigende Argument). Zum Beispiel ist in dem Satz „Diese Leute sind schreckliche Autofahrer“ das Ziel „diese Leute“ und der beleidigende Bereich ist „schreckliche Autofahrer“. Die Idee dahinter ist, dass MUTED anstößige Bereiche identifiziert, ihre Intensität mithilfe von Heatmaps einstuft und sie dann vor Nutzern verbirgt, falls sie als schädlich angesehen werden.¹

Fußnoten

¹ „Muted: Multilingual Targeted Offensive Speech Identification and Visualization“. Association for Computational Linguistics. Dezember 2023.

Die Lücke bei der KI-Aufsicht

Der Data Breach Kostenreport 2025 zeigt, wie die unmittelbare Einführung von KI Sicherheit und Governance übertrifft.

Ressourcen

KI-Governance für das Unternehmen

Lernen Sie die wichtigsten Vorteile kennen, die sich durch die automatisierte KI-Governance sowohl für heutige generative KI- als auch für herkömmliche ML-Modelle ergeben.

Warum KI-Governance eine geschäftliche Notwendigkeit für die Skalierung künstlicher Intelligenz im Unternehmen ist

Erfahren Sie mehr über die neuen Herausforderungen der generativen KI, die Notwendigkeit der Steuerung von KI- und ML-Modellen und die Schritte zum Aufbau eines vertrauenswürdigen, transparenten und erklärbaren KI-Frameworks.

Vorbereitungen für das EU AI Act, Phase 2: Risikobewertung und Kategorisierung

Verstehen Sie, wie wichtig es ist, einen vertretbaren Bewertungsprozess einzurichten und jeden Anwendungsfall konsequent in die entsprechende Risikostufe einzustufen.

KI-Lebenszyklus-Governance

Erfahren Sie, wie Sie mit einem Portfolio von KI-Produkten für generative KI-Modelle ethische und gesetzeskonforme Praktiken fördern.

KI in Aktion 2024

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

Weiterführende Lösungen

IBM Granite

Unsere dritte Generation von KI-Sprachmodellen ist da. Diese auf Unternehmen abgestimmten und als Open-Source-Lösungen bereitgestellten Modelle bieten eine außergewöhnliche Leistung bei Sicherheitsbenchmarks und in einem breiten Spektrum von Unternehmensaufgaben von Cybersicherheit bis RAG.

Granite kennenlernen

Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai

KI-Governance-Lösungen und -Services

Erschließen Sie das volle Potenzial Ihrer KI und erfahren Sie, wie KI-Governance dazu beitragen kann, das Vertrauen Ihrer Mitarbeiter in KI zu stärken, die Akzeptanz und Innovation zu beschleunigen und das Vertrauen Ihrer Kunden zu verbessern.

KI-Governance-Lösungen erkunden

Gehen Sie den nächsten Schritt

IBM Granite ist unsere Auswahl offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und optimiert sind, um Ihre KI-Anwendungen zu skalieren. Diese auf Unternehmen abgestimmten und als Open-Source-Lösungen bereitgestellten Modelle erbringen außergewöhnliche Leistungen bei der Erfüllung von Sicherheitsbenchmarks und bei einer Vielzahl von Unternehmensaufgaben, die von Cybersicherheit bis RAG reichen.