Purificare l'AI: filtri HAP contro i contenuti dannosi

Autori

Staff Editor

IBM Think

Staff Writer

IBM Think

Il world wide web facilita la connessione, accelera la crescita del business e mette a disposizione secoli di conoscenza.

Tuttavia, nonostante tutti i suoi benefici, può anche trasformarsi in ricettacolo di linguaggio che incita all'odio e di contenuti nocivi. E questo ricettacolo confluisce nel più grande oceano di dati di Internet, utilizzati per addestrare molti degli attuali foundation model, come i modelli linguistici di grandi dimensioni (LLM) e le loro funzionalità di elaborazione del linguaggio naturale (NLP).

Questa infiltrazione di linguaggio offensivo minaccia l'integrità e l'usabilità di questi modelli di intelligenza artificiale (AI). Perché? Perché se gli LLM vengono addestrati su set di dati che includono comportamenti umani orientati all'odio, ne consegue che potrebbero produrre risultati dannosi. Inoltre, questi contenuti dannosi possono infiltrarsi nei modelli AI anche durante il perfezionamento, l'ottimizzazione tramite retrieval-augmented generation (RAG) o quando un LLM interagisce con un utente.

I filtri e la rimozione dei contenuti offensivi sono essenziali per garantire che i modelli AI siano sicuri, inclusivi e imparziali e che offrano un'esperienza positiva agli utenti. Una di queste soluzioni è il filtro sistematico di odio, linguaggio offensivo e blasfemia (HAP), basato su modelli, noto come filtro HAP.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 

Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think.

Cos'è il filtro HAP?

Il filtro HAP è un sistema che utilizza un modello di classificazione per rilevare e rimuovere incitamenti all'odio, linguaggio offensivo e volgarità dal testo di input e output di un LLM.

Cos'è un modello di classificazione?

Per comprendere appieno i filtri HAP, è utile comprendere i modelli di classificazione. I modelli di classificazione sono modelli di machine learning che dividono i punti dati in gruppi predefiniti chiamati classi. Apprendono le caratteristiche della classe dai dati di input e quindi assegnano le classi possibili ai nuovi dati in base alle caratteristiche apprese. Un filtro anti-spam, ad esempio, utilizza un algoritmo di classificazione. Un modello di classificazione del filtro HAP può anche essere indicato più specificamente come classificatore di frasi, o più semplicemente come filtro HAP o rilevatore HAP.

Cosa si intende per contenuto HAP?

L'incitamento all'odio, il linguaggio offensivo e la volgarità possono essere definiti come segue:

Incitamento all'odio: espressioni di odio verso un individuo o un gruppo basate su attributi come razza, religione, etnia, orientamento sessuale, disabilità o genere. L'incitamento all'odio dimostra l'intenzione di ferire, umiliare o insultare gli appartenenti a un gruppo o di promuovere la violenza o il disordine sociale.
Linguaggio offensivo: linguaggio maleducato o che ferisce e che ha lo scopo di intimidire, svilire o sminuire qualcuno o qualcosa.
Volgarità: parole tossiche come parolacce, insulti o linguaggio sessualmente esplicito.

Come funziona il filtro HAP?

Nella pratica, un classificatore di frasi con filtro HAP valuta ogni parola del testo di input o output di un modello per determinare se contiene contenuti HAP. Assegna quindi un punteggio che rappresenta la probabilità che siano presenti contenuti HAP, magari da 0 a 1. In questo caso, un punteggio più vicino a 1 indica una maggiore probabilità di contenuti HAP. A seconda della soglia che l'utente imposta per i contenuti HAP (ad esempio "un punteggio superiore a 0,5 = HAP"), il modello assegnerebbe quindi un'etichetta a ogni frase che indica se contiene o meno HAP.

Infine, il contenuto HAP potrebbe essere contrassegnato e rimosso se si trova nei dati di pre-addestramento. Oppure, se il contenuto HAP è un output, potrebbe essere sostituito con un messaggio guardrail che indica che l'output conteneva testo dannoso che è stato rimosso.

AI Academy

Fiducia, trasparenza e governance in tema di AI

La fiducia nell'AI è senza dubbio il tema più importante per quanto concerne l'AI. Comprensibilmente, si tratta anche di un tema di estrema complessità. Analizzeremo pertanto aspetti quali le allucinazioni, i bias e i rischi, condividendo spunti e suggerimenti per un'adozione dell'AI che sia etica, responsabile ed equa.

Vai all'episodio

Casi d'uso dei filtri HAP

Secondo IBM Research, ci sono attualmente tre casi d'uso principali per i filtri HAP:

Filtro per i dati di addestramento LLM
Allineamento dei modelli utilizzando l'apprendimento per rinforzo
Controllo degli output dell'AI generativa

Filtro per i dati di addestramento LLM

Gli LLM sono solitamente addestrati su una serie di fonti di dati, alcune delle quali possono contenere contenuti odiosi o inopportuni. Il filtro HAP può aiutare a impedire agli LLM di apprendere da tali contenuti. Si verifica spesso durante la pre-elaborazione dei dati, quando c'è ancora una grande quantità di dati non elaborati.

Allineamento dei modelli utilizzando l'apprendimento per rinforzo

I modelli HAP vengono utilizzati anche durante l'allineamento. Ad esempio, l'allineamento tramite apprendimento per rinforzo premia gli output in base al modo in cui si allineano agli obiettivi previsti. Se il premio viene assegnato utilizzando un filtro HAP, il premio potrebbe essere un punteggio "non HAP" che il modello viene poi addestrato a massimizzare.

Controllo degli output dell'AI generativa

I modelli HAP possono aiutare a controllare gli output del modello di AI generativa, senza addestrare nuovamente il modello originale. Questo controllo richiede la modifica del processo di generazione per assegnare un punteggio alle previsioni del modello utilizzando sia il metodo di punteggio originale che il punteggio HAP, così da garantire contenuti accettabili e privi di odio.

È importante notare che, oltre al filtro HAP, spesso esistono altre misure di pulizia dei dati, qualità dei dati e allineamento adottate per ridurre i casi di dati errati, inopportuni o distorti che entrano o escono dal modello.

Filtri HAP di nuova generazione di IBM: open source e offensive span

Come per molte tecnologie nell'ambito dell'AI, l'innovazione si muove rapidamente anche nel mondo dei filtri HAP. I ricercatori di IBM hanno identificato due modi per migliorare i filtri HAP, ovvero attraverso modelli open source più piccoli oppure con uno strumento di identificazione offensive span.

Filtri HAP open source più piccoli

In un mondo ideale, il filtro HAP sarebbe applicato in ogni fase del ciclo di vita di un LLM. Tuttavia questo uso richiederebbe una velocità che manca alla maggior parte dei filtri HAP odierni a causa delle loro grandi dimensioni.

Ciò ha ispirato la creazione del filtro HAP più veloce e nuovo di IBM: Granite-Guardian-HAP-38m. Questo modello di encoder da 38 milioni di parametri è più piccolo del suo predecessore da 125 milioni di parametri (Granite-Guardian-HAP-125m). Può funzionare quindi otto volte più velocemente su un'unità di elaborazione centrale (CPU) e due volte più velocemente su un'unità di elaborazione grafica (GPU) (entrambe presenti negli smartphone e nei PC) per filtrare rapidamente i dati in ogni fase del ciclo di vita di un LLM.

Le varianti di entrambi i modelli di filtro HAP sono disponibili su watsonx.ai. Tuttavia, per continuare a promuovere un ecosistema di AI affidabile, IBM ha reso open source entrambi i filtri HAP su Hugging Face.

Fai clic per saperne di più sui filtri HAP open source di IBM

Identificazione dell'offensive span

Per introdurre una maggiore granularità e diversità linguistica nei filtri HAP, i ricercatori di IBM hanno sviluppato uno strumento di visualizzazione HAP chiamato MUTED: A MultiLingual Targeted Demonstration.

Andando oltre l'annotazione a livello di frase, MUTED suddivide le frasi in "obiettivi" e offensive span (o argomento offensivo). Per esempio, nella frase "Quelle persone sono guidatori orribili", l'obiettivo è "quelle persone" e l'espressione offensiva è "guidatori orribili". L'idea è che MUTED identifichi gli offensive span, ne classifichi l'intensità utilizzando mappe di calore e poi li nasconda agli utenti se sono considerati nocivi.¹

Note a piè di pagina

¹ "Muted: Multilingual Targeted Offensive Speech Identification and Visualization," Association for Computational Linguistics, dicembre 2023.

Il divario di supervisione dell'AI

Il report Cost of a Data Breach 2025 rivela come l'adozione immediata dell'AI stia superando in velocità la sicurezza e la governance.

Purificare l'AI: filtri HAP contro i contenuti dannosi

Autori

Le ultime notizie e insight sull'AI

Cos'è il filtro HAP?

Cos'è un modello di classificazione?

Cosa si intende per contenuto HAP?

Come funziona il filtro HAP?

Fiducia, trasparenza e governance in tema di AI

Casi d'uso dei filtri HAP

Filtri HAP di nuova generazione di IBM: open source e offensive span

Filtri HAP open source più piccoli

Identificazione dell'offensive span

Note a piè di pagina

Risorse

Le ultime notizie e insight sull'AI