Il world wide web facilita la connessione, accelera la crescita del business e mette a disposizione secoli di conoscenza.
Tuttavia, nonostante tutti i suoi benefici, può anche trasformarsi in ricettacolo di linguaggio che incita all'odio e di contenuti nocivi. E questo ricettacolo confluisce nel più grande oceano di dati di Internet, utilizzati per addestrare molti degli attuali foundation model, come i modelli linguistici di grandi dimensioni (LLM) e le loro funzionalità di elaborazione del linguaggio naturale (NLP).
Questa infiltrazione di linguaggio offensivo minaccia l'integrità e l'usabilità di questi modelli di intelligenza artificiale (AI). Perché? Perché se gli LLM vengono addestrati su set di dati che includono comportamenti umani orientati all'odio, ne consegue che potrebbero produrre risultati dannosi. Inoltre, questi contenuti dannosi possono infiltrarsi nei modelli AI anche durante il perfezionamento, l'ottimizzazione tramite retrieval-augmented generation (RAG) o quando un LLM interagisce con un utente.
I filtri e la rimozione dei contenuti offensivi sono essenziali per garantire che i modelli AI siano sicuri, inclusivi e imparziali e che offrano un'esperienza positiva agli utenti. Una di queste soluzioni è il filtro sistematico di odio, linguaggio offensivo e blasfemia (HAP), basato su modelli, noto come filtro HAP.
Il filtro HAP è un sistema che utilizza un modello di classificazione per rilevare e rimuovere incitamenti all'odio, linguaggio offensivo e volgarità dal testo di input e output di un LLM.
Per comprendere appieno i filtri HAP, è utile comprendere i modelli di classificazione. I modelli di classificazione sono modelli di machine learning che dividono i punti dati in gruppi predefiniti chiamati classi. Apprendono le caratteristiche della classe dai dati di input e quindi assegnano le classi possibili ai nuovi dati in base alle caratteristiche apprese. Un filtro anti-spam, ad esempio, utilizza un algoritmo di classificazione. Un modello di classificazione del filtro HAP può anche essere indicato più specificamente come classificatore di frasi, o più semplicemente come filtro HAP o rilevatore HAP.
L'incitamento all'odio, il linguaggio offensivo e la volgarità possono essere definiti come segue:
Nella pratica, un classificatore di frasi con filtro HAP valuta ogni parola del testo di input o output di un modello per determinare se contiene contenuti HAP. Assegna quindi un punteggio che rappresenta la probabilità che siano presenti contenuti HAP, magari da 0 a 1. In questo caso, un punteggio più vicino a 1 indica una maggiore probabilità di contenuti HAP. A seconda della soglia che l'utente imposta per i contenuti HAP (ad esempio "un punteggio superiore a 0,5 = HAP"), il modello assegnerebbe quindi un'etichetta a ogni frase che indica se contiene o meno HAP.
Infine, il contenuto HAP potrebbe essere contrassegnato e rimosso se si trova nei dati di pre-addestramento. Oppure, se il contenuto HAP è un output, potrebbe essere sostituito con un messaggio guardrail che indica che l'output conteneva testo dannoso che è stato rimosso.
Secondo IBM Research, ci sono attualmente tre casi d'uso principali per i filtri HAP:
Gli LLM sono solitamente addestrati su una serie di fonti di dati, alcune delle quali possono contenere contenuti odiosi o inopportuni. Il filtro HAP può aiutare a impedire agli LLM di apprendere da tali contenuti. Si verifica spesso durante la pre-elaborazione dei dati, quando c'è ancora una grande quantità di dati non elaborati.
I modelli HAP vengono utilizzati anche durante l'allineamento. Ad esempio, l'allineamento tramite apprendimento per rinforzo premia gli output in base al modo in cui si allineano agli obiettivi previsti. Se il premio viene assegnato utilizzando un filtro HAP, il premio potrebbe essere un punteggio "non HAP" che il modello viene poi addestrato a massimizzare.
I modelli HAP possono aiutare a controllare gli output del modello di AI generativa, senza addestrare nuovamente il modello originale. Questo controllo richiede la modifica del processo di generazione per assegnare un punteggio alle previsioni del modello utilizzando sia il metodo di punteggio originale che il punteggio HAP, così da garantire contenuti accettabili e privi di odio.
È importante notare che, oltre al filtro HAP, spesso esistono altre misure di pulizia dei dati, qualità dei dati e allineamento adottate per ridurre i casi di dati errati, inopportuni o distorti che entrano o escono dal modello.
Come per molte tecnologie nell'ambito dell'AI, l'innovazione si muove rapidamente anche nel mondo dei filtri HAP. I ricercatori di IBM hanno identificato due modi per migliorare i filtri HAP, ovvero attraverso modelli open source più piccoli oppure con uno strumento di identificazione offensive span.
In un mondo ideale, il filtro HAP sarebbe applicato in ogni fase del ciclo di vita di un LLM. Tuttavia questo uso richiederebbe una velocità che manca alla maggior parte dei filtri HAP odierni a causa delle loro grandi dimensioni.
Ciò ha ispirato la creazione del filtro HAP più veloce e nuovo di IBM: Granite-Guardian-HAP-38m. Questo modello di encoder da 38 milioni di parametri è più piccolo del suo predecessore da 125 milioni di parametri (Granite-Guardian-HAP-125m). Può funzionare quindi otto volte più velocemente su un'unità di elaborazione centrale (CPU) e due volte più velocemente su un'unità di elaborazione grafica (GPU) (entrambe presenti negli smartphone e nei PC) per filtrare rapidamente i dati in ogni fase del ciclo di vita di un LLM.
Le varianti di entrambi i modelli di filtro HAP sono disponibili su watsonx.ai. Tuttavia, per continuare a promuovere un ecosistema di AI affidabile, IBM ha reso open source entrambi i filtri HAP su Hugging Face.
Per introdurre una maggiore granularità e diversità linguistica nei filtri HAP, i ricercatori di IBM hanno sviluppato uno strumento di visualizzazione HAP chiamato MUTED: A MultiLingual Targeted Demonstration.
Andando oltre l'annotazione a livello di frase, MUTED suddivide le frasi in "obiettivi" e offensive span (o argomento offensivo). Per esempio, nella frase "Quelle persone sono guidatori orribili", l'obiettivo è "quelle persone" e l'espressione offensiva è "guidatori orribili". L'idea è che MUTED identifichi gli offensive span, ne classifichi l'intensità utilizzando mappe di calore e poi li nasconda agli utenti se sono considerati nocivi.1
1 "Muted: Multilingual Targeted Offensive Speech Identification and Visualization," Association for Computational Linguistics, dicembre 2023.
È arrivata la terza generazione di modelli linguistici di AI. Adatti allo scopo e open source, questi modelli pensati per le imprese offrono prestazioni eccezionali rispetto ai benchmark di sicurezza e in un'ampia gamma di attività aziendali, dalla cybersecurity alla RAG.
Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.
Sblocca il pieno potenziale dell'AI e scopri come la governance dell'AI può aiutare ad aumentare la fiducia dei tuoi dipendenti nell'AI, accelerare l'adozione e l'innovazione e migliorare la fiducia dei clienti.