A internet facilita conexões, acelera o crescimento dos negócios e coloca séculos de conhecimento ao nosso alcance.
Apesar de todos os seus benefícios, ela também pode ser um depósito de linguagem odiosa e conteúdo prejudicial. E esse depósito se mistura ao vasto oceano de dados da internet usados para treinar muitos dos modelos de base atuais, como os grandes modelos de linguagem (LLMs) e seus recursos de processamento de linguagem natural (PLN).
Essa infiltração de linguagem ofensiva compromete a integridade e a usabilidade desses modelos de inteligência artificial (IA). Por quê? Se os LLMs forem treinados com conjuntos de dados que contenham comportamentos humanos odiosos, é natural que gerem resultados prejudiciais. Além disso, esse conteúdo nocivo também pode infiltrar-se nos modelos de IA durante o ajuste fino, na otimização via geração aumentada por recuperação (RAG) ou durante a interação de um LLM com um usuário.
Filtrar e remover conteúdo ofensivo é essencial para garantir que os modelos de IA sejam seguros, inclusivos e sem viés, oferecendo uma experiência positiva aos usuários. Uma das soluções é a filtragem sistemática de ódio, abuso e palavrões (HAP) baseada em modelos, conhecida como filtragem HAP.
A filtragem HAP é um sistema que usa um modelo de classificação para detectar e remover discurso de ódio, linguagem abusiva e palavrões dos textos de input e produção de um LLM.
Para compreender totalmente o HAP filtering, é útil entender os modelos de classificação. Modelos de classificação são modelos de aprendizado de máquina que dividem pontos de dados em grupos predefinidos chamados classes. Eles aprendem as características das classes a partir dos dados de entrada e então atribuem classes possíveis aos novos dados com base nessas características aprendidas. Um filtro de e-mail spam, por exemplo, usa um algoritmo de classificação. Um modelo de classificação para HAP filtering também pode ser chamado mais especificamente de classificador de sentenças ou, de forma mais simples, de filtro HAP ou detector HAP.
Discurso de ódio, linguagem abusiva e palavrões podem ser definidos da seguinte forma:
Na prática, o classificador de sentenças da filtragem HAP avalia cada palavra do input ou produção do modelo para identificar se há conteúdo HAP. Depois, ele atribui uma pontuação que indica a probabilidade de haver conteúdo HAP, geralmente em uma escala de 0 a 1. Nesse caso, quanto mais próximo de 1 for o valor, maior a probabilidade de haver conteúdo HAP. De acordo com o limite definido pelo usuário para conteúdo HAP (como “uma pontuação maior que 0,5 = HAP”), o modelo atribui um rótulo a cada sentença indicando se há ou não conteúdo HAP.
Por fim, o conteúdo HAP pode ser sinalizado e removido caso esteja nos dados de pré-treinamento. Ou, se o conteúdo do HAP for uma produção, ele poderá ser substituído por uma mensagem de proteção indicando que a produção continha texto prejudicial que foi removido.
De acordo com a IBM Research, atualmente existem três principais casos de uso para os filtros HAP:
LLMs costumam ser treinados com uma variedade de fontes de dados, algumas das quais podem incluir conteúdo odioso ou inadequado. A filtragem HAP ajuda a impedir que os LLMs aprendam com esse tipo de conteúdo. Geralmente ocorre durante o pré-processamento de dados, quando ainda há um grande volume de dados brutos.
Os modelos HAP também são usados durante o alinhamento. Por exemplo, o alinhamento por meio de aprendizado por reforço recompensa a produção com base na forma como elas se alinham aos objetivos pretendidos. Se a recompensa for avaliada usando um filtro HAP, ela pode ser uma pontuação "não-HAP", que o modelo será treinado para maximizar.
Os modelos HAP podem ajudar a controlar a produção de modelos de IA generativa, sem a necessidade de re-treinamento do modelo original. Esse controle exige modificar o processo de geração para pontuar as previsões do modelo, utilizando tanto o método de pontuação original quanto a pontuação HAP, garantindo conteúdo aceitável e livre de ódio.
É importante observar que, além da filtragem HAP, frequentemente existem outras etapas de limpeza de dados, qualidade de dados e alinhamento para reduzir a entrada ou produção de dados incorretos, inadequados ou com viés no modelo.
Assim como em muitas tecnologias adjacentes à IA, a inovação avança rapidamente no mundo da filtragem HAP. Os pesquisadores da IBM identificaram duas formas de aprimorar os filtros HAP: por meio de modelos menores e código aberto, e uma ferramenta de identificação de spans ofensivos.
Em um mundo ideal, a filtragem HAP ocorreria em cada etapa do ciclo de vida do LLM. Mas esse uso exigiria uma velocidade que a maioria dos filtros HAP atuais não tem devido ao seu grande tamanho.
Isso inspirou o filtro HAP mais rápido e mais recente da IBM: Granite-Guardian-HAP-38m. Este modelo de codificador com 38 milhões de parâmetros é menor que o seu antecessor, com 125 milhões de parâmetros (Granite-Guardian-HAP-125m). Assim, ele pode rodar oito vezes mais rápido em uma unidade central de processamento (CPU) e duas vezes mais rápido em uma unidade de processamento gráfico (GPU) (encontradas em smartphones e PCs), filtrando dados rapidamente em cada etapa do ciclo de vida do LLM.
As variantes de ambos os modelos de filtragem HAP estão disponíveis em watsonx.ai. Mas, para continuar incentivando um ecossistema de IA confiável, a IBM tornou os dois filtros HAP de código aberto no Hugging Face.
Para introduzir maior granularidade e diversidade linguística aos filtros HAP, pesquisadores da IBM desenvolveram uma ferramenta de visualização chamada MUTED: uma Demonstração Multilíngue Focada (MUltilingual Targeted Demonstration).
Indo além da anotação em nível de sentença, o MUTED divide as frases em “alvos” e spans ofensivos (ou, o argumento ofensivo). Por exemplo, na sentença “Aquelas pessoas são motoristas horríveis”, o alvo é “aquelas pessoas” e o trecho ofensivo é “motoristas horríveis”. A ideia é que o MUTED identifique trechos ofensivos, classifique sua intensidade usando mapas de calor e os esconda dos usuários se forem considerados prejudiciais.1
1 "Muted: Multilingual Targeted Offensive Speech Identification and Visualization," Association for Computational Linguistics, December 2023.
A nossa terceira geração de modelos de linguagem de IA já está aqui. Adequados à finalidade e de código aberto, esses modelos prontos para uso corporativo oferecem um desempenho excepcional em relação aos benchmarks de segurança e em uma ampla variedade de tarefas corporativas, da cibersegurança ao RAG.
Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa com confiança na sua empresa.
Libere todo o potencial da sua IA e veja como a governança de IA ajuda a aumentar a confiança dos seus funcionários na IA, a acelerar a adoção e a inovação e a aumentar a confiança do cliente.