Purificação da IA: filtragem HAP contra conteúdos prejudiciais

Mulher colocando água transparente em um copo

Autores

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

A internet facilita conexões, acelera o crescimento dos negócios e coloca séculos de conhecimento ao nosso alcance.

Apesar de todos os seus benefícios, ela também pode ser um depósito de linguagem odiosa e conteúdo prejudicial. E esse depósito se mistura ao vasto oceano de dados da internet usados para treinar muitos dos modelos de base atuais, como os grandes modelos de linguagem (LLMs) e seus recursos de processamento de linguagem natural (PLN).

Essa infiltração de linguagem ofensiva compromete a integridade e a usabilidade desses modelos de inteligência artificial (IA). Por quê? Se os LLMs forem treinados com conjuntos de dados que contenham comportamentos humanos odiosos, é natural que gerem resultados prejudiciais. Além disso, esse conteúdo nocivo também pode infiltrar-se nos modelos de IA durante o ajuste fino, na otimização via geração aumentada por recuperação (RAG) ou durante a interação de um LLM com um usuário.

Filtrar e remover conteúdo ofensivo é essencial para garantir que os modelos de IA sejam seguros, inclusivos e sem viés, oferecendo uma experiência positiva aos usuários. Uma das soluções é a filtragem sistemática de ódio, abuso e palavrões (HAP) baseada em modelos, conhecida como filtragem HAP.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

O que é filtragem HAP?

A filtragem HAP é um sistema que usa um modelo de classificação para detectar e remover discurso de ódio, linguagem abusiva e palavrões dos textos de input e produção de um LLM.

O que é um modelo de classificação?

Para compreender totalmente o HAP filtering, é útil entender os modelos de classificação. Modelos de classificação são modelos de aprendizado de máquina que dividem pontos de dados em grupos predefinidos chamados classes. Eles aprendem as características das classes a partir dos dados de entrada e então atribuem classes possíveis aos novos dados com base nessas características aprendidas. Um filtro de e-mail spam, por exemplo, usa um algoritmo de classificação. Um modelo de classificação para HAP filtering também pode ser chamado mais especificamente de classificador de sentenças ou, de forma mais simples, de filtro HAP ou detector HAP.

O que é considerado conteúdo HAP?

Discurso de ódio, linguagem abusiva e palavrões podem ser definidos da seguinte forma:

  • Discurso de ódio: expressões de ódio contra uma pessoa ou grupo com base em atributos como raça, religião, origem étnica, orientação sexual, deficiência ou gênero. O discurso de ódio demonstra a intenção de ferir, humilhar ou insultar membros de um grupo, ou de incitar a violência ou a desordem social.

  • Linguagem abusiva: linguagem rude ou ofensiva com o objetivo de intimidar, rebaixar ou humilhar alguém ou algo.

  • Palavrões: palavras ofensivas como palavrões, insultos ou expressões de teor sexual explícito.

Como a filtragem HAP funciona?

Na prática, o classificador de sentenças da filtragem HAP avalia cada palavra do input ou produção do modelo para identificar se há conteúdo HAP. Depois, ele atribui uma pontuação que indica a probabilidade de haver conteúdo HAP, geralmente em uma escala de 0 a 1. Nesse caso, quanto mais próximo de 1 for o valor, maior a probabilidade de haver conteúdo HAP. De acordo com o limite definido pelo usuário para conteúdo HAP (como “uma pontuação maior que 0,5 = HAP”), o modelo atribui um rótulo a cada sentença indicando se há ou não conteúdo HAP.

Por fim, o conteúdo HAP pode ser sinalizado e removido caso esteja nos dados de pré-treinamento. Ou, se o conteúdo do HAP for uma produção, ele poderá ser substituído por uma mensagem de proteção indicando que a produção continha texto prejudicial que foi removido.

AI Academy

Confiança, transparência e governança em IA

A confiança na IA é, sem dúvida, o tema mais importante em IA. Também é um assunto compreensivelmente complexo. Vamos abordar questões como alucinação, viés e risco, e compartilhar etapas para adotar a IA de maneira ética, responsável e justa.

Casos de uso para filtros HAP

De acordo com a IBM Research, atualmente existem três principais casos de uso para os filtros HAP:

  • Filtragem de dados de treinamento de LLM
  • Alinhamento de modelos usando aprendizagem por reforço
  • Controlando a produção da IA generativa
Filtragem de dados de treinamento de LLM

LLMs costumam ser treinados com uma variedade de fontes de dados, algumas das quais podem incluir conteúdo odioso ou inadequado. A filtragem HAP ajuda a impedir que os LLMs aprendam com esse tipo de conteúdo. Geralmente ocorre durante o pré-processamento de dados, quando ainda há um grande volume de dados brutos.

Alinhamento de modelos usando aprendizagem por reforço

Os modelos HAP também são usados durante o alinhamento. Por exemplo, o alinhamento por meio de aprendizado por reforço recompensa a produção com base na forma como elas se alinham aos objetivos pretendidos. Se a recompensa for avaliada usando um filtro HAP, ela pode ser uma pontuação "não-HAP", que o modelo será treinado para maximizar.

Controlando as produções da IA generativa

Os modelos HAP podem ajudar a controlar a produção de modelos de IA generativa, sem a necessidade de re-treinamento do modelo original. Esse controle exige modificar o processo de geração para pontuar as previsões do modelo, utilizando tanto o método de pontuação original quanto a pontuação HAP, garantindo conteúdo aceitável e livre de ódio.

É importante observar que, além da filtragem HAP, frequentemente existem outras etapas de limpeza de dados, qualidade de dados e alinhamento para reduzir a entrada ou produção de dados incorretos, inadequados ou com viés no modelo.

Filtros HAP de próxima geração da IBM: modelos de código aberto e identificação de trechos ofensivos

Assim como em muitas tecnologias adjacentes à IA, a inovação avança rapidamente no mundo da filtragem HAP. Os pesquisadores da IBM identificaram duas formas de aprimorar os filtros HAP: por meio de modelos menores e código aberto, e uma ferramenta de identificação de spans ofensivos.

Filtros HAP menores e de código aberto

Em um mundo ideal, a filtragem HAP ocorreria em cada etapa do ciclo de vida do LLM. Mas esse uso exigiria uma velocidade que a maioria dos filtros HAP atuais não tem devido ao seu grande tamanho.

Isso inspirou o filtro HAP mais rápido e mais recente da IBM: Granite-Guardian-HAP-38m. Este modelo de codificador com 38 milhões de parâmetros é menor que o seu antecessor, com 125 milhões de parâmetros (Granite-Guardian-HAP-125m). Assim, ele pode rodar oito vezes mais rápido em uma unidade central de processamento (CPU) e duas vezes mais rápido em uma unidade de processamento gráfico (GPU) (encontradas em smartphones e PCs), filtrando dados rapidamente em cada etapa do ciclo de vida do LLM.

As variantes de ambos os modelos de filtragem HAP estão disponíveis em watsonx.ai. Mas, para continuar incentivando um ecossistema de IA confiável, a IBM tornou os dois filtros HAP de código aberto no Hugging Face.

Identificação de alcance ofensivo

Para introduzir maior granularidade e diversidade linguística aos filtros HAP, pesquisadores da IBM desenvolveram uma ferramenta de visualização chamada MUTED: uma Demonstração Multilíngue Focada (MUltilingual Targeted Demonstration).

Indo além da anotação em nível de sentença, o MUTED divide as frases em “alvos” e spans ofensivos (ou, o argumento ofensivo). Por exemplo, na sentença “Aquelas pessoas são motoristas horríveis”, o alvo é “aquelas pessoas” e o trecho ofensivo é “motoristas horríveis”. A ideia é que o MUTED identifique trechos ofensivos, classifique sua intensidade usando mapas de calor e os esconda dos usuários se forem considerados prejudiciais.1

Notas de rodapé

1 "Muted: Multilingual Targeted Offensive Speech Identification and Visualization," Association for Computational Linguistics, December 2023.

Soluções relacionadas
IBM Granite

A nossa terceira geração de modelos de linguagem de IA já está aqui. Adequados à finalidade e de código aberto, esses modelos prontos para uso corporativo oferecem um desempenho excepcional em relação aos benchmarks de segurança e em uma ampla variedade de tarefas corporativas, da cibersegurança ao RAG.

Conheça o Granite
Modelos de base

Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa com confiança na sua empresa.

Conheça o watsonx.ai
Soluções e serviços de governança de IA

Libere todo o potencial da sua IA e veja como a governança de IA ajuda a aumentar a confiança dos seus funcionários na IA, a acelerar a adoção e a inovação e a aumentar a confiança do cliente.

Explore as soluções de governança de IA
Dê o próximo passo

O IBM Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para empresas e otimizados para escalar suas aplicações de IA. Adequados para o propósito e de código aberto, esses modelos prontos para empresas oferecem desempenho excepcional em relação a benchmarks de segurança e em uma ampla gama de tarefas empresariais, desde cibersegurança até RAG.

Conheça o Granite