Purificar la IA: filtrado HAP contra contenido nocivo

20 de diciembre de 2024

Autores

Alexandra Jonker

Editorial Content Lead

Alice Gomstyn

IBM Content Contributor

La world wide web facilita la conexión, acelera el crecimiento empresarial y pone a nuestro alcance siglos de conocimiento.

Pero, a pesar de todos sus beneficios, también puede ser un pozo negro de lenguaje de odio y contenido dañino. Y este pozo negro desemboca en el gran océano de datos de Internet que se utilizan para entrenar muchos de los modelos fundacionales actuales, como los modelos de lenguaje de gran tamaño (LLM) y sus capacidades de procesamiento del lenguaje natural (PNL).

Esta filtración de lenguaje ofensivo amenaza la integridad y la usabilidad de estos modelos de inteligencia artificial (IA). ¿Por qué? Porque si los LLM se entrenan en conjuntos de datos que incluyen comportamientos humanos de odio, se deduce que podrían producir resultados perjudiciales. Además, este contenido dañino también puede encontrar su camino en los modelos de IA durante el fine tuning, la optimización a través de la generación aumentada por recuperación (RAG) o cuando un LLM está interactuando con un usuario.

La filtración y eliminación de contenidos ofensivos es fundamental para garantizar que los modelos de IA sean seguros, inclusivos e imparciales, proporcionando una experiencia positiva a los usuarios. Una de estas soluciones es el filtrado sistemático de odio, abuso y blasfemia (HAP) basado en modelos, denominado filtrado HAP.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

¿Qué es el filtrado HAP?

El filtrado HAP es un sistema que utiliza un modelo de clasificación para detectar y eliminar el discurso de odio, el lenguaje abusivo y las blasfemias del texto de entrada y salida de un LLM.

¿Qué es un modelo de clasificación?

Para entender bien el filtrado HAP, es útil comprender los modelos de clasificación. Los modelos de clasificación son modelos de machine learning que dividen los puntos de datos en grupos predefinidos llamados clases. Aprenden las características de la clase a partir de los datos de entrada y luego asignan posibles clases a los nuevos datos de acuerdo con esas características aprendidas. Un filtro de correo electrónico no deseado, por ejemplo, utiliza un algoritmo de clasificación. Un modelo de clasificación de filtrado HAP también puede denominarse más específicamente clasificador de frases, o simplemente como filtro HAP o detector HAP.

¿Qué se considera contenido HAP?

El discurso de odio, el lenguaje abusivo y la blasfemia pueden definirse de la siguiente manera:

  • Discurso de odio: expresiones de odio hacia un individuo o grupo basadas en atributos como la raza, la religión, el origen étnico, la orientación sexual, la discapacidad o el género. El discurso de odio muestra la intención de herir, humillar o insultar a los miembros de un grupo, o de promover la violencia o el desorden social.

  • Lenguaje abusivo: lenguaje grosero o hiriente destinado a intimidar, degradar o menospreciar a alguien o algo.

  • Blasfemias: palabras tóxicas como improperios, insultos o lenguaje sexualmente explícito.

¿Cómo funciona el filtrado HAP?

En la práctica, un clasificador de frases de filtrado HAP evalúa cada palabra del texto de entrada o de salida de un modelo para determinar si contiene contenido HAP. A continuación, asigna una puntuación que representa la probabilidad de que haya contenido HAP, quizás de 0 a 1. En este caso, una puntuación más cercana a 1 indica una mayor probabilidad de contenido HAP. Dependiendo del umbral que el usuario establezca para el contenido HAP (como "una puntuación superior a 0,5 = HAP"), el modelo asignaría una etiqueta a cada frase indicando si contiene o no HAP.

Por último, el contenido HAP podría marcarse y eliminarse si está en los datos de preentrenamiento. O, si el contenido HAP es un resultado, podría ser sustituido por un mensaje de barrera que indique que el resultado contenía texto dañino que ha sido eliminado.

AI Academy

Confianza, transparencia y gobierno en la IA

La confianza en la IA es sin duda el asunto más importante en este campo. También es comprensible que sea un tema abrumador. Desentrañaremos cuestiones como la alucinación, la parcialidad y el riesgo, y compartiremos los pasos a seguir para adoptar la IA de forma ética, responsable y justa.

Casos de uso de filtros HAP

Según IBM Research, actualmente hay tres casos de uso principales para los filtros HAP:

  • Filtrado de datos de entrenamiento de LLM
  • Alineación de modelos mediante aprendizaje de refuerzo
  • Control de los resultados de IA generativa
Filtrado de datos de entrenamiento de LLM

Los LLM suelen estar entrenados en una serie de fuentes de datos, algunas de las cuales pueden contener contenido odioso o inapropiado. El filtrado HAP puede ayudar a evitar que los LLM aprendan de dicho contenido. A menudo ocurre durante el preprocesamiento de datos cuando todavía hay un gran volumen de datos sin procesar.

Alineación de modelos mediante aprendizaje de refuerzo

Los modelos HAP también se utilizan durante la alineación. Por ejemplo, la alineación a través del aprendizaje de refuerzo recompensa los resultados en función de cómo se alinean con los objetivos previstos. Si la recompensa se califica utilizando un filtro HAP, la recompensa podría ser una puntuación "no HAP", que luego se entrena al modelo para maximizar.

Control de los resultados de IA generativa

Los modelos HAP pueden ayudar a controlar las salidas del modelo de IA generativa, sin tener que volver a entrenar el modelo original. Este control requiere modificar el proceso de generación para puntuar las predicciones del modelo utilizando tanto el método de puntuación original como la puntuación HAP para garantizar un contenido aceptable y libre de odio.

Es importante tener en cuenta que, además del filtrado HAP, a menudo existen otros pasos de limpieza de datos, calidad de los datos y alineación que se toman para reducir los casos de datos incorrectos, inapropiados o sesgados que entran o salen del modelo.

Los filtros HAP de nueva generación de IBM: código abierto y amplitud ofensiva

Al igual que con muchas tecnologías adyacentes a la IA, la innovación se mueve rápidamente en el mundo del filtrado HAP. Los investigadores de IBM identificaron dos formas de mejorar los filtros HAP: mediante modelos más pequeños de código abierto y una herramienta de identificación de tramos ofensivos.

Filtros HAP más pequeños y de código abierto

En un mundo ideal, el filtrado HAP se produciría en cada etapa del ciclo de vida del LLM. Pero este uso requeriría una velocidad de la que carecen la mayoría de los filtros HAP actuales debido a su gran tamaño.

Esto inspiró el filtro HAP más rápido y nuevo de IBM: Granite-Guardian-HAP-38m. Este modelo de codificador de 38 millones de parámetros es más pequeño que su predecesor de 125 millones de parámetros (Granite-Guardian-HAP-125m). Como tal, puede ejecutarse ocho veces más rápido en una unidad central de procesamiento (CPU) y el doble de rápido en una unidad de procesamiento gráfico (GPU) (ambos se encuentran en teléfonos inteligentes y PC) para filtrar rápidamente los datos en cada etapa del ciclo de vida de LLM.

Las variantes de ambos modelos de filtrado HAP están disponibles en watsonx.ai. Pero para seguir fomentando un ecosistema de IA fiable, IBM ha abierto ambos filtros HAP en Hugging Face

Identificación de tramos ofensivos

Para introducir mayor granularidad y diversidad lingüística en los filtros HAP, los investigadores de IBM desarrollaron una herramienta de visualización de HAP llamada MUTED: una demostración multilingüe dirigida.

Más allá de la anotación a nivel de frase, MUTED divide las frases en "objetivos" y tramos ofensivos (o, el argumento ofensivo). Por ejemplo, en la frase "Esas personas son unos conductores horribles", el objetivo es "esas personas" y el tramo ofensivo es "conductores horribles". La idea es que MUTED identifique los espacios ofensivos, clasifique su intensidad mediante mapas de calor y los oculte a los usuarios si se consideran perjudiciales.1

Notas a pie de página

1 "Muted: Multilingual Targeted Offensive Speech Identification and Visualization". Association for Computational Linguistics. Diciembre de 2023.

Soluciones relacionadas
IBM Granite

Ya está aquí nuestra tercera generación de modelos de lenguaje de IA. Estos modelos listos para uso empresarial, adecuados para su propósito y de código abierto, ofrecen un rendimiento excepcional frente a los puntos de referencia de seguridad y en una amplia gama de tareas empresariales, desde la ciberseguridad hasta RAG.

Conozca Granite
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones y servicios de gobierno de la IA

Desbloquee todo el potencial de su IA y vea cómo el gobierno de la IA puede hacer que sus empleados se fíen más de esta tecnología, además de acelerar la adopción y la innovación e incrementar la confianza de los clientes.

Explore las soluciones de gobierno de la IA
De el siguiente paso

IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y fiables, adaptados para empresas y optimizados para escalar sus aplicaciones de IA. Adecuados para su propósito y de código abierto, estos modelos listos para la empresa ofrecen un rendimiento excepcional en comparación con los puntos de referencia de seguridad y en una amplia gama de tareas empresariales, desde la ciberseguridad hasta RAG.

Conozca Granite