Purificación de la IA: filtrado HAP contra contenido dañino

Una mujer vierte agua limpia en un vaso

Autores

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

La World Wide Web facilita la conexión, acelera el crecimiento empresarial y pone siglos de conocimiento a nuestro alcance.

Pero a pesar de todos sus beneficios, también puede ser un pozo negro de lenguaje de odio y contenido dañino. Y este pozo negro drena en el gran océano de datos de Internet que se utiliza para entrenar muchos de los modelos fundacionales actuales, como los modelos de lenguaje extensos (LLM) y sus capacidades de procesamiento de lenguaje natural (PLN).

Esta fuga de lenguaje ofensivo amenaza la integridad y usabilidad de estos modelos de inteligencia artificial (IA). ¿Por qué? Porque si los LLM están entrenados en conjuntos de datos que incluyen el comportamiento humano de odio, se deduce que podrían producir resultados dañinos. Además, este contenido dañino también puede llegar a los modelos de IA durante el ajuste, la optimización a través de la generación aumentada por recuperación (RAG) o cuando un LLM está interactuando con un usuario.

La filtración y eliminación de contenidos ofensivos es fundamental para garantizar que los modelos de IA sean seguros, inclusivos y sin sesgo, proporcionando una experiencia positiva a los usuarios. Una de estas soluciones es el filtrado sistemático, basado en modelos, del odio, el abuso y las blasfemias (HAP), conocido como filtrado HAP.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

¿Qué es el filtrado HAP?

El filtrado HAP es un sistema que utiliza un modelo de clasificación para detectar y eliminar el discurso de odio, el lenguaje abusivo y las blasfemias del texto de entrada y salida de un LLM.

¿Qué es un modelo de clasificación?

Para comprender completamente el filtrado HAP, es útil comprender los modelos de clasificación. Los modelos de clasificación son modelos de machine learning que dividen los puntos de datos en grupos predefinidos llamados clases. Aprenden las características de la clase de la entrada de datos y luego asignan posibles clases a los nuevos datos según esas características aprendidas. Un filtro de correo electrónico no deseado, por ejemplo, utiliza un algoritmo de clasificación. Un modelo de clasificación de filtrado HAP también puede denominarse más específicamente clasificador de oraciones o solo filtro HAP o detector HAP.

¿Qué se considera contenido HAP?

El discurso de odio, el lenguaje abusivo y las blasfemias se pueden definir de la siguiente manera:

  • Discurso de odio: expresiones de odio hacia una persona o grupo basadas en atributos, como la raza, la religión, el origen étnico, la orientación sexual, la discapacidad o el género. El discurso de odio muestra la intención de herir, humillar o insultar a los miembros de un grupo, o de promover la violencia o el desorden social.

  • Lenguaje abusivo: lenguaje grosero o hiriente destinado a intimidar, menospreciar o desacreditar a alguien o algo.

  • Blasfemias: palabras tóxicas como improperios, insultos o lenguaje sexualmente explícito.

¿Cómo funciona el filtrado HAP?

En la práctica, un clasificador de afirmaciones con filtrado HAP evalúa cada palabra del texto de entrada o salida de un modelo para determinar si hay contenido HAP. Luego, asigna una puntuación que representa la probabilidad de que haya contenido HAP, quizás de 0 a 1. En este caso, una puntuación más cercana a 1 indica una mayor probabilidad de contenido HAP. Dependiendo del umbral que el usuario establezca para el contenido HAP (como "una puntuación superior a 0.5 = HAP"), el modelo asignaría una etiqueta a cada afirmación indicando si contiene o no HAP.

Por último, el contenido HAP podría ser marcado y eliminado si se encuentra en datos previos al entrenamiento. O bien, si el contenido HAP es un resultado, podría reemplazarse con un mensaje de barrera que indique que el resultado contenía texto dañino que se eliminó.

AI Academy

Confianza, transparencia y gobernanza en IA

Es probable que la confianza en la IA sea el tema más importante en el campo de la IA. También es, comprensiblemente, un tema abrumador. Desentrañaremos cuestiones, como las alucinaciones, el sesgo y el riesgo, y compartiremos medidas para adoptar la IA de manera ética, responsable y justa.

Casos de uso de filtros HAP

Según IBM Research, actualmente hay tres casos de uso principales para los filtros HAP:

  • Filtrado de datos de entrenamiento de LLM
  • Alineación de modelos mediante aprendizaje por refuerzo
  • Controlar los resultados de la IA generativa
Filtrado de datos de entrenamiento de LLM

Generalmente, los LLM se entrenan en una variedad de fuentes de datos, algunas de las cuales pueden incluir contenido de odio o inapropiado. El filtrado HAP puede ayudar a evitar que los LLM aprendan de estos contenidos. Suele ocurrir durante el preprocesamiento de los datos, cuando todavía hay un gran volumen de datos sin procesar.

Alineación de modelos mediante aprendizaje por refuerzo

Los modelos HAP también se emplean durante la alineación. Por ejemplo, la alineación a través del aprendizaje por refuerzo recompensa los resultados en función de cómo se alinean con los objetivos previstos. Si la recompensa se puntúa mediante un filtro HAP, la recompensa podría ser una puntuación "no HAP", en la que el modelo se entrena para maximizar.

Control de los resultados de la IA generativa

Los modelos HAP pueden ayudar a controlar los resultados del modelo de IA generativa, sin tener que volver a entrenar el modelo original. Este control requiere modificar el proceso de generación para puntuar las predicciones del modelo empleando tanto el método de puntuación original como la puntuación HAP para garantizar un contenido aceptable y libre de odio.

Es importante tener en cuenta que además del filtrado HAP, a menudo existen otros pasos de limpieza de datos, calidad de datos y alineación que se toman para reducir las instancias de datos incorrectos, inapropiados o con sesgo que ingresan o salen del modelo.

Filtros HAP de próxima generación de IBM: código abierto y tramos ofensivos

Al igual que con muchas tecnologías adyacentes a la IA, la innovación avanza rápidamente en el mundo del filtrado HAP. Los investigadores de IBM identificaron dos formas de mejorar los filtros HAP: a través de modelos más pequeños de código abierto y una herramienta de identificación de tramos ofensivos.

Filtros HAP más pequeños y de código abierto

En un mundo ideal, el filtrado HAP ocurriría en cada etapa del ciclo de vida del LLM. Pero este uso requeriría una velocidad de la que carecen la mayoría de los filtros HAP actuales debido a su gran tamaño.

Esto inspiró el filtro HAP más rápido y nuevo de IBM: Granite-Guardian-HAP-38m. Este modelo de codificador de 38 millones de parámetros es más pequeño que su predecesor de 125 millones de parámetros (Granite-Guardian-HAP-125m). Como tal, puede ejecutarse ocho veces más rápido en una unidad central de procesamiento (CPU) y el doble de rápido en una unidad de procesamiento de gráficos (GPU) (ambos se encuentran en teléfonos inteligentes y PC) para filtrar rápidamente los datos en cada etapa del ciclo de vida del LLM.

Las variantes de ambos modelos de filtrado HAP están disponibles en watsonx.ai™. Pero para seguir fomentando un ecosistema de IA confiable, IBM ha abierto ambos filtros HAP en Hugging Face

Identificación de tramos ofensivos

Para introducir una mayor granularidad y diversidad de idiomas en los filtros HAP, los investigadores de IBM desarrollaron una herramienta de visualización de HAP llamada MUTED: MUltilingual Targeted Demonstration.

Más allá de la anotación a nivel de oración, MUTED divide las oraciones en "objetivos" y tramos ofensivos (o el argumento ofensivo). Por ejemplo, en la oración "Esas personas manejan pésimo", el objetivo es "esas personas" y el rango ofensivo es "manejan pésimo". La idea es que MUTED identifique los tramos ofensivos, clasifique su intensidad mediante mapas de calor y luego los oculte a los usuarios si se consideran dañinos.1

Notas de pie de página

1 "Muted: Multilingual Targeted Offensive Speech Identification and Visualization," Association for Computational Linguistics, diciembre de 2023.

Soluciones relacionadas
IBM Granite

Nuestra tercera generación de modelos de lenguaje de IA ya está aquí. Estos modelos preparados para la empresa, aptos para su propósito y de código abierto, ofrecen un rendimiento excepcional en función de los puntos de referencia de seguridad y en una amplia gama de tareas empresariales, desde ciberseguridad hasta RAG.

Conozca Granite
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones y servicios de gobernanza de la IA

Desbloquee todo el potencial de su IA y descubra cómo la gobernanza de la IA puede ayudar a aumentar la confianza de sus empleados en ella, acelerar la adopción y la innovación y mejorar la confianza de los clientes.

Explorar las soluciones de gobernanza de la IA
Dé el siguiente paso

IBM® Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, adaptados para el negocio y optimizados para escalar sus aplicaciones de IA. Adecuados para su propósito y de código abierto, estos modelos listos para la empresa ofrecen un rendimiento excepcional en comparación con los puntos de referencia de seguridad y en una amplia gama de tareas empresariales, desde la ciberseguridad hasta RAG.

Conozca Granite