¿Nuevos riesgos éticos cortesía de los agentes de IA? Los investigadores están sobre el caso

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Cuando los sistemas de IA se vuelven deshonestos, los resultados no son agradables. La información confidencial filtrada, los mensajes ofensivos y, en un caso, una receta fácil de usar para el gas de cloro mortal, se han atribuido a chatbots que salieron mal1.

Estos casos impulsaron un mayor énfasis en la alineación de la IA, que es la práctica de codificar los valores humanos y los principios éticos en los modelos de IA. Pero los investigadores de IA no se detienen en abordar las implicaciones éticas de las tecnologías actuales de machine learning. También están trabajando para abordar las cuestiones éticas del mañana, en particular, las que plantea la inteligencia artificial agéntica.

También conocida como agentes de IA, la IA agéntica es una tecnología de IA autónoma que presenta un conjunto ampliado de dilemas éticos en comparación con los modelos de IA, afirma Kush Varshney, un IBM Fellow en IBM Research.

"Dado que los agentes de IA pueden actuar sin su supervisión, hay muchos problemas de confianza adicionales", dice Varshney. "Va a haber una evolución en términos de capacidades, pero también en consecuencias no deseadas. Desde el punto de vista de la seguridad, no desea esperar para trabajar en ello. Desea seguir construyendo las salvaguardas a medida que se desarrolla la tecnología".

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Qué son exactamente los agentes de IA?

Antes de explorar las salvaguardas de los agentes de IA, es importante comprender exactamente qué son los agentes de IA: sistemas o programas inteligentes que pueden realizar tareas de forma autónoma en nombre de un ser humano o en nombre de otro sistema. Aunque cuentan con capacidades de modelos de lenguaje de gran tamaño (LLM), como el procesamiento del lenguaje natural, estos sistemas autónomos también pueden tomar decisiones, resolver problemas, ejecutar acciones e interactuar con entornos externos.

Gracias a estas capacidades, los agentes de IA pueden ir más allá de la elaboración de respuestas de texto a las instrucciones de los usuarios para realizar tareas en el mundo real.

Por ejemplo, las interacciones externas se producen a través de llamadas a herramientas, también conocidas como llamadas a funciones, que es una interfaz que permite a los agentes trabajar en tareas que requieren información oportuna, información que de otro modo no estaría disponible para los LLM. Por lo tanto, los agentes de IA implementados en un ecosistema de cadena de suministro podrían trabajar de forma autónoma para optimizar los niveles de inventario alterando los programas de producción y haciendo pedidos a los proveedores según sea necesario.

Agentes de IA

Cinco tipos de agentes de IA: funciones autónomas y aplicaciones del mundo real

Descubra cómo la IA basada en objetivos y servicios se adapta a flujos de trabajo y entornos complejos.

¿Hasta qué punto es arriesgada una mayor autonomía de la IA?

Cuando se trata de inteligencia artificial avanzada, como la IA agéntica, ¿cuánta autonomía es demasiada? Para responder a esta pregunta, podemos mirar el escenario del maximizador de clips. El famoso experimento mental, del filósofo Nick Bostrom, se centra en el concepto aún hipotético de superinteligencia de IA o ASI, un sistema de IA con un alcance intelectual que supera al de la inteligencia humana. Bolstrom considera lo que podría suceder si un sistema de este tipo priorizara la fabricación de clips por encima de todos los demás objetivos.

En el escenario propuesto, el sistema acabará dedicando todos los recursos del planeta a fabricar sujetapapeles, un resultado poco ético cuando la vida depende de algo más que de una abundancia infinita de pequeños artículos metálicos de oficina. Volviendo a nuestra pregunta original, obviamente podemos concluir que, en este hipotético caso, el sistema de IA en cuestión tenía demasiada autonomía.

La buena noticia es que la IA agentiva actual no es lo mismo que la ASI, por lo que sigue siendo poco probable que se produzca una distopía de clips impulsada por una ética de las máquinas catastróficamente defectuosa. "Estamos más cerca, pero aún estamos lejos", dice Varshney.

Sin embargo, otros riesgos derivados de la automatización de la IA son más inminentes. Las posibilidades van desde agentes artificiales que envían correos electrónicos inapropiados hasta detener e iniciar máquinas de formas que los usuarios no pretendían, afirma Varshney. La preocupación por el comportamiento autónomo de la IA es lo suficientemente grave como para que, en un informe de abril de 2024 sobre las directrices de seguridad de la IA y protección, el Departamento de Seguridad Nacional (DHS) de los Estados Unidos incluyó la "autonomía" en su lista de riesgos para los sistemas de infraestructuras críticas, como las comunicaciones, los servicios financieros y la atención médica2.

Soluciones en evolución para apoyar el comportamiento ético de los agentes

Las soluciones de gobierno de la IA existentes pueden ayudar a respaldar la ética de los agentes de IA, con herramientas de software que ya permiten a las organizaciones monitorizar, evaluar y abordar los sesgos derivados del entrenamiento de conjuntos de datos y algoritmos que podrían sesgar los procesos de toma de decisiones. Estas herramientas también pueden ayudar a los desarrolladores y a las empresas a garantizar que las herramientas de IA que utilizan cumplen los estándares actuales de IA fiable, los objetivos de explicabilidad y los principios de IA responsable ampliamente adoptados por diversas empresas y gobiernos.

Pero a medida que las empresas incorporan cada vez más la IA agentiva a los flujos de trabajo, los investigadores también trabajan en nuevas soluciones y estrategias éticas de IA que puedan frenar el mal comportamiento de los agentes autónomos y mejorar la sostenibilidad de la tecnología de IA. He aquí varios que merece la pena seguir:

Un nuevo enfoque de alineación de la IA

Hoy en día, los modelos de IA preentrenados se someten a un fine-tuning para entrenarse con datos específicos del dominio. Durante la fase de fine-tuning del desarrollo de la IA, los modelos pueden alinearse con valores morales y consideraciones éticas, pero a menudo surgen dudas sobre qué valores normativos deben incluirse en la alineación. Después de todo, los valores y los marcos éticos varían según la empresa, el país, el grupo de partes interesadas, etc.

Varshney y un equipo de investigadores de IBM han propuesto un enfoque tecnológico más adaptado al contexto: Conocido como Alignment Studio, alinearía grandes modelos lingüísticos con reglas y valores delineados en documentos normativos de lenguaje natural, como normativas gubernamentales o las propias directrices éticas de una empresa.

El enfoque, detallado en un artículo de septiembre de 2024 publicado en la revista IEEE Internet Computing, incluye un ciclo continuo de desarrollo para que los modelos no solo aprendan el vocabulario relacionado con las políticas a partir de los documentos de políticas, sino que realmente adopten los comportamientos deseados para una mejor alineación de valores3.

Detección de alucinaciones

Entre las causas de los comportamientos incorrectos relacionados con los agentes de IA está la falta de instrucciones específicas por parte del usuario o una mala interpretación de las instrucciones del usuario por parte del agente. Estos “malentendidos” podrían llevar a los agentes a elegir las herramientas equivocadas o a utilizarlas de forma inapropiada o dañina, lo que se conoce como alucinación de llamada de función.

Afortunadamente, mejorar la llamada a funciones se ha convertido en un esfuerzo competitivo, con la creación de varios puntos de referencia que miden qué tan bien los LLM llaman a las API. Entre las mejoras más recientes se encuentra una nueva característica de la última versión de IBM® Granite Guardian, Granite Guardian 3.1, parte de la familia de modelos de lenguaje Granite de IBM diseñados específicamente para empresas. El modelo puede detectar alucinaciones de llamadas a funciones por parte de los agentes antes de que se produzcan consecuencias no deseadas. "El detector comprueba todo tipo de errores, desde la descripción del lenguaje humano hasta la función llamada", explica Varshney.

Detección de texto y desinformación generados por IA

Los actores maliciosos ya han utilizado la IA generativa para impregnar las redes sociales con deepfakes, que son audios, vídeos o imágenes realistas generados por IA que pueden recrear la imagen de una persona. Mientras tanto, los estafadores han aprovechado el texto generado por IA para enviar correos electrónicos de phishing más sofisticados. Y el poder de la IA agéntica podría exacerbar estas peligrosas tendencias.

"Cada vez hay más pruebas de que los resultados generados por la IA son tan persuasivos como los argumentos humanos", advierten los investigadores de Google DeepMind en un informe de abril de 2024. Dijeron que en el futuro los actores maliciosos podrían utilizar la IA autónoma para "adaptar el contenido de información errónea a los usuarios de forma hiperprecisa, aprovechando sus emociones y vulnerabilidades"4.

Hasta la fecha, el rendimiento de las herramientas diseñadas para detectar el engaño con IA ha sido mixto. Pero los investigadores siguen afrontando el reto de mejorar la detección de IA, y algunos de los resultados más prometedores proceden de la última generación de detectores de texto de IA5.

Por ejemplo, un nuevo marco llamado RADAR, creado por investigadores de la Universidad China de Hong Kong e IBM Research, utiliza el aprendizaje adversarial entre dos modelos de lenguaje separados y ajustables para entrenar un detector de texto de IA, lo que conduce a un mejor rendimiento en comparación con soluciones de detección de texto de IA más antiguas6.

A medida que avanza el desarrollo de la tecnología de detección de IA, empresas tecnológicas como IBM, Microsoft y OpenAI también están pidiendo a los responsables políticos que aprueben leyes que persigan la distribución de deepfakes y responsabilicen a los malos actores7.

Preservar la dignidad de los trabajadores humanos

Aunque muchos de los problemas éticos derivados de la IA agentiva se relacionan con malos comportamientos, surgen otras preocupaciones éticas incluso cuando la tecnología de IA autónoma funciona según lo esperado. Por ejemplo, gran parte del debate se ha centrado en aplicaciones de IA como ChatGPT de OpenAI que sustituyen el trabajo humano y eliminan los medios de subsistencia.

Pero incluso cuando la IA se implementa para aumentar (en lugar de reemplazar) el trabajo humano, los empleados pueden enfrentar consecuencias psicológicas. Si los trabajadores humanos perciben que los agentes de IA son mejores que ellos en su trabajo, podrían experimentar una disminución de su autoestima, explica Varshney. "Si está en una posición en la que toda su experiencia ya no parece útil, que está subordinada al agente de IA, podría perder su dignidad", dice. En algunos debates sobre la ética de la IA, esa pérdida de dignidad se considera una violación de los derechos humanos8.

En un artículo de investigación de agosto de 2024, Varshney y varios investigadores universitarios propusieron un enfoque organizativo para abordar el problema de la dignidad: la colaboración entre adversarios. Según su modelo, los humanos seguirían siendo responsables de proporcionar las recomendaciones finales, mientras que los sistemas de IA se implementan para examinar el trabajo de los humanos.

“El ser humano es quien, en última instancia, toma la decisión, y el algoritmo no está diseñado para competir en este rol, sino para interrogar y, por lo tanto, afinar las recomendaciones del agente humano”, escribieron los investigadores9. Esa colaboración adversaria, dice Varshney, “es una forma de organizar las cosas que pueden mantener viva la dignidad humana”.

Soluciones relacionadas
Agentes de IA para empresas

Cree, implemente y gestione potentes asistentes y agentes de IA que automaticen flujos de trabajo y procesos con IA generativa.

    Explore watsonx Orchestrate
    Soluciones de agente de IA de IBM

    Construya el futuro de su empresa con soluciones de IA en las que puede confiar.

    Explore las soluciones de los agentes de IA
    Servicios de IA de IBM Consulting

    Los servicios de IA de IBM Consulting ayudan a reinventar la forma de trabajar de las empresas usando IA para la transformación.

    Explore los servicios de inteligencia artificial
    Dé el siguiente paso

    Tanto si opta por personalizar las aplicaciones y habilidades prediseñadas como si prefiere crear e implementar servicios agentivos personalizados mediante un estudio de IA, la plataforma IBM watsonx le ofrece todo lo que necesita.

    Explore watsonx Orchestrate Explore watsonx.ai