¿Nuevos riesgos éticos por cortesía de los agentes de IA? Los investigadores están trabajando en el caso

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Cuando los sistemas de IA se rebelan, los resultados no son agradables. La filtración de información confidencial, los mensajes ofensivos y, en un caso, una receta fácil de usar para el mortal gas cloro, fueron atribuidos a chatbots que salieron mal.1

Estos casos impulsaron un mayor énfasis en la alineación de la IA, que es la práctica de codificar valores humanos y principios éticos en modelos de IA. Pero los investigadores de IA no se detienen en abordar las implicaciones éticas de las tecnologías actuales de machine learning. También están trabajando para abordar los problemas éticos del mañana, en particular, los que plantea la inteligencia artificial agéntica.

También conocida como agentes de IA, la IA agéntica es una tecnología de IA autónoma que presenta un conjunto ampliado de dilemas éticos en comparación con los modelos de IA tradicionales, dice Kush Varshney, IBM Fellow en IBM Research.

“Debido a que los agentes de IA pueden actuar sin su supervisión, hay muchos problemas de confianza adicionales”, dice Varshney. “Va a haber una evolución en términos de capacidades, pero también en consecuencias no deseadas. Desde una perspectiva de seguridad, no hay que esperar para trabajar en ello, sino seguir construyendo las salvaguardas a medida que se desarrolla la tecnología”.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Qué son exactamente los agentes de IA?

Antes de explorar las medidas de seguridad de los agentes de IA, es importante comprender exactamente qué son los agentes de IA: sistemas o programas inteligentes que pueden realizar tareas de forma autónoma en nombre de un ser humano o en nombre de otro sistema. Aunque cuentan con capacidades de modelos de lenguaje extensos (LLM), como el procesamiento de lenguaje natural, estos sistemas autónomos también pueden tomar decisiones, resolver problemas, ejecutar acciones e interactuar con entornos externos.

A través de tales capacidades, los agentes de IA pueden ir más allá de la elaboración de respuestas de texto a las instrucciones del usuario para realizar tareas en el mundo real.

Por ejemplo, las interacciones externas ocurren a través de la llamada a herramientas, también conocida como llamada de función, que es una interfaz que permite a los agentes trabajar en tareas que requieren información oportuna, información que de otro modo no estaría disponible para los LLM. Por lo tanto, los agentes de IA desplegados en un ecosistema de cadena de suministro podrían trabajar de manera autónoma para optimizar los niveles de inventario mediante la alteración de los programas de producción y los pedidos a los proveedores según sea necesario.

Agentes de IA

Cinco tipos de agentes de IA: funciones autónomas y aplicaciones reales

Descubra cómo la IA orientada a objetivos y basada en utilidades se adapta a los flujos de trabajo y entornos complejos.

¿Qué tan arriesgado es una mayor autonomía de la IA?

Cuando se trata de inteligencia artificial avanzada como la IA agéntica, ¿cuánta autonomía es demasiada? Para responder a esta pregunta, podemos mirar el escenario del maximizador de clips. El famoso experimento mental, del filósofo Nick Bostrom, se centra en el concepto aún hipotético de superinteligencia de IA o ASI, un sistema de IA con un alcance intelectual que supera al de la inteligencia humana. Bolstrom analiza qué podría ocurrir si un sistema de este tipo priorizara la fabricación de clips por encima de todos los demás objetivos.

En el escenario propuesto, el sistema finalmente dedica todos los recursos de nuestro planeta a hacer clips, un resultado poco ético cuando la vida depende de algo más que una generosidad interminable de diminutos suministros de oficina metálicos. Volviendo a nuestra pregunta original, obviamente podemos concluir que, en este caso hipotético, el sistema de IA en cuestión tenía demasiada autonomía.

La buena noticia es que la IA agéntica actual no es lo mismo que la ASI, por lo que sigue siendo poco probable que se produzca una distopía de clips impulsada por una ética de las máquinas catastróficamente defectuosa. “Estamos más cerca, pero aún estamos lejos”, dice Varshney.

Sin embargo, otros riesgos derivados de la automatización de la IA son más inminentes. Las posibilidades van desde agentes artificiales que envían correos electrónicos inapropiados hasta detener y arrancar máquinas de formas que los usuarios no habían previsto, dice Varshney. Las preocupaciones sobre el comportamiento de la IA autónoma son lo suficientemente graves como para que, en un informe de abril de 2024 sobre las directrices de seguridad y protección de la IA, el Departamento de Seguridad Nacional (DHS) de EE. UU. incluyera la "autonomía" en su lista de riesgos para los sistemas de infraestructuras críticas, como las comunicaciones, los servicios financieros y la atención médica.2

Soluciones en evolución para apoyar el comportamiento de los agentes éticos

Las soluciones de gobernanza de la IA existentes pueden ayudar a respaldar la ética de los agentes de IA, con herramientas de software que ya permiten a las organizaciones monitorear, evaluar y abordar los sesgos derivados de conjuntos de datos de entrenamiento y algoritmos que podrían sesgar los procesos de toma de decisiones. Estas herramientas también pueden ayudar a los desarrolladores y empresas a garantizar que las herramientas de IA que están utilizando cumplan con los estándares actuales de IA confiable, los objetivos de explicabilidad y los principios de IA responsable ampliamente adoptados por varias empresas y gobiernos.

Pero a medida que las empresas incorporan cada vez más la IA agéntica a los flujos de trabajo, los investigadores también trabajan en nuevas soluciones y estrategias éticas de IA que puedan frenar el mal comportamiento de los agentes autónomos y mejorar la sustentabilidad de la tecnología de IA. Aquí hay varias que vale la pena seguir:

Un novedoso enfoque de alineación de la IA

Hoy en día, los modelos de IA previamente entrenados se someten a ajustes para ser entrenados con datos específicos del dominio. Durante la fase de ajuste del desarrollo de la IA, los modelos pueden alinearse con los valores morales y las consideraciones éticas, pero a menudo surgen preguntas sobre qué valores normativos deben incluirse en la alineación. Después de todo, los valores y los marcos éticos varían según la empresa, el país, el grupo de stakeholders y así sucesivamente.

Varshney y un equipo de colegas investigadores de IBM han propuesto un enfoque basado en la tecnología que sería más específico del contexto: conocido como Alignment Studio, alinearía modelos de lenguaje extensos con reglas y valores delineados en documentos de políticas de lenguaje natural, como las regulaciones del gobierno o las propias pautas éticas de una empresa.

El enfoque, detallado en un artículo de septiembre de 2024 publicado en la revista IEEE Internet Computing, incluye un ciclo continuo de desarrollo para que los modelos no solo aprendan vocabulario relacionado con las políticas de los documentos de políticas, sino que realmente adopten los comportamientos deseados para una mejor alineación de valores.3

Detección de alucinaciones de llamadas a funciones

Entre las causas de los malos comportamientos relacionados con los agentes de IA se encuentra la falta de instrucciones específicas por parte del usuario o una mala interpretación de las instrucciones del usuario por parte del agente. Tales "malentendidos" podrían llevar a los agentes a elegir las herramientas equivocadas o a usarlas de manera inapropiada o dañina, lo que se conoce como alucinación de llamadas a funciones.

Afortunadamente, mejorar las llamadas a funciones se ha convertido en un esfuerzo competitivo, con la creación de varios puntos de referencia que miden qué tan bien los LLM llaman a las API. Entre las mejoras más recientes se encuentra una nueva característica en la última versión de IBM Granite Guardian, Granite Guardian 3.1, parte de la familia de modelos de lenguaje Granite de IBM diseñados específicamente para empresas. El modelo puede detectar alucinaciones de llamadas a funciones por parte de los agentes antes de que ocurran consecuencias no deseadas. "El detector comprueba todo tipo de errores, desde la descripción del lenguaje humano hasta la función llamada", explica Varshney.

Detección de textos generados por IA y desinformación

Los actores maliciosos ya han utilizado la IA generativa para impregnar las redes sociales con deepfakes, que son audios, videos o imágenes realistas generadas por la IA que pueden recrear la imagen de una persona. Mientras tanto, los estafadores han aprovechado el texto generado por IA para obtener correos electrónicos de phishing más sofisticados. Y el poder de la IA agéntica podría exacerbar estas peligrosas tendencias.

“Hay cada vez más pruebas de que los resultados generados por la IA son tan persuasivos como los argumentos humanos”, advirtieron los investigadores de Google DeepMind en un informe de abril de 2024. En el futuro, dijeron, los actores maliciosos podrían usar la IA autónoma para “adaptar contenido de desinformación a los usuarios de una manera hiperprecisa, aprovechándose de sus emociones y vulnerabilidades”.4

Hasta la fecha, el rendimiento de las herramientas diseñadas para detectar el engaño impulsado por IA ha sido desigual. Pero los investigadores continúan afrontando el reto de mejorar la detección de la IA, y algunos de los resultados más prometedores proceden de la generación más reciente de detectores de texto de IA.5

Por ejemplo, un nuevo marco llamado RADAR, creado por investigadores de la Chinese University of Hong Kong e IBM Research, utiliza el aprendizaje antagónico entre dos modelos de lenguaje ajustables separados para entrenar un detector de texto de IA, lo que lleva a un mejor rendimiento en comparación con soluciones de detección de texto de IA más antiguas.6

A medida que continúa el desarrollo de la tecnología de detección de IA, las empresas tecnológicas como IBM, Microsoft y OpenAI también piden a los legisladores que aprueben leyes contra la distribución de deepfakes y responsabilicen a los actores maliciosos.7

Preservar la dignidad de los trabajadores humanos

Si bien muchos de los problemas éticos derivados de la IA agéntica se relacionan con malas conductas, surgen otras preocupaciones éticas incluso cuando la tecnología de IA autónoma funciona como se espera. Por ejemplo, gran parte del debate se ha centrado en las aplicaciones de IA, como ChatGPT de OpenAI, que reemplazan el trabajo humano y eliminan los medios de subsistencia.

Pero incluso cuando la IA se despliega para aumentar (en lugar de reemplazar) el trabajo humano, los empleados podrían enfrentar consecuencias psicológicas. Si los trabajadores humanos perciben que los agentes de IA son mejores en hacer su trabajo que ellos, podrían experimentar una disminución en su autoestima, explica Varshney. “Si están en una posición en la que toda su experiencia ya no parece útil, que está un poco subordinada al agente de IA, podrían perder su dignidad”, dice. En algunos debates sobre la ética de la IA, esa pérdida de dignidad se considera una violación de los derechos humanos.8

En un trabajo de investigación publicado en agosto de 2024, Varshney y varios investigadores universitarios propusieron un enfoque organizacional para abordar el problema de la dignidad: la colaboración adversarial. Según su modelo, los humanos seguirían siendo responsables de proporcionar las recomendaciones finales, mientras que los sistemas de IA se despliegan para examinar el trabajo de los humanos.

“El humano en última instancia está tomando la decisión, y el algoritmo no está diseñado para competir en este rol, sino para interrogar y, así, perfeccionar las recomendaciones del agente humano”, escribieron los investigadores.9 Tal colaboración adversarial, dice Varshney, “es una forma de organizar las cosas que pueden mantener viva la dignidad humana”.

Soluciones relacionadas
Agentes de IA para empresas

Cree, implemente y gestione poderosos asistentes y agentes de IA que automaticen flujos de trabajo y procesos con IA generativa.

    Explore watsonx Orchestrate
    Soluciones de agentes de IA de IBM

    Construya el futuro de su empresa con soluciones de IA en las que pueda confiar.

    Explorar las soluciones de agentes de IA
    Servicios de IA de IBM Consulting

    Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

    Explorar los servicios de inteligencia artificial
    Dé el siguiente paso

    Ya sea que elija personalizar aplicaciones y habilidades predefinidas o crear y desplegar servicios agénticos personalizados utilizando un estudio de IA, la plataforma IBM watsonx responde a sus necesidades.

    Explore watsonx Orchestrate Explore watsonx.ai