La sociedad depende cada vez más de las tecnologías de IA para ayudar a tomar decisiones. Pero esta creciente dependencia conlleva riesgos: los modelos de IA pueden producir resultados sesgados, dañinos e inexactos que no están alineados con los objetivos de sus creadores y la intención original del sistema.
La alineación funciona para reducir estos efectos secundarios, ayudando a garantizar que los sistemas de IA se comporten como se espera y en línea con los valores y objetivos humanos. Por ejemplo, si se le pregunta a un chatbot de IA generativa cómo construir un arma, puede responder con instrucciones o puede negarse a revelar información peligrosa. La respuesta del modelo depende de cómo lo alinearon sus creadores.
La alineación a menudo ocurre como una fase de ajuste del modelo. Podría implicar el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), los enfoques de datos sintéticos y el equipo rojo.
Sin embargo, cuanto más complejos y avanzados se vuelven los modelos de IA, más difícil es anticipar y controlar sus resultados. Este desafío a veces se conoce como el "problema de alineación de la IA". En individuo, existe cierta aprensión en torno a la creación de una superinteligencia artificial (ASI), un hipotético sistema de IA con un alcance intelectual más allá de la inteligencia humana. La preocupación de que la ASI pueda superar el control humano ha llevado a una rama de la alineación de IA llamada superalineación.
Los investigadores han identificado cuatro principios clave de la alineación de la IA: robustez, interpretabilidad, controlabilidad y ética (o RICE).1
Los seres humanos tendemos a antropomorfizar los sistemas de IA. Asignamos conceptos similares a los humanos a sus acciones, como "aprender" y "pensar". Por ejemplo, alguien podría decir: "ChatGPT no entiende mi instrucción" cuando el algoritmo de PLN (procesamiento de lenguaje natural) del chatbot no arroja el resultado deseado.
Conceptos familiares como “comprensión” nos ayudan a conceptualizar mejor cómo funcionan los sistemas complejos de IA. Sin embargo, también pueden conducir a nociones distorsionadas sobre las capacidades de IA. Si asignamos conceptos similares a los humanos a los sistemas de IA, es natural que nuestras mentes humanas infieran que también poseen valores humanos y motivaciones.
Pero esta inferencia es fundamentalmente falsa. La inteligencia artificial no es humana y, por lo tanto, no puede preocupar intrínsecamente por la razón, la lealtad, la seguridad, las cuestiones ambientales y el bien común. El objetivo principal de una “mente” artificial es completar la tarea para la que fue programada.
Por lo tanto, corresponde a los desarrolladores de IA incorporar valores y objetivos humanos. De lo contrario, en su afán por completar una tarea, los sistemas de IA pueden desalinearse respecto de los objetivos de los programadores y causar daños, a veces catastróficos. Esta consideración es importante a medida que la automatización se impone en casos de uso de alto riesgo en sanidad, recursos humanos, finanzas, escenarios militares y transporte.
Por ejemplo, los vehículos autónomos podrían programarse con el objetivo principal de llegar del punto A al punto B lo más rápido posible. Si estos vehículos autónomos ignoran las barreras de seguridad para lograr ese objetivo, podrían lesionar gravemente o matar a peatones y otros conductores.
Los investigadores Simon Zhuang y Dylan Hadfield-Menell, de la Universidad de California en Berkeley, comparan la alineación de la IA con el mito griego del rey Midas. En resumen, al rey Midas se le concede un deseo y pide que todo lo que toque se convierta en oro. Finalmente muere porque la comida que toca también se convierte en oro, lo cual la vuelve incomestible.
El rey Midas tuvo un final prematuro porque su deseo (oro ilimitado) no reflejaba lo que realmente quería (riqueza y poder). Los investigadores explican que los diseñadores de IA a menudo se encuentran en una posición similar y que "la desalineación entre lo que podemos especificar y lo que queremos ya ha causado daños significativos". 2
Algunos riesgos de la desalineación de la IA incluyen:
El sesgo de la IA es el resultado de los sesgos humanos presentes en los conjuntos de datos o algoritmos deentrenamiento originales de un sistema de IA. Sin alineación, estos sistemas de IA no pueden evitar resultados sesgados que son injustos, discriminatorios o prejuiciosos. En cambio, perpetúan los sesgos humanos en sus datos de entrada y algoritmos.
Por ejemplo, una herramienta de contratación de IA entrenada con datos de una fuerza laboral homogénea masculina podría favorecer a los candidatos masculinos y perjudicar a las candidatas calificadas. Este modelo no está alineado con el valor humano de la igualdad de género y podría conducir a la discriminación en la contratación.
En el aprendizaje por refuerzo, los sistemas de IA aprenden de recompensas y castigos para tomar medidas dentro de un entorno que cumplan con un objetivo específico. El hackeo de recompensas ocurre cuando el sistema de IA encuentra una laguna para activar la función de recompensa sin cumplir realmente el objetivo previsto de los desarrolladores.
Por ejemplo, OpenAI entrenó a uno de sus agentes de IA en un juego de carreras de botes llamado CoaSrunners. La intención humana del juego es ganar la carrera de botes. Sin embargo, los jugadores también pueden ganar puntos al atravesar objetivos dentro del circuito de carreras. El agente de IA encontró una manera de aislarse en una laguna y continuamente golpear objetivos por puntos. Si bien el agente de IA no ganó la carrera (el objetivo humano), “ganó” el juego con su propio objetivo emergente de obtener la puntuación más alta.3
Los sistemas de IA desalineados pueden contribuir a la desinformación y la polarización política. Por ejemplo, los motores de recomendación de contenido de redes sociales están entrenados para optimizar la participación del usuario. Por lo tanto, clasifican en un lugar destacado las publicaciones, videos y artículos que reciben el mayor engagement, como la desinformación política que llama la atención. Este resultado no está alineado con los mejores intereses o el bienestar de los usuarios de las redes sociales, ni con valores, como la veracidad y el tiempo bien empleado.4
Por descabellado que parezca, la superinteligencia artificial (ASI) sin una alineación adecuada con los valores y objetivos humanos podría tener el potencial de amenazar toda la vida en el planeta. Un ejemplo comúnmente citado de este riesgo existencial es el escenario del maximizador de clips del filósofo Nick Bostrom. En este experimento mental, se programa un modelo ASI con el máximo incentivo para fabricar clips. Para lograr este objetivo, el modelo eventualmente transforma todo el planeta y luego porciones cada vez mayores del espacio en centros de fabricación de clips.5
Este escenario es hipotético, y el riesgo existencial de la IA requiere primero que la inteligencia artificial general (AGI) se convierta en realidad. Sin embargo, ayuda a enfatizar la necesidad de alineación para seguir el ritmo del campo de la IA a medida que evoluciona.
Hay dos grandes desafíos para lograr una IA alineada: la subjetividad de la ética y moralidad humanas y el “problema de alineación”.
No existe un código moral universal. Los valores humanos cambian y evolucionan, y también pueden variar entre empresas, culturas y continentes. Las personas pueden tener valores diferentes a los de sus propios familiares. Así pues, a la hora de alinear sistemas de IA que pueden afectar la vida de millones de personas, ¿quién toma la decisión? ¿Qué objetivos y valores tienen prioridad?
El autor estadounidense Brian Christian enmarca el desafío de manera diferente en su libro “The Alignment Problem: Machine Learning and Human Values”. Plantea: ¿y si el algoritmo no entiende nuestros valores? ¿Y si aprende valores humanos a partir de ejemplos pasados que reflejan lo que hemos hecho pero no lo que queremos ser?6
Otro desafío es la gran cantidad de valores y consideraciones humanas. Los investigadores de la Universidad de California, Berkeley lo describen de esta manera: “hay muchos atributos del mundo que le importan al ser humano y, debido a limitaciones cognitivas y de ingeniería, es imposible enumerar este conjunto completo al robot”.7
El desafío más infame es el problema de alineación. Los modelos de IA a menudo ya se consideran cajas negras que son imposibles de interpretar. El problema de la alineación es la idea de que, a medida que los sistemas de IA se vuelven aún más complejos y potentes, anticipar y alinear sus resultados con los objetivos humanos se vuelve cada vez más difícil. Los debates sobre el problema de la alineación a menudo se centran en los riesgos que plantea el desarrollo anticipado de la superinteligencia artificial (ASI).
Existe la preocupación de que el futuro de la IA incluya sistemas con un comportamiento impredecible e incontrolable. La capacidad de estos sistemas para aprender y adaptarse rápidamente podría dificultar la predicción de sus acciones y la prevención de daños. Esta preocupación ha inspirado una rama de la alineación de IA llamada superalineación.
Las organizaciones de investigación de seguridad de IA ya están trabajando para abordar el problema de alineación. Por ejemplo, el Alignment Research Center es una organización de investigación de IA sin fines de lucro que "busca alinear futuros sistemas de machine learning con los intereses humanos fomentando la investigación teórica". La organización fue fundada por Paul Christiano, quien anteriormente dirigió el equipo de alineación del modelo de lenguaje en OpenAI y actualmente dirige AI Safety en el US AI Safety Institute.
Y Google DeepMind, un equipo de científicos, ingenieros, especialistas en ética y otros expertos, está trabajando para construir la próxima generación de sistemas de IA de manera segura y responsable. El equipo presentó el Frontier Safety Framework en mayo de 2024. El marco es "un conjunto de protocolos que tiene como objetivo abordar los riesgos severos que pueden surgir de las potentes capacidades de los futuros modelos fundacionales".8
Existen varias metodologías que pueden ayudar a alinear los sistemas de IA con los valores y objetivos humanos. Estas metodologías incluyen la alineación mediante el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), los datos sintéticos, el equipo rojo, la gobernanza de la IA y los comités de ética de la IA corporativa.
A través del aprendizaje por refuerzo, los desarrolladores pueden enseñar a los modelos de IA "cómo comportarse" con ejemplos de "buen comportamiento".
La alineación de la IA ocurre durante el ajuste del modelo y generalmente consta de dos pasos. El primer paso podría ser una fase de ajuste de instrucciones, que mejora el rendimiento del modelo en tareas específicas y en el seguimiento de instrucciones en general. La segunda fase podría utilizar el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). El RLHF es una técnica de machine learning en la que se entrena a un “modelo de recompensa” con retroalimentación humana directa y luego se utiliza para optimizar el rendimiento de un agente de inteligencia artificial a través del aprendizaje de refuerzo. Su objetivo es mejorar la integración de un modelo de cualidades abstractas, como la utilidad y la honestidad.
OpenAI empleó RLHF como su método principal para alinear sus series de modelos GPT-3 y GPT-4. Sin embargo, la organización estadounidense de investigación de IA no espera que el RLHF sea un método suficiente para alinear futuros modelos de inteligencia artificial general (AGI), probablemente debido a las limitaciones significativas del RLHF.9 Por ejemplo, su dependencia de anotaciones humanas de alta calidad dificulta la aplicación y escalabilidad de la técnica para tareas únicas o complejas. Es difícil encontrar “demostraciones de respuesta congruentes y preferencias de respuesta dentro de la distribución”.10
Los datos sintéticos son datos creados artificialmente a través de simulación por computadora o generados por algoritmos. Reemplaza los datos del mundo real cuando estos no están fácilmente disponibles y se pueden adaptar a tareas y valores específicos. Los datos sintéticos se pueden utilizar en diversos esfuerzos de alineación.
Por ejemplo, el ajuste contrastivo (CFT) muestra a los modelos de IA lo que no deben hacer. En el CFT, se entrena un segundo modelo de "persona negativa" para generar respuestas "malas" y desalineadas. Tanto las respuestas desalineadas como las alineadas se devuelven al modelo original. Los investigadores de IBM descubrieron que, en las pruebas comparativas de utilidad e inocuidad, los modelos de lenguaje grandes(LLM) entrenados con ejemplos contrastados superan a los modelos ajustados totalmente con ejemplos buenos. El CFT permite a los desarrolladores alinear los modelos antes incluso de recopilar datos de preferencias humanas (datos curados que cumplen con los puntos de referencia definidos para la alineación), lo que resulta caro y lleva tiempo.
Otro método de alineación de datos sintéticos se denomina SALMON (modelos de recompensa Self-ALignMent with principle fOllowiNg). En este enfoque de IBM Research, los datos sintéticos permiten que un LLM se alinee. Primero, un LLM genera respuestas a un conjunto de consultas. Luego, estas respuestas se alimentan a un modelo de recompensa que ha sido entrenado con datos de preferencias sintéticos alineados con principios definidos por humanos. El modelo de recompensa puntúa las respuestas del LLM original en función de estos principios. Las respuestas puntuadas se retroalimentan al LLM original.
Con este método, los desarrolladores tienen un control casi total sobre las preferencias del modelo de recompensa. Esto permite a las organizaciones cambiar los principios de acuerdo con sus necesidades y elimina la dependencia de recopilar grandes cantidades de datos de preferencias humanas.11
El equipo rojo puede considerarse una extensión de la alineación que se produce durante el ajuste del modelo. Implica diseñar instrucciones para eludir los controles de seguridad del modelo que se está ajustando. Una vez que surgen las vulnerabilidades, los modelos objetivo se pueden realinear. Si bien los humanos aún pueden diseñar estas "instrucciones de jailbreak", los LLM del "equipo rojo" pueden producir una variedad más amplia de instrucciones en cantidades ilimitadas. IBM Research describe a los LLM del equipo rojo como "trolls tóxicos entrenados para sacar lo peor de otros LLM".
Gobernanza de la IA se refiere a los procesos, estándares y medidas de protección que ayudan a garantizar que los sistemas y herramientas de IA sean seguros y éticos. Además de otros mecanismos de gobernanza, su objetivo es establecer la supervisión necesaria para alinear los comportamientos de AI con los estándares éticos y las expectativas sociales. A través de prácticas de gobernanza, como el monitoreo automatizado, los registros de auditoría y las alertas de rendimiento, las organizaciones pueden ayudar a garantizar que sus herramientas de AI, como asistentes de AI y agentes virtuales,estén alineadas con sus valores y objetivos.
Las organizaciones pueden establecer juntas o comités de ética para supervisar las iniciativas de IA. Por ejemplo, el Consejo de Ética de IA de IBM revisa los nuevos productos y servicios de IA y ayuda a garantizar que se alineen con los principios de IA de IBM. Estas juntas a menudo incluyen equipos multifuncionales con experiencia legal, informática y política.
Gobierne modelos de IA generativa desde cualquier lugar y despliéguelos en la nube u on-premises con IBM watsonx.governance.
Vea cómo la gobernanza de la IA puede ayudar a aumentar la confianza de sus empleados en la IA, acelerar la adopción y la innovación y mejorar la confianza de los clientes.
Prepárese para la Ley de IA de la UE y establezca un enfoque de gobernanza para la IA responsable con la ayuda de IBM® Consulting.
1 “AI Alignment: A Comprehensive Survey," arXiv, 1 de mayo de 2024.
2, 7 "Consequences of Misaligned AI," NeurIPS Proceedings, 2020.
3 "Faulty Reward Functions in the Wild," OpenAI, 21 de diciembre de 2016.
4 “Modelling the Recommender Alignment Problem,” arXiv, 25 de agosto de 2022.
5 “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, n.d.
6 “‘The Alignment Problem’ Review: When Machines Miss the Point,” The Wall Street Journal, 25 de octubre de 2020.
8 “Introducing the Frontier Safety Framework,” Google DeepMind, 17 de mayo de 2024.
9 “Our Approach to Alignment Research,” OpenAI, 24 de agosto de 2022.
10, 11 “SALMON: Self-Alignment with Instructable Reward Models,” arXiv, 9 de abril de 2024.