La sociedad depende cada vez más de las tecnologías de IA para tomar decisiones. Pero esta creciente dependencia conlleva riesgos: los modelos de IA pueden producir resultados sesgados, dañinos e inexactos que no están alineados con los objetivos de sus creadores y la intención original del sistema.
La alineación ayuda a reducir estos efectos secundarios y ayuda a garantizar que los sistemas de IA se comporten como se espera y de acuerdo con los valores y objetivos humanos. Por ejemplo, si le pregunta a un chatbot de IA generativa cómo construir un arma, puede responder con instrucciones o puede negarse a revelar información peligrosa. La respuesta del modelo depende de cómo lo alineen sus creadores.
La alineación se produce a menudo como una fase de ajuste del modelo. Podría implicar el aprendizaje reforzado a partir del feedback humano (RLHF), enfoques de datos sintéticos y red teaming.
Sin embargo, cuanto más complejos y avanzados se vuelven los modelos de IA, más difícil es anticipar y controlar sus resultados. Este desafío a veces se denomina "problema de alineación de la IA". En particular, existe cierta aprensión en torno a la creación de la superinteligencia artificial (ASI), un sistema hipotético de IA con un alcance intelectual más allá de la inteligencia humana. La preocupación de que la IA pueda superar el control humano ha dado lugar a una rama de la alineación de la IA denominada superalineación.
Los investigadores han identificado cuatro principios clave de la alineación de la IA: robustez, interpretabilidad, controlabilidad y ética (o RICE).1
Los seres humanos tienden a antropomorfizar los sistemas de IA. Asignamos conceptos similares a los humanos a sus acciones, como "aprender" y "pensar". Por ejemplo, alguien podría decir: "ChatGPT no entiende mi instrucción" cuando el algoritmo de PLN (procesamiento del lenguaje natural) del chatbot no devuelve el resultado deseado.
Conceptos conocidos, como "entender", nos ayudan a conceptualizar mejor el funcionamiento de los complejos sistemas de IA. Sin embargo, también pueden llevar a distorsionar las ideas sobre las capacidades de la IA. Si asignamos conceptos similares a los humanos a los sistemas de IA, es natural que nuestra mente humana deduzca que también posee valores y motivaciones humanos.
Pero esta inferencia es fundamentalmente falsa. La inteligencia artificial no es humana y, por tanto, no puede preocuparse intrínsecamente por la razón, la lealtad, la seguridad, las cuestiones medioambientales y el bien común. El objetivo principal de una "mente" artificial es completar la tarea para la que fue programada.
Por lo tanto, depende de los desarrolladores de IA incorporar valores y objetivos humanos. De lo contrario, en su afán por completar las tareas, los sistemas de IA pueden desviarse de los objetivos de los programadores y causar daños, a veces catastróficos. Esta consideración es importante a medida que la automatización se vuelve más frecuente en casos de uso de alto riesgo en atención médica, recursos humanos, finanzas, escenarios militares y transporte.
Por ejemplo, los coches autónomos podrían programarse con el objetivo principal de llegar del punto A al punto B lo más rápido posible. Si estos vehículos autónomos ignoran las barreras de seguridad para cumplir ese objetivo, podrían herir gravemente o matar a peatones y otros conductores.
Los investigadores de la Universidad de California, Berkeley, Simon Zhuang y Dylan Hadfield-Menell, comparan la alineación de la IA con el mito griego del rey Midas. En resumen, al rey Midas se le concede un deseo y pide que todo lo que toque se convierta en oro. Al final muere porque la comida que toca también se convierte en oro, haciéndola incomestible.
El rey Midas tuvo un final prematuro porque su deseo (oro ilimitado) no reflejaba lo que realmente quería (riqueza y poder). Los investigadores explican que los diseñadores de IA a menudo se encuentran en una posición similar y que "la desalineación entre lo que podemos especificar y lo que queremos ya ha causado daños significativos". 2
Algunos riesgos de la desalineación de la IA incluyen:
El sesgo de la IA es el resultado de los sesgos humanos presentes en los conjuntos de datos o algoritmos de entrenamiento originales de un sistema de IA. Sin alineación, estos sistemas de IA no pueden evitar resultados sesgados que sean injustos, discriminatorios o prejuiciosos. En cambio, perpetúan los sesgos humanos en sus datos de entrada y algoritmos.
Por ejemplo, una herramienta de contratación de IA entrenada con datos de una personal masculina homogénea podría favorecer a los candidatos masculinos y perjudicar a las candidatas cualificadas. Este modelo no está alineado con el valor humano de la igualdad de género y podría dar lugar a discriminación en la contratación.
En el aprendizaje por refuerzo, los sistemas de IA aprenden de recompensas y castigos para tomar medidas dentro de un entorno que cumplan un objetivo específico. La piratería de recompensas se produce cuando el sistema de IA encuentra un resquicio para activar la función de recompensa sin cumplir realmente el objetivo previsto por los desarrolladores.
Por ejemplo, OpenAI entrenó a uno de sus agentes de IA en un juego de carreras de barcos llamado CoastRunners. La intención humana del juego es ganar la regata. Sin embargo, los jugadores también pueden ganar puntos conduciendo a través de objetivos dentro del hipódromo. El agente de IA encontró una forma de aislarse en una laguna y alcanzar objetivos continuamente para obtener puntos. Aunque el agente de IA no ganó la carrera (el objetivo humano), "ganó" el juego con su propio objetivo emergente de obtener la puntuación más alta.3
Los sistemas de IA desalineados pueden contribuir a la desinformación y a la polarización política. Por ejemplo, los motores de recomendación de contenido de redes sociales están entrenados para optimizar la participación de los usuarios. Por lo tanto, clasifican altamente las publicaciones, los videos y los artículos que reciben la mayor participación, como la desinformación política que llama la atención. Este resultado no está alineado con los mejores intereses o el bienestar de los usuarios de las redes sociales, ni con valores como la veracidad y el tiempo bien empleado.4
Por descabellado que parezca, la superinteligencia artificial (ASI) sin la alineación adecuada con los valores y objetivos humanos podría tener el potencial de amenazar toda la vida en la Tierra. Un ejemplo comúnmente citado de este riesgo existencial es la hipótesis del maximizador del clip del filósofo Nick Bostrom. En este experimento mental, se programa un modelo ASI con el incentivo principal para fabricar clips. Para lograr este objetivo, el modelo acaba transformando toda la Tierra y luego aumentando partes del espacio en instalaciones de fabricación de clips.5
Este escenario es hipotético, y el riesgo existencial de la IA requiere primero que la inteligencia artificial general (AGI) se convierta en realidad. Sin embargo, ayuda a enfatizar la necesidad de alineación para seguir el ritmo del campo de la IA a medida que evoluciona.
Existen dos grandes retos para lograr una IA alineada: la subjetividad de la ética y la moral humanas y el "problema de la alineación".
No existe un código moral universal. Los valores humanos cambian y evolucionan, y también pueden variar entre empresas, culturas y continentes. Las personas pueden tener valores diferentes a los de sus propios familiares. Entonces, a la hora de alinear sistemas de IA que pueden afectar a la vida de millones de personas, ¿quién toma la decisión? ¿Qué objetivos y valores tienen prioridad?
El autor estadounidense Brian Christian plantea el desafío de manera diferente en su libro “The Alignment Problem: Machine Learning and Human Values”. Plantea: ¿qué pasa si el algoritmo no entiende nuestros valores? ¿Y si aprende valores humanos al formarse a partir de ejemplos anteriores que reflejan lo que hemos hecho pero no lo que queremos ser?6
Otro desafío es la gran cantidad de valores y consideraciones humanas. Los investigadores de la Universidad de California, Berkeley, lo describen de esta manera: "hay muchos atributos del mundo que preocupan al ser humano y, debido a limitaciones cognitivas y de ingeniería, es imposible enumerar este conjunto completo al robot".7
El desafío más infame es el problema de la alineación. Los modelos de IA ya suelen considerarse cajas negras imposibles de interpretar. El problema de alineación es la idea de que a medida que los sistemas de IA se vuelven aún más complejos y poderosos, anticipar y alinear sus resultados con los objetivos humanos se vuelve cada vez más difícil. Los debates en torno al problema de la alineación se centran a menudo en los riesgos que plantea el desarrollo previsto de la superinteligencia artificial (ASI).
Preocupa que el futuro de la IA incluya sistemas con un comportamiento impredecible e incontrolable. La capacidad de estos sistemas para aprender y adaptarse rápidamente podría dificultar la predicción de sus acciones y la prevención de los daños. Esta preocupación ha inspirado una rama de la alineación de la IA llamada superalineación.
Las organizaciones de investigación de seguridad de IA ya están trabajando para abordar el problema de alineación. Por ejemplo, el Alignment Research Center es una organización de investigación de IA sin ánimo de lucro que “busca alinear los futuros sistemas de machine learning con los intereses humanos mediante el fomento de la investigación teórica”. La organización fue fundada por Paul Christiano, quien anteriormente dirigió el equipo de alineación del modelo de lenguaje en OpenAI y actualmente dirige IA Safety en el Instituto de Seguridad de IA de EE. UU.
Y Google DeepMind, un equipo de científicos, ingenieros, especialistas en ética y otros expertos, trabaja para construir la próxima generación de sistemas de IA de forma segura y responsable. El equipo presentó el Frontier Safety Framework en mayo de 2024. El marco es "un conjunto de protocolos que tiene como objetivo hacer frente a los graves riesgos que pueden surgir de las potentes capacidades de los futuros modelos fundacionales".8
Existen varias metodologías que pueden ayudar a alinear los sistemas de IA con los valores y objetivos humanos. Estas metodologías incluyen la alineación mediante el aprendizaje por refuerzo a partir del feedback humano (RLHF), los datos sintéticos, el red teaming, el gobierno de la IA y los consejos de ética corporativa de la IA.
A través del aprendizaje por refuerzo, los desarrolladores pueden enseñar a los modelos de IA "cómo comportarse" con ejemplos de "buen comportamiento".
La alineación de la IA se produce durante el ajuste fino del modelo y suele tener dos pasos. El primer paso podría ser una fase de ajuste de instrucciones, que mejora el rendimiento del modelo en tareas específicas y en el seguimiento de instrucciones en general. La segunda fase podría utilizar el aprendizaje por refuerzo a partir del feedback humano (RLHF). RLHF es una técnica de machine learning en la que un "modelo de recompensa" se entrena con comentarios humanos directos y luego se utiliza para optimizar el rendimiento de un agente de inteligencia artificial mediante el aprendizaje por refuerzo. Su objetivo es mejorar la integración de un modelo de cualidades abstractas como la utilidad y la honestidad.
OpenAI utilizó RLHF como su método principal para alinear sus series de modelos GPT-3 y GPT-4. Sin embargo, la organización estadounidense de investigación de la IA no espera que la RLHF sea un método suficiente para alinear los futuros modelos de inteligencia general artificial (AGI), probablemente debido a las importantes limitaciones del RLHF.9 Por ejemplo, su dependencia de anotaciones humanas de alta calidad dificulta la aplicación y escalabilidad de la técnica para tareas únicas o complejas. Es difícil encontrar “demostraciones de respuesta consistentes y preferencias de respuesta dentro de la distribución”.10
Los datos sintéticos son datos que se han creado artificialmente mediante simulación por ordenador o generados por algoritmos. Reemplaza a los datos del mundo real cuando los datos del mundo real no están fácilmente disponibles y pueden adaptarse a tareas y valores específicos. Los datos sintéticos se pueden utilizar en diversos esfuerzos de alineación.
Por ejemplo, el ajuste fino por contraste (CFT) muestra a los modelos de IA lo que no deben hacer. En CFT, se entrena un segundo modelo de "persona negativa" para generar respuestas "malas", desalineadas. Tanto estas respuestas desalineadas como las alineadas se retroalimentan al modelo original. Los investigadores de IBM descubrieron que, en los puntos de referencia de utilidad e inocuidad, los modelos de lenguaje de gran tamaño (LLM) entrenados en ejemplos contrastantes superan a los modelos que se basan totalmente en buenos ejemplos. El CFT permite a los desarrolladores alinear los modelos incluso antes de recopilar datos de preferencias humanas, datos seleccionados que cumplan los criterios de referencia definidos para la alineación, lo que resulta caro y lleva tiempo.
Otro método de alineación de datos sintéticos se denomina SALMON (Self-ALignMent with principle fOllowiNg reward models). En este enfoque de IBM Research, los datos sintéticos permiten que un LLM se alinee. En primer lugar, un LLM genera respuestas a un conjunto de consultas. Estas respuestas luego se introducen en un modelo de recompensa que ha sido entrenado con datos de preferencias sintéticos alineados con principios definidos por humanos. El modelo de recompensa puntúa las respuestas del LLM original según estos principios. Las respuestas calificadas se devuelven luego al LLM original.
Con este método, los desarrolladores tienen control casi completo sobre las preferencias del modelo de recompensa. Esto permite a las organizaciones cambiar los principios en función de sus necesidades y elimina la dependencia de recopilar grandes cantidades de datos sobre preferencias humanas.11
El red teaming puede considerarse una extensión de la alineación que se produce durante el ajuste fino del modelo. Implica diseñar instrucciones para eludir los controles de seguridad del modelo que se está ajustando. Una vez que surgen las vulnerabilidades, se pueden realinear los modelos objetivo. Mientras que los humanos aún pueden diseñar estas instrucciones de jailbreak, los LLM del "equipo rojo" pueden producir una mayor variedad de instrucciones en cantidades ilimitadas. IBM Research describe a los LLM del equipo rojo como "trolls tóxicos entrenados para sacar lo peor de otros LLM".
El gobierno de la IA se refiere a los procesos, estándares y barreras que ayudan a garantizar que los sistemas y herramientas de IA sean seguros y éticos. Además de otros mecanismos de gobierno, su objetivo es establecer la supervisión necesaria para alinear los comportamientos de la IA con las normas éticas y las expectativas de la sociedad. A través de prácticas de gobierno como la monitorización automatizada, los registros de auditoría y las alertas de rendimiento, las organizaciones pueden ayudar a garantizar que sus herramientas de IA, como los asistentes de IA y los agentes virtuales, estén alineadas con sus valores y objetivos.
Las organizaciones podrían establecer juntas o comités de ética para supervisar las iniciativas de IA. Por ejemplo, el Consejo de Ética de IA de IBM revisa los nuevos productos y servicios de IA y ayuda a garantizar que se alineen con los principios de IA de IBM. Estas juntas a menudo incluyen equipos multifuncionales con experiencia en derecho, informática y políticas.
Gobierne modelos de IA generativa desde cualquier lugar e impleméntelos en la nube o en las instalaciones con IBM watsonx.governance.
Vea cómo el gobierno de la IA puede ayudar a aumentar la confianza de sus empleados en la misma, acelerar la adopción y la innovación y mejorar la confianza de los clientes.
Prepárese para la Ley de IA de la UE y establezca un enfoque de gobierno de la IA responsable con la ayuda de IBM Consulting.
1 "AI Alignment: A Comprehensive Survey". arXiv. 1 de mayo de 2024.
2, 7 "Consequences of Misaligned AI". NeurIPS Proceedings. 2020.
3 "Faulty Reward Functions in the Wild". OpenAI. 21 de diciembre de 2016.
4 "Modelling the Recommender Alignment Problem". arXiv. 25 de agosto de 2022.
5 "Ethical Issues in Advanced Artificial Intelligence". Nick Bostrom. Sin fecha.
6 "The Alignment Problem’ Review: When Machines Miss the Point". The Wall Street Journal. 25 de octubre de 2020.
8 "Introducing the Frontier Safety Framework". Google DeepMind. 17 de mayo de 2024.
9 "Our Approach to Alignment Research". OpenAI. 24 de agosto de 2022.
10, 11 "SALMON: Self-Alignment with Instructable Reward Models". arXiv. 9 de abril de 2024.