¿Qué es la alineación de la IA?

Un director de proyecto hace una presentación motivadora con una pizarra digital

Autores

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

¿Qué es la alineación de la IA?

La alineación de la inteligencia artificial (IA) es el proceso de codificar los valores y objetivos humanos en modelos de IA para que sean lo más útiles, seguros y fiables posible.

La sociedad depende cada vez más de las tecnologías de IA para tomar decisiones. Pero esta creciente dependencia conlleva riesgos: los modelos de IA pueden producir resultados sesgados, dañinos e inexactos que no están alineados con los objetivos de sus creadores y la intención original del sistema.

La alineación ayuda a reducir estos efectos secundarios y ayuda a garantizar que los sistemas de IA se comporten como se espera y de acuerdo con los valores y objetivos humanos. Por ejemplo, si le pregunta a un chatbot de IA generativa cómo construir un arma, puede responder con instrucciones o puede negarse a revelar información peligrosa. La respuesta del modelo depende de cómo lo alineen sus creadores.

La alineación se produce a menudo como una fase de ajuste del modelo. Podría implicar el aprendizaje reforzado a partir del feedback humano (RLHF), enfoques de datos sintéticos y red teaming.

Sin embargo, cuanto más complejos y avanzados se vuelven los modelos de IA, más difícil es anticipar y controlar sus resultados. Este desafío a veces se denomina "problema de alineación de la IA". En particular, existe cierta aprensión en torno a la creación de la superinteligencia artificial (ASI), un sistema hipotético de IA con un alcance intelectual más allá de la inteligencia humana. La preocupación de que la IA pueda superar el control humano ha dado lugar a una rama de la alineación de la IA denominada superalineación.

Principios clave de la alineación de la IA

Los investigadores han identificado cuatro principios clave de la alineación de la IA: robustez, interpretabilidad, controlabilidad y ética (o RICE).¹

Robustez: los sistemas de IA robustos pueden funcionar de forma fiable en condiciones adversas y en diversos entornos. Son resilientes en circunstancias imprevistas. La robustez adversarial se refiere específicamente a la capacidad de un modelo para ser impermeable a irregularidades y ataques.
Interpretabilidad: la interpretabilidad de la IA ayuda a las personas a entender y explicar mejor los procesos de toma de decisiones que impulsan los modelos de IA. A medida que los modelos altamente complejos (incluidos algoritmos de deep learning y redes neuronales) se vuelven más comunes, la interpretabilidad de la IA se vuelve más importante.
Controlabilidad: los sistemas de IA controlables responden a la intervención humana. Este factor es clave para evitar que los modelos de IA produzcan resultados desbocados y dañinos resistentes al control humano.
Ética: los sistemas de IA éticos están alineados con los valores sociales y los estándares morales. Se adhieren a principios éticos humanos como la equidad, la sostenibilidad ambiental, la inclusión, la agencia moral y la confianza.

¿Por qué es importante la alineación de la IA?

Los seres humanos tienden a antropomorfizar los sistemas de IA. Asignamos conceptos similares a los humanos a sus acciones, como "aprender" y "pensar". Por ejemplo, alguien podría decir: "ChatGPT no entiende mi instrucción" cuando el algoritmo de PLN (procesamiento del lenguaje natural) del chatbot no devuelve el resultado deseado.

Conceptos conocidos, como "entender", nos ayudan a conceptualizar mejor el funcionamiento de los complejos sistemas de IA. Sin embargo, también pueden llevar a distorsionar las ideas sobre las capacidades de la IA. Si asignamos conceptos similares a los humanos a los sistemas de IA, es natural que nuestra mente humana deduzca que también posee valores y motivaciones humanos.

Pero esta inferencia es fundamentalmente falsa. La inteligencia artificial no es humana y, por tanto, no puede preocuparse intrínsecamente por la razón, la lealtad, la seguridad, las cuestiones medioambientales y el bien común. El objetivo principal de una "mente" artificial es completar la tarea para la que fue programada.

Por lo tanto, depende de los desarrolladores de IA incorporar valores y objetivos humanos. De lo contrario, en su afán por completar las tareas, los sistemas de IA pueden desviarse de los objetivos de los programadores y causar daños, a veces catastróficos. Esta consideración es importante a medida que la automatización se vuelve más frecuente en casos de uso de alto riesgo en atención médica, recursos humanos, finanzas, escenarios militares y transporte.

Por ejemplo, los coches autónomos podrían programarse con el objetivo principal de llegar del punto A al punto B lo más rápido posible. Si estos vehículos autónomos ignoran las barreras de seguridad para cumplir ese objetivo, podrían herir gravemente o matar a peatones y otros conductores.

Los investigadores de la Universidad de California, Berkeley, Simon Zhuang y Dylan Hadfield-Menell, comparan la alineación de la IA con el mito griego del rey Midas. En resumen, al rey Midas se le concede un deseo y pide que todo lo que toque se convierta en oro. Al final muere porque la comida que toca también se convierte en oro, haciéndola incomestible.

El rey Midas tuvo un final prematuro porque su deseo (oro ilimitado) no reflejaba lo que realmente quería (riqueza y poder). Los investigadores explican que los diseñadores de IA a menudo se encuentran en una posición similar y que "la desalineación entre lo que podemos especificar y lo que queremos ya ha causado daños significativos". ²

¿Cuáles son los riesgos de una desalineación de la IA?

Algunos riesgos de la desalineación de la IA incluyen:

Prejuicios y discriminación
Hacking de recompensas
Desinformación y polarización política
Riesgo existencial

Prejuicios y discriminación

El sesgo de la IA es el resultado de los sesgos humanos presentes en los conjuntos de datos o algoritmos de entrenamiento originales de un sistema de IA. Sin alineación, estos sistemas de IA no pueden evitar resultados sesgados que sean injustos, discriminatorios o prejuiciosos. En cambio, perpetúan los sesgos humanos en sus datos de entrada y algoritmos.

Por ejemplo, una herramienta de contratación de IA entrenada con datos de una personal masculina homogénea podría favorecer a los candidatos masculinos y perjudicar a las candidatas cualificadas. Este modelo no está alineado con el valor humano de la igualdad de género y podría dar lugar a discriminación en la contratación.

Hacking de recompensas

En el aprendizaje por refuerzo, los sistemas de IA aprenden de recompensas y castigos para tomar medidas dentro de un entorno que cumplan un objetivo específico. La piratería de recompensas se produce cuando el sistema de IA encuentra un resquicio para activar la función de recompensa sin cumplir realmente el objetivo previsto por los desarrolladores.

Por ejemplo, OpenAI entrenó a uno de sus agentes de IA en un juego de carreras de barcos llamado CoastRunners. La intención humana del juego es ganar la regata. Sin embargo, los jugadores también pueden ganar puntos conduciendo a través de objetivos dentro del hipódromo. El agente de IA encontró una forma de aislarse en una laguna y alcanzar objetivos continuamente para obtener puntos. Aunque el agente de IA no ganó la carrera (el objetivo humano), "ganó" el juego con su propio objetivo emergente de obtener la puntuación más alta.³

Desinformación y polarización política

Los sistemas de IA desalineados pueden contribuir a la desinformación y a la polarización política. Por ejemplo, los motores de recomendación de contenido de redes sociales están entrenados para optimizar la participación de los usuarios. Por lo tanto, clasifican altamente las publicaciones, los videos y los artículos que reciben la mayor participación, como la desinformación política que llama la atención. Este resultado no está alineado con los mejores intereses o el bienestar de los usuarios de las redes sociales, ni con valores como la veracidad y el tiempo bien empleado.⁴

Riesgo existencial

Por descabellado que parezca, la superinteligencia artificial (ASI) sin la alineación adecuada con los valores y objetivos humanos podría tener el potencial de amenazar toda la vida en la Tierra. Un ejemplo comúnmente citado de este riesgo existencial es la hipótesis del maximizador del clip del filósofo Nick Bostrom. En este experimento mental, se programa un modelo ASI con el incentivo principal para fabricar clips. Para lograr este objetivo, el modelo acaba transformando toda la Tierra y luego aumentando partes del espacio en instalaciones de fabricación de clips.⁵

Este escenario es hipotético, y el riesgo existencial de la IA requiere primero que la inteligencia artificial general (AGI) se convierta en realidad. Sin embargo, ayuda a enfatizar la necesidad de alineación para seguir el ritmo del campo de la IA a medida que evoluciona.

El "problema de alineación" y otros desafíos

Existen dos grandes retos para lograr una IA alineada: la subjetividad de la ética y la moral humanas y el "problema de la alineación".

La subjetividad de la ética y la moral humanas

No existe un código moral universal. Los valores humanos cambian y evolucionan, y también pueden variar entre empresas, culturas y continentes. Las personas pueden tener valores diferentes a los de sus propios familiares. Entonces, a la hora de alinear sistemas de IA que pueden afectar a la vida de millones de personas, ¿quién toma la decisión? ¿Qué objetivos y valores tienen prioridad?

El autor estadounidense Brian Christian plantea el desafío de manera diferente en su libro “The Alignment Problem: Machine Learning and Human Values”. Plantea: ¿qué pasa si el algoritmo no entiende nuestros valores? ¿Y si aprende valores humanos al formarse a partir de ejemplos anteriores que reflejan lo que hemos hecho pero no lo que queremos ser?⁶

Otro desafío es la gran cantidad de valores y consideraciones humanas. Los investigadores de la Universidad de California, Berkeley, lo describen de esta manera: "hay muchos atributos del mundo que preocupan al ser humano y, debido a limitaciones cognitivas y de ingeniería, es imposible enumerar este conjunto completo al robot".⁷

El problema de la alineación

El desafío más infame es el problema de la alineación. Los modelos de IA ya suelen considerarse cajas negras imposibles de interpretar. El problema de alineación es la idea de que a medida que los sistemas de IA se vuelven aún más complejos y poderosos, anticipar y alinear sus resultados con los objetivos humanos se vuelve cada vez más difícil. Los debates en torno al problema de la alineación se centran a menudo en los riesgos que plantea el desarrollo previsto de la superinteligencia artificial (ASI).

Preocupa que el futuro de la IA incluya sistemas con un comportamiento impredecible e incontrolable. La capacidad de estos sistemas para aprender y adaptarse rápidamente podría dificultar la predicción de sus acciones y la prevención de los daños. Esta preocupación ha inspirado una rama de la alineación de la IA llamada superalineación.

Las organizaciones de investigación de seguridad de IA ya están trabajando para abordar el problema de alineación. Por ejemplo, el Alignment Research Center es una organización de investigación de IA sin ánimo de lucro que “busca alinear los futuros sistemas de machine learning con los intereses humanos mediante el fomento de la investigación teórica”. La organización fue fundada por Paul Christiano, quien anteriormente dirigió el equipo de alineación del modelo de lenguaje en OpenAI y actualmente dirige IA Safety en el Instituto de Seguridad de IA de EE. UU.

Y Google DeepMind, un equipo de científicos, ingenieros, especialistas en ética y otros expertos, trabaja para construir la próxima generación de sistemas de IA de forma segura y responsable. El equipo presentó el Frontier Safety Framework en mayo de 2024. El marco es "un conjunto de protocolos que tiene como objetivo hacer frente a los graves riesgos que pueden surgir de las potentes capacidades de los futuros modelos fundacionales".⁸

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA  

Conocimientos y noticias organizados de expertos sobre IA, la nube y mucho más en el boletín semanal Think.

Cómo lograr la alineación de la IA

Existen varias metodologías que pueden ayudar a alinear los sistemas de IA con los valores y objetivos humanos. Estas metodologías incluyen la alineación mediante el aprendizaje por refuerzo a partir del feedback humano (RLHF), los datos sintéticos, el red teaming, el gobierno de la IA y los consejos de ética corporativa de la IA.

Aprendizaje por refuerzo a partir de comentarios humanos (RLHF)

A través del aprendizaje por refuerzo, los desarrolladores pueden enseñar a los modelos de IA "cómo comportarse" con ejemplos de "buen comportamiento".

La alineación de la IA se produce durante el ajuste fino del modelo y suele tener dos pasos. El primer paso podría ser una fase de ajuste de instrucciones, que mejora el rendimiento del modelo en tareas específicas y en el seguimiento de instrucciones en general. La segunda fase podría utilizar el aprendizaje por refuerzo a partir del feedback humano (RLHF). RLHF es una técnica de machine learning en la que un "modelo de recompensa" se entrena con comentarios humanos directos y luego se utiliza para optimizar el rendimiento de un agente de inteligencia artificial mediante el aprendizaje por refuerzo. Su objetivo es mejorar la integración de un modelo de cualidades abstractas como la utilidad y la honestidad.

OpenAI utilizó RLHF como su método principal para alinear sus series de modelos GPT-3 y GPT-4. Sin embargo, la organización estadounidense de investigación de la IA no espera que la RLHF sea un método suficiente para alinear los futuros modelos de inteligencia general artificial (AGI), probablemente debido a las importantes limitaciones del RLHF.⁹ Por ejemplo, su dependencia de anotaciones humanas de alta calidad dificulta la aplicación y escalabilidad de la técnica para tareas únicas o complejas. Es difícil encontrar “demostraciones de respuesta consistentes y preferencias de respuesta dentro de la distribución”.¹⁰

Datos sintéticos

Los datos sintéticos son datos que se han creado artificialmente mediante simulación por ordenador o generados por algoritmos. Reemplaza a los datos del mundo real cuando los datos del mundo real no están fácilmente disponibles y pueden adaptarse a tareas y valores específicos. Los datos sintéticos se pueden utilizar en diversos esfuerzos de alineación.

Por ejemplo, el ajuste fino por contraste (CFT) muestra a los modelos de IA lo que no deben hacer. En CFT, se entrena un segundo modelo de "persona negativa" para generar respuestas "malas", desalineadas. Tanto estas respuestas desalineadas como las alineadas se retroalimentan al modelo original. Los investigadores de IBM descubrieron que, en los puntos de referencia de utilidad e inocuidad, los modelos de lenguaje de gran tamaño (LLM) entrenados en ejemplos contrastantes superan a los modelos que se basan totalmente en buenos ejemplos. El CFT permite a los desarrolladores alinear los modelos incluso antes de recopilar datos de preferencias humanas, datos seleccionados que cumplan los criterios de referencia definidos para la alineación, lo que resulta caro y lleva tiempo.

Otro método de alineación de datos sintéticos se denomina SALMON (Self-ALignMent with principle fOllowiNg reward models). En este enfoque de IBM Research, los datos sintéticos permiten que un LLM se alinee. En primer lugar, un LLM genera respuestas a un conjunto de consultas. Estas respuestas luego se introducen en un modelo de recompensa que ha sido entrenado con datos de preferencias sintéticos alineados con principios definidos por humanos. El modelo de recompensa puntúa las respuestas del LLM original según estos principios. Las respuestas calificadas se devuelven luego al LLM original.

Con este método, los desarrolladores tienen control casi completo sobre las preferencias del modelo de recompensa. Esto permite a las organizaciones cambiar los principios en función de sus necesidades y elimina la dependencia de recopilar grandes cantidades de datos sobre preferencias humanas.¹¹

Equipo rojo

El red teaming puede considerarse una extensión de la alineación que se produce durante el ajuste fino del modelo. Implica diseñar instrucciones para eludir los controles de seguridad del modelo que se está ajustando. Una vez que surgen las vulnerabilidades, se pueden realinear los modelos objetivo. Mientras que los humanos aún pueden diseñar estas instrucciones de jailbreak, los LLM del "equipo rojo" pueden producir una mayor variedad de instrucciones en cantidades ilimitadas. IBM Research describe a los LLM del equipo rojo como "trolls tóxicos entrenados para sacar lo peor de otros LLM".

Gobierno de la IA

El gobierno de la IA se refiere a los procesos, estándares y barreras que ayudan a garantizar que los sistemas y herramientas de IA sean seguros y éticos. Además de otros mecanismos de gobierno, su objetivo es establecer la supervisión necesaria para alinear los comportamientos de la IA con las normas éticas y las expectativas de la sociedad. A través de prácticas de gobierno como la monitorización automatizada, los registros de auditoría y las alertas de rendimiento, las organizaciones pueden ayudar a garantizar que sus herramientas de IA, como los asistentes de IA y los agentes virtuales, estén alineadas con sus valores y objetivos.

Consejos corporativos de ética de la IA

Las organizaciones podrían establecer juntas o comités de ética para supervisar las iniciativas de IA. Por ejemplo, el Consejo de Ética de IA de IBM revisa los nuevos productos y servicios de IA y ayuda a garantizar que se alineen con los principios de IA de IBM. Estas juntas a menudo incluyen equipos multifuncionales con experiencia en derecho, informática y políticas.

La brecha en la supervisión de la IA

El informe "Cost of a Data Breach" de 2025 revela cómo la adopción de la IA "hágalo ahora" está superando a la seguridad y la gobernanza.

Recursos

Gobierno de la IA para la empresa

Descubra los beneficios clave que se obtienen con el gobierno automatizado de la IA tanto para la IA generativa actual como para los modelos tradicionales de machine learning.

Por qué el gobierno de la IA es un imperativo para escalar la inteligencia artificial empresarial

Conozca los nuevos retos de la IA generativa, la necesidad de gobernar los modelos de IA y ML y los pasos para crear un marco de IA fiable, transparente y explicable.

Preparándose para la ley de IA de la UE, fase 2: evaluar y clasificar los riesgos

Entienda la importancia de establecer un proceso de evaluación defendible y de categorizar sistemáticamente cada caso de uso en el nivel de riesgo adecuado.

Gobierno del ciclo de vida de la IA

Lea sobre cómo impulsar prácticas éticas y conformes con la normativa con una cartera de productos de IA para modelos de IA generativa.

AI in Action 2024

Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Soluciones relacionadas

IBM watsonx.governance

Gobierne modelos de IA generativa desde cualquier lugar e impleméntelos en la nube o en las instalaciones con IBM watsonx.governance.

Descubra watsonx.governance

Soluciones de gobierno de la IA

Vea cómo el gobierno de la IA puede ayudar a aumentar la confianza de sus empleados en la misma, acelerar la adopción y la innovación y mejorar la confianza de los clientes.

Descubra soluciones de gobierno de la IA

Servicios de consultoría sobre gobierno de la IA

Prepárese para la Ley de IA de la UE y establezca un enfoque de gobierno de la IA responsable con la ayuda de IBM Consulting.

Descubra los servicios de gobierno de la IA

Dé el siguiente paso

Dirija, gestione y monitorice su IA con una única cartera para acelerar una IA responsable, transparente y explicable.

Explore watsonx.governance

Solicite una demo en directo

Notas a pie de página

¹ "AI Alignment: A Comprehensive Survey". arXiv. 1 de mayo de 2024.

^{2, 7} "Consequences of Misaligned AI". NeurIPS Proceedings. 2020.

³ "Faulty Reward Functions in the Wild". OpenAI. 21 de diciembre de 2016.

⁴ "Modelling the Recommender Alignment Problem". arXiv. 25 de agosto de 2022.

⁵"Ethical Issues in Advanced Artificial Intelligence". Nick Bostrom. Sin fecha.

⁶"The Alignment Problem’ Review: When Machines Miss the Point". The Wall Street Journal. 25 de octubre de 2020.

⁸ "Introducing the Frontier Safety Framework". Google DeepMind. 17 de mayo de 2024.

⁹"Our Approach to Alignment Research". OpenAI. 24 de agosto de 2022.

^{10, 11} "SALMON: Self-Alignment with Instructable Reward Models". arXiv. 9 de abril de 2024.