¿Qué es la superalineación?

12 de noviembre de 2024

Autores

Alexandra Jonker

Editorial Content Lead

Amanda McGrath

Writer, IBM

¿Qué es la superalineación?

La superalineación es el proceso de supervisar, controlar y gobernar sistemas de superinteligencia artificial. Alinear los sistemas avanzados de IA con los valores y objetivos humanos puede ayudar a evitar que muestren un comportamiento dañino e incontrolable.
 

La superinteligencia artificial (ASI) todavía es un concepto hipotético. Por lo tanto, los esfuerzos actuales de alineación de la IA se centran en gran medida en hacer que los modelos de IA actuales sean útiles, seguros y fiables. Por ejemplo, la alineación ayuda a garantizar que los chatbots de IA, como ChatGPT, no perpetúen los prejuicios humanos ni puedan ser explotados por ciberdelincuentes.

Pero a medida que la IA se hace más compleja y avanzada, sus outputs se hacen más difíciles de anticipar y alinear con la intención humana. Este desafío a menudo se denomina “el problema de la alineación”. Existe la preocupación de que los sistemas de IA superinteligentes lleguen algún día a un punto de ruptura y eludan por completo el control humano. Y algunos expertos creen que los riesgos actuales de la IA podrían volverse exponencialmente más graves a medida que avanza la IA.

Estas preocupaciones, entre otras, han inspirado una rama emergente de esfuerzos de alineación avanzada conocida como superalineación.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

¿Qué es la superinteligencia artificial?

Para entender la superinteligencia artificial (ASI), es útil verla en contexto con los otros tipos de inteligencia artificial: inteligencia artificial estrecha (ANI) e inteligencia artificial general (AGI). Podemos clasificar los tres tipos en función de sus capacidades:

  • ANI: en el nivel de entrada están los sistemas de IA que utilizamos hoy en día. Estos sistemas se consideran inteligencia artificial estrecha (ANI), IA débil o tecnologías de IA estrecha. Algunos ejemplos comunes son los vehículos autónomos, los modelos de lenguaje de gran tamaño (LLM) y las herramientas de IA generativa .  

  • AGI: el siguiente nivel es la inteligencia artificial (IA) sólida , también conocida como inteligencia artificial general (AGI) o IA general. Aunque todavía es teórica, si algún día se hiciera realidad, la AGI tendría una inteligencia de nivel humano. Mientras que la IA débil se centra en la realización de una tarea específica, la IA sólida puede llevar a cabo una variedad de funciones y, con el tiempo, enseñarse a sí misma a resolver nuevos problemas.

  • ASI: en el nivel superior se encuentra la superinteligencia artificial (ASI). Los sistemas ASI son tecnologías hipotéticas de IA con un alcance intelectual más allá de la inteligencia a nivel humano. La IA superinteligente tendría funciones cognitivas de vanguardia y habilidades de pensamiento altamente desarrolladas. Sin embargo, la viabilidad de la ASI en el mundo real es discutida. El funcionamiento del cerebro humano aún no se conoce del todo, por lo que es difícil recrearlo mediante algoritmos e informática.
AI Academy

Confianza, transparencia y gobierno en la IA

La confianza en la IA es sin duda el asunto más importante en este campo. También es comprensible que sea un tema abrumador. Desentrañaremos cuestiones como la alucinación, la parcialidad y el riesgo, y compartiremos los pasos a seguir para adoptar la IA de forma ética, responsable y justa.

¿Por qué necesitamos la superalineación?

El campo de la IA está logrando avances tecnológicos impresionantes. Por ejemplo, AlphaFold 3 de DeepMind puede predecir la estructura molecular y la interacción con una precisión extraordinaria. Y el GPT-4o de OpenAI puede razonar en tiempo real.

A pesar de estos avances, la IA sigue sin ser humana. La IA no se preocupa intrínsecamente por la razón, la lealtad o la seguridad. Tiene un objetivo: completar la tarea para la que la han programado.

Por lo tanto, depende de los desarrolladores de IA incorporar valores y objetivos humanos. De lo contrario, se produce una desalineación y los sistemas de IA pueden producir outputs perjudiciales que conduzcan al sesgo, la discriminación y la desinformación.

Los esfuerzos de alineación actuales trabajan para mantener los sistemas de IA débil en línea con los valores y objetivos humanos. Pero los sistemas AGI y ASI podrían ser exponencialmente más arriesgados, más difíciles de entender y más complicados de controlar. Es probable que las técnicas actuales de alineación de IA, que se basan en la inteligencia humana, sean inadecuadas para alinear sistemas de IA que sean más inteligentes que los humanos.

Por ejemplo, el aprendizaje por refuerzo a partir de feedback humano (RLHF) es una técnica de machine learning en la que un "modelo de recompensa" se entrena con feedback humano directo. OpenAI utilizó el RLHF como método principal para alinear sus series de modelos GPT-3 y GPT-4 detrás de ChatGPT, todos considerados modelos de IA débiles. Serán necesarias técnicas de alineación significativamente más avanzadas para ayudar a garantizar que los sistemas de IA superinteligentes posean niveles similares de solidez, interpretabilidad, controlabilidad y ética.

¿Cuáles son los riesgos de los sistemas avanzados de IA?

Sin superalineación, los sistemas avanzados de IA podrían entrañar varios riesgos, entre ellos:

  • Pérdida de control
  • Consecuencias no deseadas
  • Prejuicios y discriminación
  • Trastornos sociales y económicos
  • Dependencia de la IA

Pérdida de control

Si los sistemas avanzados de IA se vuelven tan complejos y desajustados que la supervisión humana es imposible, sus resultados podrían ser impredecibles e incontrolables. La mayoría de los expertos considera improbable una toma del poder por parte de robots humanoides. Sin embargo, un sistema AGI o ASI que se aleje demasiado de sus objetivos previstos podría ser catastrófico en situaciones de alto riesgo, como en la infraestructura crítica o la defensa nacional.

Consecuencias no deseadas

La IA superinteligente podría perseguir objetivos de forma existencialmente perjudicial para la humanidad. Un ejemplo comúnmente citado es el experimento mental del filósofo Nick Bostrom con el maximizador de clips, en el que se programa un modelo ASI para hacer clips. Con una potencia informática sobrehumana, el modelo acaba transformando todo, incluso partes del espacio, en instalaciones de fabricación de clips para alcanzar su objetivo.1

Prejuicios y discriminación

Aunque existen varios métodos fiables para mitigar el sesgo en los sistemas de IA, el riesgo seguirá siendo una consideración para la IA del futuro. Los sistemas avanzados de IA podrían perpetuar los sesgos humanos con resultados injustos o discriminatorios. Debido a la complejidad del sistema, estos resultados sesgados podrían ser difíciles de identificar y mitigar. El sesgo de la IA es especialmente preocupante en ámbitos como la sanidad, la aplicación de la ley y los recursos humanos

Trastornos sociales y económicos

Los ciberdelincuentes podrían explotar la IA superinteligente con fines nefastos, como el control social o la piratería financiera a gran escala. Sin embargo, también podrían producirse disrupciones sociales y económicas si los sectores adoptan la IA avanzada sin los marcos jurídicos o normativos necesarios.

Por ejemplo, los agentes de IA financiera se utilizan cada vez más para tareas como el comercio o la gestión de activos, pero la responsabilidad de sus acciones no suele estar clara. ¿Quién es responsable si un agente de IA infringe la normativa de la SEC? A medida que la tecnología madura, esta falta de responsabilidad podría generar desconfianza e inestabilidad.2

Dependencia de la IA

Algunas conversaciones en torno a la ASI plantean la preocupación de que los humanos puedan llegar a depender demasiado de los sistemas avanzados de IA. Como resultado, podríamos perder capacidades cognitivas y de toma de decisiones. Del mismo modo, depender demasiado de la IA en ámbitos como la ciberseguridad podría llevar a la complacencia de los equipos humanos. La IA no es infalible y sigue siendo necesaria la supervisión humana para ayudar a garantizar que se mitiguen todas las amenazas. 

Técnicas de superalineación

Actualmente existen varias técnicas para alinear la IA, incluido el aprendizaje por refuerzo a partir de el feedback humano (RLHF), los enfoques de datos sintéticos y las pruebas adversariales. Pero estos métodos son probablemente inadecuados para alinear modelos de IA superinteligentes. Y, en el momento de escribir estas líneas, ni AGI ni ASI existen y no hay métodos establecidos para alinear estos sistemas de IA más complejos.

Sin embargo, existen varias ideas de superalineación con resultados de investigación prometedores:

Supervisión escalable

Como humanos, no somos capaces de supervisar de forma fiable los sistemas de IA que son más inteligentes que nosotros. La supervisión escalable es un método de entrenamiento escalable en el que los humanos podrían utilizar sistemas de IA más débiles para ayudar a alinear sistemas de IA más complejos.

La investigación para probar y ampliar esta técnica es limitada, porque aún no existen sistemas de IA superinteligentes. Sin embargo, los investigadores de Anthropic (una empresa de investigación y seguridad de la IA) han realizado un experimento de prueba de concepto.

En el experimento, se les indicó a los participantes humanos que respondieran a las preguntas con la ayuda de un LLM. Estos humanos asistidos por IA superaron tanto al modelo por sí solo como a los humanos sin ayuda en la métrica de la precisión. En sus conclusiones, los investigadores afirmaron que estos resultados son alentadores y contribuyen a confirmar la idea de que los LLM "pueden ayudar a los humanos a realizar tareas difíciles en entornos relevantes para la supervisión escalable".3

Generalización de débil a fuerte

La generalización es la capacidad de los sistemas de IA para hacer predicciones fiables a partir de datos con los que no han sido entrenados. La generalización de débil a fuerte es una técnica de entrenamiento de IA en la que los modelos más débiles se utilizan para entrenar a los modelos más fuertes para que funcionen mejor con datos nuevos, mejorando la generalización.

El equipo de superalineación de OpenAI, codirigido por Ilya Sutskever (cofundador de OpenAI y exjefe científico) y Jan Leike (exjefe de alineación), analizó la generalización de débil a fuerte en su primer artículo de investigación. El experimento utilizó un modelo de nivel GPT-2 "débil" para afinar un modelo de nivel GPT-4. Utilizando este método, el equipo descubrió que el rendimiento del modelo resultante se situaba entre un modelo de nivel GPT-3 y GPT-3.5. Concluyeron que con los métodos de débil a fuerte pueden mejorar significativamente la generalización.

En cuanto a la superalineación, esta demostración de concepto muestra que es posible una mejora sustancial de la generalización de débil a fuerte. Según el documento de investigación resultante del equipo, "es factible avanzar empíricamente hoy en día en el reto fundamental de alinear modelos sobrehumanos".4 Y un estudio de seguimiento de la Universidad Jiaotong de Pekín demostró que la generalización de débil a fuerte puede mejorarse utilizando la supervisión escalable.5

Sin embargo, el equipo de superalineación de OpenAI se disolvió en mayo de 2024 debido a cambios de prioridades dentro de la empresa. En un post en las redes sociales, el CEO Sam Altman dio las gracias al equipo y dijo que OpenAI ha "[sentado] las bases necesarias para la implementación segura de sistemas cada vez más capaces".6

Investigación de alineación automatizada

Más adelante en el proceso de alineación se encuentra la investigación de alineación automatizada. Esta técnica de superalineación utiliza sistemas de IA sobrehumanos ya alineados para realizar investigaciones automatizadas de alineación. Estos "investigadores de IA" serían más rápidos e inteligentes que los investigadores humanos. Con estas ventajas, podrían idear nuevas técnicas de superalineación. En lugar de desarrollar e implementar directamente la investigación de alineación técnica, los investigadores humanos revisarían la investigación generada.

Leopold Aschenbrenner, inversor de AGI y exmiembro del equipo de superalineación de OpenAI, describe el enorme potencial de esta técnica: "Si conseguimos alinear sistemas algo sobrehumanos lo suficiente como para confiar en ellos, estaremos en una posición increíble: tendremos a nuestra disposición millones de investigadores de IA automatizados, más inteligentes que los mejores investigadores de IA".7

Superalineación frente a innovación en IA

La superalineación se enfrenta a muchos desafíos. Por ejemplo, ¿quién define los puntos de referencia para los valores, los objetivos y la ética? Pero hay un reto que los supera a todos: es extremadamente difícil idear técnicas de alineación fiables para potentes sistemas de IA que, no solo son más listos que nosotros, sino que también solo existen en teoría.

Los expertos del sector también se enfrentan a desacuerdos filosóficos en relación con la superalineación. Por ejemplo, algunos laboratorios de IA plantean que centrar los esfuerzos de desarrollo de la IA en alinear los futuros sistemas de IA podría obstaculizar las prioridades actuales de la IA y las nuevas investigaciones. En el otro lado, los defensores de la seguridad de la IA argumentan que los riesgos de la superinteligencia son demasiado graves para ignorarlos y superan los beneficios potenciales.

Esta última línea de pensamiento inspiró al exjefe científico de OpenAI, Ilya Sutskever, a unirse al inversor Daniel Gross y al exinvestigador de OpenAI Daniel Levy en la creación de Safe Superintelligence Inc. El enfoque singular de la startup es "construir una superinteligencia segura (SSI)" sin "distracción por los gastos generales de gestión o los ciclos del producto" y el progreso "aislado de las presiones comerciales a corto plazo".8

Notas a pie de página

Los enlaces se encuentran fuera de ibm.com.

1Ethical Issues in Advanced Artificial Intelligence”. Nick Bostrom. S.f.

2Will Financial AI Agents Destroy The Economy?". The Tech Buzz. 25 de octubre de 2024.

3 Measuring Progress on Scalable Oversight for Large Language Models”, Anthropic, 4 de noviembre de 2022.

4Weak-to-strong generalization”. OpenAI. 14 de diciembre de 2023.

5Improving Weak-to-Strong Generalization with Scalable Oversight and Ensemble Learning”. arXiv. 1 de febrero de 2024.

6 Publicación en X. Greg Brockman. 18 de mayo de 2024.

7Superalignment”. Situational Awareness: The Decade Ahead. Junio de 2024.

8Superintelligence is within reach”. Safe Superintelligence Inc. 19 de junio de 2024.

Soluciones relacionadas
IBM watsonx.governance™

Gobierne modelos de IA generativa desde cualquier lugar e impleméntelos en la nube o en las instalaciones con IBM watsonx.governance.

Descubra watsonx.governance
Servicios de consultoría sobre gobierno de la IA

Prepárese para la Ley de IA de la UE y establezca un enfoque de gobierno de la IA responsable con la ayuda de IBM Consulting.

Explore los servicios de gobierno de la IA
IBM OpenPages

Simplifique la gestión de riesgos y el cumplimiento normativo con una plataforma GRC unificada.

Explore OpenPages
Dé el siguiente paso

Dirija, gestione y supervise su IA con una única cartera para acelerar una IA responsable, transparente y explicable.

Explore watsonx.governance Solicite una demostración en directo