¿Qué es la superalineación?

Autores

Alexandra Jonker

Staff Editor

IBM Think

Amanda McGrath

Staff Writer

IBM Think

¿Qué es la superalineación?

La superalineación es el proceso de supervisar, controlar y gobernar los sistemas de superinteligencia artificial. Alinear los sistemas avanzados de IA con los valores y objetivos humanos puede ayudar a evitar que muestren un comportamiento dañino e incontrolable.

La superinteligencia artificial (ASI) sigue siendo un concepto hipotético. Por lo tanto, los esfuerzos actuales de alineación de la IA se centran en gran medida en hacer que los modelos de IA actuales sean útiles, seguros y confiables. Por ejemplo, la alineación ayuda a garantizar que los chatbots de IA, como ChatGPT, no perpetúen el sesgo humano ni puedan explotarlos actores maliciosos.

Pero a medida que la IA se vuelve más compleja y avanzada, sus resultados se vuelven más difíciles de anticipar y alinear con la intención humana. Este desafío a menudo se conoce como "el problema de alineación". Existe la preocupación de que los sistemas de IA superinteligentes algún día puedan llegar a un punto de ruptura y eludir por completo el control humano. Y algunos expertos creen que los riesgos actuales de la IA podrían volverse exponencialmente más graves a medida que avanza la IA.

Estas preocupaciones, entre otras, inspiraron una rama emergente de los esfuerzos de alineación avanzada conocida como superalineación.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think.

¿Qué es la superinteligencia artificial?

Para comprender la superinteligencia artificial (ASI), es útil verla en contexto con los otros tipos de inteligencia artificial: inteligencia artificial estrecha (ANI) e inteligencia artificial general (AGI). Podemos clasificar los tres tipos en función de sus capacidades:

ANI: en el nivel de entrada, están los sistemas de IA que utilizamos hoy en día. Estos sistemas se consideran inteligencia artificial estrecha (ANI), IA débil o tecnologías de IA estrecha. Algunos ejemplos comunes son los vehículos autónomos, los modelos de lenguaje grandes (LLM) y las herramientas de IA generativa .
AGI: el siguiente nivel es la inteligencia artificial (IA) sólida, también conocida como inteligencia artificial general (AGI) o IA general. Si bien aún es teórico, si alguna vez se realiza, la AGI tendría inteligencia a nivel humano. Mientras que la IA débil se centra en realizar una tarea específica, la IA sólida puede realizar una variedad de funciones y, finalmente, aprender a resolver nuevos problemas.
ASI: en el nivel superior, se encuentra la superinteligencia artificial (ASI). Los sistemas ASI son hipotéticas Tecnologías AI con un alcance intelectual superior al de la inteligencia humana. La AI superinteligente tendría funciones cognitivas de vanguardia y habilidades de pensamiento muy desarrolladas. Sin embargo, la viabilidad de la ASI en el mundo real es discutida. El funcionamiento del cerebro humano aún no se conoce del todo, por lo que es difícil recrearlo mediante algoritmos e informática.

AI Academy

Confianza, transparencia y gobernanza en IA

Es probable que la confianza en la IA sea el tema más importante en el campo de la IA. También es, comprensiblemente, un tema abrumador. Desentrañaremos cuestiones, como las alucinaciones, el sesgo y el riesgo, y compartiremos medidas para adoptar la IA de manera ética, responsable y justa.

Ir al episodio

¿Por qué necesitamos la superalineación?

El campo de la IA está logrando avances tecnológicos impresionantes. Por ejemplo, AlphaFold 3 de DeepMind puede predecir la estructura molecular y la interacción con una precisión extraordinaria. Y GPT-4o de OpenAI puede razonar en tiempo real.

A pesar de estos avances, la IA aún no es humana. La IA no se preocupa intrínsecamente por la razón, la lealtad o la seguridad. Tiene un objetivo: completar la tarea para la que fue programada.

Por lo tanto, depende de los desarrolladores de IA incorporar valores y objetivos humanos. De lo contrario, se produce una desalineación y los sistemas de IA pueden producir resultados dañinos que conducen a sesgos, discriminación y desinformación.

Los esfuerzos de alineación actuales trabajan para mantener los sistemas de IA débiles en línea con los valores y objetivos humanos. Pero los sistemas AGI y ASI podrían ser exponencialmente más riesgosos, más difíciles de entender y más difíciles de controlar. Es probable que las técnicas actuales de alineación de IA, que se basan en la inteligencia humana, sean inadecuadas para alinear sistemas de IA que sean más inteligentes que los humanos.

Por ejemplo, el aprendizaje por refuerzo a partir de feedback humano (RLHF) es una técnica de machine learning en la que se entrena un "modelo de recompensa" con feedback humano directo. OpenAI utilizó el RLHF como su método principal para alinear sus series de modelos GPT-3 y GPT-4 detrás de ChatGPT, todos considerados modelos de IA débiles. Se necesitarán técnicas de alineación significativamente más avanzadas para ayudar a garantizar que los sistemas de IA superinteligentes posean niveles similares de robustez, interpretabilidad, control y ética.

¿Cuáles son los riesgos de los sistemas avanzados de IA?

Sin superalineación, los sistemas avanzados de IA podrían introducir varios riesgos, entre ellos:

Pérdida de control
Consecuencias no deseadas
Prejuicios y discriminación
Alteraciones sociales y económicas
Dependencia de la IA

Pérdida de control

Si los sistemas avanzados de IA se vuelven tan complejos y desalineados que la supervisión humana es imposible, sus resultados podrían ser impredecibles e incontrolables. Un escenario de toma de control robótico humanoide es considerado improbable por la mayoría de los expertos. Sin embargo, un sistema AGI o ASI que se aleja demasiado de sus objetivos previstos podría ser catastrófico en situaciones de alto riesgo, como en infraestructura crítica o defensa nacional.

Consecuencias no deseadas

La IA superinteligente podría perseguir objetivos de maneras que son existencialmente perjudiciales para la humanidad. Un ejemplo comúnmente citado es el experimento mental del filósofo Nick Bostrom con el maximizador de clips en el que se programa un modelo ASI para hacer clips. Con una potencia informática sobrehumana, el modelo finalmente transforma todo, incluso partes del espacio, en centros de fabricación de clips en busca de su objetivo.¹

Prejuicios y discriminación

Si bien existen varios métodos confiables para mitigar el sesgo en los sistemas de IA, el riesgo sigue siendo una consideración para la IA a futuro. Los sistemas avanzados de IA podrían perpetuar los sesgos humanos con resultados injustos o discriminatorios. Debido a la complejidad del sistema, estos resultados sesgados podrían ser difíciles de identificar y mitigar. El sesgo de la IA es especialmente preocupante cuando se encuentra en áreas, como la atención médica, la aplicación de la ley y los recursos humanos.

Alteraciones sociales y económicas

Los actores maliciosos podrían explotar la IA superinteligente con fines nefastos, como el control social o el hacking financiero a gran escala. Sin embargo, la alteración social y económica también podría ocurrir si las industrias adoptan IA avanzada sin la infraestructura necesaria.

Por ejemplo, los agentes de IA financiera se utilizan cada vez más para tareas como el comercio o la gestión de activos, pero la responsabilidad de sus acciones a menudo no está clara. ¿Quién es responsable si un agente de IA viola las regulaciones de la SEC? A medida que la tecnología madura, esta falta de responsabilidad podría generar desconfianza e inestabilidad.²

Dependencia de la IA

Algunas conversaciones en torno a ASI plantean la preocupación de que los humanos podrían volverse demasiado dependientes de los sistemas avanzados de IA. Como resultado, podríamos perder potencialmente habilidades cognitivas y de toma de decisiones. Del mismo modo, depender demasiado de la IA en áreas como la ciberseguridad podría llevar a la complacencia de los equipos humanos. La IA no es infalible y aún se necesita supervisión humana para ayudar a garantizar que se mitiguen todas las amenazas.

Técnicas de superalineación

Actualmente existen varias técnicas para alinear la IA, incluido el aprendizaje por refuerzo a partir de feedback humano (RLHF), los enfoques de datos sintéticos y las pruebas adversarias. Pero es probable que estos métodos sean inadecuados para alinear modelos de IA superinteligentes. Y, al momento de escribir este artículo, ni AGI ni ASI existen y no existen métodos establecidos para alinear estos sistemas de IA más complejos.

Sin embargo, hay varias ideas de superalineación con resultados de investigación prometedores:

Supervisión escalable

Como humanos, no podemos supervisar de manera confiable los sistemas de AI que son más inteligentes que nosotros. La supervisión escalable es un método de entrenamiento escalable en el que los humanos podrían usar sistemas de IA más débiles para ayudar a alinear sistemas de IA más complejos.

La investigación para probar y expandir esta técnica es limitada, porque aún no existen sistemas de AI superinteligentes. Sin embargo, los investigadores de Anthropic (una empresa de investigación y seguridad de AI) realizaron un experimento de prueba de concepto.

En el experimento, se indicó a los participantes humanos que respondieran preguntas con la ayuda de un LLM. Estos humanos asistidos por AI superaron tanto al modelo por sí solo como a los humanos sin ayuda en la métrica de precisión. En sus hallazgos, los investigadores dijeron que estos resultados son alentadores y ayudan a confirmar la idea de que los LLM "pueden ayudar a los humanos a realizar tareas difíciles en entornos que son relevantes para la supervisión escalable".³

Generalización de débil a fuerte

La generalización es la capacidad de los sistemas de AI para hacer predicciones confiables a partir de datos con los que no fueron entrenados. La generalización de débil a fuerte es una técnica de entrenamiento de AI en la que se utilizan modelos más débiles para entrenar modelos más fuertes para que funcionen mejor con datos novedosos, mejorando la generalización.

El equipo de superalineación de OpenAI, codirigido por Ilya Sutskever (cofundador de OpenAI y ex científico jefe) y Jan Leike (ex jefe de alineación), discutió la generalización de débil a fuerte en su primer artículo de investigación. El experimento utilizó un modelo de nivel GPT-2 "débil" para ajustar un modelo de nivel GPT-4. Con este método, el equipo descubrió que el rendimiento del modelo resultante estaba entre un nivel GPT-3 y GPT-3.5 modelo. Concluyeron que con métodos de débil a fuerte pueden mejorar significativamente la generalización.

Con respecto a la superalineación, esta demostración de prueba de concepto muestra que es posible una mejora sustancial en la generalización de débil a fuerte. Según el documento de investigación resultante del equipo, "hoy es factible hacer avances empíricos en un desafío fundamental de alinear modelos sobrehumanos".⁴ Y un estudio de seguimiento de la Universidad Jiaotong de Beijing mostró que la generalización de débil a fuerte se puede mejorar mediante una supervisión escalable.⁵

Sin embargo, el equipo de superalineación de OpenAI se disolvió en mayo de 2024 debido a cambios de prioridad dentro de la empresa. En una publicación en las redes sociales, el director ejecutivo (CEO) Sam Altman agradeció al equipo y dijo que OpenAI "[puso] las bases necesarias para un despliegue seguro de sistemas cada vez más capaces".⁶

Investigación de alineación automatizada

Más abajo en la tubería de alineación se encuentra la investigación de alineación automatizada. Esta técnica de superalineación emplea sistemas de AI sobrehumana ya alineados para realizar investigaciones automatizadas de alineación. Estos “investigadores de AI” serían más rápidos e inteligentes que los investigadores humanos. Con estos beneficios, podrían idear nuevas técnicas de superalineación. En lugar de desarrollar e implementar directamente la investigación de alineación técnica, los investigadores humanos revisarían la investigación generada.

Leopold Aschenbrenner, inversor de AGI y exmiembro del equipo de superalineación de OpenAI, describe el enorme potencial de esta técnica: " Si logramos alinear sistemas algo sobrehumanos lo suficiente como para confiar en ellos, estaremos en una posición increíble: Tendremos a nuestra disposición millones de investigadores automatizados de AI, más inteligentes que los mejores investigadores de AI”.⁷

Superalineación vs. innovación de AI

La superalineación enfrenta muchos desafíos. Por ejemplo, ¿quién define los puntos de referencia para valores, metas y ética? Pero un desafío arroja una sombra sobre todos ellos: es extremadamente difícil idear técnicas de alineación confiables para sistemas de AI poderosos que no solo nos superan, sino que solo existen en teoría.

Los expertos de la industria también enfrentan desacuerdos filosóficos con respecto a la superalineación. Por ejemplo, algunos laboratorios de AI postulan que centrar los esfuerzos de desarrollo de AI en alinear los futuros sistemas de AI podría obstaculizar las prioridades actuales de AI y las nuevas investigaciones. Por otro lado, los defensores de la seguridad de la IA argumentan que los riesgos de la superinteligencia son demasiado graves para ignorarlos y superan los beneficios potenciales.

La última línea de pensamiento inspiró al ex científico jefe de OpenAI, Ilya Sutskever, a unir al inversionista Daniel Gross y al ex investigador de OpenAI Daniel Levy para crear Safe Superintelligence Inc. El enfoque singular de la startup es “construir superinteligencia segura (SSI)” sin “distracciones por gastos generales de gestión o ciclos de productos” y un progreso “aislado de presiones comerciales de corto plazo”.⁸

Notas de pie de página

Los enlaces residen fuera ibm.com.

¹ “Ethical Issues in Advanced Artificial Intelligence”, Nick Bostrom, nd

² “Will Financial AI Agents Destroy The Economy?,” The Tech Buzz, 25 de octubre de 2024.

³“Miding Progress on Scalable Oversight for Large Language Models”, Anthropic, 4 de noviembre de 2022.

⁴ “Weak-to-strong generalization”, OpenAI, 14 de diciembre de 2023.

⁵ “Improving Weak-to-Strong Generalization with Scalable Oversight and Ensemble Learning”, arXiv, 1 de febrero de 2024.

⁶ X post, Greg Brockman, 18 de mayo de 2024.

⁷ “Superalignment”, Situational Awareness: The Decade Ahead, junio de 2024.

⁸ “Superintelligence is within reach,” Safe Superintelligence Inc., 19 de junio de 2024.

La brecha en la supervisión de la IA

El informe del costo de una filtración de datos 2025 revela cómo la adopción inmediata de la IA está superando a la seguridad y la gobernanza.

¿Qué es la superalineación?

Autores

¿Qué es la superalineación?

La superalineación es el proceso de supervisar, controlar y gobernar los sistemas de superinteligencia artificial. Alinear los sistemas avanzados de IA con los valores y objetivos humanos puede ayudar a evitar que muestren un comportamiento dañino e incontrolable.

Las últimas novedades e insights sobre IA

¿Qué es la superinteligencia artificial?

Confianza, transparencia y gobernanza en IA

¿Por qué necesitamos la superalineación?

¿Cuáles son los riesgos de los sistemas avanzados de IA?

Pérdida de control

Consecuencias no deseadas

Prejuicios y discriminación

Alteraciones sociales y económicas

Dependencia de la IA

Técnicas de superalineación

Supervisión escalable

Generalización de débil a fuerte

Investigación de alineación automatizada

Superalineación vs. innovación de AI

Notas de pie de página

Recursos