12 de noviembre de 2024
La superinteligencia artificial (ASI) todavía es un concepto hipotético. Por lo tanto, los esfuerzos actuales de alineación de la IA se centran en gran medida en hacer que los modelos de IA actuales sean útiles, seguros y fiables. Por ejemplo, la alineación ayuda a garantizar que los chatbots de IA, como ChatGPT, no perpetúen los prejuicios humanos ni puedan ser explotados por ciberdelincuentes.
Pero a medida que la IA se hace más compleja y avanzada, sus outputs se hacen más difíciles de anticipar y alinear con la intención humana. Este desafío a menudo se denomina “el problema de la alineación”. Existe la preocupación de que los sistemas de IA superinteligentes lleguen algún día a un punto de ruptura y eludan por completo el control humano. Y algunos expertos creen que los riesgos actuales de la IA podrían volverse exponencialmente más graves a medida que avanza la IA.
Estas preocupaciones, entre otras, han inspirado una rama emergente de esfuerzos de alineación avanzada conocida como superalineación.
Para entender la superinteligencia artificial (ASI), es útil verla en contexto con los otros tipos de inteligencia artificial: inteligencia artificial estrecha (ANI) e inteligencia artificial general (AGI). Podemos clasificar los tres tipos en función de sus capacidades:
El campo de la IA está logrando avances tecnológicos impresionantes. Por ejemplo, AlphaFold 3 de DeepMind puede predecir la estructura molecular y la interacción con una precisión extraordinaria. Y el GPT-4o de OpenAI puede razonar en tiempo real.
A pesar de estos avances, la IA sigue sin ser humana. La IA no se preocupa intrínsecamente por la razón, la lealtad o la seguridad. Tiene un objetivo: completar la tarea para la que la han programado.
Por lo tanto, depende de los desarrolladores de IA incorporar valores y objetivos humanos. De lo contrario, se produce una desalineación y los sistemas de IA pueden producir outputs perjudiciales que conduzcan al sesgo, la discriminación y la desinformación.
Los esfuerzos de alineación actuales trabajan para mantener los sistemas de IA débil en línea con los valores y objetivos humanos. Pero los sistemas AGI y ASI podrían ser exponencialmente más arriesgados, más difíciles de entender y más complicados de controlar. Es probable que las técnicas actuales de alineación de IA, que se basan en la inteligencia humana, sean inadecuadas para alinear sistemas de IA que sean más inteligentes que los humanos.
Por ejemplo, el aprendizaje por refuerzo a partir de feedback humano (RLHF) es una técnica de machine learning en la que un "modelo de recompensa" se entrena con feedback humano directo. OpenAI utilizó el RLHF como método principal para alinear sus series de modelos GPT-3 y GPT-4 detrás de ChatGPT, todos considerados modelos de IA débiles. Serán necesarias técnicas de alineación significativamente más avanzadas para ayudar a garantizar que los sistemas de IA superinteligentes posean niveles similares de solidez, interpretabilidad, controlabilidad y ética.
Sin superalineación, los sistemas avanzados de IA podrían entrañar varios riesgos, entre ellos:
Si los sistemas avanzados de IA se vuelven tan complejos y desajustados que la supervisión humana es imposible, sus resultados podrían ser impredecibles e incontrolables. La mayoría de los expertos considera improbable una toma del poder por parte de robots humanoides. Sin embargo, un sistema AGI o ASI que se aleje demasiado de sus objetivos previstos podría ser catastrófico en situaciones de alto riesgo, como en la infraestructura crítica o la defensa nacional.
La IA superinteligente podría perseguir objetivos de forma existencialmente perjudicial para la humanidad. Un ejemplo comúnmente citado es el experimento mental del filósofo Nick Bostrom con el maximizador de clips, en el que se programa un modelo ASI para hacer clips. Con una potencia informática sobrehumana, el modelo acaba transformando todo, incluso partes del espacio, en instalaciones de fabricación de clips para alcanzar su objetivo.1
Aunque existen varios métodos fiables para mitigar el sesgo en los sistemas de IA, el riesgo seguirá siendo una consideración para la IA del futuro. Los sistemas avanzados de IA podrían perpetuar los sesgos humanos con resultados injustos o discriminatorios. Debido a la complejidad del sistema, estos resultados sesgados podrían ser difíciles de identificar y mitigar. El sesgo de la IA es especialmente preocupante en ámbitos como la sanidad, la aplicación de la ley y los recursos humanos.
Los ciberdelincuentes podrían explotar la IA superinteligente con fines nefastos, como el control social o la piratería financiera a gran escala. Sin embargo, también podrían producirse disrupciones sociales y económicas si los sectores adoptan la IA avanzada sin los marcos jurídicos o normativos necesarios.
Por ejemplo, los agentes de IA financiera se utilizan cada vez más para tareas como el comercio o la gestión de activos, pero la responsabilidad de sus acciones no suele estar clara. ¿Quién es responsable si un agente de IA infringe la normativa de la SEC? A medida que la tecnología madura, esta falta de responsabilidad podría generar desconfianza e inestabilidad.2
Algunas conversaciones en torno a la ASI plantean la preocupación de que los humanos puedan llegar a depender demasiado de los sistemas avanzados de IA. Como resultado, podríamos perder capacidades cognitivas y de toma de decisiones. Del mismo modo, depender demasiado de la IA en ámbitos como la ciberseguridad podría llevar a la complacencia de los equipos humanos. La IA no es infalible y sigue siendo necesaria la supervisión humana para ayudar a garantizar que se mitiguen todas las amenazas.
Actualmente existen varias técnicas para alinear la IA, incluido el aprendizaje por refuerzo a partir de el feedback humano (RLHF), los enfoques de datos sintéticos y las pruebas adversariales. Pero estos métodos son probablemente inadecuados para alinear modelos de IA superinteligentes. Y, en el momento de escribir estas líneas, ni AGI ni ASI existen y no hay métodos establecidos para alinear estos sistemas de IA más complejos.
Sin embargo, existen varias ideas de superalineación con resultados de investigación prometedores:
Como humanos, no somos capaces de supervisar de forma fiable los sistemas de IA que son más inteligentes que nosotros. La supervisión escalable es un método de entrenamiento escalable en el que los humanos podrían utilizar sistemas de IA más débiles para ayudar a alinear sistemas de IA más complejos.
La investigación para probar y ampliar esta técnica es limitada, porque aún no existen sistemas de IA superinteligentes. Sin embargo, los investigadores de Anthropic (una empresa de investigación y seguridad de la IA) han realizado un experimento de prueba de concepto.
En el experimento, se les indicó a los participantes humanos que respondieran a las preguntas con la ayuda de un LLM. Estos humanos asistidos por IA superaron tanto al modelo por sí solo como a los humanos sin ayuda en la métrica de la precisión. En sus conclusiones, los investigadores afirmaron que estos resultados son alentadores y contribuyen a confirmar la idea de que los LLM "pueden ayudar a los humanos a realizar tareas difíciles en entornos relevantes para la supervisión escalable".3
La generalización es la capacidad de los sistemas de IA para hacer predicciones fiables a partir de datos con los que no han sido entrenados. La generalización de débil a fuerte es una técnica de entrenamiento de IA en la que los modelos más débiles se utilizan para entrenar a los modelos más fuertes para que funcionen mejor con datos nuevos, mejorando la generalización.
El equipo de superalineación de OpenAI, codirigido por Ilya Sutskever (cofundador de OpenAI y exjefe científico) y Jan Leike (exjefe de alineación), analizó la generalización de débil a fuerte en su primer artículo de investigación. El experimento utilizó un modelo de nivel GPT-2 "débil" para afinar un modelo de nivel GPT-4. Utilizando este método, el equipo descubrió que el rendimiento del modelo resultante se situaba entre un modelo de nivel GPT-3 y GPT-3.5. Concluyeron que con los métodos de débil a fuerte pueden mejorar significativamente la generalización.
En cuanto a la superalineación, esta demostración de concepto muestra que es posible una mejora sustancial de la generalización de débil a fuerte. Según el documento de investigación resultante del equipo, "es factible avanzar empíricamente hoy en día en el reto fundamental de alinear modelos sobrehumanos".4 Y un estudio de seguimiento de la Universidad Jiaotong de Pekín demostró que la generalización de débil a fuerte puede mejorarse utilizando la supervisión escalable.5
Sin embargo, el equipo de superalineación de OpenAI se disolvió en mayo de 2024 debido a cambios de prioridades dentro de la empresa. En un post en las redes sociales, el CEO Sam Altman dio las gracias al equipo y dijo que OpenAI ha "[sentado] las bases necesarias para la implementación segura de sistemas cada vez más capaces".6
Más adelante en el proceso de alineación se encuentra la investigación de alineación automatizada. Esta técnica de superalineación utiliza sistemas de IA sobrehumanos ya alineados para realizar investigaciones automatizadas de alineación. Estos "investigadores de IA" serían más rápidos e inteligentes que los investigadores humanos. Con estas ventajas, podrían idear nuevas técnicas de superalineación. En lugar de desarrollar e implementar directamente la investigación de alineación técnica, los investigadores humanos revisarían la investigación generada.
Leopold Aschenbrenner, inversor de AGI y exmiembro del equipo de superalineación de OpenAI, describe el enorme potencial de esta técnica: "Si conseguimos alinear sistemas algo sobrehumanos lo suficiente como para confiar en ellos, estaremos en una posición increíble: tendremos a nuestra disposición millones de investigadores de IA automatizados, más inteligentes que los mejores investigadores de IA".7
La superalineación se enfrenta a muchos desafíos. Por ejemplo, ¿quién define los puntos de referencia para los valores, los objetivos y la ética? Pero hay un reto que los supera a todos: es extremadamente difícil idear técnicas de alineación fiables para potentes sistemas de IA que, no solo son más listos que nosotros, sino que también solo existen en teoría.
Los expertos del sector también se enfrentan a desacuerdos filosóficos en relación con la superalineación. Por ejemplo, algunos laboratorios de IA plantean que centrar los esfuerzos de desarrollo de la IA en alinear los futuros sistemas de IA podría obstaculizar las prioridades actuales de la IA y las nuevas investigaciones. En el otro lado, los defensores de la seguridad de la IA argumentan que los riesgos de la superinteligencia son demasiado graves para ignorarlos y superan los beneficios potenciales.
Esta última línea de pensamiento inspiró al exjefe científico de OpenAI, Ilya Sutskever, a unirse al inversor Daniel Gross y al exinvestigador de OpenAI Daniel Levy en la creación de Safe Superintelligence Inc. El enfoque singular de la startup es "construir una superinteligencia segura (SSI)" sin "distracción por los gastos generales de gestión o los ciclos del producto" y el progreso "aislado de las presiones comerciales a corto plazo".8
Los enlaces se encuentran fuera de ibm.com.
1 “Ethical Issues in Advanced Artificial Intelligence”. Nick Bostrom. S.f.
2 “Will Financial AI Agents Destroy The Economy?". The Tech Buzz. 25 de octubre de 2024.
3 “Measuring Progress on Scalable Oversight for Large Language Models”, Anthropic, 4 de noviembre de 2022.
4 “Weak-to-strong generalization”. OpenAI. 14 de diciembre de 2023.
5 “Improving Weak-to-Strong Generalization with Scalable Oversight and Ensemble Learning”. arXiv. 1 de febrero de 2024.
6 Publicación en X. Greg Brockman. 18 de mayo de 2024.
7 “Superalignment”. Situational Awareness: The Decade Ahead. Junio de 2024.
8 “Superintelligence is within reach”. Safe Superintelligence Inc. 19 de junio de 2024.
Descubra cómo afectará la Ley de IA de la UE a las empresas, cómo prepararse, cómo puede mitigar los riesgos y cómo equilibrar la regulación y la innovación.
Conozca los nuevos retos de la IA generativa, la necesidad de gobernar los modelos de IA y ML y los pasos para crear un marco de IA fiable, transparente y explicable.
Lea sobre cómo impulsar prácticas éticas y conformes con la normativa con una cartera de productos de IA para modelos de IA generativa.
Obtenga una comprensión más profunda de cómo garantizar la equidad, gestionar la desviación, mantener la calidad y mejorar la explicabilidad con watsonx.governance.
Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
Gobierne modelos de IA generativa desde cualquier lugar e impleméntelos en la nube o en las instalaciones con IBM watsonx.governance.
Prepárese para la Ley de IA de la UE y establezca un enfoque de gobierno de la IA responsable con la ayuda de IBM Consulting.
Simplifique la gestión de riesgos y el cumplimiento normativo con una plataforma GRC unificada.