12 de noviembre de 2024
La superinteligencia artificial (ASI) sigue siendo un concepto hipotético. Por lo tanto, los esfuerzos actuales de alineación de la IA se centran en gran medida en hacer que los modelos de IA actuales sean útiles, seguros y confiables. Por ejemplo, la alineación ayuda a garantizar que los chatbots de IA, como ChatGPT, no perpetúen el sesgo humano ni puedan explotarlos actores maliciosos.
Pero a medida que la IA se vuelve más compleja y avanzada, sus resultados se vuelven más difíciles de anticipar y alinear con la intención humana. Este desafío a menudo se conoce como "el problema de alineación". Existe la preocupación de que los sistemas de IA superinteligentes algún día puedan llegar a un punto de ruptura y eludir por completo el control humano. Y algunos expertos creen que los riesgos actuales de la IA podrían volverse exponencialmente más graves a medida que avanza la IA.
Estas preocupaciones, entre otras, inspiraron una rama emergente de los esfuerzos de alineación avanzada conocida como superalineación.
Para comprender la superinteligencia artificial (ASI), es útil verla en contexto con los otros tipos de inteligencia artificial: inteligencia artificial estrecha (ANI) e inteligencia artificial general (AGI). Podemos clasificar los tres tipos en función de sus capacidades:
El campo de la IA está logrando avances tecnológicos impresionantes. Por ejemplo, AlphaFold 3 de DeepMind puede predecir la estructura molecular y la interacción con una precisión extraordinaria. Y GPT-4o de OpenAI puede razonar en tiempo real.
A pesar de estos avances, la IA aún no es humana. La IA no se preocupa intrínsecamente por la razón, la lealtad o la seguridad. Tiene un objetivo: completar la tarea para la que fue programada.
Por lo tanto, depende de los desarrolladores de IA incorporar valores y objetivos humanos. De lo contrario, se produce una desalineación y los sistemas de IA pueden producir resultados dañinos que conducen a sesgos, discriminación y desinformación.
Los esfuerzos de alineación actuales trabajan para mantener los sistemas de IA débiles en línea con los valores y objetivos humanos. Pero los sistemas AGI y ASI podrían ser exponencialmente más riesgosos, más difíciles de entender y más difíciles de controlar. Es probable que las técnicas actuales de alineación de IA, que se basan en la inteligencia humana, sean inadecuadas para alinear sistemas de IA que sean más inteligentes que los humanos.
Por ejemplo, el aprendizaje por refuerzo a partir de feedback humano (RLHF) es una técnica de machine learning en la que se entrena un "modelo de recompensa" con feedback humano directo. OpenAI utilizó el RLHF como su método principal para alinear sus series de modelos GPT-3 y GPT-4 detrás de ChatGPT, todos considerados modelos de IA débiles. Se necesitarán técnicas de alineación significativamente más avanzadas para ayudar a garantizar que los sistemas de IA superinteligentes posean niveles similares de robustez, interpretabilidad, control y ética.
Sin superalineación, los sistemas avanzados de IA podrían introducir varios riesgos, entre ellos:
Si los sistemas avanzados de IA se vuelven tan complejos y desalineados que la supervisión humana es imposible, sus resultados podrían ser impredecibles e incontrolables. Un escenario de toma de control robótico humanoide es considerado improbable por la mayoría de los expertos. Sin embargo, un sistema AGI o ASI que se aleja demasiado de sus objetivos previstos podría ser catastrófico en situaciones de alto riesgo, como en infraestructura crítica o defensa nacional.
La IA superinteligente podría perseguir objetivos de maneras que son existencialmente perjudiciales para la humanidad. Un ejemplo comúnmente citado es el experimento mental del filósofo Nick Bostrom con el maximizador de clips en el que se programa un modelo ASI para hacer clips. Con una potencia informática sobrehumana, el modelo finalmente transforma todo, incluso partes del espacio, en centros de fabricación de clips en busca de su objetivo.1
Si bien existen varios métodos confiables para mitigar el sesgo en los sistemas de IA, el riesgo sigue siendo una consideración para la IA a futuro. Los sistemas avanzados de IA podrían perpetuar los sesgos humanos con resultados injustos o discriminatorios. Debido a la complejidad del sistema, estos resultados sesgados podrían ser difíciles de identificar y mitigar. El sesgo de la IA es especialmente preocupante cuando se encuentra en áreas, como la atención médica, la aplicación de la ley y los recursos humanos.
Los actores maliciosos podrían explotar la IA superinteligente con fines nefastos, como el control social o el hacking financiero a gran escala. Sin embargo, la alteración social y económica también podría ocurrir si las industrias adoptan IA avanzada sin la infraestructura necesaria.
Por ejemplo, los agentes de IA financiera se utilizan cada vez más para tareas como el comercio o la gestión de activos, pero la responsabilidad de sus acciones a menudo no está clara. ¿Quién es responsable si un agente de IA viola las regulaciones de la SEC? A medida que la tecnología madura, esta falta de responsabilidad podría generar desconfianza e inestabilidad.2
Algunas conversaciones en torno a ASI plantean la preocupación de que los humanos podrían volverse demasiado dependientes de los sistemas avanzados de IA. Como resultado, podríamos perder potencialmente habilidades cognitivas y de toma de decisiones. Del mismo modo, depender demasiado de la IA en áreas como la ciberseguridad podría llevar a la complacencia de los equipos humanos. La IA no es infalible y aún se necesita supervisión humana para ayudar a garantizar que se mitiguen todas las amenazas.
Actualmente existen varias técnicas para alinear la IA, incluido el aprendizaje por refuerzo a partir de feedback humano (RLHF), los enfoques de datos sintéticos y las pruebas adversarias. Pero es probable que estos métodos sean inadecuados para alinear modelos de IA superinteligentes. Y, al momento de escribir este artículo, ni AGI ni ASI existen y no existen métodos establecidos para alinear estos sistemas de IA más complejos.
Sin embargo, hay varias ideas de superalineación con resultados de investigación prometedores:
Como humanos, no podemos supervisar de manera confiable los sistemas de AI que son más inteligentes que nosotros. La supervisión escalable es un método de entrenamiento escalable en el que los humanos podrían usar sistemas de IA más débiles para ayudar a alinear sistemas de IA más complejos.
La investigación para probar y expandir esta técnica es limitada, porque aún no existen sistemas de AI superinteligentes. Sin embargo, los investigadores de Anthropic (una empresa de investigación y seguridad de AI) realizaron un experimento de prueba de concepto.
En el experimento, se indicó a los participantes humanos que respondieran preguntas con la ayuda de un LLM. Estos humanos asistidos por AI superaron tanto al modelo por sí solo como a los humanos sin ayuda en la métrica de precisión. En sus hallazgos, los investigadores dijeron que estos resultados son alentadores y ayudan a confirmar la idea de que los LLM "pueden ayudar a los humanos a realizar tareas difíciles en entornos que son relevantes para la supervisión escalable".3
La generalización es la capacidad de los sistemas de AI para hacer predicciones confiables a partir de datos con los que no fueron entrenados. La generalización de débil a fuerte es una técnica de entrenamiento de AI en la que se utilizan modelos más débiles para entrenar modelos más fuertes para que funcionen mejor con datos novedosos, mejorando la generalización.
El equipo de superalineación de OpenAI, codirigido por Ilya Sutskever (cofundador de OpenAI y ex científico jefe) y Jan Leike (ex jefe de alineación), discutió la generalización de débil a fuerte en su primer artículo de investigación. El experimento utilizó un modelo de nivel GPT-2 "débil" para ajustar un modelo de nivel GPT-4. Con este método, el equipo descubrió que el rendimiento del modelo resultante estaba entre un nivel GPT-3 y GPT-3.5 modelo. Concluyeron que con métodos de débil a fuerte pueden mejorar significativamente la generalización.
Con respecto a la superalineación, esta demostración de prueba de concepto muestra que es posible una mejora sustancial en la generalización de débil a fuerte. Según el documento de investigación resultante del equipo, "hoy es factible hacer avances empíricos en un desafío fundamental de alinear modelos sobrehumanos".4 Y un estudio de seguimiento de la Universidad Jiaotong de Beijing mostró que la generalización de débil a fuerte se puede mejorar mediante una supervisión escalable.5
Sin embargo, el equipo de superalineación de OpenAI se disolvió en mayo de 2024 debido a cambios de prioridad dentro de la empresa. En una publicación en las redes sociales, el director ejecutivo (CEO) Sam Altman agradeció al equipo y dijo que OpenAI "[puso] las bases necesarias para un despliegue seguro de sistemas cada vez más capaces".6
Más abajo en la tubería de alineación se encuentra la investigación de alineación automatizada. Esta técnica de superalineación emplea sistemas de AI sobrehumana ya alineados para realizar investigaciones automatizadas de alineación. Estos “investigadores de AI” serían más rápidos e inteligentes que los investigadores humanos. Con estos beneficios, podrían idear nuevas técnicas de superalineación. En lugar de desarrollar e implementar directamente la investigación de alineación técnica, los investigadores humanos revisarían la investigación generada.
Leopold Aschenbrenner, inversor de AGI y exmiembro del equipo de superalineación de OpenAI, describe el enorme potencial de esta técnica: " Si logramos alinear sistemas algo sobrehumanos lo suficiente como para confiar en ellos, estaremos en una posición increíble: Tendremos a nuestra disposición millones de investigadores automatizados de AI, más inteligentes que los mejores investigadores de AI”.7
La superalineación enfrenta muchos desafíos. Por ejemplo, ¿quién define los puntos de referencia para valores, metas y ética? Pero un desafío arroja una sombra sobre todos ellos: es extremadamente difícil idear técnicas de alineación confiables para sistemas de AI poderosos que no solo nos superan, sino que solo existen en teoría.
Los expertos de la industria también enfrentan desacuerdos filosóficos con respecto a la superalineación. Por ejemplo, algunos laboratorios de AI postulan que centrar los esfuerzos de desarrollo de AI en alinear los futuros sistemas de AI podría obstaculizar las prioridades actuales de AI y las nuevas investigaciones. Por otro lado, los defensores de la seguridad de la IA argumentan que los riesgos de la superinteligencia son demasiado graves para ignorarlos y superan los beneficios potenciales.
La última línea de pensamiento inspiró al ex científico jefe de OpenAI, Ilya Sutskever, a unir al inversionista Daniel Gross y al ex investigador de OpenAI Daniel Levy para crear Safe Superintelligence Inc. El enfoque singular de la startup es “construir superinteligencia segura (SSI)” sin “distracciones por gastos generales de gestión o ciclos de productos” y un progreso “aislado de presiones comerciales de corto plazo”.8
Los enlaces residen fuera ibm.com.
1 “Ethical Issues in Advanced Artificial Intelligence”, Nick Bostrom, nd
2 “Will Financial AI Agents Destroy The Economy?,” The Tech Buzz, 25 de octubre de 2024.
3 “Miding Progress on Scalable Oversight for Large Language Models”, Anthropic, 4 de noviembre de 2022.
4 “Weak-to-strong generalization”, OpenAI, 14 de diciembre de 2023.
5 “Improving Weak-to-Strong Generalization with Scalable Oversight and Ensemble Learning”, arXiv, 1 de febrero de 2024.
6 X post, Greg Brockman, 18 de mayo de 2024.
7 “Superalignment”, Situational Awareness: The Decade Ahead, junio de 2024.
8 “Superintelligence is within reach,” Safe Superintelligence Inc., 19 de junio de 2024.
Descubra cómo la Ley en materia de IA de la UE afectará a las empresas, cómo prepararse, cómo puede mitigar el riesgo y cómo equilibrar la regulación y la innovación.
Conozca los nuevos desafíos de la IA generativa, la necesidad de gobernar los modelos de IA y machine learning (ML) y los pasos para crear una infraestructura de AI confiable, transparente y explicable.
Lea sobre cómo impulsar prácticas éticas y de cumplimiento con una cartera de productos de IA para modelos de IA generativa.
Obtenga una comprensión más profunda de cómo garantizar la equidad, administrar la deriva, mantener la calidad y mejorar la explicabilidad con watsonx.governance.
Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
Gobierne modelos de IA generativa desde cualquier lugar y despliéguelos en la nube u on-premises con IBM watsonx.governance.
Prepárese para la Ley de IA de la UE y establezca un enfoque de gobernanza de la IA responsable con la ayuda de IBM Consulting.
Simplifique la forma de gestionar el riesgo y el cumplimiento normativo con una plataforma de GRC unificada.