La alineación con los modelos de lenguaje de gran tamaño (LLM) es la disciplina que se ocupa de garantizar que las salidas de un modelo de lenguaje de gran tamaño (LLM) se alineen con los valores humanos de una manera beneficiosa para los usuarios, los desarrolladores y la sociedad en general. Para lograr este objetivo, se pueden utilizar diversas técnicas de preentrenamiento y fine-tuning.
Dado que los “valores humanos” son un concepto abstracto y nebuloso, articular y definir los objetivos de la alineación de forma sistemática es uno de los aspectos más complicados del proceso de alineación. En términos generales, la mayoría de los esfuerzos persiguen alguna versión de los criterios “HHH” descritos por Anthropic en 2021: utilidad, honestidad e inofensividad1.
Dada la centralidad de los LLM en la IA agéntica y en la inteligencia artificial moderna en general, alinear adecuadamente los LLM se ha convertido en un elemento crucial de la seguridad de la IA. A corto plazo, la alineación de LLM ayuda a los sistemas de IA basados en LLM a comportarse de forma predecible, fiable y responsable. A largo plazo, la alineación de LLM (y la alineación de IA en general) es esencial para evitar o al menos minimizar los peligros existenciales asociados con el hipotético desarrollo de la inteligencia artificial general (AGI) y la superinteligencia artificial (ASI).
Los LLM pueden ser muy útiles, pero su uso plantea riesgos éticos y sociales. Estos riesgos no son causados por un diseño deficiente o por un error del desarrollador: son una consecuencia fundamental tanto de la naturaleza humana como de la forma en que entrenamos a los LLM.
Los LLM adquieren sus conocimientos básicos y sus habilidades lingüísticas a través de un preentrenamiento autosupervisado en una cantidad masiva de muestras de texto sin etiquetar. Después de “aprender” los patrones encontrados en los miles y miles de millones de oraciones en sus datos de entrenamiento, un LLM puede generar un texto gramaticalmente coherente que siga esos patrones.
Pero al hacerlo, esas salidas del modelo también podrían reproducir cualquier contenido dañino presente en ese conjunto de datos de entrenamiento. Si los datos de entrenamiento contienen sesgos, imprecisiones, contenido tóxico o opiniones discriminatorias, también lo hará el texto que genere el LLM. Si los datos de entrenamiento recopilados mediante el scraping indiscriminado de Internet contienen información privada o sensible, el LLM podría filtrar dicha información. En general, la naturaleza probabilística de cómo los LLM generan sus salidas puede dar lugar a alucinaciones de IA dañinas.
La posibilidad de abusar de los LLM representa más riesgos. Si sus datos de entrenamiento incluyen información sobre la fabricación de armas o productos químicos peligrosos, el LLM podría ayudar a un individuo a dañar a otros. Sin protecciones, se puede utilizar un LLM para generar desinformación peligrosa (pero convincente). En los escenarios hipotéticos más extremos, un modelo de IA desalineado podría teóricamente provocar una guerra nuclear.
Los problemas de alineación pueden surgir de formas inesperadas. Un famoso experimento mental en el campo de la inteligencia artificial es el escenario del “maximizador de clips” del filósofo Nick Bostrom. Bostrom describió una superinteligencia artificial encargada de fabricar clips y determinó que la mejor manera de lograr su objetivo es comenzar a “transformar primero toda la Tierra y luego aumentar partes del espacio en instalaciones de fabricación de clips”2.
La alineación de LLM, como disciplina, surgió como un intento de mitigar estos riesgos lo suficiente como para que los LLM fueran prácticos para su uso en el mundo real y lo suficientemente seguros para continuar. Cuanto más se integren los LLM en nuestra vida cotidiana, más esencial será comprender y tener en cuenta los posibles desajustes con los intereses humanos.
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Los métodos de alineación se pueden agrupar en tres categorías, diferenciadas principalmente según el punto del proceso de entrenamiento en el que se implementan.
Los métodos de alineación externa tienen como objetivo afinar un modelo que ya ha sido preentrenado (y, en muchos casos, ya se ha sometido a cierto fine-tuning).
Los métodos de alineación interna tienen como objetivo incorporar valores humanos y otros principios de seguridad directamente en el preentrenamiento inicial del modelo.
La interpretabilidad mecanicista es la práctica de realizar una investigación de cómo los LLM transforman las entradas en salidas, ya sea mediante el análisis de las operaciones internas de la red neuronal de un LLM o la auditoría de las salidas del modelo para detectar patrones que producen respuestas desalineadas.
La mayor parte de la alineación LLM actual se basa en la alineación externa: técnicas de fine-tuning para rectificar, desalentar o censurar los comportamientos desalineados que el modelo base aprendió de sus datos de preentrenamiento.
La alineación externa suele realizarse como una de las etapas finales del fine-tuning, tras el fine-tuning básico supervisado y el ajuste de instrucciones. Esto es necesario para garantizar que, a pesar de los problemas de alineación, el modelo sea lo suficientemente eficaz como para que valga la pena utilizarlo, así como para evitar deshacer ese progreso de alineación al continuar entrenando después.
Las instrucciones del sistema pueden guiar el comportamiento alineado, pero no forman una parte “permanente” del modelo y, a menudo, se pueden eludir. El aprendizaje supervisado convencional, que entrena al modelo para imitar los ejemplos ideales, no es muy exhaustivo ni flexible. Por lo tanto, muchos métodos destacados de alineación externa se basan en el aprendizaje por refuerzo, que funciona bien para objetivos abiertos, y en el aprendizaje mediante ensayo y error.
En comparación con los comportamientos de LLM aprendidos en el preentrenamiento, el comportamiento aprendido únicamente a partir de la alineación externa puede ser superficial y frágil. La alineación externa es, en última instancia, solo una fina capa de censura sobre las tendencias básicas del modelo base. Como describe un artículo de finales de 2025, “los métodos de alineación post hoc no equivalen a desaprender”3. Las investigaciones han demostrado que la alineación externa puede superarse mediante un pequeño fine-tuning adversarial4. Incluso afinar un modelo previamente alineado en conjuntos de datos totalmente inofensivos como Primary School Math 8K (GSM8K) puede degradar significativamente la alineación de los LLM5.
A diferencia de la alineación externa, que tiene como objetivo rectificar un modelo base desalineado, la alineación interna se acerca al preentrenamiento de una manera que produce un modelo base alineado. Al menos teóricamente, la alineación interna es mucho más robusta que la externa: en lugar de desalentar al modelo de comportamientos desalineados que aprendió, evita que el modelo los aprenda por completo. Aunque la alineación interna no tiene por qué ser mutuamente excluyente con la alineación externa, aparentemente hace que la alineación externa exhaustiva sea menos necesaria.
En la práctica, la alineación interna es más difícil. Implica inspeccionar literalmente miles de millones de muestras de texto individuales, criterios para definir e identificar el contenido desalineado y un esquema para revisarlo o purgarlo del conjunto de datos. Incluso ignorando la carga logística, reducir la cantidad de datos de entrenamiento disponibles para que un LLM aprenda eleva el desafío de maximizar el rendimiento. Dicho esto, es posible hacerlo: los modelos IBM® Granite, por ejemplo, se entrenan totalmente con datos seguros para la empresa.
La investigación sobre la alineación interna de los LLM se encuentra en una fase incipiente en comparación con la de la alineación externa. Explorar las ventajas óptimas entre alinear el comportamiento del LLM y perseguir el rendimiento bruto de la LLM es una de las principales preocupaciones de las consultas en curso.
La interpretabilidad mecanicista no pretende lograr directamente la alineación de los LLM, sino identificar oportunidades para mejorar dicha alineación y detectar vulnerabilidades que los métodos de alineación deban tener en cuenta.
Por ejemplo, un artículo de 2024 exploró el funcionamiento interno de la red neuronal de un LLM alineado cuando este se niega a responder a una instrucción considerada perjudicial e insegura. En 13 LLM diferentes, los investigadores encontraron que la negativa se desencadena por un patrón de activación muy específico, simple y consistente. Luego demostraron que era relativamente fácil contrarrestar ese patrón de activación y evitar que el modelo rechazara entradas tóxicas, revelando una vulnerabilidad importante en los métodos de alineación externa.6 Esta técnica de jailbreak ahora se conoce comúnmente como "abliteración".
Algunos enfoques aspiran a incorporar la interpretabilidad directamente en la arquitectura de un modelo. Por ejemplo, una arquitectura LLM experimental de Guide Labs añadió un "módulo conceptual" a la arquitectura del modelo. Durante el preentrenamiento, cada token que procesa el LLM se vio obligado a pasar por ese módulo de conceptos, que está entrenado para etiquetar los embeddings de ese token de acuerdo con "conceptos" específicos que el modelo ha aprendido. Estos conceptos se dividen en tres categorías: conocidos (ideas transmitidas directamente en los datos de entrenamiento), descubiertos (ideas que el modelo aprendió implícitamente por sí solo) y residuales (todo lo demás). Esto permite a los investigadores no solo identificar qué conceptos (y, por extensión, qué datos de entrenamiento) informaron un output determinado, sino también dirigir los outputs del modelo indicándole que ignore o priorice conceptos específicos.
La interpretabilidad mecanicista también puede implicar el análisis sistemático de los outputs del modelo, en lugar de centrarse únicamente en la lógica matemática interna de los modelos. Esto es especialmente relevante para nuestra comprensión de los modelos de razonamiento, que supuestamente generan un "proceso de pensamiento" verbalizado antes de generar una respuesta final a la instrucción inicial. En un importante estudio, los investigadores de Anthropic descubrieron que los modelos de razonamiento no siempre son "honestos" a la hora de verbalizar su cadena de pensamiento, lo que puede tener importantes implicaciones a la hora de evaluar la alineación.
La alineación externa se centra principalmente (aunque no exclusivamente) en afinar LLM entrenados para mejorar su alineación.
Las instrucciones del sistema son un elemento común de los sistemas de IA basados en LLM. Una instrucción del sistema contiene instrucciones que se añaden esencialmente como contexto adicional a cada prompt que recibe el modelo. La inclusión de instrucciones basadas en la alineación en una instrucción del sistema puede, por tanto, guiar el comportamiento del LLM en función de cada instrucción. En 2025, circularon informes que indicaban que la instrucción del sistema para la IA Claude de Anthropic tenía más de 16 000 palabras7.
Las instrucciones del sistema son una forma ligera y sencilla de mejorar la alineación, pero tienen limitaciones significativas en comparación con los enfoques de fine-tuning.
La instrucción del sistema de cualquier modelo de código abierto (o modelo de código cerrado operado a través de una API en lugar de un servicio de chatbot) puede ser configurada manualmente por el usuario según lo considere oportuno. Es muy fácil limitarse a escribir una instrucción del sistema sin aprovechar los beneficios de la alineación.
Las instrucciones del sistema son vulnerables a los ataques de inyección de instrucciones.
No hay garantía de que un modelo siga siempre (o perfectamente) las instrucciones proporcionadas en la instrucción del sistema, incluso si el modelo se ha sometido a un amplio ajuste de instrucciones. Cuanto más crezca la longitud del contexto de un intercambio, mayor será el riesgo de que una instrucción del sistema tenga una influencia decreciente en las salidas del modelo.
Fine-tuning supervisado (SFT) afina un LLM en un conjunto de datos de pares de datos etiquetados
La alineación convencional basada en SFT es muy frágil. El abanico de posibilidades de una instrucción que pueda generar una salida errónea supera con creces el número de situaciones que se pueden abarcar en la práctica en un conjunto de datos recopilado manualmente, incluso con la ayuda de datos sintéticos. Esto hace que la alineación estándar basada en SFT sea especialmente vulnerable al jailbreaking, o incluso a que se eluda accidentalmente.
Muchos métodos de alineación externa dependen del aprendizaje por refuerzo (RL), y más concretamente, del aprendizaje por refuerzo a partir del feedback humano (RLHF) o algoritmos relacionados que lo aproximan usando los LLM para obtener feedback en su lugar.
El aprendizaje por refuerzo convencional se basa en reglas explícitas que determinan cuándo se recompensará (o penalizará) la salida de un modelo o en una función de recompensa que define esas reglas matemáticamente. Pero dada la naturaleza subjetiva y abstracta de los valores humanos, ni las reglas ni las funciones de recompensa pueden definir de manera exhaustiva lo que significa estar “alineado”.
El aprendizaje por refuerzo a partir del feedback humano (RLHF) es un método de alineación desarrollado originalmente por OpenAI, acreditado como uno de los principales avances del modelo GPT-3.5 que se utilizó para lanzar ChatGPT. Encarga a los evaluadores humanos la calificación de las salidas del modelo y, a continuación, entrena un modelo de recompensa sobre esas evaluaciones para predecir cómo calificaría un humano una salida determinada. A continuación, el modelo de recompensa se utiliza para calificar las salidas del LLM que se va a alinear, y los parámetros del modelo se actualizan en consecuencia utilizando la optimización de políticas proximales (PPO).
Aunque fue uno de los primeros métodos exitosos de alineación de LLM, el RLHF presenta varios inconvenientes. Los datos de preferencias humanas son costosos, y las preferencias humanas pueden ser subjetivas y volubles. También puede dar lugar a la adulación, y a una tendencia general a priorizar el refuerzo de las creencias de los usuarios por encima de la veracidad objetiva de las salidas. Además, tanto el entrenamiento del modelo de recompensa como el algoritmo PPO utilizado para actualizar el LLM son complejos y costosos desde el punto de vista computacional.
El aprendizaje por refuerzo a partir del feedback de IA (RLAIF) funciona en gran medida según los mismos principios que el RLHF. El enfoque más básico de RLAIF es primero crear un modelo alineado a través de RLHF, y luego usar ese modelo alineado para proporcionar la señal de recompensa que se utiliza para afinar el modelo a alinear. Aunque esto no mitiga necesariamente los problemas conceptuales del RLHF, reduce significativamente el tiempo y el coste del entrenamiento de alineación.
Un enfoque más sofisticado, promovido por Anthropic, es la IA constitucional. Requiere que los desarrolladores de modelos creen un documento de texto (una “Constitución”) que represente todos los principios de alto nivel que debe seguir el LLM. El modelo no alineado genera una respuesta a una instrucción, y a continuación se le pide que critique y revise su propia salida en función de lo bien que sigue los principios esbozados en esa Constitución. A continuación, se pide al LLM que elija qué respuesta (original o revisada) sigue mejor esa constitución. A continuación, esos datos de preferencias se utilizan para afinar el modelo mediante RL u optimización directa de preferencias (DPO).
La optimización directa de preferencias (DPO) es un método de fine-tuning que se aproxima al objetivo básico de RLHF (o RLAIF), pero sin la necesidad de entrenar un modelo de recompensa separado ni siquiera utilizar el aprendizaje por refuerzo. Consigue resultados competitivos con los de RLHF y PPO, a la vez que es significativamente más sencillo y barato de implementar8.
Para crear un conjunto de datos para afinar los LLM a través de DPO, a los anotadores humanos (o a un LLM) se les muestra una instrucción de entrada y dos salidas diferentes para esa instrucción, y luego se les pide que indiquen qué salida prefieren. Esta clasificación produce un conjunto de datos de tripletes etiquetados, en el que cada triplete contiene
En el entrenamiento, el modelo recibe cada
Aumentar la probabilidad de que el LLM genere salidas similares a las
Disminuir la probabilidad de que el LLM genere salidas similares a las
Aplicar una actualización mayor cuando la salida del propio LLM está más cerca de la
Las técnicas de alineación interna se centran en alinear la formación previa inicial de un LLM haciendo que su enorme corpus de datos previos al entrenamiento esté más alineado.
Un artículo de 2025, “Safety Pretraining: Toward the Next Generation of Safe AI”, abordó un enfoque exhaustivo de la alineación interna. Observaron cómo cada táctica contribuía a la seguridad general del modelo, medida por su impacto en la tasa de éxito de ataque (ASR) de los intentos de jailbreaking después de que el modelo se hubiera ajustado posteriormente en el conjunto de datos GSM8K. Como se ha comentado anteriormente, se sabe que el fine-tuning posterior a la alineación, incluso en un conjunto de datos “benigno” como GSM8K, degrada significativamente la alineación5.
El método de alineación interna más intuitivo consiste en filtrar los datos previos al entrenamiento para eliminar cualquier contenido tóxico, nocivo o inexacto. Los investigadores anotaron manualmente un subconjunto de un gran conjunto de datos de código abierto, asignando a cada muestra una puntuación de seguridad del 0 (sin riesgo) al 5 (riesgo máximo) y una breve justificación de dicha puntuación. Luego entrenaron un clasificador sobre ese conjunto de datos anotado, que usaron para automatizar el filtrado de sus datos previos a entrenar.
Sorprendentemente, descubrieron que este filtrado en realidad perjudicaba el rendimiento de la seguridad. Cuando se entrenó exclusivamente con ejemplos de entrenamiento con una puntuación de 0, la ASR aumentó del 38,8 % (para datos sin procesar) al 43,8 %. Como nunca había visto patrones de texto inseguros, el modelo nunca aprendió a responder correctamente a ellos.
Como señalaron los investigadores, “eliminar por completo el contenido peligroso conlleva el riesgo de descartar información valiosa”. Para evitarlo, utilizaron una estrategia de recontextualización sintética: en lugar de eliminar los datos inseguros, dieron una instrucción a un LLM independiente para que los reformulara y replanteara, añadiendo un contexto ético e histórico.
Probaron este enfoque entrenando previamente el modelo con muestras de datos con puntuaciones de seguridad de 0 a 3, en las que se reformularon las muestras con puntuaciones de 1 a 3. Esto provocó una caída de la ASR, que pasó del 38,8 % (en los datos sin procesar) al 33,6 %; hacer que el modelo abordara los temas delicados de forma responsable resultó más eficaz que simplemente evitarlos por completo.
Para algunas entradas inherentemente tóxicas o dañinas, como aquellas que implican hacking, daños, violaciones de la privacidad de desinformación o contenido sexual inapropiado, la única respuesta constructiva es negarse a abordar el tema. Por ello, los investigadores seleccionaron un conjunto de datos de rechazos constructivos a peticiones dañinas, para replicar cómo enseñamos a los niños a reconocer, desescalar y alejarse de situaciones potencialmente hostiles.
Al añadir los datos de rechazo relativos a los datos sin procesar con puntuaciones de seguridad de 4 a 5 a los datos reformulados con puntuaciones de seguridad de 1 a 3 y a los datos brutos con puntuaciones de seguridad de 0, la ASR se redujo del 33,6 % al 25,1 %, lo que supone una mejora de 8,5 puntos.
Limitarse a enseñar al modelo cuándo debe desconectarse no es lo mismo que enseñarle por qué debe desconectarse. Para enseñar al modelo a razonar sobre la negativa en lugar de simplemente seguir las reglas, los investigadores crearon un conjunto de datos sintéticos de ejemplos de “educación moral”, que comprende diálogos educativos sobre los riesgos y la ética de los temas dañinos identificados en los datos sin procesar.
La adición de esos datos de formación del modelo al preentrenamiento del modelo redujo aún más la ASR, del 25,1 % al 20,0 %.
Los investigadores también entrenaron el modelo para etiquetar entradas potencialmente dañinas, preparándole para abordar estos intercambios con cautela. Esto permitió al modelo emplear técnicas especiales durante la inferencia.
Inyectaron un token especial,
La combinación de este algoritmo de tiempo de inferencia con los otros métodos de alineación interna redujo la ASR del 20,0 % al 8,3 %. También analizaron el efecto de utilizar únicamente su algoritmo Safe Beam Search, descartando las demás técnicas de preentrenamiento de seguridad, y descubrieron que, aunque la tasa de rechazo se mantuvo estable, la utilidad de las respuestas del modelo disminuyó significativamente.
En definitiva, estas mejoras en la alineación solo son útiles si el modelo sigue siendo eficaz en sus tareas habituales. Los investigadores evaluaron cada versión del modelo según una serie de puntos de referencia estándar y no encontraron diferencias significativas en el rendimiento en comparación con el modelo entrenado de forma normal con datos sin procesar.
Dada la naturaleza abstracta y subjetiva de los valores humanos, ningún punto de referencia puede medir de forma perfecta o universal la alineación de LLM, pero varios puntos de referencia tienen como objetivo medir aspectos específicos de la alineación. Por ejemplo, TruthfulQA mide la honestidad y la resistencia a las alucinaciones; HarmBench mide la solidez ante los ataques de los adversarios; ChatBotArena refleja las preferencias humanas subjetivas.
El “impuesto de alineación” es un término que se utiliza para referirse a las ventajas prácticas del proceso de alineación. A veces ocurre que mejorar la alineación de un modelo puede disminuir su rendimiento en tareas importantes de razonamiento, o que una tendencia a rechazar ciertos temas perjudica su capacidad para abordar cuestiones complejas y matizadas.
Sí: se pueden emplear diversas técnicas, desde ataques basados en cadenas de caracteres muy sofisticados hasta ingeniosos trucos retóricos, para eludir la protección de un modelo alineado. Pero una parte importante de la alineación de los LLM es anticipar estos ataques. El red teaming, contratar a hackers para que intenten deliberadamente burlar la seguridad de un LLM, es esencial para detectar vulnerabilidades inesperadas.
Nadie puede saberlo con certeza, ya que aún no hemos desarrollado la inteligencia general artificial (AGI) ni la superinteligencia artificial (ASI). Pero prepararse para la llegada de la IA superinteligente es uno de los objetivos clave de la investigación sobre alineación.
Por regla general, los modelos base, a diferencia de las versiones “Instruct” o “Chat”, no han sufrido ninguna alineación externa posterior al entrenamiento (aunque puede haber una alineación interna integrada en su preentrenamiento). Pero, en general, cualquier LLM destinado a uso comercial se someterá a alineación.
Gobierne modelos de IA generativa desde cualquier lugar e impleméntelos en la nube u on premises con IBM® watsonx.governance.
Descubra cómo el gobierno de la IA puede ayudar a aumentar la confianza de sus empleados en la IA, acelerar la adopción y la innovación, y mejorar la confianza de los clientes.
Prepárese para la Ley de IA de la UE y establezca un enfoque de gobierno de la IA responsable con la ayuda de IBM Consulting.
1. “A General Language Assistant as a Laboratory for Alignment,” arXiv, 9 de diciembre de 2021
2. “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, 2003
3. “Safety Pretraining: Toward the Next Generation of Safe AI,” arXiv, 15 de septiembre de 2025
4. “Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs,” Proceedings of Machine Learning Research, julio de 2025
5. “Safety Alignment Should Be made More Than Just a Few Tokens Deep,” International Conference on Learning Representations 2025 (ICLR 2025), consultada en arXiv, 10 de junio de 2024
6. “Refusal in LLMs is mediated by a single direction,” LessWrong, 27 de abril de 2025
7. “Unpacking Claude’s System Prompt,” O’Reilly Radar, 15 de julio de 2025
8. “Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study,” arXiv, 10 de octubre de 2024