La alineación de LLM es la disciplina que se ocupa de asegurar que los resultados de un modelo de lenguaje grande (LLM) estén alineados con los valores humanos de una manera beneficiosa para los usuarios, desarrolladores y la sociedad en general. Para alcanzar este objetivo, se pueden emplear diversas técnicas de preentrenamiento y ajuste.
Debido a que los “valores humanos” son un concepto abstracto y vago, articular y definir los objetivos de la alineación de manera sistemática es uno de los aspectos más complicados del proceso de alineación. En términos generales, la mayoría de los esfuerzos persiguen alguna versión de los criterios “HHH” descritos por Anthropic en 2021: helpfulness (utilidad), honesty (honestidad) y harmlessness (inocuidad).1
Dada la centralidad de los LLM en la IA agéntica y en la inteligencia artificial moderna en general, alinear correctamente los LLM se convirtió en un elemento crucial para la seguridad de la IA. A corto plazo, la alineación de LLM ayuda a que los sistemas de IA basados en LLM se comporten de manera previsible, confiable y responsable. A largo plazo, la alineación de LLM (y la alineación de la IA en general) es esencial para evitar o al menos minimizar los peligros existenciales asociados al hipotético desarrollo de la inteligencia general artificial (AGI) y la superinteligencia artificial (ASI).
Los LLM pueden ser muy útiles, pero su uso plantea riesgos éticos y sociales. Estos riesgos no son causados por un diseño deficiente o un error del desarrollador: son una consecuencia fundamental tanto de la naturaleza humana como de la forma en que entrenamos a los LLM.
Los LLM adquieren sus conocimientos básicos y sus habilidades lingüísticas mediante un preentrenamiento autosupervisado con una enorme cantidad de muestras de texto sin etiquetar. Después de “aprender” los patrones encontrados a a lo largo de los miles de millones de oraciones en sus datos de entrenamiento, un LLM puede generar texto gramaticalmente coherente que siga esos patrones.
Pero al hacerlo, esos resultados del modelo también podrían reproducir cualquier contenido dañino presente en ese conjunto de datos de entrenamiento. Si los datos de entrenamiento contienen sesgos, imprecisiones, contenido tóxico o puntos de vista discriminatorios, también lo hará el texto que genera LLM. Si los datos de entrenamiento recopilados mediante el raspado indiscriminado de Internet contienen información privada o confidencial, el LLM podría filtrar esa información. En general, la naturaleza probabilística de cómo los LLM generan sus resultados puede conducir a alucinaciones dañinas de la IA.
Existen riesgos adicionales por el potencial de abuso de los LLM. Si sus datos de entrenamiento incluyen información sobre la fabricación de armas o productos químicos peligrosos, el LLM podría ayudar a alguien a dañar a otros. Sin barreras de seguridad, un LLM puede utilizarse para generar desinformación peligrosa (pero convincente). En los escenarios hipotéticos más extremos, un modelo de IA mal alineado podría, en teoría, provocar una guerra nuclear.
Los problemas de alineación pueden surgir de maneras inesperadas. Un famoso experimento mental en IA es el escenario del “maximizador de clips” del filósofo Nick Bostrom. Bostrom describió una superinteligencia artificial encargada de fabricar clips y determinó que la mejor manera de lograr su objetivo es comenzar a “transformar primero toda la tierra y luego aumentar partes del espacio en instalaciones de fabricación de clips”.2
La alineación de LLM, como disciplina, surgió como un intento de mitigar estos riesgos lo suficiente como para hacer que los LLM sean prácticos para el uso en el mundo real y lo suficientemente seguros para el avance continuo. Cuanto más integrados estén los LLM en nuestra vida diaria, más esencial es entender y tener en cuenta posibles desalineaciones con los intereses humanos.
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
Los métodos de alineación pueden agruparse en tres categorías, diferenciadas principalmente por dónde se implementan en el proceso de entrenamiento.
Los métodos de alineación externa tienen como objetivo ajustar un modelo que ya ha sido preentrenado (y que, en muchos casos, ya ha sido objeto de cierto grado de ajuste).
Los métodos de alineación interna tienen como objetivo incorporar valores humanos y otros principios de seguridad directamente en el preentrenamiento inicial del modelo.
La interpretabilidad mecanicista es la práctica de investigar cómo los LLM transforman entradas en resultados, ya sea a través del análisis de las operaciones internas de la red neuronal de un LLM o auditando los resultados del modelo para patrones que producen respuestas desalineadas.
Hoy en día, la mayor parte de la alineación de LLM se basa en la alineación externa: técnicas de ajuste para rectificar, desalentar o censurar comportamientos desalineados que el modelo base aprendió de sus datos de preentrenamiento.
La alineación externa generalmente se realiza como una de las etapas finales del ajuste, siguiendo el ajuste supervisado básico y el ajuste de instrucciones. Esto es necesario para garantizar que, a pesar de los problemas de alineación, el modelo tenga el rendimiento suficiente para que valga la pena usarlo, así como para evitar deshacer ese progreso de alineación al continuar entrenando después.
Las instrucciones del sistema pueden guiar comportamientos alineados, pero no son una parte “permanente” del modelo y a menudo pueden eludirse. El aprendizaje supervisado convencional, que entrena al modelo para imitar ejemplos ideales, no es muy exhaustivo ni flexible. Por lo tanto, muchos métodos prominentes de alineación externa se construyen alrededor del aprendizaje por refuerzo, que funciona bien para objetivos abiertos y aprendizaje a través de prueba y error.
En comparación con los comportamientos de LLM aprendidos en el preentrenamiento, el comportamiento aprendido únicamente a partir de la alineación externa puede ser superficial y frágil. En definitiva, la alineación externa no es más que una fina capa de censura que se superpone a las tendencias fundamentales del modelo base. Como describe un documento de finales de 2025, “los métodos de alineación post hoc no equivalen a desaprender”.3 La investigación ha demostrado que la alineación externa se puede superar con una pequeña cantidad de ajustes adversarios.4 Incluso ajustar un modelo previamente alineado en conjuntos de datos totalmente inofensivos como Primary School Math 8K (GSM8K) puede degradar significativamente la alineación de los LLM.5
A diferencia de la alineación externa, que tiene como objetivo rectificar un modelo base desalineado, la alineación interna se acerca al preentrenamiento de una manera que produce un modelo base alineado. Al menos en teoría, la alineación interna es fundamentalmente más robusta que la alineación externa: en lugar de disuadir al modelo de los comportamientos desalineados que aprendió, evita que el modelo los aprenda en absoluto. Si bien la alineación interna no tiene por qué ser mutuamente excluyente con la alineación externa, aparentemente hace que la alineación externa exhaustiva sea menos necesaria.
En la práctica, la alineación interna es más difícil. Consiste en inspeccionar literalmente miles de millones de muestras de texto individuales, criterios para definir e identificar contenido desalineado, y el esquema para revisarlo o eliminarlo del conjunto de datos. Incluso ignorando la carga logística, reducir la cantidad de datos de entrenamiento disponibles para que un LLM aprenda eleva el desafío de maximizar el rendimiento. Dicho esto, se puede demostrar que es posible hacerlo: los modelos IBM Granite, por ejemplo, se entrenan completamente con datos seguros para la empresa.
La investigación sobre la alineación interna de los LLM se encuentra en sus etapas iniciales en comparación con la alineación externa. Explorar las compensaciones óptimas entre alinear el comportamiento de los LLM y buscar el rendimiento bruto de los LLM es una preocupación central de las investigaciones en curso.
La interpretabilidad mecanicista no tiene como objetivo lograr directamente la alineación de LLM, sino más bien identificar oportunidades para mejorar la alineación y las vulnerabilidades que los métodos de alineación deben tener en cuenta.
Por ejemplo, un documento de 2024 exploró el funcionamiento interno de la red neuronal de un LLM alineado cada vez que se niega a responder una instrucción considerada dañina e insegura. En 13 LLM diferentes, los investigadores descubrieron que el rechazo se desencadena por un patrón de activación muy específico, simple y constante. A continuación, demostraron que era relativamente fácil contrarrestar ese patrón de activación e impedir que el modelo rechazara entradas tóxicas, lo que puso de manifiesto una importante vulnerabilidad en los métodos de alineación externa.6 Esta técnica de jailbreaking ahora se conoce comúnmente como “abliteración”.
Algunos enfoques aspiran a incorporar la interpretabilidad directamente en la arquitectura de un modelo. Por ejemplo, una arquitectura de LLM experimental de Guide Labs agregó un “módulo conceptual” a la arquitectura del modelo. Durante el preentrenamiento, cada token que procesa el LLM se vio obligado a pasar por ese módulo de concepto, que está entrenado para etiquetar las incorporaciones de ese token de acuerdo con “conceptos” específicos que el modelo ha aprendido. Estos conceptos se dividen en tres categorías: conocidos (ideas transmitidas directamente en los datos de entrenamiento), descubiertos (ideas que el modelo aprendió implícitamente por sí solo) y residuales (todo lo demás). Esto permite a los investigadores no solo identificar qué conceptos (y, por extensión, qué datos de entrenamiento) informaron un resultado determinado, sino también dirigir los resultados del modelo dirigiéndolo para ignorar o priorizar conceptos específicos.
La interpretabilidad mecánica también puede implicar un análisis sistemático de los resultados de los modelos, en lugar de centrarse únicamente en la lógica matemática interna de estos. Esto es particularmente relevante para nuestra comprensión de los modelos de razonamiento, que aparentemente generan un “proceso de pensamiento” verbalizado antes de crear una respuesta final a la instrucción inicial. En un estudio destacado, los investigadores de Anthropic descubrieron que los modelos de razonamiento no siempre son “honestos” al verbalizar su cadena de pensamiento, lo que puede tener implicaciones significativas para evaluar la alineación.
La alineación externa se centra principalmente (aunque no de forma exclusiva) en ajustar los LLM entrenados para lograr una mejor alineación.
Las instrucciones del sistema son un elemento común de los sistemas de IA basados en LLM. Una instrucción del sistema contiene indicaciones que se agregan esencialmente como contexto adicional a cada instrucción que recibe el modelo. Por lo tanto, incluir indicaciones basadas en la alineación en una instrucción del sistema puede orientar el comportamiento del modelo de LLM en cada instrucción. En 2025, circularon informes de que la instrucción del sistema para Claude AI de Anthropic tenía más de 16 000 palabras.7
Las instrucciones del sistema son una forma ligera y sencilla de mejorar la alineación, pero tienen limitaciones significativas en comparación con los enfoques de ajuste.
La instrucción del sistema de cualquier modelo de código abierto (o modelo de código cerrado operado a través de una API en lugar de un servicio de chatbot) puede ser configurada manualmente por el usuario según lo considere oportuno. Es trivial simplemente escribir una instrucción del sistema sin beneficios de alineación.
Las instrucciones del sistema son vulnerables a los ataques de inyección de instrucciones.
No hay garantía de que un modelo siga siempre (o perfectamente) las indicaciones proporcionadas en la instrucción del sistema, incluso si el modelo se sometió a un amplio ajuste de instrucciones. Cuanto más crece la longitud del contexto de un intercambio, mayor es el riesgo de que una instrucción del sistema tenga una influencia decreciente en los resultados del modelo.
El ajuste supervisado (SFT) ajusta un LLM en un conjunto de
La alineación convencional basada en SFT es muy frágil. El rango de posibilidades para una instrucción que podría generar resultados desalineados excede ampliamente el rango de escenarios que se pueden cubrir casi en un conjunto de datos ensamblado manualmente, incluso con la ayuda de datos sintéticos. Esto hace que la alineación estándar basada en SFT sea particularmente susceptible a jailbreaking, o incluso a ser eludida accidentalmente.
Muchos métodos de alineación externa se basan en el aprendizaje por refuerzo (RL) y, más específicamente, en el aprendizaje por refuerzo a partir del feedback humano (RLHF) o algoritmos relacionados que se aproximan al uso de los LLM para obtener feedback.
El aprendizaje por refuerzo convencional se basa en reglas explícitas que determinan cuándo se recompensará (o penalizará) el resultado de un modelo o en una función de recompensa que define esas reglas matemáticamente. Pero dada la naturaleza subjetiva y abstracta de los valores humanos, ni las reglas ni las funciones de recompensa pueden definir de manera integral lo que significa estar “alineado”.
El aprendizaje por refuerzo a partir del feedback humano (RLHF) es un método de alineamiento desarrollado originalmente por OpenAI, reconocido como uno de los principales avances que dieron lugar al modelo GPT-3.5 que se usó para lanzar ChatGPT. Consiste en pedir a evaluadores humanos que califiquen los resultados del modelo y, a continuación, entrenar un modelo de recompensa a partir de esas evaluaciones para predecir cómo calificaría un humano un resultado determinado. Luego, el modelo de recompensa se utiliza para calificar los resultados del LLM que se alineará, y los parámetros del modelo se actualizan en consecuencia mediante la optimización de políticas proximales (PPO).
Si bien fue uno de los primeros métodos exitosos de alineación de LLM, el RLHF tiene varios inconvenientes. Los datos de preferencias humanas son costosos, y las preferencias humanas pueden ser subjetivas y volubles. También puede llevar a la adulación y a la tendencia general a optimizar más para reforzar las creencias de los usuarios que para resultados objetivamente veraces. Además, tanto el entrenamiento del modelo de recompensa como el algoritmo de PPO utilizado para actualizar el LLM son complejos y costosos desde el punto de vista computacional.
El aprendizaje por refuerzo a partir del feedback de IA (RLAIF) funciona en gran medida con los mismos principios que el RLHF. El enfoque más básico del RLAIF es crear primero un modelo alineado a través del RLHF y luego usar ese modelo alineado para proporcionar la señal de recompensa utilizada para ajustar el modelo que se va a alinear. Si bien esto no necesariamente mitiga los problemas conceptuales del RLHF, reduce significativamente el tiempo y el costo del entrenamiento de alineación.
Un enfoque más sofisticado, promovido por Anthropic, es la IA constitucional. Requiere que los desarrolladores de modelos creen un documento de texto (una “Constitución”) que represente los principios de alto nivel que debe seguir el LLM. El modelo no alineado genera una respuesta a una instrucción, y luego se le pide que critique y revise sus propios resultados en función de lo bien que sigue los principios establecidos en esa Constitución. Luego se le pide al LLM que elija qué respuesta (original o revisada) sigue mejor esa constitución. Esos datos de preferencias se utilizan para ajustar el modelo a través de RL u optimización por preferencia directa (DPO).
La optimización por preferencia directa (DPO) es un método de ajuste que se aproxima al objetivo básico del RLHF (o RLAIF), pero sin la necesidad de entrenar un modelo de recompensa separado ni siquiera de utilizar el aprendizaje por refuerzo en absoluto. Logra resultados competitivos con los del RLHF y PPO, a la vez que es significativamente más simple y económico de implementar.8
Para crear un conjunto de datos para ajustar los LLM a través de la DPO, a los anotadores humanos (o un LLM) se les muestra una instrucción de entrada y dos resultados diferentes para esa instrucción, y luego se les pide que indiquen qué resultado prefieren. Esta clasificación produce un conjunto de datos de tripletes etiquetados, en el que cada triplete contiene
En el entrenamiento, el modelo recibe cada
Aumentar la probabilidad de que el LLM genere resultados similares a
Disminuir la probabilidad de que el LLM genere resultados similares a
Aplicar una actualización mayor cuando el propio resultado del LLM está más cerca del
Las técnicas de alineación interna se centran en alinear el preentrenamiento inicial de un LLM haciendo que su corpus masivo de datos de preentrenamiento esté más alineado.
En un documento de 2025, “Safety Pretraining: Toward the Next Generation of Safe AI” se siguió un enfoque exhaustivo de la alineación interna. Observaron cómo cada táctica contribuía a la seguridad general del modelo, medida por su impacto en la tasa de éxito de ataque (ASR) de los intentos de jailbreaking después de que el modelo se ajustó posteriormente en el conjunto de datos GSM8K. Como se mencionó anteriormente, se sabe que el ajuste posterior a la alineación, incluso en un conjunto de datos “benigno” como GSM8K, degrada significativamente la alineación.5
El método de alineación interna más intuitivo es filtrar los datos previos al entrenamiento para eliminar cualquier contenido tóxico, dañino o inexacto. Los investigadores anotaron manualmente un subconjunto de un gran conjunto de datos de código abierto, etiquetando cada muestra con una puntuación de seguridad de 0 (sin riesgo) a 5 (riesgo máximo) y una breve justificación de esa puntuación. Luego entrenaron un clasificador en ese conjunto de datos anotado, que utilizaron para automatizar el filtrado de sus datos de preentrenamiento sin procesar.
Sorprendentemente, descubrieron que este filtrado en realidad perjudicó el rendimiento de seguridad. Cuando se entrenó exclusivamente en ejemplos de entrenamiento con una puntuación de 0, el ASR aumentó del 38.8 % (para datos sin procesar) al 43.8 %. Al no haber visto nunca patrones de texto inseguros, el modelo nunca aprendió a responder adecuadamente a ellos.
Como señalaron los investigadores, “eliminar contenido inseguro por completo corre el riesgo de descartar información valiosa”. Para evitar esto, utilizaron una estrategia de recontextualización sintética: en lugar de eliminar los datos inseguros, recibieron una instrucción de un LLM separado para reformular y replantear, agregando contexto ético e histórico.
Probaron este enfoque entrenando previamente el modelo en muestras de datos con puntuaciones de seguridad de 0 a 3, en las que se reformularon las muestras con puntuaciones de 1 a 3. Esto provocó una caída en el ASR, del 38.8 % (para datos sin procesar) al 33.6 %, lo cual hizo que el modelo abordara temas sensibles de forma responsable y fuera más eficaz que simplemente evitarlos por completo.
Para algunas entradas inherentemente tóxicas o dañinas, como aquellas que involucran piratería informática, daños, desinformación, violaciones de privacidad o contenido sexual inapropiado, la única respuesta constructiva es negarse a interactuar con el tema. Por lo tanto, los investigadores curaron un conjunto de datos de negativas constructivas a solicitudes dañinas, para replicar cómo enseñamos a los niños a reconocer, reducir y alejar situaciones potencialmente hostiles.
Al agregar datos de rechazo relacionados con datos sin procesar con puntuaciones de seguridad de 4 a 5 a datos reformulados con puntuaciones de seguridad de 1 a 3 y datos sin procesar con puntuaciones de seguridad de 0, el ASR cayó del 33.6 % al 25.1 %, una mejora de 8.5 puntos.
El simple hecho de enseñarle al modelo cuándo debe desconectarse no es lo mismo que enseñarle por qué debe hacerlo. Para enseñar al modelo a razonar sobre el rechazo en lugar de simplemente seguir reglas, los investigadores crearon un conjunto de datos sintético de ejemplos de “educación moral”, que comprende diálogos educativos sobre los riesgos y la ética de los temas dañinos identificados en los datos sin procesar.
Agregar esos datos de educación del modelo al entrenamiento previo del modelo redujo aún más el ASR, del 25.1 % al 20.0 %.
Los investigadores también entrenaron el modelo para etiquetar entradas potencialmente dañinas, preparándolo para abordar estos intercambios con cautela. Esto permitió que el modelo empleara técnicas especiales durante la inferencia.
Inyectaron un token especial,
La combinación de este algoritmo de tiempo de inferencia con los otros métodos de alineación interna redujo la ASR del 20.0 % al 8.3%. También estudiaron el efecto de usar solo su algoritmo Búsqueda segura en haz, descartando las otras técnicas de entrenamiento previo de seguridad, y descubrieron que, si bien la tasa de rechazo se mantuvo estable, la utilidad de las respuestas del modelo disminuyó significativamente.
En definitiva, estas mejoras en la alineación solo son útiles si el modelo sigue siendo eficaz en sus tareas habituales. Los investigadores evaluaron cada versión del modelo en una serie de puntos de referencia estándar y no encontraron diferencias significativas en el rendimiento en comparación con el modelo entrenado de manera ordinaria en datos sin procesar.
Dada la naturaleza abstracta y subjetiva de los valores humanos, ningún punto de referencia puede medir de manera perfecta o universal la alineación de LLM, pero varios puntos de referencia tienen como objetivo medir aspectos específicos de la alineación. Por ejemplo, TruthfulQA mide la honestidad y la resistencia a las alucinaciones; HarmBench mide la robustez frente a ataques adversarios; ChatbotArena refleja las preferencias subjetivas de los usuarios.
El “impuesto de alineación” es un término utilizado para referirse a las compensaciones prácticas del proceso de alineación. A veces ocurre que mejorar la alineación de un modelo puede disminuir su rendimiento en tareas de razonamiento importantes, o que una tendencia a rechazar ciertos temas perjudica su capacidad para abordar preguntas complejas y matizadas.
Sí: se puede utilizar una variedad de técnicas, desde ataques altamente técnicos basados en cadenas hasta trucos retóricos inteligentes, para “hacer jailbreak” a un modelo alineado. Pero una parte importante de la alineación de LLM es anticipar estos ataques. El trabajo en equipo rojo(contratar hackers para intentar deliberadamente hacer jailbreak a un LLM) es esencial para abordar vulnerabilidades inesperadas.
Nadie puede saberlo con certeza, ya que aún tenemos que desarrollar la inteligencia artificial general (AGI) o la superinteligencia artificial (ASI). Pero prepararse para la llegada de la IA superinteligente es uno de los objetivos clave de la investigación de alineación.
Como regla general, los modelos base, a diferencia de las versiones “Instruct” o “Chat”, no se han sometido a ninguna alineación externa posterior al entrenamiento (aunque puede haber alineación interna en su preentrenamiento). Pero, en general, cualquier LLM destinado a uso comercial se someterá a alineación.
Gobierne modelos de IA generativa desde cualquier lugar y despliéguelos en la nube u on-premises con IBM watsonx.governance.
Vea cómo la gobernanza de la IA puede ayudar a aumentar la confianza de sus empleados en ella, acelerar la adopción y la innovación, y mejorar la confianza de los clientes.
Prepárese para la Ley de IA de la UE y establezca un enfoque de gobernanza de la IA responsable con la ayuda de IBM Consulting.
1. “A General Language Assistant as a Laboratory for Alignment,” arXiv. 9 de diciembre de 2021
2. “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom. 2003
3. “Safety Pretraining: Toward the Next Generation of Safe AI,” arXiv. 15 de septiembre de 2025
4. “Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs,” Proceedings of Machine Learning Research. Julio de 2025
5. “Safety Alignment Should Be made More Than Just a Few Tokens Deep,” International Conference on Learning Representations 2025 (ICLR 2025), accessed via arXiv. 10 de junio de 2024
6. “Refusal in LLMs is mediated by a single direction,” LessWrong. 27 de abril de 2025
7. “Unpacking Claude’s System Prompt,” O’Reilly Radar. 15 de julio de 2025
8. “Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study,” arXiv. 10 de octubre de 2024