Un modelo de razonamiento jerárquico (HRM) es una arquitectura de IA experimental diseñada para imitar la forma en que el cerebro humano procesa la información en diferentes escalas de tiempo y niveles de complejidad. Cabe destacar que un modelo de HRM superó a los modelos de lenguaje grandes (LLM) de última generación en múltiples puntos de referencia que miden el rendimiento en tareas de razonamiento complejas, a pesar de ser muchas veces más pequeño y entrenarse con un conjunto de datos drásticamente más pequeño.
Más concretamente, los HRM son una arquitectura de red neuronal distinta que aplica un algoritmo específico para generar resultados y múltiples algoritmos distintos para optimizar los parámetros del modelo durante el entrenamiento. Si bien generalmente se comparan con los LLM por su rendimiento en ciertos puntos de referencia que históricamente han estado dominados por los LLM de razonamiento, esta es una comparación de peras con manzanas. Los HRM son modelos estrechos y específicos de tareas diseñados explícitamente para problemas de razonamiento, mientras que los LLM de razonamiento son modelos generalistas que se pueden aplicar a problemas de razonamiento (entre muchas otras tareas).
Aunque son capaces de resolver problemas complejos, los HRM no son capaces de conversar, generar código, resumir u otras tareas generalmente asociadas con los modelos de IA generativa. Un HRM debe estar entrenado directamente en el tipo de problema que desea que resuelva. Los LLM, por el contrario, suelen estar preentrenados en una gran cantidad y variedad de datos, y luego se les pide (a través de instrucciones few-shot) resolver problemas novedosos mediante la deducción de las reglas.
Un elemento central del concepto de HRM es una “jerarquía” de ciclos recurrentes que se inspiran en cómo el cerebro humano procesa la información en diferentes niveles y frecuencias. Un “ciclo interno” consiste en un módulo que realiza rápidamente cálculos de bajo nivel y otro módulo más lento cuyos cálculos de alto nivel guían al módulo de bajo nivel. Un “ciclo externo” guía al ciclo interno para repetir iterativamente sus cálculos con el fin de refinar y mejorar la salida del modelo.
Los HRM se presentaron por primera vez como un modelo de código abierto descrito en un artículo de Guan Wang y otros publicado en junio de 2025. Con un tamaño de solo 27 millones de parámetros, el modelo superó a modelos mucho más grandes, como o3 de OpenAI, Claude 3.7 Sonnet de Anthropic y DeepSeek-R1 (que tiene 671 000 millones de parámetros) en pruebas desafiantes como ARC-AGI, Sudoku-Extreme y Maze-Hard.
El modelo en sí es en gran medida experimental, y el documento señala tanto limitaciones prácticas como vías inexploradas para futuras mejoras. Sin embargo, su éxito, especialmente dada su extrema eficiencia de datos en el entrenamiento y un tamaño de modelo literalmente miles de veces más pequeño que la mayoría de los LLM, lo convierten en un enfoque alternativo fascinante para escalar los sistemas de razonamiento. Las exploraciones de investigación posteriores, como los modelos recurrentes diminutos (TRM), han logrado nuevos avances al refinar el enfoque básico de HRM e inspirarse en las técnicas novedosas que introdujo.
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
Los modelos de razonamiento convencionales son LLM que se han ajustado a través del aprendizaje por refuerzo para generar una cadena de pensamiento paso a paso (CoT) antes de proporcionar una respuesta final al usuario. Se ha demostrado empíricamente que este proceso de “verbalización” de un proceso de razonamiento mejora la precisión del modelo en matemáticas, programación y otras tareas lógicas complejas.
A pesar del éxito demostrado de este enfoque, se argumentó que los LLM (incluso los LLM de razonamiento de frontera) no son ni serán un camino hacia la inteligencia artificial general (AGI). Desde el punto de vista neurológico, el lenguaje es ante todo una herramienta de comunicación, no de pensamiento.
En términos generales, el enfoque más inspirado en la neurociencia de un HRM está más cerca de cómo funciona el cerebro humano a través de problemas abstractos. A diferencia de las LLM, los HRM razonan internamente sin “verbalizar” este proceso. En términos más técnicos, mientras que los modelos de razonamiento convencionales razonan “en voz alta” en el espacio de tokens, los HRM razonan internamente en el espacio latente. Los LLM “razonan” refinando iterativamente las palabras reales (tokens) que generan, pero un HRM resuelve los problemas refinando iterativamente su estado oculto: los cálculos intermedios internos del modelo, similares al pensamiento, que se utilizan para (eventualmente) generar su resultado final.
Considere un momento reciente en el que resolvió un problema complejo: es posible que haya tenido un monólogo interno, pero probablemente no verbalizó literalmente todo su proceso de pensamiento en su cabeza (o en voz alta) en oraciones ordenadas y completas. Lo más probable es que su cerebro entrara en acción de forma instintiva y sin palabras. De esos pensamientos iniciales e instintivos, surgió en su mente una especie de plan de nivel superior. Luego, trabajó mentalmente en los pasos individuales que implicaba la estrategia, refinando el plan general a medida que avanzaba. Finalmente, llegó a lo que le pareció una solución satisfactoria.
Mientras que el ajuste de los LLM con técnicas de aprendizaje por refuerzo puede enseñar a un modelo a generar resultados que imitan un proceso de pensamiento, los HRM, tomando prestados algunos principios de la neurociencia de sistemas,tienen como objetivo replicar un proceso de pensamiento.
Como se describe en el documento “Hierarchical Reasoning Model”, el diseño de los HRM estuvo influenciado por el concepto de pensamiento “Sistema 1” y “Sistema 2”, términos metafóricos acuñados por el difunto premio Nobel Daniel Kahneman en su libro Thinking, Fast and Slow para describir los diferentes niveles en los que opera la mente humana. El “Sistema 1” es rápido, inconsciente e intuitivo. El pensamiento del “Sistema 2” es lento, deliberado y lógico. Por lo tanto, los HRM implementan una jerarquía en la que los cálculos de un sistema rápido que maneja cálculos de bajo nivel son guiados por un sistema más lento que maneja la planificación de alto nivel.
En términos de principios de machine learning , los modelos de razonamiento jerárquico pueden entenderse como una forma altamente especializada de redes neuronales recurrentes (RNN), con modificaciones que mitigan las deficiencias prácticas de las redes neuronales recurrentes estándar. La más notable de esas deficiencias es la convergencia prematura: la tendencia de las RNN a dejar de aprender mucho antes de haber absorbido completamente todos los patrones y dependencias dentro de las secuencias de datos de entrenamiento.
Durante el entrenamiento de modelos, las RNN tienden a converger rápidamente en pesos de modelo que no están suficientemente optimizados para lograr un rendimiento preciso. Esto generalmente se debe a gradientes que desaparecen: después de demasiados pasos computacionales o una secuencia demasiado larga, el tamaño de las actualizaciones de parámetros del modelo calculadas durante la retropropagación se vuelve tan pequeño que se reduce a cero. Los pesos del modelo alcanzan un equilibrio local que refleja patrones a corto plazo, lo que les impide alcanzar un equilibrio global que refleje de manera completa y exhaustiva los patrones de los datos de entrenamiento.
Se han propuesto muchas modificaciones de la estructura RNN estándar, como la memoria a largo plazo (LSTM), para rectificar esta falla, pero los HRM adoptan un enfoque novedoso. El módulo de alto nivel, similar al “Sistema 2”, está diseñado para aprender cada vez que el módulo de bajo nivel converge en un equilibrio local. Esta actualización del sistema de alto nivel proporciona un nuevo contexto para que el sistema de bajo nivel opere, lo que le permite continuar aprendiendo hasta que converja en un nuevo equilibrio local (momento en el que el sistema de alto nivel se actualiza nuevamente).
El resultado de este “ciclo interno” se introduce en un “ciclo externo” que aprende a mejorar iterativamente sus resultados anteriores. En total, esta configuración se beneficia de la velocidad y simplicidad de los RNN, a la vez que permite un aprendizaje más estable y mucho más “profundo” de lo que sería posible de otra manera con una red recurrente.
El “ciclo interno” de la arquitectura del modelo HRM comprende dos módulos recurrentes. Ambos módulos utilizan un mecanismo de atención en una configuración estándar de bloques de transformador. Uno, el “módulo L”, está diseñado para manejar rápidamente cálculos de bajo nivel. El otro, el “módulo H”, está diseñado para manejar la planificación a largo plazo y el razonamiento de nivel superior.
El módulo L funciona esencialmente como una RNN estándar, con su tendencia a concentrarse rápidamente en patrones a corto plazo y dejar de actualizar su estado oculto. Pero mientras que la actualización de estado de una RNN estándar en el paso de tiempo t está condicionada solo por su estado oculto en el paso de tiempo anterior t-1, las actualizaciones del estado oculto del módulo L zL (y, por lo tanto, las cosas en las que se centra) también están condicionadas por el estado oculto actual del módulo H zH.
El estado oculto del módulo H cambia mucho más lento que el del módulo L. El bucle interno funciona en ciclos de T pasos de tiempo: después de que el módulo L haya actualizado su estado oculto zL T veces, el módulo H utiliza el estado final de zL para actualizar zH. Para el paso de tiempo T, el módulo L a menudo ya habrá convergido en un equilibrio local y dejado de actualizarse. Sin embargo, dado que las actualizaciones de zL dependen del valor actual de zH, cada actualización de zH establece un nuevo contexto para el módulo L. Esto inicia una nueva “fase de convergencia”, permitiendo que el módulo de bajo nivel siga aprendiendo.
En resumen, cada vez que el módulo L “resuelve” alguna tarea a corto plazo, el módulo H se actualiza. Esa actualización del módulo H indica al módulo L que resuelva una nueva tarea a corto plazo. El módulo H se encarga, básicamente, de la planificación a largo plazo, mientras que el módulo L lleva a cabo las subtareas más pequeñas que implica ese plan a largo plazo. Este ciclo, que consta de T actualizaciones del módulo L, se ejecuta N veces. Tanto T como N son hiperparámetros ajustables.
En total, la arquitectura central de HRM que impulsa el ciclo interno contiene cuatro componentes que se pueden aprender:
Una red de entrada que convierte tokens (que representan los detalles del rompecabezas que el modelo debe resolver) en incorporaciones vectoriales.
El módulo recurrente de bajo nivel (módulo L).
El módulo recurrente de alto nivel (módulo H), cuyo estado oculto final tras N ciclos se transmite a la red de salida.
Una red de resultados que toma el valor final de zH y utiliza una función softmax para convertir ese estado oculto en probabilidades que emplea para predecir los valores de los token de salida (que, en conjunto, representan la solución del rompecabezas).
A diferencia de los LLM de razonamiento, los HRM no son modelos generalistas. Deben recibir entrenamiento específico sobre la tarea concreta que deben resolver. Aunque el documento informa que el “HRM” logró un excelente rendimiento en Sudoku, laberintos de búsqueda de caminos y acertijos ARC-AGI, los autores realmente se refieren a tres HRM separados. Uno recibió entrenamiento en Sudoku, otro en laberintos y otro en acertijos ARC-AGI.
Los modelos de lenguaje grandes (LLM) de razonamiento se someten a su preentrenamiento inicial mediante el aprendizaje autosupervisado con grandes cantidades de datos sin etiquetar. Luego se someten a un ajuste supervisado (SFT) para aprender las estructuras de respuesta adecuadas, ajuste de instrucciones para aprender a completar las tareas como se desee y luego un ajuste más detallado a través del aprendizaje por refuerzo para inculcar el razonamiento CoT. En total, esto implica millones o miles de millones de puntos de datos y semanas de entrenamiento.
Para crear datos de entrenamiento para HRM, los autores utilizaron el aumento de datos. A partir de una semilla de solo unos pocos ejemplos de entrenamiento originales (que comprenden pares etiquetados de acertijos sin resolver y sus soluciones), se crean ejemplos adicionales utilizando pequeñas transformaciones (como rotaciones, volteos o intercambios de color). Cada uno de los HRM descritos en el documento se entrenó en solo (aproximadamente) 1000 ejemplos de entrenamiento creados mediante la aplicación de dicho aumento de datos a un pequeño conjunto de muestras originales.
Ambos enfoques tienen sus beneficios. Los LLM de razonamiento pueden inferir las reglas de un acertijo determinado sin instrucciones explícitas, pero requieren billones de tokens de datos para obtener esa capacidad. Los HRM solo pueden realizar la tarea específica para la que fueron entrenados, pero pueden lograr un rendimiento comparable o incluso superior con muchos menos parámetros y ejemplos de entrenamiento.
Los HRM utilizan un truco de optimización inteligente para simplificar y estabilizar el proceso de optimización de los parámetros del modelo, evitando una vez más una deficiencia inherente de las RNN estándar.
Las RNN utilizan una forma de retropropagación específica de recurrencia, llamada retropropagación a través del tiempo (BPTT), para calcular los gradientes de cómo se acumula la pérdida en cada paso de tiempo. A medida que una RNN estándar aumenta la cantidad de pasos de tiempo, la BPTT inevitablemente se encuentra con el problema de la desaparición de los gradientes.
Para evitar esto, así como reducir considerablemente los requisitos de memoria, los HRM simplifican su objetivo de optimización. En lugar de calcular los gradientes en cada paso temporal, los HRM aplican el BPTT únicamente al estado final del módulo L y al estado final del módulo H. Esto se basa en una suposición sencilla: si se sabe cómo debe cambiar el resultado final y se optimizan las ponderaciones del modelo para cambiar a los estados finales de los módulos L y H en consecuencia, todo lo demás se solucionará por sí solo.
Al igual que con otros elementos de HRM, esto se inspira tanto en la neurociencia como en la experiencia anecdótica. Imagine a una persona (o a un modelo) intentando aprender a jugar al Jenga, el juego de equilibrio de bloques. No es necesario aprender a optimizar cada impulso individual de un bloque para cada movimiento. Suponiendo que los bloques están configurados de cierta manera (la entrada) y que el movimiento que realizó provocó que todo se derrumbara (la pérdida de su resultado), mejorar su técnica requiere una comprensión firme de solo dos cosas:
Los autores del artículo descubrieron que esta aproximación de un solo paso de la BPTT funciona lo suficientemente bien como para que optimizar solo esas dos consideraciones sea suficiente para establecer una dinámica de aprendizaje sólida y estable.
El HRM también emplea un ciclo externo que permite al modelo refinar iterativamente sus resultados finales en un proceso que los autores del artículo de HRM llaman “supervisión profunda”. Investigaciones posteriores han sugerido que el ciclo externo, más que el ciclo interno, es en última instancia el componente más importante del HRM.
En el aprendizaje supervisado estándar para redes neuronales, al modelo que se está entrenando se le proporciona una entrada y realiza un único pase hacia adelante para generar un resultado. Una función de pérdida mide el error de ese resultado. Luego, la retropropagación se utiliza para calcular los gradientes de pérdida: cómo cualquier cambio en cualquier variable de la red neuronal aumentaría o disminuiría la pérdida general. Finalmente, algún algoritmo de descenso de gradiente utiliza esa información para actualizar los parámetros del modelo. Luego, este proceso iterativo se reinicia y se repite hasta que la pérdida se haya reducido a un umbral aceptable.
La supervisión profunda no reinicia todo el proceso después de que el modelo genera ese resultado inicial a través de un único paso hacia adelante. En cambio, implica múltiples pases hacia adelante, cada uno de los cuales se conoce como “segmento”. Después de cada segmento m, se calcula la pérdida y los parámetros del modelo se optimizan en consecuencia, y los estados ocultos finales del módulo H (zH) y el módulo L (zL) se retroalimentan al modelo como punto de partida para el siguiente pase hacia adelante. Esto permite al modelo refinar iterativamente sus salidas, utilizando lo que ha “aprendido” de las actualizaciones de parámetros del modelo del segmento anterior.
Este proceso se repite durante M segmentos, en los que los puntos de inicio del ciclo interno para cada segmento sucesivo m+1 son and : en otras palabras, el estado oculto final del módulo H y del módulo L luego de N ciclos internos de T pasos de tiempo durante el segmento previo m.
Para mantener la eficiencia del modelo, los creadores de HRM agregaron un mecanismo de tiempo de computación adaptativo para ayudar al modelo a aprender cuándo un resultado determinado es lo suficientemente bueno (o, por el contrario, si debe comenzar otro ciclo de refinamiento). Para que esto sea posible, el modelo incorpora Q-learning, un tipo común de algoritmo de aprendizaje por refuerzo.
Después de cada segmento, el estado final del módulo de alto nivel zH se pasa no solo a la red de salida, sino también a otro módulo que llaman “Q-head”, con sus propios pesos aprendibles. Después de que zH se multiplica por los pesos de Q-head, utiliza una función sigmoide, que comprime cualquier entrada a un valor entre 0 y 1, que genera un valor para detener y un valor para continuar. Si el valor detener es mayor, el modelo genera un resultado final. Si el valor continuar es mayor, el modelo comienza otro segmento.
Por lo tanto, la función de pérdida general para el proceso de supervisión profunda después de cada segmento combina dos términos:
Por un lado, refleja la pérdida asociada a la tarea en sí: ¿qué grado de precisión tuvo el resultado del modelo?
El otro refleja pérdida de Q-head: si el modelo predijo un valor mayor para “detener” que para “continuar”, ¿tomó la decisión correcta?
Con el tiempo, el modelo aprende a gastar más cómputo, es decir, realizar más ciclos de refinamiento, en problemas más difíciles y gastar menos cómputo en problemas más fáciles. Cabe señalar que una idea similar, aunque con una implementación diferente, se exploró ya en una etapa bastante temprana de la historia de los transformadores.
ARC Prize, la organización sin fines de lucro que administra el índice de referencia ARC-AGI, llevó a cabo un análisis externo de los HRM y concluyó que “el ciclo externo de perfeccionamiento es un factor esencial para el desempeño de los HRM”.
Durante la inferencia, agregar solo un ciclo de refinamiento casi duplicó la precisión del HRM (del 18.6 % al 35.5 %). Las ganancias adicionales de rendimiento, aunque con rendimientos significativamente decrecientes, se produjeron en 8 ciclos (38.1 %) y 16 ciclos (39.0 %). Incluso para un modelo estándar de transformador sin ciclo interno (pero con una arquitectura, tamaño de modelo y pipeline de entrenamiento idénticos a los de HRM), agregar ciclos de refinamiento externos producía aumentos de rendimiento similares.
El ciclo externo también es esencial para el entrenamiento. Incluso cuando se mantuvo el número de ciclos de refinamiento al costo de inferencia, agregar solo un ciclo de refinamiento en el entrenamiento aumentó la precisión del modelo del 19 % (sin refinamiento) al 32 % (con 1 refinamiento). De hecho, experimentos posteriores demostraron que el aumento de los ciclos de refinamiento durante el entrenamiento tuvo un impacto significativamente mayor que el aumento de los ciclos de refinamiento durante la inferencia. Sin ciclos de refinamiento ni en el entrenamiento ni en la inferencia, el modelo obtuvo una puntuación del 18.6 %. Sin ciclos de refinamiento durante la inferencia y 16 ciclos de refinamiento durante el entrenamiento, el modelo obtuvo una puntuación del 34.9 %.
Por el contrario, se demostró que el ciclo interno proporciona un ejemplo relativamente pequeño sobre un modelo de tamaño idéntico que reemplaza el módulo H y el módulo L con los bloques de atención de un modelo de transformador estándar. No está claro si estos hallazgos son particulares de las tareas en el punto de referencia ARC-AGI o universales para todas las tareas de razonamiento que un HRM podría manejar.
Aunque los modelos de razonamiento jerárquico introducen innovaciones significativas en las arquitecturas de redes neuronales y las técnicas de entrenamiento que ya han comenzado a influir en la investigación del aprendizaje profundo, la utilidad práctica de los propios HRM es actualmente incierta.
En relación con los LLM de razonamiento masivo, los HRM son drásticamente más pequeños, más baratos de entrenar y ejecutar, y se pueden entrenar con una cantidad muy accesible de ejemplos de entrenamiento. Esto va en contra de la noción de que el rendimiento de frontera solo se puede lograr a través de modelos masivos y conjuntos de datos de entrenamiento fuera del alcance de la mayoría de los investigadores y organizaciones.
Sin embargo, la utilidad de los modelos de razonamiento convencionales radica en su notable capacidad de generalización: pueden realizar tareas de razonamiento altamente especializadas en el contexto de la comprensión y la ejecución de una amplia variedad de tareas e instrucciones en lenguaje natural. Las capacidades extremadamente limitadas de los HRM hacen que sea mucho más difícil integrarlas en flujos de trabajo más grandes.
Los HRM solo pueden resolver tipos muy específicos de acertijos que han visto durante el entrenamiento. Incluso si un formato de acertijo diferente usa reglas y lógica muy similares a uno que ha visto, tan similar que un humano bueno en un tipo de acertijo obviamente sería bueno en el otro, un HRM no podría manejarlo. Las mejoras en el pipeline de entrenamiento que introducen una mayor capacidad para aprovechar el aprendizaje por transferencia entre tareas aumentarían significativamente la practicidad de los HRM.
Aunque los HRM demuestran empíricamente una capacidad de razonar a través de problemas para refinar sus resultados, la falta de un “proceso de pensamiento” rastreable reduce significativamente su interpretabilidad. Dicho esto, cabe señalar que la interpretabilidad es generalmente un problema en todos los sistemas de IA entrenados a través del aprendizaje profundo, y que la investigación demuestra que los trazos de razonamiento que un LLM proporciona a un usuario no siempre son fieles a su verdadero “proceso de pensamiento”.