¿Qué es un modelo de razonamiento?

Autor

Senior Staff Writer, AI Models

IBM Think

¿Qué es un modelo de razonamiento?

Un modelo de razonamiento es un modelo de lenguaje grande (LLM) que se ha ajustado para dividir problemas complejos en pasos más pequeños, a menudo llamados "rastros de razonamiento", antes de generar un resultado final. Los medios cada vez más sofisticados de entrenamiento de modelos para emplear el razonamiento de cadena de pensamiento y otras estrategias de toma de decisiones de varios pasos han producido un rendimiento de vanguardia, particularmente en puntos de referencia para tareas basadas en la lógica, como matemáticas y programación.

En lugar de generar inmediatamente una respuesta directa a la entrada de un usuario, los modelos de razonamiento se entrenan para generar primero "pasos de razonamiento" intermedios antes de llegar a la respuesta final proporcionada al usuario. Algunos LLM de razonamiento muestran a los usuarios sus rastros de razonamiento, mientras que otros solo resumen u ocultan por completo estos resultados intermedios.

En pocas palabras, los LLM de razonamiento están entrenados para pasar más tiempo “pensando” antes de responder. Se ha demostrado empíricamente que la adición de este “proceso de razonamiento” produce importantes avances en el desempeño de LLM en tareas de razonamiento complejas. Este éxito ha ampliado los casos de uso y los dominios del mundo real a los que se pueden aplicar los modelos de IA, lo que marca un importante punto de inflexión en el desarrollo continuo de la IA generativa y los agentes de IA.

Cabe señalar, sin embargo, que los términos antropomórficos como el “proceso de pensamiento” de un modelo son más convenientes que los literales. Al igual que todos los modelos de machine learning, los modelos de razonamiento en última instancia solo aplican algoritmos sofisticados para hacer predicciones, como qué palabra debería venir a continuación, que reflejan patrones aprendidos de los datos de entrenamiento. Los LLM de razonamiento no han demostrado conciencia u otros signos de inteligencia artificial general (AGI). La investigación de IA publicada por Apple en junio de 2025 arroja dudas sobre si las habilidades de razonamiento del modelo actual pueden escalar a un razonamiento verdaderamente "generalizable".¹

Quizás sea más exacto decir que los LLM de razonamiento están entrenados para "mostrar su trabajo" generando una secuencia de tokens que se asemeja a un proceso de pensamiento humano, y que este acto de "verbalizar" los pensamientos parece desbloquear capacidades de razonamiento latentes que los LLM aprenden implícitamente de su corpus masivo de datos de entrenamiento (que contiene ejemplos de personas que articulan directa e indirectamente sus propios procesos).

El concepto de “modelo de razonamiento” fue introducido por o1-preview (y o1-mini) de OpenAI en septiembre de 2024,² seguido de “Qwen with Questions” de Alibaba (QwQ-32B-preview) en noviembre y el Gemini 2.0 Flash Experiment de Google en Diciembre. Un hito en el desarrollo de los LLM de razonamiento fue el lanzamiento en enero de 2025 del modelo DeepSeek-R1 de código abierto. Mientras que los procesos de entrenamiento utilizados para ajustar los modelos de razonamiento anteriores habían sido secretos muy bien guardados, DeepSeek publicó un documento técnico detallado que proporcionó un proyecto técnico para otros desarrolladores de modelos. IBM® Granite, Anthropic y Mistral IA, entre otros, han lanzado desde entonces sus propios LLM de razonamiento.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¿Por qué funcionan los modelos de razonamiento?

Agregar un "proceso de pensamiento" a los resultados del modelo mitiga muchos de los defectos inherentes de la inferencia de LLM estándar al ayudar al modelo a evitar atajos cognitivos dañinos y a revelar conocimientos potencialmente más relevantes que aprendió de los datos de entrenamiento.

En el contexto de los LLM de razonamiento, la literatura de investigación de IA a menudo hace referencia al pensamiento “Sistema 1” y “Sistema 2”, términos acuñados por el economista conductual ganador del Premio Nobel, Daniel Kahneman, en su obra Thinking, Fast and Slow. El pensamiento del sistema 1 es rápido, inconsciente e intuitivo, se basa en heurísticas y requiere poco o nulo esfuerzo. El pensamiento del sistema 2 es lento, deliberado y lógico, y requiere un esfuerzo concertado. Los LLM autorregresivos se inclinan, de forma predeterminada, por el pensamiento del sistema 1.³

Para algunas tareas, el pensamiento del sistema 1 es eficaz y computacionalmente eficiente. Pero para muchos otros, el pensamiento impulsivo del sistema 1 resulta insuficiente. Por ejemplo, un artículo de 2023 de los investigadores de Meta Jason Weston y Sainbayar Sukhbaatar señaló cómo los LLM se dejan influir fácilmente por la presencia de contexto irrelevante o detalles subjetivos en la instrucción de entrada.

Ejemplo de cómo los LLM que no razonan a menudo se "distraen" con información irrelevante. Tomado del documento "System 2 Attention (is something you might also need)".

Propusieron una clase de técnicas que denominaron "Atención del sistema 2" (S2A), en las que se instruye al modelo para que primero genere una versión reescrita de la instrucción de entrada despojada del contexto irrelevante y luego responda a esa instrucción reescrita. En los experimentos, S2A superó la inferencia estándar en una variedad de tareas, aumentando la precisión y disminuyendo la adulación.

S2A, uno de los primeros métodos de escalado de inferencias. Al agregar pasos entre la entrada y la respuesta, en este caso, para reescribir la instrucción original, el modelo mejora su resultado final. Tomado del documento "System 2 Attention (is something you might also need)".

Conceptualmente hablando, el objetivo implícito de los enfoques de razonamiento podría entenderse como la implementación de un comportamiento del modelo similar al sistema 2 que explora, evalúa y refina sus posibles resultados.

Como paso esencial surgió de las primeras investigaciones de LLM que demostraron que simplemente agregar la frase "pensar paso a paso", llamada cadena de pensamiento, mejora significativamente los resultados del modelo.^4,5 Un documento de 2024 de Google DeepMind hizo una afirmación aún más amplia: ampliar el cómputo en tiempo de prueba (los recursos utilizados para generar un resultado) aumenta el rendimiento del modelo tanto como ampliar el cómputo en tiempo de entrenamiento (los recursos utilizados para entrenar un modelo).⁶ Las instrucciones de CoT son solo una de las muchas técnicas de escalado de inferencia, al igual que S2A.

Los LLM de razonamiento moderno van más allá: en lugar de confiar en el diseño de instrucciones, utilizan técnicas novedosas de ajuste y flujos de trabajo sofisticados para aumentar intrínsecamente la cantidad de cómputo que utiliza el modelo en el momento de la inferencia. La optimización de un modelo de razonamiento implica tanto el desafío técnico de desarrollar algoritmos y datos de entrenamiento como el desafío filosófico de diseñar un "proceso de pensamiento" ideal.

Cómo funcionan los modelos de razonamiento

Las etapas iniciales del entrenamiento de los LLM de razonamiento son similares a las de los LLM convencionales. Al igual que los LLM estándar, los modelos de razonamiento obtienen su facilidad lingüística general y conocimiento del mundo a partir del entrenamiento previo autosupervisado a gran escala, seguido de cierta cantidad de ajuste supervisado (SFT) para adaptarlo a tareas posteriores (como el uso de chatbot conversacional). La innovación central es la aplicación de novedosas técnicas de aprendizaje por refuerzo (RL) que incentivan al modelo a generar "pasos de razonamiento" intermedios en el momento de la inferencia antes de producir un resultado final.

Años de investigación y experimentación han producido una variedad de enfoques de razonamiento en expansión exponencial, pero todos comparten el objetivo fundamental de aumentar la computación en tiempo de prueba. Además del LLM básico (o ajustado a las instrucciones) que sirve como base, los modelos de razonamiento se diferencian por las estrategias específicas de toma de decisiones que están entrenados para emplear y los algoritmos específicos utilizados para incentivar ese comportamiento.

En términos generales, existen 2 métodos principales para aumentar el cómputo utilizado en el momento de la inferencia. El objetivo de ajustar un modelo de razonamiento es entrenarlo para emplear uno de estos enfoques amplios (o ambos) a través de varios algoritmos de aprendizaje.

Generar resultados más largos: el modelo aprende a generar secuencias de resultados más largas a través de estrategias que incluyen una larga cadena de pensamiento, retroceso y autorrefinamiento.
Generar múltiples salidas: en lugar de generar una única salida en respuesta a una instrucción, el modelo genera múltiples iteraciones de su salida y llega a su respuesta final a través de un proceso de búsqueda, rechazo y agregación de posibles salidas.

La naturaleza de los paradigmas de aprendizaje que producen modelos de razonamiento generalmente implica entrenamiento y evaluación de problemas cuyas soluciones son de naturaleza verificable, como tareas de programación o problemas matemáticos. Por lo tanto, las métricas de punto de referencia utilizadas para evaluar el rendimiento del modelo de razonamiento suelen centrarse en esos dominios. Se han realizado muchas menos investigaciones sobre el impacto del razonamiento en dominios más subjetivos, como la escritura creativa.

Ajuste de refuerzo

Un elemento central del auge de los LLM de razonamiento ha sido el avance del ajuste basado en RL, que comprende tanto el RL basado en reglas como el RL basado en el aprendizaje profundo ("RL profundo") en contextos de LLM. Mientras que el aprendizaje supervisado y autosupervisado requiere tareas de entrenamiento estáticas y bien definidas, el RL se adapta bien al tipo de tareas dinámicas, abiertas y complejas para las que el razonamiento de varios pasos es el más útil.

El uso de RL para ajustar los LLM de una manera que imparta cualidades abstractas no es exclusivo de los modelos de razonamiento. Por ejemplo, el pipeline de entrenamiento estándar para un LLM que se utilizará en la configuración de chatbot es el siguiente:

Preentrenamiento autosupervisado, en el que el modelo aprende los patrones lingüísticos y los conocimientos básicos que se aplicarán a las tareas posteriores.
Ajuste supervisado (SFT), en el que el modelo aprende a formatear correctamente sus respuestas a las entradas del usuario.
Ajuste de instrucciones, en el que el modelo aprende a seguir instrucciones y realizar tareas específicas.
Aprendizaje por refuerzo a partir de feedback humano (RLHF), en el que el modelo se ajusta a los datos de preferencias humanas para impartir cualidades subjetivas como utilidad, inocuidad, veracidad y tono ideal.

Los LLM de razonamiento suelen pasar por esas mismas etapas de entrenamiento, con la adición (en algún momento) de una etapa de aprendizaje por refuerzo que inculca un proceso productivo de razonamiento basado en CoT. Esto se logra definiendo los objetivos de este proceso de razonamiento (los comportamientos específicos del modelo que se "recompensarán", como generar rastros de razonamiento CoT antes de un resultado final) y luego optimizar las ponderaciones del modelo de una manera que maximice la recompensa.

Debido a que es difícil o incluso imposible diseñar una función de recompensa explícita para una tarea tan abstracta y compleja como un proceso de razonamiento que será eficaz para la resolución de todos los problemas complejos, esta señal de recompensa a menudo proviene de un modelo de recompensa separado utilizado durante el entrenamiento. En el RLHF, este modelo de recompensa se entrena con feedback humano y aprende a predecir una puntuación numérica de cuánto preferiría un humano una respuesta determinada.

En el contexto de RL para modelos de razonamiento, las señales de recompensa se pueden dividir en 3 categories amplias: modelos de recompensa de resultados (ORM), modelos de recompensa de procesos (PRM) y sistemas de recompensa basados en reglas.

Modelos de recompensa de resultados (ORM)

Los ORM, como su nombre indica, verifican la precisión de los resultados del modelo de razonamiento y proporcionan señales de recompensa que se utilizan para optimizar las ponderaciones del modelo en consecuencia. Esto es superficialmente similar al papel de una función de pérdida en el aprendizaje supervisado, aunque la mecánica suele ser más compleja.

Mientras que una función de pérdida suele medir la divergencia token por token entre la salida de un modelo y la verdad fundamental, un ORM eficaz debe ser capaz de reconocer una respuesta correcta a un problema matemático incluso cuando se presenta de manera muy diferente de la respuesta verdadera disponible, que es a menudo el caso dada la alta variabilidad de los resultados largos de CoT. Del mismo modo, la mayoría de los problemas de programación del mundo real tienen múltiples soluciones: la evaluación integral de los resultados del código generalmente requiere un pipeline de datos que ejecute y verifique de manera eficiente la eficacia de los fragmentos de código. Otras cualidades de salida, como si sigue el formato o las instrucciones prescritos, pueden usar un LLM estándar como verificador.

Si bien los ORM son una solución relativamente sencilla y computacionalmente eficiente, pueden recompensar potencialmente situaciones en las que los pasos de razonamiento defectuosos conducen a una respuesta final correcta, lo que da como resultado que el modelo aprenda procesos de razonamiento subóptimos.

Modelos de recompensa de procesos (PRM)

Los PRM puntúan y recompensan (o penalizan) cada paso de razonamiento individual de forma aislada, en lugar de centrarse únicamente en la precisión de la respuesta final. Esto proporciona señales de recompensa más detalladas y ajustes posteriores del modelo, lo que genera modelos con un proceso de razonamiento más sólido e interpretable.

Sin embargo, los PRM son más costosos y requieren más tiempo para entrenarse e implementarse. Los primeros enfoques influyentes de los PRM se basaban casi por completo en el laborioso etiquetado de datos de anotadores humanos.⁷ Otros enfoques automatizan este proceso infiriendo la validez de un paso de razonamiento en función de la frecuencia con la que da como resultado una respuesta correcta.⁸

Sistemas de recompensa basados en reglas

Para evitar los costos y las complicaciones de los modelos de recompensa, algunos enfoques de ajuste basados en RL diseñan tareas de entrenamiento de una manera que simplifica el acto de evaluar los resultados del modelo. Por ejemplo, las técnicas DeepSeek-R1 y R1-Zero utilizan instrucciones para que los modelos formateen sus respuestas finales dentro de un cuadro separado, lo que permite verificar la precisión sin un modelo de recompensa especializado que deba analizar toda la respuesta. Otros sistemas de recompensa basados en reglas incentivan microacciones específicas, como agregar "esperar" al final de una respuesta para fomentar una mayor exploración y autocorrección, que se pueden verificar fácilmente.⁹

DeepSeek-R1-Zero: RL puro

DeepSeek fue pionera en una técnica de ajuste de refuerzo simple, ilustrativa y muy influyente en el entrenamiento de su modelo de razonamiento experimental R1-Zero de código abierto.

Con DeepSeek-V3 como base, DeepSeek pasó directamente del entrenamiento previo a un esquema de aprendizaje por refuerzo basado en reglas extremadamente simple:

Consulta del modelo: haga una pregunta al modelo. Indíquele una instrucción para generar un proceso de pensamiento entre “<think> ” y “</think> ” tokens y generar su respuesta final entre “<answer> ” y “</answer> ” tokens.
Recompensas de precisión: recompense al modelo por la calidad de su respuesta final, como qué tan bien se ejecuta su código generado.
Formato de recompensas: recompense al modelo por usar correctamente el “<think> </think> ” y “<answer> </answer> ” formato en las respuestas.

Sorprendentemente, sin ninguna instrucción explícita para hacerlo, DeepSeek-R1-Zero aprendió a generar cadenas de pensamiento complejas y emplear estrategias de razonamiento que arrojaron un rendimiento impresionante en tareas matemáticas y de razonamiento. En otras palabras, dado solo el mandato de "pensar" antes de generar una respuesta final y maximizar la precisión de las respuestas finales, el modelo exploró y descubrió de forma natural patrones de razonamiento óptimos.

En términos prácticos, este enfoque simplificado tenía fallas importantes: como explica el documento técnico, "DeepSeek-R1-Zero enfrenta desafíos como la repetición interminable, la mala legibilidad y la mezcla de idiomas". Sin embargo, este enfoque puro de RL sirvió como base de la metodología más refinada que produjo el popular modelo DeepSeek-R1.

Enfoques basados en búsquedas y muestras

Mientras que la mayoría de los paradigmas de RL basados en CoT tienen como objetivo optimizar la eficacia de un único resultado del modelo, otros métodos generan múltiples resultados finales o intermedios con el objetivo de identificar e incentivar los mejores pasos de razonamiento.

Muchos de estos enfoques dependen de algoritmos de optimización basados en búsquedas, como la búsqueda del árbol de Monte Carlo (MCTS), para generar y explorar múltiples posibles próximos pasos de razonamiento y evaluarlos en función de la calidad de los pasos posteriores y las respuestas finales a las que podrían conducir. Luego, la recompensa se propaga iterativamente hacia atrás a través de las rutas de razonamiento que condujeron a los resultados deseables, y las ponderaciones se optimizan de una manera que aumenta la probabilidad de esos pasos de razonamiento. Esto es particularmente útil para tareas de razonamiento con una gama muy amplia de decisiones potenciales o que requieren una planificación extensa a largo plazo para tener la oportunidad de llegar a una respuesta final precisa.

Otro enfoque es la autoconsistencia, también llamada votación mayoritaria. Cada tarea comienza con instrucciones de cadena de pensamiento. Se muestrean múltiples respuestas, cada una con sus propias rutas de razonamiento, del decodificador del modelo. Se determina que la respuesta final que aparece de manera más constante entre los resultados muestreados es la respuesta óptima. Esto se puede utilizar como una estrategia de tiempo de inferencia para minimizar la aleatoriedad y la alucinación o como un medio para generar datos de razonamiento de alta calidad para métodos basados en SFT.

El principal inconveniente de estos métodos es el aumento de la latencia y la sobrecarga computacional que introducen. Sin embargo, algunas investigaciones indican que los modelos más pequeños que emplean algoritmos de inferencia basados en búsquedas o muestras pueden ofrecer una compensación de rendimiento-eficiencia superior a los modelos más grandes utilizados convencionalmente.¹⁰

Enfoques de SFT, destilación del conocimiento y automejora

Una de las formas conceptualmente más sencillas de ajustar los modelos para el razonamiento es simplemente utilizar el aprendizaje supervisado en un conjunto de datos que comprende instrucciones de entrada desafiantes y las correspondientes salidas basadas en CoT.

Si bien el uso de métodos convencionales para ensamblar un conjunto de datos de entrenamiento "a mano" a través de ejemplos escritos por humanos requiere mucho tiempo y mano de obra, la proliferación de modelos de razonamiento y técnicas de escalado de inferencia ha facilitado significativamente la generación de datos de entrenamiento sintéticos adecuados. La investigación realizada por la Universidad de Stanford y Allen Institute for AI encontró que después de ajustar Qwen2.5-32B-Instruct en un conjunto de datos curado de solo 1000 pares de preguntas y rastros de razonamiento, su modelo "s1" superó a o1-preview de OpenAI en problemas matemáticos de la competencia.

La destilación del conocimiento también se puede utilizar para enseñar a los modelos más pequeños a emular los procesos de pensamiento de modelos de razonamiento más grandes ajustándolos a través de SFT directamente en los resultados generados por el modelo "maestro" más grande. DeepSeek utilizó la destilación del conocimiento, con DeepSeek-R1 como maestro, para crear versiones ajustadas al razonamiento de múltiples tamaños de modelos Qwen y Llama.

Otros métodos tienen como objetivo realizar el bootstrapping de un conjunto de datos de instrucciones y los correspondientes resultados de CoT a través de un proceso de "automejora" del modelo. Self-Taught Reasoner (STaR) proporciona ejemplos few-shot de rastreos de razonamiento eficaces, y luego proporciona una instrucción a un modelo para generar respuestas y razonamientos para un mayor número de preguntas de muestra. El modelo se ajusta con fundamentos que finalmente arrojaron respuestas correctas, luego de lo cual el proceso se repite iterativamente.¹¹ Reinforced Self-Training (ReST) aplica un enfoque conceptual similar para ajustar la señal de recompensa (o "política") utilizada para el ajuste del refuerzo.¹² Ambos han producido una serie de metodologías derivadas.

AI Academy

Elija el modelo de IA adecuado para su caso de uso

Más grande no siempre es mejor cuando se trata de modelos de IA. Aprenda a encontrar la solución que mejor se adapte a las necesidades de su empresa. A continuación, obtenga la guía que le ayudará a pasar a la acción.

Ir al episodio

Desafíos de los modelos de razonamiento

A pesar de sus muchas fortalezas y beneficios, los LLM de razonamiento no están exentos de inconvenientes.

Pensar demasiado

Los modelos de razonamiento, en particular aquellos con relativamente pocos parámetros, son propensos a pensar demasiado. Un estudio de Tencent encontró que los modelos de razonamiento consumen un promedio de 1.953 % más tokens que los modelos convencionales para llegar a la misma respuesta.¹³ Otro estudio, realizado por investigadores de varias universidades, encontró que en entornos de agentes, los modelos de razonamiento tienden a participar en un razonamiento circular extendido en lugar de interactuar con herramientas externas y fuentes de información.¹⁴

Limitaciones del escalado de inferencia

Una investigación publicada por Anthropic en julio de 2025 afirmó que ese pensamiento excesivo no es únicamente una preocupación de eficiencia: su artículo explora “casos en los que un razonamiento más largo deteriora el rendimiento, mostrando una relación inversa entre el cálculo del tiempo de prueba y la precisión.” Si bien ha sido empírico que aumentar el cómputo en tiempo de prueba a menudo puede mejorar el rendimiento del modelo, su investigación demostró múltiples escenarios en los que un razonamiento más largo amplificaba las debilidades del modelo y los problemas de alineación, desafiando "la suposición de que más razonamiento mejora universalmente los resultados del modelo".¹⁵

Una investigación relacionada de Apple a principios de 2025 demostró una serie de tareas de baja complejidad en las que los modelos estándar superaron a los modelos de razonamiento, así como tareas de alta complejidad en las que ambos tipos de modelos fallaron rotundamente. En las exploraciones de Apple, los modelos de razonamiento "no logran desarrollar capacidades generalizables de resolución de problemas para planificar tareas, y el rendimiento se reduce a cero más allá de un cierto umbral de complejidad".¹

Degradación en dominios sin razonamiento

Si bien el ajuste del razonamiento generalmente produce una mejora importante en tareas complejas en dominios lógicos como matemáticas y programación, también puede conducir a caídas de rendimiento en otros lugares. Por ejemplo, en comparación con sus homólogos originales, las versiones de Llama 3.1 y Qwen2.5 que se ajustaron mediante la destilación de conocimientos en DeepSeek-R1 demostraron regresión en ArenaHard y Alpaca-Eval-2, puntos de referencia populares que miden la capacidad de un modelo para pensar con instrucciones difíciles. Dicho esto, las técnicas de razonamiento más amplias, como la optimización de preferencias de pensamiento (TPO) utilizadas para ajustar IBM Granite 3.2,mejoran significativamente el seguimiento de instrucciones (aunque sin un impacto significativo en el rendimiento matemático o de programación).

El ajuste de los modelos Llama y Qwen para emular el proceso de razonamiento de DeepSeek-R1 aumentó el rendimiento en dominios lógicos específicos, pero disminuyó el seguimiento general de instrucciones.

Mayor costo y latencia

Los usuarios deben pagar (y esperar) por todo el token que genera el modelo mientras "piensan", y esos tokens pensantes se comen la ventana de contexto disponible. Algunos casos de uso justifican ese tiempo y cómputo adicionales, pero para otros es un desperdicio de recursos. Sin embargo, cambiar constantemente de un modelo de razonamiento a un modelo "estándar" tarea por tarea e instrucción por instrucción suele ser poco práctico.

Esfuerzo de razonamiento y modelos de razonamiento híbrido

Una solución son los “modelos de razonamiento híbrido”. En febrero, IBM Granite 3.2 se convirtió en el primer LLM en ofrecer un modo de "pensamiento" conmutable, que permite a los usuarios aprovechar el razonamiento cuando lo necesitan y priorizar la eficiencia cuando no lo necesitan^.3 Claude 3.7 Sonnet de Anthropic hizo lo mismo más tarde ese mes, agregando la capacidad de que los usuarios de API tengan un control detallado sobre cuánto tiempo "piensa" el modelo.¹⁷ Google introdujo una capacidad similar para ajustar el "presupuesto de pensamiento" de los modelos Gemini.¹⁸ Del mismo modo, el "esfuerzo de razonamiento" de los modelos de razonamiento o1 y o3 de OpenAI se puede establecer en "bajo", "medio" o "alto".

Interpretabilidad

Aparentemente, revelar la cadena de pensamientos del modelo al usuario ayuda a comprender exactamente cómo un LLM llega a sus respuestas finales, proporcionando una mayor interpretabilidad de la que suele ser posible con un modelo estándar. Pero la investigación de Anthropic sugiere que los modelos de razonamiento no siempre dicen lo que realmente piensan. A través de una serie de tareas especialmente diseñadas, los investigadores descubrieron que tanto Claude 3.7 Sonnet como DeepSeek-R1 no explicaban fielmente su razonamiento: por ejemplo, cuando se les proporcionaban indicios de la respuesta correcta, sus respuestas rara vez mencionaban esos indicios al describir su supuesta justificación.¹⁹

Comience a obtener el retorno de la inversión (ROI): una guía práctica para la IA agéntica

Aprenda a escalar la IA agéntica para obtener un retorno de la inversión (ROI) medible en toda su empresa. Este playbook describe las principales barreras que limitan el impacto, cómo medir eficazmente el ROI y un marco práctico para impulsar una adopción exitosa en toda la empresa.

Recursos

La guía del director ejecutivo (CEO) para la optimización de modelos

Aprenda a impulsar continuamente a los equipos a mejorar el rendimiento del modelo y superar a la competencia mediante el uso de las últimas técnicas e infraestructura de IA.

watsonx Developer Hub

Apoye su próximo proyecto con algunas de nuestras capacidades más utilizadas. Comience y aprenda más sobre los modelos compatibles que proporciona IBM.

Un enfoque diferenciado de los modelos fundacionales de IA

Explore el valor de los modelos fundacionales de grado empresarial que brindan confianza, rendimiento y beneficios rentables a todas las industrias.

Desbloquee el poder de la IA generativa y ML

Aprenda a incorporar la IA generativa, el machine learning y los modelos fundacionales en sus operaciones empresariales para mejorar el rendimiento.

Cómo IBM está adaptando la IA generativa para las empresas

Descubra cómo IBM desarrolla modelos fundacionales generativos que resultan fiables y eficientes desde el punto de vista energético y portátiles.

Soluciones relacionadas

Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA

Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM watsonx en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Notas de pie de página

Todos los enlaces con externos a ibm.com a menos que se indique lo contrario.

1. "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity," Apple Machine Learning Research, junio de 2025
2. "Introducing OpenAI o1-preview," OpenAI, 12 de septiembre de 2024
3. "From System 1 to System 2: A Survey of Reasoning Large Language Models," arXiv, 24 de febrero de 2025
4. "Large Language Models are Zero-Shot Reasoners," arXiv, 24 de mayo de 2022
5. "Show Your Work: Scratchpads for Intermediate Computation with Language Models," arXiv, 30 de noviembre de 2022
6. "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters," arXiv, 6 de agosto de 2024
7. "Let's Verify Step by Step," arXiv, 31 de mayo de 2023
8. "Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations," arXiv, 14 de diciembre de 2023
9. "s1: Simple test-time scaling," arXiv, 31 de enero de 2025
10. "Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models," arXiv, 1 de agosto de 2024
11. "STaR: Bootstrapping Reasoning With Reasoning," arXiv, 28 de marzo de 2022
12. "Reinforced Self-Training (ReST) for Language Modeling," arXiv, 17 de agosto de 2023
13. "Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs," arXiv, 30 de diciembre de 2024
14. "The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks," arXiv, 12 de febrero de 2025
15. "Inverse Scaling in Test-Time Compute," arXiv, 19 de julio de 2025
16. "Bringing reasoning to Granite," IBM Research, 7 de febrero de 2025
17. "Claude 3.7 Sonnet and Claude Code," Anthropic, 24 de febrero de 2025
18. "Generative AI on Vertex AI: Thinking," Google
19. "Razoning models don't always say what they think", Anthropic, 3 de abril de 2025

¿Qué es un modelo de razonamiento?

Autor

¿Qué es un modelo de razonamiento?

Las últimas tendencias de IA presentadas por expertos

¡Gracias! Ya está suscrito.

¿Por qué funcionan los modelos de razonamiento?

Cómo funcionan los modelos de razonamiento

Ajuste de refuerzo

Modelos de recompensa de resultados (ORM)

Modelos de recompensa de procesos (PRM)

Sistemas de recompensa basados en reglas

DeepSeek-R1-Zero: RL puro

Enfoques basados en búsquedas y muestras

Enfoques de SFT, destilación del conocimiento y automejora

Elija el modelo de IA adecuado para su caso de uso

Desafíos de los modelos de razonamiento

Pensar demasiado

Limitaciones del escalado de inferencia

Degradación en dominios sin razonamiento

Mayor costo y latencia

Esfuerzo de razonamiento y modelos de razonamiento híbrido

Interpretabilidad

Recursos

Notas de pie de página