¿Qué es un modelo de razonamiento?

Autor

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

¿Qué es un modelo de razonamiento?

Un modelo de razonamiento es un modelo de lenguaje de gran tamaño (LLM) que se ha afinado para dividir problemas complejos en pasos más pequeños, a menudo llamados “rastros de razonamiento”, antes de generar un resultado. Los medios cada vez más sofisticados de modelos de entrenamiento para emplear el razonamiento en cadena y otras estrategias de toma de decisiones en varios pasos han dado lugar a un rendimiento de vanguardia, especialmente en pruebas de referencia para tareas basadas en la lógica, como las matemáticas y la codificación.

En lugar de generar inmediatamente una respuesta directa a la entrada de un usuario, los modelos de razonamiento se entrenan para generar primero "pasos de razonamiento" intermedios antes de llegar a la respuesta final proporcionada al usuario. Algunos LLM de razonamiento muestran a los usuarios sus rastros de razonamiento, mientras que otros solo resumen u ocultan por completo estos outputs.

En pocas palabras, los LLM de razonamiento están entrenados para dedicar más tiempo a "pensar" antes de responder. Se ha demostrado empíricamente que la adición de este "proceso de razonamiento" produce importantes avances en el rendimiento de LLM en tareas de razonamiento complejas. Este éxito ha ampliado los casos de uso y los dominios del mundo real a los que se pueden aplicar los modelos de IA, lo que marca un importante punto de inflexión en el desarrollo continuo de la IA generativa y los agentes de IA.

Sin embargo, vale la pena señalar que los términos antropomórficos como "proceso de pensamiento" de un modelo son más convenientes que literales. Al igual que todos los modelos de machine learning, los modelos de razonamiento no son más que la aplicación de algoritmos sofisticados para realizar predicciones, como qué palabra debería venir a continuación, que reflejan los patrones aprendidos a partir de los datos de entrenamiento. Los LLM de razonamiento no han demostrado conciencia u otros signos de inteligencia artificial general (AGI). Una investigación sobre IA publicada por Apple en junio de 2025 pone en duda si las capacidades de razonamiento de los modelos actuales pueden escalar a un razonamiento verdaderamente "generalizable"1.

Quizás sea más exacto decir que los LLM de razonamiento están entrenados para "mostrar su trabajo" generando una secuencia de tokens que se asemeja a un proceso de pensamiento humano, y que este acto de "verbalizar" los pensamientos parece desbloquear capacidades latentes de razonamiento que los LLM aprenden implícitamente de su corpus masivo de datos de entrenamiento (que contiene ejemplos de individuos que articulan directa e indirectamente sus propios procesos). 

El concepto de "modelo de razonamiento" fue introducido por OpenAI con su versión preliminar o1 (y o1-mini) en septiembre de 202,2, seguido por "Qwen with Questions" (QwQ-32B-preview) de Alibaba en noviembre y el experimento Gemini 2.0 Flash de Google en diciembre. Un hito en el desarrollo de los LLM de razonamiento fue el lanzamiento en enero de 2025 del modelo de código abierto DeepSeek-R1. Mientras que los procesos de entrenamiento utilizados para afinar los modelos de razonamiento anteriores habían sido secretos muy bien guardados, DeepSeek publicó un documento técnico detallado que proporcionó un plan para otros desarrolladores de modelos. IBM Granite, Anthropic y Mistral IA, entre otros, han lanzado desde entonces sus propios LLM de razonamiento.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Por qué funcionan los modelos de razonamiento?

Agregar un "proceso de pensamiento" a los resultados del modelo mitiga muchos de los defectos inherentes de la inferencia LLM estándar al ayudar al modelo a evitar atajos cognitivos dañinos y aflorar conocimientos potencialmente más relevantes que aprendió de los datos de entrenamiento.

En el contexto de los LLM de razonamiento, la literatura de investigación sobre IA a menudo hace referencia al pensamiento "Sistema 1" y "Sistema 2", términos acuñados por el economista conductual ganador del Premio Nobel Daniel Kahneman en su influyente obra Thinking, Fast and Slow. El pensamiento del Sistema 1 es rápido, inconsciente e intuitivo, se basa en la heurística y requiere poco o ningún esfuerzo. El pensamiento del Sistema 2 es lento, deliberado y lógico, y requiere un esfuerzo concertado. Los LLM autorregresivos se inclinan, por defecto, por el pensamiento del Sistema 13.

Para algunas tareas, el pensamiento del Sistema 1 es eficaz y computacionalmente eficiente. Pero para muchos otros, el pensamiento impulsivo del Sistema 1 se queda corto. Por ejemplo, un artículo de 2023 de los investigadores de Meta Jason Weston y Sainbayar Sukhbaatar señaló cómo los LLM se dejan influir fácilmente por la presencia de contexto irrelevante o detalles subjetivos en la instrucción de entrada.

Ejemplos de LLM Ejemplo de cómo los LLM que no razonan a menudo se "distraen" con información irrelevante. Tomado del artículo "System 2 Attention (is something you might need too)".

Propusieron una clase de técnicas que denominaron "Atención del Sistema 2" (S2A), en las que se instruye al modelo para que primero genere una versión reescrita de la instrucción despojada de contexto irrelevante y luego responda a esa instrucción reescrita. En los experimentos, S2A superó la inferencia estándar en una variedad de tareas, aumentando la precisión y disminuyendo el servilismo.

Ejemplos de LLM S2A, uno de los primeros métodos de escalado de inferencias. Al agregar pasos entre la entrada y la respuesta, en este caso, para reescribir la instrucción original, el modelo mejora su resultado. Tomado del artículo "System 2 Attention (is something you might need too)".

Conceptualmente hablando, el objetivo implícito de los enfoques de razonamiento podría entenderse como la implementación de un comportamiento del modelo similar al del Sistema 2 que explora, evalúa y refina sus posibles resultados.

Como paso esencial surgió de las primeras investigaciones de LLM que demostraron que simplemente agregar la frase "piense paso a paso", llamada cadena de pensamiento, mejora significativamente las salidas del modelo4,5. Un artículo de 2024 de Google DeepMind hizo una afirmación aún más amplia: ampliar el cálculo en tiempo de prueba (los recursos utilizados para generar una salida) aumenta el rendimiento del modelo tanto como ampliar el cálculo en tiempo de entrenamiento (los recursos utilizados para entrenar un modelo)6. El prompting de CoT es solo una de las muchas técnicas de escalado de inferencia, al igual que S2A.

Los modernos LLM de razonamiento van más allá: en lugar de basarse en el diseño de instrucciones, utilizan técnicas novedosas de ajuste fino y flujos de trabajo sofisticados para aumentar intrínsecamente la cantidad de computación que utiliza el modelo en el momento de la inferencia. La optimización de un modelo de razonamiento conlleva tanto el reto técnico de desarrollar algoritmos y datos de entrenamiento como el reto filosófico de diseñar un "proceso de pensamiento" ideal.

Cómo funcionan los modelos de razonamiento

Las etapas iniciales de los LLM de razonamiento de entrenamiento son similares a las de los LLM convencionales. Al igual que los LLM estándar, los modelos de razonamiento obtienen su capacidad lingüística general y su conocimiento del mundo a partir de un preentrenamiento autosupervisado a gran escala, seguido de una cierta cantidad de supervisado para adaptarlo a tareas posteriores (como el uso de chatbots conversacionales). La innovación central es la aplicación de técnicas de aprendizaje por refuerzo (RL) que incentivan al modelo a generar pasos de razonamiento intermedios en el momento de la inferencia antes de producir un resultado.

Años de investigación y experimentación han dado lugar a una serie de enfoques de razonamiento en expansión exponencial, pero todos comparten el objetivo fundamental de aumentar el cálculo del tiempo de prueba. Aparte del LLM básico (o ajustado a las instrucciones) que les sirve de base, los modelos de razonamiento se diferencian por las estrategias específicas de toma de decisiones que están entrenados para emplear y los algoritmos específicos utilizados para incentivar ese comportamiento.

En términos generales, existen dos métodos principales para aumentar el cálculo utilizado en el momento de la inferencia. El objetivo de afinar un modelo de razonamiento es entrenarlo para emplear uno (o ambos) de estos enfoques amplios a través de varios algoritmos de aprendizaje.

  • Generar resultados más largos: el modelo aprende a generar secuencias de resultados más largos a través de estrategias que incluyen una larga cadena de pensamiento, el retroceso y el autorrefinamiento.

  • Generar múltiples resultados: en lugar de generar un único resultado en respuesta a una instrucción, el modelo genera múltiples iteraciones de su resultado y llega a su respuesta final a través de un proceso de búsqueda, rechazo y agregación de posibles resultados.  

La naturaleza de los paradigmas de aprendizaje que producen modelos de razonamiento suele implicar el entrenamiento y la evaluación de problemas cuyas soluciones son de naturaleza verificable, como tareas de codificación o problemas matemáticos. Por lo tanto, las métricas de referencia utilizadas para evaluar el rendimiento del modelo de razonamiento suelen centrarse en esos dominios. Se han realizado muchas menos investigaciones sobre el impacto del razonamiento en dominios más subjetivos, como la escritura creativa.

Fine-tuning de refuerzo

Para el auge de los LLM de razonamiento ha sido fundamental el avance del fine-tuning basado en RL, que comprende tanto el RL basado en reglas como el RL basado en el deep learning ("RL profundo") en contextos de LLM. Mientras que el aprendizaje supervisado y autosupervisado requiere tareas de entrenamiento estáticas y bien definidas, el RL se adapta bien al tipo de tareas dinámicas, abiertas y complejas para las que el razonamiento de varios pasos es más útil.

El uso de RL para afinar los LLM de una manera que imparta cualidades abstractas no es exclusivo de los modelos de razonamiento. Por ejemplo, la canalización de entrenamiento estándar para un LLM que se utilizará en la configuración de chatbot es la siguiente:

  1. Preentrenamiento autosupervisado, en el que el modelo aprende los patrones lingüísticos y los conocimientos básicos que se aplicarán a las tareas posteriores.

  2. Ajuste supervisado (SFT), en el que el modelo aprende a formatear correctamente sus respuestas a las entradas del usuario.

  3. Ajuste de instrucciones, en el que el modelo aprende a seguir instrucciones y realizar tareas específicas.

  4. Aprendizaje por refuerzo a partir del feedback humano (RLHF), en el que el modelo se ajusta con precisión a los datos de preferencias humanas para impartir cualidades subjetivas como la utilidad, la inocuidad, la veracidad y el tono ideal.

Los LLM de razonamiento suelen pasar por esas mismas etapas de formación, con la adición (en algún momento) de una etapa de aprendizaje por refuerzo que inculca un proceso de razonamiento productivo basado en CoT. Esto se logra definiendo los objetivos de este proceso de razonamiento, los comportamientos específicos del modelo que se "recompensarán", como generar rastros de razonamiento CoT antes de un resultado, y luego optimizando los pesos del modelo de una manera que maximice la recompensa.

Como es difícil o incluso imposible diseñar una función de recompensa explícita para una tarea tan abstracta y compleja como un proceso de razonamiento que sea eficaz para la resolución de todos los problemas complejos, esta señal de recompensa a menudo proviene de un modelo de recompensa separado utilizado durante el entrenamiento. En RLHF, este modelo de recompensa se entrena con comentarios humanos y aprende a predecir una puntuación numérica de cuánto preferiría un humano una respuesta determinada.

En el contexto de RL para modelos de razonamiento, las señales de recompensa se pueden dividir en tres categorías amplias: modelos de recompensa de resultados (ORM), modelos de recompensa de procesos (PRM) y sistemas de recompensa basados en reglas.

Modelos de recompensa por resultados (ORM)

Los ORM, como su nombre indica, verifican la precisión del resultado del modelo de razonamiento y proporcionan señales de recompensa que se utilizan para optimizar los pesos del modelo en consecuencia. Esto es superficialmente similar al papel de una función de pérdida en el aprendizaje supervisado, aunque la mecánica suele ser más compleja.

Mientras que una función de pérdida suele medir la divergencia token por token entre el resultado de un modelo y la verdad fundamental, un ORM eficaz debe ser capaz de reconocer la respuesta correcta a un problema matemático incluso cuando se presenta de forma muy diferente a la respuesta de la verdad fundamental disponible, lo que suele ocurrir dada la alta variabilidad de los resultados largos de CoT. Del mismo modo, la mayoría de los problemas de codificación del mundo real tienen múltiples soluciones: la evaluación holística del resultado del código suele requerir una canalización de datos que ejecute y verifique eficazmente la eficacia de los fragmentos de código. Otras cualidades de resultado, como si sigue el formato o las instrucciones prescritos, pueden utilizar un LLM estándar como verificador.

Si bien los ORM son una solución relativamente sencilla y computacionalmente eficiente, pueden recompensar potencialmente situaciones en las que los pasos de razonamiento defectuosos conducen, sin embargo, a una respuesta final correcta, lo que da como resultado que el modelo aprenda procesos de razonamiento subóptimos.

Modelos de recompensa de procesos (PRM)

Los PRM puntúan y recompensan (o penalizan) cada paso de razonamiento individual de forma aislada, en lugar de centrarse únicamente en la precisión de la respuesta final. Esto proporciona señales de recompensa más detalladas y ajustes posteriores del modelo, lo que produce modelos con un proceso de razonamiento más sólido e interpretable.

Sin embargo, los PRM son más costosos y lentos de entrenar e implementar. Los primeros enfoques influyentes de los PRM se basaban casi por completo en el laborioso etiquetado de datos por parte de anotadores humanos7. Otros enfoques automatizan este proceso infiriendo la validez de un paso de razonamiento en función de la frecuencia con la que da como resultado una respuesta correcta8.

Sistemas de recompensa basados en reglas

Para evitar los costes y las complicaciones de los modelos de recompensa, algunos enfoques de ajuste fino basados en RL diseñan tareas de entrenamiento de forma que simplifican el acto de evaluar las salidas del modelo. Por ejemplo, las técnicas DeepSeek-R1 y R1-Zero proporcionan una instrucción a los modelos para que formateen sus respuestas finales dentro de un cuadro separado, lo que permite verificar la precisión sin un modelo de recompensa especializado que deba analizar toda la respuesta. Otros sistemas de recompensa basados en reglas incentivan microacciones específicas, como añadir "esperar" al final de una respuesta para fomentar una mayor exploración y autocorrección, que pueden ser fácilmente verificados9.

DeepSeek-R1-Zero: Pure RL

DeepSeek fue pionera en el desarrollo de una técnica de ajuste fino de refuerzo sencilla, ilustrativa y muy influyente en el entrenamiento de su modelo de razonamiento experimental de código abierto R1-Zero.

Utilizando DeepSeek-V3 como base, DeepSeek pasó directamente del preentrenamiento a un esquema de aprendizaje por refuerzo basado en reglas extremadamente simple:

  • Consulta del modelo: haga una pregunta al modelo. Indíquele que produzca un proceso de pensamiento entre los tokens "<think> " y a "</think> ", y produce su respuesta final entre los tokens "<answer> " y a "</answer> ".

  • Recompensas por la precisión: recompense al modelo por la calidad de su respuesta final, como por ejemplo lo bien que se ejecuta el código generado.

  • Recompensas de formato: recompense al modelo por utilizar correctamente el formato "<think> </think> " y a "<answer> </answer> " en las respuestas.

Sorprendentemente, sin ninguna instrucción explícita para hacerlo, DeepSeek-R1-Zero aprendió a generar complejas cadenas de pensamiento y a emplear estrategias de razonamiento que arrojaron un rendimiento impresionante en tareas matemáticas y de razonamiento. En otras palabras, dado solo el mandato de "pensar" antes de dar una respuesta final y maximizar la precisión de las respuestas finales, el modelo exploró y descubrió de forma natural patrones de razonamiento óptimos.

En la práctica, este enfoque simplificado tenía importantes defectos: tal y como explica el artículo técnico, "DeepSeek-R1-Zero se enfrenta a retos como la repetición infinita, la mala legibilidad y la mezcla de idiomas". Sin embargo, este enfoque de RL puro sirvió como base para la metodología más refinada que dio lugar al popular modelo DeepSeek-R1.

Enfoques basados en búsquedas y muestras

Mientras que la mayoría de los paradigmas de RL basados en CoT tienen como objetivo optimizar la eficacia de un único output, otros métodos generan múltiples resultados finales o intermedios con el objetivo de identificar e incentivar los mejores pasos de razonamiento.

Muchos de estos enfoques se basan en algoritmos de optimización basados en búsquedas, como la búsqueda en árbol de Monte Carlo (MCTS), para generar y explorar múltiples posibles pasos siguientes de razonamiento y evaluarlos en función de la calidad de los pasos posteriores y las respuestas finales a las que podrían conducir. A continuación, la recompensa se retropropaga iterativamente a través de las rutas de razonamiento que condujeron a los resultados deseables, y los pesos se optimizan de una manera que aumenta la probabilidad de esos pasos de razonamiento. Esto es especialmente útil para tareas de razonamiento con una gama muy amplia de decisiones potenciales o que requieren una planificación extensa a largo plazo para tener la oportunidad de llegar a una respuesta final precisa.

Otro enfoque es la autocoherencia, también llamada votación por mayoría. Cada tarea comienza con indicaciones de cadena de pensamiento. Las respuestas múltiples, cada una con sus propias rutas de razonamiento, se muestrean desde el decodificador del modelo. Se determina que la respuesta final que aparece de forma más consistente entre los resultados muestreados es la respuesta óptima. Esto se puede utilizar como una estrategia de tiempo de inferencia para minimizar la aleatoriedad y la alucinación o como un medio para generar datos de razonamiento de alta calidad para métodos basados en SFT.

El principal inconveniente de estos métodos es el aumento de la latencia y la sobrecarga computacional que introducen. Sin embargo, algunas investigaciones indican que los modelos más pequeños que emplean algoritmos de inferencia basados en búsquedas o muestras pueden ofrecer una compensación de rendimiento-eficiencia superior a los modelos más grandes utilizados de forma convencional10.

Enfoques de SFT, destilación de conocimientos y autosuperación

Una de las formas más sencillas desde el punto de vista conceptual para afinar los modelos de razonamiento es simplemente utilizar el aprendizaje supervisado en un conjunto de datos que comprenda indicaciones de entrada complejas y las correspondientes salidas basadas en CoT.

Si bien el uso de métodos convencionales para recopilar un conjunto de datos de entrenamiento "a mano" a partir de ejemplos escritos por humanos requiere una cantidad de tiempo y trabajo prohibitiva, la proliferación de modelos de razonamiento y técnicas de escalado de inferencia ha facilitado considerablemente la generación de datos de entrenamiento sintéticos adecuados. La investigación realizada por la Universidad de Stanford y el Instituto Allen para A1 descubrió que después de ajustar el Qwen2.5-32B-Instruct en un conjunto de datos seleccionado de solo 1000 pares de preguntas y rastros de razonamiento, su modelo "s1" superó la vista previa de OpenAI en problemas matemáticos de la competencia.

La destilación del conocimiento también se puede utilizar para enseñar a los modelos más pequeños a emular los procesos de pensamiento de los modelos de razonamiento más grandes ajustándolos a través de SFT directamente en los output generados por el modelo "maestro" más grande. DeepSeek utilizó la destilación del conocimiento, con DeepSeek-R1 como maestro, para crear versiones ajustadas al razonamiento de múltiples tamaños de modelos Qwen y Llama.

Otros métodos tienen como objetivo arrancar un conjunto de datos de instrucciones y los correspondientes resultados largos de CoT a través de un proceso de "automejora" del modelo. Self-Taught Reasoner (STaR) proporciona ejemplos de few-shot de trazas de razonamiento eficaces, luego instruye a un modelo para generar respuestas y razonamientos para un mayor número de preguntas de muestra. A continuación, el modelo se ajusta con fundamentos que finalmente arrojaron respuestas correctas, después de lo cual el proceso se repite iterativamente11. El autoentrenamiento reforzado (ReST) aplica un enfoque conceptual similar para afinar la señal de recompensa (o "política") utilizada para el afinamiento del refuerzo12. Ambos han dado lugar a una serie de metodologías derivadas.

AI Academy

Elija el modelo de IA adecuado para su caso de uso

Más grande no siempre es mejor cuando se trata de modelos de IA. Aprenda a encontrar la solución que mejor se adapte a las necesidades de su empresa. A continuación, consiga la guía que le ayudará a pasar a la acción.

Desafíos de los modelos de razonamiento

A pesar de sus muchos puntos fuertes y beneficios, los LLM de razonamiento no están exentos de inconvenientes.

Pensar demasiado

Los modelos de razonamiento, especialmente aquellos con relativamente pocos parámetros, son propensos a pensar demasiado. Un estudio de Tencent descubrió que los modelos de razonamiento consumen una media de un 1953 % más de tokens que los modelos convencionales para llegar a la misma respuesta13. Otro estudio, realizado por investigadores de varias universidades, descubrió que en entornos agénticos, los modelos de razonamiento tienden a participar en un razonamiento circular extendido en lugar de interactuar con herramientas externas y fuentes de información14.

Limitaciones del escalado de inferencia

Una investigación publicada por Anthropic en julio de 2025 afirmaba que pensar demasiado no es solo una cuestión de eficiencia: su artículo analiza "casos en los que un razonamiento más prolongado deteriora el rendimiento, mostrando una relación inversa entre el tiempo de cálculo de la prueba y la precisión". Si bien se ha demostrado empíricamente que aumentar el cálculo en tiempo de prueba a menudo puede mejorar el rendimiento del modelo, su investigación arrojó múltiples escenarios en los que un razonamiento más largo amplificaba las debilidades del modelo y los problemas de alineación, desafiando "la suposición de que más razonamiento mejora universalmente los resultados del modelo"15.

Una investigación relacionada de Apple a principios de 2025 demostró una serie de tareas de baja complejidad en las que los modelos estándar superaron a los modelos de razonamiento, así como tareas de alta complejidad en las que ambos tipos de modelos fallaron rotundamente. En las exploraciones de Apple, los modelos de razonamiento "no logran desarrollar capacidades generalizables de resolución de problemas para planificar tareas, y el rendimiento se reduce a cero más allá de un cierto umbral de complejidad"1.

Degradación en dominios sin razonamiento

Aunque el fine-tuning del razonamiento generalmente produce una mejora importante en tareas complejas en dominios lógicos como las matemáticas y la codificación, también puede conducir a caídas de rendimiento en otros lugares. Por ejemplo, en comparación con sus homólogos originales, las versiones de Llama 3.1 y Qwen2.5 que se ajustaron mediante la destilación de conocimientos en DeepSeek-R1 demostraron regresión en ArenaHard y Alpaca-Eval-2, pruebas de referencia populares que miden la capacidad de un modelo para resolver instrucciones difíciles. Dicho esto, las técnicas de razonamiento más amplias, como la optimización de preferencias de pensamiento (TPO) utilizada para afinar IBM® Granite 3.2, mejoran significativamente el seguimiento de instrucciones (aunque sin un impacto significativo en el rendimiento matemático o en el rendimiento de codificación).

Evaluaciones de LLM El fine-tuning de los modelos Llama y Qwen para emular el proceso de razonamiento de DeepSeek-R1 aumentó el rendimiento en dominios lógicos específicos, pero disminuyó el seguimiento general de instrucciones.

Mayor coste y latencia

Los usuarios deben pagar (y esperar) por todos los tokens que genera el modelo mientras "piensan", y esos tokens de pensamiento se comen la ventana de contexto disponible ventana de contexto. Algunos casos de uso justifican ese tiempo y cómputo extra, pero para otros es un desperdicio de recursos. Sin embargo, cambiar constantemente de un modelo de razonamiento a un modelo "estándar" tarea por tarea e instrucción por instrucción suele ser poco práctico.

Esfuerzo de razonamiento y modelos de razonamiento híbrido

Una solución son los "modelos de razonamiento híbrido". En febrero, IBM Granite 3.2 se convirtió en el primer LLM en ofrecer un modo de "pensamiento" conmutable, lo que permite a los usuarios aprovechar el razonamiento cuando lo necesitan y priorizar la eficiencia cuando no lo necesitan3. El Sonnet Claude 3.7 de Anthropic hizo lo propio ese mismo mes, añadiendo la posibilidad de que los usuarios de la API tuvieran un control preciso sobre el tiempo durante el que el modelo "piensa"17. Google introdujo una capacidad similar para ajustar el "presupuesto de pensamiento" de los modelos Gemini18. Del mismo modo, el "esfuerzo de razonamiento" de los modelos de razonamiento o1 y o3 de OpenAI se puede establecer en "bajo", "medio" o "alto".

Interpretabilidad

Aparentemente, revelar la cadena de pensamientos del modelo al usuario ayuda a comprender exactamente cómo llega un LLM a sus respuestas finales, proporcionando una mayor interpretabilidad de la que suele ser posible con un modelo estándar. Pero la investigación de Anthropic sugiere que los modelos de razonamiento no siempre dicen lo que realmente piensan. A través de una serie de tareas especialmente diseñadas, los investigadores descubrieron que tanto Claude 3.7 Sonnet como DeepSeek-R1 no explicaban fielmente su razonamiento: por ejemplo, cuando se les proporcionaban indicios de la respuesta correcta, sus respuestas rara vez mencionaban esos indicios al describir su supuesta justificación19.

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM en la cartera de IBM watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai Explore los modelos de IA de IBM Granite
Notas a pie de página

Enlaces externos a ibm.com a menos que se indique lo contrario.

1. "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity". Apple Machine Learning Research. Junio de 2025.
2. "Introducing OpenAI o1-preview". OpenAI. 12 de septiembre de 2024.
3. "From System 1 to System 2: A Survey of Reasoning Large Language Models". arXiv. 24 de febrero de 2025. 
4. "Large Language Models are Zero-Shot Reasoners". arXiv. 24 de mayo de 2022.
5. "Show Your Work: Scratchpads for Intermediate Computation with Language Models". arXiv. 30 de noviembre de 2022.
6. "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters". arXiv. 6 de agosto de 2024.
7. "Let's Verify Step by Step". arXiv. 31 de mayo de 2023.
8. "Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations". arXiv. 14 de diciembre de 2023.
9. "s1: Simple test-time scaling". arXiv. 31 de enero de 2025.
10. "Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models". arXiv. 1 de agosto de 2024.
11. "STaR: Bootstrapping Reasoning With Reasoning". arXiv. 28 de marzo de 2022.
12. "Reinforced Self-Training (ReST) for Language Modeling". arXiv. 17 de agosto de 2023.
13. "Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs". arXiv. 30 de diciembre de 2024.
14. "The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks". arXiv. 12 de febrero de 2025.
15. "Inverse Scaling in Test-Time Compute". arXiv. 19 de julio de 2025.
16. "Bringing reasoning to Granite". IBM Research. 7 de febrero de 2025.
17.  "Claude 3.7 Sonnet and Claude Code". Anthropic. 24 de febrero de 2025.
18. "Generative AI on Vertex AI: Thinking". Google
19. "Reasoning models don't always say what they think". Anthropic. 3 de abril de 2025.