En lugar de generar inmediatamente una respuesta directa a la entrada de un usuario, los modelos de razonamiento se entrenan para generar primero "pasos de razonamiento" intermedios antes de llegar a la respuesta final proporcionada al usuario. Algunos LLM de razonamiento muestran a los usuarios sus rastros de razonamiento, mientras que otros solo resumen u ocultan por completo estos outputs.
En pocas palabras, los LLM de razonamiento están entrenados para dedicar más tiempo a "pensar" antes de responder. Se ha demostrado empíricamente que la adición de este "proceso de razonamiento" produce importantes avances en el rendimiento de LLM en tareas de razonamiento complejas. Este éxito ha ampliado los casos de uso y los dominios del mundo real a los que se pueden aplicar los modelos de IA, lo que marca un importante punto de inflexión en el desarrollo continuo de la IA generativa y los agentes de IA.
Sin embargo, vale la pena señalar que los términos antropomórficos como "proceso de pensamiento" de un modelo son más convenientes que literales. Al igual que todos los modelos de machine learning, los modelos de razonamiento no son más que la aplicación de algoritmos sofisticados para realizar predicciones, como qué palabra debería venir a continuación, que reflejan los patrones aprendidos a partir de los datos de entrenamiento. Los LLM de razonamiento no han demostrado conciencia u otros signos de inteligencia artificial general (AGI). Una investigación sobre IA publicada por Apple en junio de 2025 pone en duda si las capacidades de razonamiento de los modelos actuales pueden escalar a un razonamiento verdaderamente "generalizable"1.
Quizás sea más exacto decir que los LLM de razonamiento están entrenados para "mostrar su trabajo" generando una secuencia de tokens que se asemeja a un proceso de pensamiento humano, y que este acto de "verbalizar" los pensamientos parece desbloquear capacidades latentes de razonamiento que los LLM aprenden implícitamente de su corpus masivo de datos de entrenamiento (que contiene ejemplos de individuos que articulan directa e indirectamente sus propios procesos).
El concepto de "modelo de razonamiento" fue introducido por OpenAI con su versión preliminar o1 (y o1-mini) en septiembre de 202,2, seguido por "Qwen with Questions" (QwQ-32B-preview) de Alibaba en noviembre y el experimento Gemini 2.0 Flash de Google en diciembre. Un hito en el desarrollo de los LLM de razonamiento fue el lanzamiento en enero de 2025 del modelo de código abierto DeepSeek-R1. Mientras que los procesos de entrenamiento utilizados para afinar los modelos de razonamiento anteriores habían sido secretos muy bien guardados, DeepSeek publicó un documento técnico detallado que proporcionó un plan para otros desarrolladores de modelos. IBM Granite, Anthropic y Mistral IA, entre otros, han lanzado desde entonces sus propios LLM de razonamiento.