En lugar de generar inmediatamente una respuesta directa a la entrada de un usuario, los modelos de razonamiento se entrenan para generar primero "pasos de razonamiento" intermedios antes de llegar a la respuesta final proporcionada al usuario. Algunos LLM de razonamiento muestran a los usuarios sus rastros de razonamiento, mientras que otros solo resumen u ocultan por completo estos resultados intermedios.
En pocas palabras, los LLM de razonamiento están entrenados para pasar más tiempo “pensando” antes de responder. Se ha demostrado empíricamente que la adición de este “proceso de razonamiento” produce importantes avances en el desempeño de LLM en tareas de razonamiento complejas. Este éxito ha ampliado los casos de uso y los dominios del mundo real a los que se pueden aplicar los modelos de IA, lo que marca un importante punto de inflexión en el desarrollo continuo de la IA generativa y los agentes de IA.
Cabe señalar, sin embargo, que los términos antropomórficos como el “proceso de pensamiento” de un modelo son más convenientes que los literales. Al igual que todos los modelos de machine learning, los modelos de razonamiento en última instancia solo aplican algoritmos sofisticados para hacer predicciones, como qué palabra debería venir a continuación, que reflejan patrones aprendidos de los datos de entrenamiento. Los LLM de razonamiento no han demostrado conciencia u otros signos de inteligencia artificial general (AGI). La investigación de IA publicada por Apple en junio de 2025 arroja dudas sobre si las habilidades de razonamiento del modelo actual pueden escalar a un razonamiento verdaderamente "generalizable".1
Quizás sea más exacto decir que los LLM de razonamiento están entrenados para "mostrar su trabajo" generando una secuencia de tokens que se asemeja a un proceso de pensamiento humano, y que este acto de "verbalizar" los pensamientos parece desbloquear capacidades de razonamiento latentes que los LLM aprenden implícitamente de su corpus masivo de datos de entrenamiento (que contiene ejemplos de personas que articulan directa e indirectamente sus propios procesos).
El concepto de “modelo de razonamiento” fue introducido por o1-preview (y o1-mini) de OpenAI en septiembre de 2024,2 seguido de “Qwen with Questions” de Alibaba (QwQ-32B-preview) en noviembre y el Gemini 2.0 Flash Experiment de Google en Diciembre. Un hito en el desarrollo de los LLM de razonamiento fue el lanzamiento en enero de 2025 del modelo DeepSeek-R1 de código abierto. Mientras que los procesos de entrenamiento utilizados para ajustar los modelos de razonamiento anteriores habían sido secretos muy bien guardados, DeepSeek publicó un documento técnico detallado que proporcionó un proyecto técnico para otros desarrolladores de modelos. IBM® Granite, Anthropic y Mistral IA, entre otros, han lanzado desde entonces sus propios LLM de razonamiento.