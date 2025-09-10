Los primeros LLM (como los modelos GPT-1 y GPT-2 de OpenAI) proporcionaron respuestas directamente; la siguiente ola de modelos de cadena de pensamiento que debutó en 2022 añadió un elemento de razonamiento externalizado, con modelos esencialmente "pensando en voz alta" a medida que llegaban a una respuesta, mejorando la precisión y la explicabilidad.

A continuación vino una generación de modelos de lenguaje aumentado ("sistemas ALM") y agentes de IA, que añadieron capacidades de llamada a herramientas además de este razonamiento. Los primeros marcos de ALM, como ReAct, emplean un patrón de pensamiento-acción-observación, en el que el sistema observará lo que genera antes de empezar a pensar de nuevo. Aunque suelen ser eficaces, los marcos como ReAct pueden requerir un gran consumo de tokens, ya que cada llamada a herramientas posterior debe incluir todo el historial de conversaciones que la precede, un coste que se acumula con cada paso.

ReWOO rompe con el patrón "pensar-actuar-observar" al desvincular el razonamiento de las observaciones externas, lo que permite al modelo planificar su cadena de razonamiento internamente antes de invocar herramientas o recuperar información de forma selectiva. Esta separación reduce las idas y venidas innecesarias y permite que el modelo mantenga un plan a lo largo de la tarea.