Los primeros LLM (como los modelos GPT-1 y GPT-2 de OpenAI) proporcionaron respuestas directamente; la siguiente ola de modelos de cadena de pensamiento que debutó en 2022 agregó un elemento de razonamiento externalizado, con modelos que básicamente "piensan en voz alta" a medida que llegaban a una respuesta, mejorando la precisión y la explicabilidad.

Luego vino una generación de modelos de lenguaje aumentado ("sistemas ALM") y agentes de IA, que agregaron capacidades de llamada a herramientas además de este razonamiento. Los primeros marcos de ALM (como ReAct) emplean un patrón de pensamiento-acción-observación, donde el sistema observará lo que genera antes de comenzar a pensar nuevamente. Si bien en general son efectivas, las infraestructuras como ReAct pueden requerir un gran consumo de tokens, ya que cada llamada posterior a la herramienta debe incluir todo el historial de conversación que la precede, un costo que se exacerba con cada paso.

ReWOO rompe con el patrón pensar-actuar-observar al desacoplar el razonamiento de las observaciones externas, lo que permite que el modelo planifique su cadena de razonamiento internamente antes de invocar herramientas de forma selectiva o recuperar información. Esta separación reduce las idas y venidas innecesarias y permite que el modelo mantenga un plan a lo largo de la tarea.