¿Qué es tree of thoughts prompting?

Autores

Vrunda Gadesha

AI Advocate | Technical Content Author

¿Qué es tree of thoughts?

El árbol de pensamientos (ToT) es un marco innovador diseñado para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran tamaño (LLM). Este enfoque simula estrategias cognitivas humanas para la resolución de problemas, lo que permite a los LLM explorar múltiples soluciones potenciales de manera estructurada, similar a las rutas de ramificación de un árbol.[1]

¿Cómo funciona tree of thoughts?

ToT guía a los LLM a través de un serial de pasos de razonamiento, donde cada paso puede ramificar en múltiples rutas, lo que permite que el modelo retroceda o explore estrategias alternativas según sea necesario. Por ejemplo, resolver un sudoku podría guiar al modelo para explorar diferentes ubicaciones de números a modo de prueba y error. Luego retrocede cuando un número conduce a una contradicción e intenta un número diferente hasta que se resuelve el rompecabezas. Esto imita el enfoque humano para la resolución de problemas, donde se consideran múltiples soluciones y se descartan si se encuentran incorrectas.[1][3]

Marco para el árbol de pensamientos (ToT)

ToT es un sofisticado marco diseñado para mejorar las capacidades de resolución de problemas de los LLM estructurando su razonamiento de manera análoga a los procesos cognitivos humanos. El marco se conforma de cuatro componentes clave:

Descomposición del pensamiento

El marco ToT divide explícitamente un problema en pasos más pequeños y manejables llamados pensamientos, que se unen para formar una solución. Cada pensamiento debe tener el tamaño adecuado, no demasiado grande para manejarse ni demasiado pequeño para ser útil. Por ejemplo, si está planeando un viaje, una idea podría implicar decidir primero un destino de viaje, luego elegir el mejor medio de transporte y finalmente elegir un lugar para quedarse. En un problema matemático, un pensamiento puede ser una sola línea de ecuación o una explicación concisa de un concepto. De esta manera, el problema se divide en pasos clave que son fáciles de abordar y evaluar individualmente. La descomposición depende de la naturaleza del problema, lo cual garantiza que los pensamientos sean significativos y factibles para la evaluación.

Generación de pensamiento

Después de definir qué constituye un pensamiento, el siguiente paso es determinar cómo se generan estos pensamientos. El marco propone dos técnicas principales.[4]

  • Ejemplificación: esta técnica implica generar varios pensamientos de forma independiente empleando la misma instrucción. Funciona mejor cuando el espacio de pensamiento es rico y diverso, ya que es menos probable que los pensamientos generados de forma independiente se dupliquen. Por ejemplo, en la escritura creativa, se pueden generar múltiples ideas de trama independientes.
  • Proponer: Esta técnica genera pensamientos de forma secuencial a partir de una propuesta de "." Cada pensamiento se construye sobre el anterior, lo que ayuda a evitar la duplicación en espacios de pensamiento más restringidos. Por ejemplo, en la resolución lógica de problemas, cada paso se basa en el anterior para ayudar a garantizar la coherencia y el progreso.

Evaluación del estado

Una vez que se generan los pensamientos, deben evaluarse para ayudar a garantizar el progreso hacia una solución. El marco emplea 2 estrategias para este propósito:

  • Valor: Esta estrategia implica asignar un valor escalar (por ejemplo, una calificación de 1-10) o una clasificación (por ejemplo, seguro, probable o imposible) a cada estado. Esto ayuda a indicar la calidad del valor o la probabilidad de conducir a una solución. Este método permite una evaluación cuantitativa del potencial de cada pensamiento.
  • Votación: esta estrategia compara diferentes soluciones y selecciona la más prometedora. La votación es especialmente útil para tareas en las que la calidad de una solución es subjetiva o difícil de cuantificar, como en la escritura creativa o la planeación estratégica. Múltiples evaluaciones se combinan para determinar el mejor camino a seguir.

Algoritmo de búsqueda:

El componente final implica el algoritmo de búsqueda utilizado para navegar por el espacio de la solución. El marco suele emplear 2 algoritmos fundamentales:

  • Búsqueda en amplitud (BFS): este algoritmo explora todas las ramas posibles en cada nivel antes de profundizar en el árbol. Se cerciora de que todas las soluciones potenciales se consideren por igual, lo que lo hace útil para problemas en los que se prefiere el camino más corto o la solución más superficial. Por ejemplo, en un juego de rompecabezas, BFS verificaría todos los movimientos inmediatos antes de considerar los siguientes.
  • Búsqueda en profundidad (DFS): este algoritmo explora una rama profundamente antes de retroceder para explorar otras ramas. Permite un examen exhaustivo de cada posible ruta de solución, lo que lo hace útil para problemas que requieren una exploración detallada de cada opción. Por ejemplo, al resolver un problema lógico complejo, DFS seguiría una sola hipótesis profundamente, verificando su validez antes de considerar alternativas.

Al integrar estos componentes, el marco ToT imita la resolución humana de problemas al considerar sistemáticamente múltiples soluciones y descartar las que se encuentran incorrectas.

La dinámica operativa del marco ToT implica una exploración iterativa y estructurada en árbol de posibles soluciones. Comenzando con la instrucción inicial, el modelo genera una variedad de pensamientos o respuestas, cada uno de los cuales conduce a consultas o expansiones posteriores. Estas ramas se desarrollan a medida que el modelo explora diferentes caminos de razonamiento. Emplea el seguimiento del progreso y la exploración de todo este espacio de solución a través de una autoevaluación impulsada por LLM que ayuda a garantizar la validez de cada paso. Si una línea particular de razonamiento llega a una contradicción o callejón sin salida, el sistema puede retroceder a un nodo anterior para explorar posibilidades alternativas.

Este enfoque estructurado pero flexible permite a los LLM manejar tareas de razonamiento complejas y de varios pasos de manera más efectiva. Se asemeja a la capacidad humana de navegar a través de un laberinto de pensamientos y opciones, reevaluando y ajustando las estrategias según sea necesario.

En esencia, el marco ToT dota a los LLM de una capacidad de razonamiento y resolución de problemas más parecida a la humana, lo que aumenta su eficacia en tareas que requieren un pensamiento y una toma de decisiones profundos y estratégicos.

Diferencia entre chain of thoughts (CoT) y tree of thoughts (ToT)

Los marcos de árbol de pensamientos (ToT) y cadena de pensamientos (CoT) sirven como algoritmos conceptuales para comprender la organización y progresión de la generación de texto en modelos de lenguaje (LM) como transformadores generativos preentrenados (por ejemplo, GPT-3 y GPT-4 ). Estas técnicas de instrucciones forman parte de la ingeniería de instrucciones, que implica la elaboración de entradas (instrucciones) para guiar eficazmente a los LM en la generación de resultados preferidos.

Prompting del árbol de pensamientos: este marco opera con la capacidad del modelo para generar texto jerárquicamente, con un tema o idea central que conduce a subtemas y detalles ramificados. Este enfoque refleja cómo un modelo puede expandir en una instrucción específica generando texto cada vez más específico y relacionado, similar a una estructura de árbol. Permite estrategias de búsqueda anticipada y de árbol, donde el modelo puede explorar múltiples ramas antes de comprometer con una ruta, lo que lo hace adecuado para la resolución general de problemas y escenarios que requieren una toma de decisiones compleja. Este método incorpora razonamiento de sentido común y heurística para evaluar la calidad de cada rama. El mecanismo de autoconsistencia se emplea para proporcionar evaluaciones confiables al aplicar el modelo varias veces.

Instrucciones de la cadena de pensamiento: en contraste, este concepto corresponde a la capacidad del modelo para generar texto de manera lineal, de izquierda a derecha, donde cada token posterior está directamente influenciado por las fichas precedentes.Esta progresión secuencial refleja un enfoque más simple y directo para la generación de texto.CoT es eficaz para tareas que requieren un flujo lógico claro y paso a paso.El aprendizaje de pocas instantáneas, donde se proporciona al modelo algunos ejemplos de los que aprender, puede mejorar este método al proporcionar comprensión contextual.CoT sirve como una técnica de referencia en ingeniería rápida, ofreciendo un método fundamental que es más simple de implementar pero que podría carecer de la profundidad y complejidad de ToT.

Comparación y aplicaciones: si bien las instrucciones de ToT representan un enfoque más complejo e interconectado para la generación de texto, mediante el uso de estrategias de búsqueda de árboles y anticipación, CoT refleja una progresión secuencial más simple. La naturaleza jerárquica de ToT lo hace adecuado para tareas que requieren una exploración detallada de múltiples soluciones, como escenarios de aprendizaje por refuerzo, donde el retroceso y las estrategias alternativas son cruciales. Sin embargo, la progresión lineal de CoT es ideal para tareas que necesitan una secuencia de pensamientos clara y lógica.

En aplicaciones prácticas, las API para LMS, incluidas GPT-3 y GPT-4, emplean técnicas de instrucciones como ToT y CoT para mejorar su rendimiento en diversas tareas, desde la escritura creativa hasta la resolución de problemas complejos.[2] La ingeniería rápida continúa evolucionando y brindando herramientas poderosas para aprovechar las capacidades de los transformadores avanzados en los modelos de lenguaje.

Piense más allá de las instrucciones y obtenga el contexto completo 

Manténgase a la vanguardia de las últimas noticias de la industria, herramientas de IA y tendencias emergentes en ingeniería rápida con el boletín Think. Además, obtenga acceso a nuevos documentos explicativos, tutoriales e insights de expertos, directamente en su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Beneficios y limitaciones de tree of thoughts

El marco ToT representa un avance significativo en las capacidades de los LLM para la resolución de problemas complejos. Sin embargo, existen compensaciones que implican la complejidad adicional inherente a la implementación de este marco.

Ventajas

El marco ofrece beneficios para el campo de la inteligencia artificial, que incluyen:

Habilidades mejoradas de resolución de problemas

ToT mejora significativamente las habilidades de resolución de problemas de los LLM al permitirles explorar múltiples rutas de razonamiento simultáneamente. Esto refleja los procesos cognitivos humanos en los que se consideran varias soluciones potenciales y se selecciona la más viable. Por ejemplo, en tareas que requieren pensamiento o planeación estratégica, como resolver crucigramas o generar escritura creativa, ToT demostró un rendimiento superior, logrando mayores tasas de éxito en comparación con los métodos tradicionales. Esta mayor capacidad para el razonamiento complejo al descomponer los pasos intermedios es especialmente evidente en tareas desafiantes donde las decisiones iniciales influyen en gran medida en los resultados. [4]

Manejo de la incertidumbre

El árbol de pensamientos inciertos (TouT), una extensión de ToT, aborda específicamente las incertidumbres inherentes presentes en los procesos de toma de decisiones de los LLM. Al cuantificar y gestionar estas incertidumbres, TouT permite obtener resultados más precisos y confiables. Emplea técnicas como el Dropout de Monte Carlo. Esta técnica se emplea en el machine learning, particularmente en modelos de aprendizaje profundo, para estimar la incertidumbre en las predicciones. Implica descartar neuronas aleatoriamente durante el entrenamiento y la inferencia, lo que crea múltiples "caminos" diferentes a través de la red. Al promediar las predicciones de estos diferentes caminos, el modelo puede proporcionar estimaciones más confiables de la incertidumbre. Esta técnica es valiosa en aplicaciones donde las predicciones precisas y confiables son esenciales, como el diagnóstico médico o el pronóstico financiero. [5]

Limitaciones

Junto con los beneficios, existen algunas limitaciones inherentes que deben tener.

Sobrecarga computacional

El marco de ToT implica operaciones complejas, como mantener múltiples rutas de decisión, retroceder y explorar soluciones alternativas. Estos procesos son computacionalmente intensivos y a menudo requieren recursos significativos en términos de potencia de procesamiento y memoria. La necesidad de recursos puede limitar la escalabilidad de ToT, especialmente en entornos donde los recursos computacionales son limitados o en aplicaciones en tiempo real donde los tiempos de respuesta rápidos son críticos.

Complejidad de la implementación

La creación de un sistema de árbol de pensamientos implica la integración de varios componentes, como el agente prompter, el módulo verificador, el módulo de memoria y el controlador del árbol de pensamientos.[1] Cada componente debe ajustarse con precisión para que funcione en armonía, lo que puede ser un proceso complejo y laborioso. Además, la eficacia del sistema depende en gran medida de la calidad de su aplicación. Una mala configuración de cualquier componente puede reducir la eficacia de todo el sistema, y por tanto su fiabilidad, o llevarlo por vías de resolución de problemas incorrectas.

Ineficiencia de búsqueda

Investigaciones recientes han planteado preocupaciones sobre la eficiencia de las instrucciones al estilo ToT. El estudio destaca que ToT puede conducir a una exploración redundante de rutas de razonamiento de bajo valor, lo que resulta en una sobrecarga computacional innecesaria y un rendimiento de tareas más lento. A diferencia de las estrategias de planificación más específicas, ToT carece de mecanismos para priorizar ramas prometedoras, lo que puede obstaculizar su eficacia en tareas de razonamiento complejas.[6]


Para abordar estos problemas, los investigadores proponen un enfoque alternativo, Thought of Search, que incorpora heurísticas de planificación y obtención de información para guiar el proceso de razonamiento de manera más eficiente. Estos hallazgos sugieren que, si bien ToT sigue siendo un marco conceptual poderoso, su aplicación práctica puede obtener un beneficio de la integración con estrategias de búsqueda más eficientes.[6]

AI Academy

Conviértase en un experto en IA

Obtenga el conocimiento para priorizar las inversiones en IA que impulsan el crecimiento del negocio. Comience hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Casos de estudio

El marco ToT demostró su eficacia en diversas aplicaciones, poniendo de manifiesto su solidez y adaptabilidad. En este artículo se analizan cuatro casos en los que la tecnología para aprender a aprender mejoró significativamente la capacidad de resolución de problemas:

Resolución de sudokus

La aplicación ToT en la resolución de sudoku ejemplifica su capacidad para sortear desafíos lógicos complejos. Al guiar el modelo a través de varias ubicaciones de números y permitirle retroceder al encontrar contradicciones, ToT agiliza el camino hacia las soluciones correctas. Esta capacidad de reevaluar dinámicamente las decisiones mejora significativamente la precisión y la eficiencia de la resolución de problemas, destacando el beneficio de ToT sobre enfoques de resolución de problemas más estáticos.[1]

Juego de 24

En el juego aritmético estratégico del 24, ToT mejoró significativamente las tasas de éxito al permitir que el modelo explorara múltiples rutas de cálculo. Este proceso de razonamiento adaptativo permitió que el modelo resolviera acertijos de manera más creativa y efectiva, demostrando la capacidad de ToT para mejorar la flexibilidad cognitiva en la resolución numérica de problemas.[4]

Escritura creativa

La TdC también se aplicó a tareas de escritura creativa, donde ayuda a los alumnos de LLM a generar narraciones más coherentes y adecuadas al contexto. Al estructurar el proceso de pensamiento en un árbol ramificado, el modelo puede explorar distintos desarrollos argumentales u opciones estilísticas y seleccionar o revisar en función de los resultados más prometedores. Este método llevó a mejoras en la calidad y originalidad del texto generado por los LLM, proporcionando un enfoque más matizado para la narración automatizada.[4]

Resolución de crucigramas 5x5

Otra aplicación notable de ToT es la resolución de minicrucigramas de 5x5. El marco permite al modelo considerar múltiples opciones de palabras para cada pista de crucigrama, evaluándolas no sólo de forma aislada, sino también cómo interactúan con las palabras ya colocadas. Este enfoque de evaluación iterativo y holístico ayuda a garantizar una mayor precisión en la realización de los crucigramas y demuestra la capacidad de ToT para aplicar el razonamiento lógico y contextual en tareas lingüísticamente complejas. El uso de ToT en este contexto destaca su versatilidad y eficacia en tareas que requieren la integración de múltiples tipos de conocimiento y estrategias de razonamiento.[4]

Estos estudios de caso ilustran las diversas capacidades del marco del árbol de pensamientos, desde mejorar el razonamiento lógico y numérico hasta impulsar la creatividad y la comprensión contextual en tareas basadas en el lenguaje. Cada ejemplo subraya el potencial de ToT para revolucionar la resolución de problemas en todas las disciplinas.

Avances recientes

Los avances recientes en la investigación de ToT se centraron en ampliar sus capacidades y abordar los desafíos inherentes a su aplicación. Los desarrollos clave incluyen:

Cuantificación de la incertidumbre 

La introducción de tree of uncertain thoughts (TouT) marca un avance significativo en la investigación de ToT. TouT mejora ToT integrando mecanismos de cuantificación de la incertidumbre que evalúan la confiabilidad de cada ruta de decisión. Este desarrollo es crucial para aplicaciones en las que las decisiones deben tomarse en condiciones de incertidumbre y donde el costo de los errores puede ser alto.[5]

Toma de decisiones global 

Otras investigaciones se han centrado en mejorar las capacidades globales de toma de decisiones de los LLM cuando utilizan ToT. Estudios recientes introdujeron bucles de feedback en el marco, permitiendo que los modelos aprendan de decisiones pasadas y ajusten sus procesos de razonamiento en tiempo real. Este mecanismo de feedback iterativo ayuda a refinar el proceso de toma de decisiones, haciéndolo más dinámico y receptivo al contexto cambiante del problema. Estas mejoras tienen como objetivo acercar las capacidades de razonamiento de los LLM a los procesos cognitivos humanos, donde el aprendizaje de experiencias pasadas desempeña un papel crucial en la toma de decisiones futuras.[4]

Estos desarrollos recientes subrayan los esfuerzos continuos para refinar y ampliar el marco del árbol de pensamientos, ayudando a garantizar su aplicabilidad y eficacia en escenarios de resolución de problemas cada vez más complejos. Estos avances no solo mejoran las capacidades de los LLM, sino que también abren nuevas vías para la investigación y la aplicación de la inteligencia artificial.

Notas de pie de página

[1] Long, J. (mayo de 2023). Árbol del pensamiento guiado por un modelo de lenguaje amplio.

[2] Karthik Narasimhan, S. Y. (julio de 2023). Official Repository of Tree of Thoughts (ToT). https://github.com/princeton-nlp/tree-of-thought-llm

[3] Pengfei Liu, W. Y. (2021). Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Computing Surveys.

[4] Shunyu Yao, D. Y. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. ArXiv, abs/2305.10601. 
https://arxiv.org/abs/2305.10601

[5] 5 Shentong Mo, M. X. (septiembre de 2023). Tree of Uncertain Thoughts Reasoning for Large Language Models. ArXiv, abs/2309.07694. https://arxiv.org/abs/2309.07694

[6] Katz, M., Kokel, H., Srinivas, K., & Sohrabi, S. (2024). Thought of search: Planning with language models through the lens of efficiency. In A. Globerson, L. Mackey, D. Belgrave, A. Fan, U. Paquet, J. Tomczak, & C. Zhang (Eds.), Advances in Neural Information Processing Systems (Vol. 37, pp. 138491–138568).

Soluciones relacionadas
IBM® watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Con la IA, IBM Concert muestra insights cruciales sobre operaciones y proporciona recomendaciones de mejora específicas de las aplicaciones. Descubra cómo Concert puede hacer avanzar su negocio.

Explore Concert Explore las soluciones de automatización de procesos de negocio