¿Qué es el árbol de pensamientos en prompting?

Autores

Vrunda Gadesha

AI Advocate | Technical Content Author

¿Qué es un árbol de pensamiento?

El árbol de pensamiento (ToT) es un marco innovador diseñado para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran tamaño (LLM). Este enfoque simula las estrategias cognitivas humanas para la resolución de problemas, lo que permite a los LLM explorar múltiples soluciones potenciales de forma estructurada, similar a las rutas de ramificación de un árbol[1].

Ilustración con collage de pictogramas de datos que representan árbol de pensamiento

¿Cómo funciona el árbol de pensamiento?

El ToT guía a los LLM a través de una serie de pasos de razonamiento, donde cada paso puede bifurcarse en múltiples caminos, permitiendo al modelo retroceder o explorar estrategias alternativas según sea necesario. Por ejemplo, resolver un sudoku puede llevar al modelo a explorar diferentes colocaciones de números mediante el método de ensayo y error. Cuando un número lleva a una contradicción, el modelo retrocede y prueba con otro número hasta resolver el rompecabezas. Esto imita el planteamiento humano de la resolución de problemas, en el que se consideran múltiples soluciones y se descartan si se consideran incorrectas.[1][3]

Marco para el árbol de pensamiento (ToT)

ToT es un sofisticado marco diseñado para mejorar las capacidades de resolución de problemas de los LLM mediante la estructuración de su razonamiento de forma análoga a los procesos cognitivos humanos. El marco consta de cuatro componentes clave:

Descomposición del pensamiento

El marco ToT divide explícitamente un problema en pasos más pequeños y manejables llamados pensamientos, que se unen para formar una solución. Cada pensamiento debe tener el tamaño adecuado: ni demasiado grande para manejarlo ni demasiado pequeño para ser útil. Por ejemplo, si está planeando un viaje, una idea podría implicar decidir primero un destino de viaje, luego elegir el mejor medio de transporte y finalmente elegir un lugar en el que quedarse. En un problema matemático, un pensamiento puede ser una sola línea de ecuación o una explicación concisa de un concepto. De esta manera, el problema se divide en pasos clave que son fáciles de abordar y evaluar de forma individual. La descomposición depende de la naturaleza del problema, por lo que hay que asegurarse de que las reflexiones sean significativas y viables para la evaluación.

Generación de pensamiento

Después de definir qué constituye un pensamiento, el siguiente paso es determinar cómo se generan estos pensamientos. El marco propone dos técnicas principales[4].

  • Muestreo: esta técnica consiste en generar varios pensamientos de forma independiente utilizando el mismo prompt. Funciona mejor cuando el espacio de pensamiento es rico y diverso, ya que es menos probable que los pensamientos generados de forma independiente se dupliquen. Por ejemplo, en la escritura creativa, se pueden generar múltiples ideas argumentales independientes.
  • Proponer: esta técnica genera pensamientos secuencialmente utilizando un "prompt de propuesta". Cada pensamiento se basa en el anterior, lo que ayuda a evitar la duplicación en espacios de pensamiento más restringidos. Por ejemplo, en la resolución lógica de problemas, cada paso se basa en el anterior para ayudar a garantizar la coherencia y el progreso.

Evaluación estatal

Una vez que se generan los pensamientos, deben evaluarse para ayudar a garantizar el progreso hacia una solución. El marco emplea dos estrategias para este propósito:

  • Valor: esta estrategia implica asignar un valor escalar (por ejemplo, una calificación de 1 a 10) o una clasificación (por ejemplo, seguro, probable o imposible) a cada estado. Esto ayuda a indicar la calidad del valor o la probabilidad de que conduzca a una solución. Este método permite una evaluación cuantitativa del potencial de cada pensamiento.
  • Votación: esta estrategia compara diferentes soluciones y selecciona la más prometedora. La votación es especialmente útil para tareas en las que la calidad de una solución es subjetiva o difícil de cuantificar, como en la escritura creativa o la planificación estratégica. Se combinan múltiples evaluaciones para determinar el mejor camino a seguir.

Algoritmo de búsqueda:

El componente final implica el algoritmo de búsqueda utilizado para navegar por el espacio de la solución. El marco suele emplear dos algoritmos fundamentales:

  • Búsqueda en anchura (BFS): este algoritmo explora todas las ramas posibles en cada nivel antes de profundizar en el árbol. Se asegura de que todas las soluciones potenciales se tengan en cuenta por igual, por lo que resulta útil para problemas en los que se prefiere el camino más corto o la solución menos profunda. Por ejemplo, en un juego de ingenio, BFS comprobaría todos los movimientos inmediatos antes de considerar los siguientes.
  • Búsqueda en profundidad (DFS): este algoritmo explora una rama en profundidad antes de retroceder para explorar otras ramas. Permite un examen exhaustivo de cada posible ruta de solución, lo que lo hace útil para problemas que requieren una exploración detallada de cada opción. Por ejemplo, al resolver un problema lógico complejo, DFS seguiría una única hipótesis en profundidad, y comprobaría su validez antes de considerar alternativas.

Al integrar estos componentes, el marco ToT imita la resolución humana de problemas al considerar sistemáticamente múltiples soluciones y descartar las que se consideran incorrectas.

Diagrama de flujo con la descomposición del pensamiento que pasa a la generación de pensamientos y el algoritmo de búsqueda que pasa a la evaluación de estados

La dinámica operativa del marco ToT implica una exploración iterativa y estructurada en árbol de posibles soluciones. A partir del prompt inicial, el modelo genera una serie de pensamientos o respuestas, cada una de las cuales da lugar a consultas o ampliaciones posteriores. Estas ramas se desarrollan a medida que el modelo explora diferentes caminos de razonamiento. Emplea el seguimiento del progreso y la exploración de todo este espacio de solución a través de una autoevaluación impulsada por LLM que ayuda a garantizar la validez de cada paso. Si una determinada línea de razonamiento llega a una contradicción o a un callejón sin salida, el sistema puede retroceder a un nodo anterior para explorar posibilidades alternativas.

Este enfoque estructurado pero flexible permite a los LLM gestionar con mayor eficacia tareas de razonamiento complejas y de varios pasos. Se asemeja a la capacidad humana de navegar por un laberinto de pensamientos y opciones, en el que se reevalúan y ajustan las estrategias según sea necesario.

Básicamente, el marco ToT dota a los LLM de una capacidad de razonamiento y resolución de problemas más similar a la humana, lo que aumenta su eficacia en tareas que requieren un pensamiento y una toma de decisiones profundos y estratégicos.

Diferencia entre cadena de pensamiento (CoT) y árbol de pensamiento (ToT)

Los marcos del árbol de pensamientos (ToT) y la cadena de pensamientos (CoT) sirven como algoritmos conceptuales para comprender la organización y la progresión de la generación de texto en modelos de lenguaje (LM) como los transformadores generativos preentrenados (por ejemplo, GPT-3 y GPT-4). Estas técnicas de prompting forman parte del prompt engineering, que consiste en elaborar entradas (prompts) para guiar eficazmente a los LM en la generación de outputs preferidos.

Prompting de árbol de pensamiento: este marco se basa en la capacidad del modelo para generar texto jerárquicamente, con un tema o idea central que conduce a subtemas y detalles ramificados. Este enfoque refleja la forma en que un modelo puede ampliarse a partir de un prompt concreto y generar un texto cada vez más específico y coherente, de forma similar a una estructura de árbol. Permite estrategias de búsqueda anticipada y en árbol, en las que el modelo puede explorar múltiples ramas antes de comprometerse con un camino, lo que lo hace adecuado para la resolución de problemas generales y escenarios que requieren una toma de decisiones compleja. Este método incorpora razonamientos de sentido común y heurísticos para evaluar la calidad de cada rama. El mecanismo de autoconsistencia se emplea para proporcionar evaluaciones fiables al dar indicaciones (o prompts) al modelo varias veces.

Prompting de cadena de pensamiento: por el contrario, este concepto corresponde a la capacidad del modelo para generar texto de forma lineal, de izquierda a derecha, donde cada token posterior está directamente influido por los tokens precedentes. Esta progresión secuencial refleja un enfoque más sencillo y directo de la generación de textos. La CoT es eficaz para tareas que requieren un flujo lógico claro, paso a paso. El aprendizaje few-shot, en el que el modelo dispone de unos pocos ejemplos de los que aprender, puede mejorar este método aportando comprensión contextual. La CoT sirve como técnica de referencia en el prompt engineering, y constituye un método fundacional que es más sencillo de implementar pero que puede carecer de la profundidad y complejidad del ToT.

Comparación y aplicaciones: mientras que ToT representa un enfoque más intrincado e interconectado de la generación de textos, CoT refleja una progresión más sencilla y secuencial al utilizar estrategias de búsqueda en árbol y anticipación. La naturaleza jerárquica de ToT lo hace adecuado para tareas que requieren una exploración detallada de múltiples soluciones, como los escenarios de aprendizaje por refuerzo, donde el backtracking y las estrategias alternativas son cruciales. Sin embargo, la progresión lineal de CoT es ideal para tareas que requieren una secuencia clara y lógica de pensamientos.

En aplicaciones prácticas, las API para LM, incluidas GPT-3 y GPT-4, utilizan técnicas de prompting como ToT y CoT para mejorar su rendimiento en diversas tareas, desde la escritura creativa hasta la resolución de problemas complejos[2]. El prompt engineering sigue evolucionando y proporcionando potentes herramientas para aprovechar las capacidades de los transformadores avanzados en modelos de lenguaje.
 

Piense más allá de las instrucciones y obtenga el contexto completo 

Manténgase a la vanguardia de las últimas noticias de los sectores, herramientas de IA y tendencias emergentes en prompt engineering con el boletín Think. Además, acceda a nuevos artículos explicativos, tutoriales y conocimientos de expertos, directamente en su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Ventajas y limitaciones del árbol de pensamientos

El marco ToT representa un avance significativo en las capacidades de los LLM para la resolución de problemas complejos. Sin embargo, la complejidad añadida inherente a la aplicación de este marco tiene sus contrapartidas.

Ventajas

El marco ofrece beneficios en el campo de la inteligencia artificial, que incluyen:

Habilidades mejoradas para resolver problemas

El ToT mejora significativamente las habilidades de resolución de problemas de los LLM al permitirles explorar múltiples rutas de razonamiento de manera simultánea. Esto refleja los procesos cognitivos humanos, en los que se barajan varias soluciones posibles y se elige la más viable. Por ejemplo, en tareas que requieren pensamiento estratégico o planificación, como resolver sopas de letras o generar escritos creativos, el ToT ha demostrado un rendimiento superior, logrando tasas de éxito más altas en comparación con los métodos tradicionales. Esta mayor capacidad de razonamiento complejo mediante la descomposición de los pasos intermedios es especialmente evidente en las tareas difíciles, en las que las decisiones iniciales influyen mucho en los resultados[4].

Manejo de la incertidumbre

El árbol de pensamiento incierto (TouT), una extensión de ToT, aborda específicamente las incertidumbres inherentes presentes en los procesos de toma de decisiones de los LLM. Al cuantificar y gestionar estas incertidumbres, el TouT permite obtener resultados más precisos y fiables. Utiliza técnicas como la del abandono de Monte Carlo. Esta técnica se utiliza en el ámbito del machine learning, en particular en los modelos de deep learning, para estimar la incertidumbre en las predicciones. Consiste en eliminar neuronas aleatoriamente durante el entrenamiento y la inferencia, lo que crea múltiples "caminos" diferentes a través de la red. Al promediar las predicciones de estas diferentes trayectorias, el modelo puede proporcionar estimaciones más fiables de la incertidumbre. Esta técnica es valiosa en aplicaciones en las que son esenciales predicciones precisas y confiables, como el diagnóstico médico o las previsiones financieras.[5]

Limitaciones

Junto con las ventajas, hay algunas limitaciones inherentes que deben tenerse en cuenta.

Sobrecarga computacional

El marco ToT implica operaciones complejas como el mantenimiento de múltiples vías de decisión, el backtracking y la exploración de soluciones alternativas. Estos procesos son intensivos desde el punto de vista computacional y suelen requerir importantes recursos en términos de capacidad de procesamiento y memoria. La necesidad de recursos puede limitar la escalabilidad de ToT, especialmente en entornos con recursos computacionales limitados o en aplicaciones en tiempo real en las que los tiempos de respuesta rápidos son críticos.

Complejidad de implementación

La creación de un sistema de árbol de pensamientos implica la integración de varios componentes, como el agente prompter, el módulo verificador, el módulo de memoria y el controlador del árbol de pensamientos.[1] Cada componente debe ajustarse con precisión para que funcione en armonía, lo que puede ser un proceso complejo y laborioso. Además, la eficacia del sistema depende en gran medida de la calidad de su aplicación. Una mala configuración de cualquier componente puede reducir la eficacia de todo el sistema, y por tanto su fiabilidad, o llevarlo por vías de resolución de problemas incorrectas.

Ineficiencia de búsqueda

Investigaciones recientes han planteado preocupaciones sobre la eficiencia del prompting de estilo ToT. El estudio destaca que ToT puede conducir a una exploración redundante de rutas de razonamiento de bajo valor, lo que se traduce en una sobrecarga computacional innecesaria y un rendimiento más lento de las tareas. A diferencia de las estrategias de planificación más específicas, ToT carece de mecanismos para priorizar las ramas prometedoras, lo que puede dificultar su eficacia en tareas de razonamiento complejas.[6].


Para abordar estos problemas, los investigadores proponen un enfoque alternativo, Pensamiento de búsqueda, que incorpora heurísticas de planificación y obtención de información para guiar el proceso de razonamiento de manera más eficiente. Estos hallazgos sugieren que, si bien ToT sigue siendo un marco conceptual poderoso, su aplicación práctica puede beneficiarse de la integración con estrategias de búsqueda más eficientes[6].

AI Academy

Conviértase en un experto en IA

Obtenga los conocimientos necesarios para priorizar las inversiones en IA que impulsan el crecimiento empresarial. Dé sus primeros pasos hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Casos de éxito

El marco ToT ha demostrado su eficacia, solidez y adaptabilidad en diversas aplicaciones. Aquí, exploramos cuatro estudios de casos convincentes en los que ToT ha mejorado significativamente las capacidades de resolución de problemas:

Resolución de sudokus

La aplicación de ToT en la resolución de sudokus ejemplifica su capacidad para superar retos lógicos complejos. Al guiar al modelo a través de varias colocaciones de números y permitirle retroceder al encontrar contradicciones, ToT agiliza el camino hacia las soluciones correctas. Esta capacidad de reevaluar las decisiones de forma dinámica mejora significativamente la precisión y la eficiencia de la resolución de problemas, lo que pone de relieve la ventaja de ToT sobre enfoques de resolución de problemas más estáticos.[1]

Juego de 24

En el juego aritmético estratégico de 24, ToT mejoró significativamente las tasas de éxito al permitir al modelo explorar múltiples rutas de cálculo. Este proceso de razonamiento adaptativo permitió al modelo resolver acertijos de forma más creativa y eficaz, lo que demostró la capacidad de ToT para mejorar la flexibilidad cognitiva en la resolución numérica de problemas[4].

Escritura creativa

El ToT también se ha aplicado a tareas de escritura creativa, donde ayuda a los LLM a generar narrativas más coherentes y apropiadas a nivel contextual. Al estructurar el proceso de pensamiento en un árbol ramificado, el modelo puede explorar distintos desarrollos argumentales u opciones estilísticas y seleccionar o revisar en función de los resultados más prometedores. Este método ha permitido mejorar la calidad y originalidad de los textos generados por los LLM, lo que supone un enfoque más matizado de la narración automatizada.[4]

Resolución de crucigramas 5x5

Otra aplicación notable del ToT es la resolución de minicrucigramas de 5x5. El marco permite al modelo estudiar múltiples opciones de palabras para cada pista de crucigrama, evaluándolas no sólo de forma aislada, sino también cómo interactúan con las palabras ya colocadas. Este enfoque de evaluación iterativo y holístico ayuda a garantizar una mayor precisión en la realización de los rompecabezas y demuestra la capacidad de ToT para aplicar el razonamiento lógico y contextual en tareas lingüísticamente complejas. El uso de ToT en este contexto destaca su versatilidad y eficacia en tareas que requieren la integración de múltiples tipos de conocimientos y estrategias de razonamiento.[4]

Estos casos prácticos ilustran las diversas capacidades del marco del árbol de pensamiento, desde la mejora del razonamiento lógico y numérico hasta el impulso de la creatividad y la comprensión contextual en tareas basadas en el lenguaje. Cada ejemplo subraya el potencial de ToT para revolucionar la resolución de problemas en todas las disciplinas.

Avances recientes

Los avances recientes en la investigación de ToT se han centrado en ampliar sus capacidades y abordar los desafíos inherentes a su aplicación. Los desarrollos clave incluyen:

Cuantificación de la incertidumbre 

La introducción del árbol de pensamientos inciertos (TouT) marca un avance significativo en la investigación de ToT. El TouT mejora el ToT al integrar mecanismos de cuantificación de incertidumbre que evalúan la fiabilidad de cada ruta de decisión. Este desarrollo es crucial para aplicaciones en las que las decisiones deben tomarse en condiciones de incertidumbre y en las que el coste de los errores puede ser alto[5].

Toma de decisiones global 

Otras investigaciones se han centrado en mejorar las capacidades globales de toma de decisiones de los LLM cuando utilizan ToT. Estudios recientes han introducido bucles de feedback en el marco, lo que permite a los modelos aprender de decisiones pasadas y ajustar sus procesos de razonamiento en tiempo real. Este mecanismo iterativo de feedback ayuda a perfeccionar el proceso de toma de decisiones, y lo hace más dinámico y sensible al contexto cambiante del problema. Estas mejoras tienen como objetivo acercar las capacidades de razonamiento de los LLM a los procesos cognitivos humanos, donde el aprendizaje de experiencias pasadas desempeña un papel crucial en la toma de decisiones futuras[4].

Estos últimos avances ponen de relieve los esfuerzos constantes por perfeccionar y ampliar el marco del árbol de ideas, lo que contribuye a garantizar su aplicabilidad y eficacia en escenarios cada vez más complejos de resolución de problemas. Estos avances no solo mejoran las capacidades de los LLM, sino que también abren nuevas vías para la investigación y la aplicación de la inteligencia artificial.

Notas a pie de página

[1] Long, J. (mayo de 2023). Large Language Model Guided Tree-of-Thought.

[2] Karthik Narasimhan, S. Y. (Julio de 2023). Official Repository of Tree of Thoughts (ToT). https://github.com/princeton-nlp/tree-of-thought-llm

[3] Pengfei Liu, W. Y. (2021). Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Computing Surveys.

[4] Shunyu Yao, D. Y. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. ArXiv, abs/2305.10601. 
https://arxiv.org/abs/2305.10601

[5] 5 Shentong Mo, M. X. (Septiembre de 2023). Tree of Uncertain Thoughts Reasoning for Large Language Models. ArXiv. abs/2309.07694. https://arxiv.org/abs/2309.07694

[6] Katz, M., Kokel, H., Srinivas, K., y Sohrabi, S. (2024). Thought of search: Planning with language models through the lens of efficiency. In A. Globerson, L. Mackey, D. Belgrave, A. Fan, U. Paquet, J. Tomczak, y C. Zhang (Eds.). Advances in Neural Information Processing Systems (Vol. 37. PP. 138491–138568).

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA al servicio de su negocio con la experiencia líder del sector y el portfolio de soluciones de IA de IBM.

Explore las soluciones de IA
Servicios y consultoría de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma de trabajar de las empresas usando IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Gracias a la IA, IBM Concert descubre información crucial sobre sus operaciones y ofrece recomendaciones de mejora personalizadas para cada aplicación. Descubra cómo Concert puede hacer avanzar su negocio.

Explorar el concierto Explore las soluciones de automatización de procesos empresariales