Home topics Che cos'è il tree of thoughts? Che cos'è il tree of thoughts?
Esplora il tree of thoughts con watsonx.ai Iscriviti per ricevere gli aggiornamenti sull'AI
Un diagramma del flusso di dati dall'input all'output

Data di pubblicazione: 15 agosto 2024
Autori: Vrunda Gadesha, Eda Kavlakoglu

Il Tree of Thoughts (ToT) è un framework innovativo progettato per migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM). Questo approccio simula le strategie cognitive umane per risolvere i problemi, consentendo agli LLM di esplorare molteplici potenziali soluzioni in modo strutturato, in modo simile alle ramificazioni di un albero.[1]

Differenza tra chain of thoughts (CoT) e tree of thoughts (ToT)

I framework Tree of Thoughts (ToT) e Chain of Thoughts (CoT) fungono da algoritmi concettuali per comprendere l'organizzazione e la progressione della generazione di testo nei modelli linguistici (LM) come i trasformatori generativi preaddestrati (ad esempio, GPT-3 e GPT-4). Queste tecniche di prompt fanno parte del prompt engineering, che prevede la creazione di input (prompt) per guidare efficacemente gli LM nella generazione di output preferiti.

Prompt di tree of thoughts: questo framework si basa sulla capacità del modello di generare testo in modo gerarchico, in cui si parte da un argomento o un'idea centrale che porta poi a sottoargomenti e dettagli ramificati. Questo approccio rispecchia il modo in cui un modello può espandersi su un prompt specifico generando testo sempre più specifico e correlato, simile a una struttura ad albero. Consente strategie di lookahead e di ricerca ad albero, in cui il modello può esplorare più rami prima di scegliere un percorso, il che lo rende adatto per la risoluzione di problemi generali e per scenari che richiedono un processo decisionale complesso. Questo metodo incorpora il buon senso e l'euristica per valutare la qualità di ogni ramo. Il meccanismo di autoconsistenza viene utilizzato per fornire valutazioni affidabili richiamando più volte il modello.

Prompt di chain of thoughts: questo concetto corrisponde invece alla capacità del modello di generare testo in modo lineare, da sinistra verso destra, dove ogni token successivo è direttamente influenzato dai token precedenti. Questa progressione sequenziale riflette un approccio più semplice e diretto alla generazione del testo. Il CoT è efficace per le attività che richiedono un flusso logico chiaro e graduale. L'apprendimento istantaneo, in cui al modello vengono forniti alcuni esempi da cui imparare, migliora questo metodo fornendo una comprensione contestuale. Il CoT funge da tecnica di base nel prompt engineering, offrendo un metodo molto più semplice da implementare ma che potrebbe non avere la profondità e la complessità del ToT.

Confronto e applicazioni: sebbene il ToT prompting rappresenti un approccio più complesso e interconnesso alla generazione di testo, utilizzando strategie di ricerca ad albero e lookahead, il CoT riflette una progressione sequenziale più semplice. La natura gerarchica del ToT lo rende adatto a compiti che richiedono l'esplorazione dettagliata di più soluzioni, come gli scenari di apprendimento per rinforzo, in cui il backtracking e le strategie alternative sono fondamentali. La progressione lineare di CoT, invece, è ideale per le attività che richiedono una sequenza di pensieri chiara e logica.

Nelle applicazioni pratiche, le API per gli LM, tra cui GPT-3 e GPT-4, utilizzano tecniche di prompting come ToT e CoT per migliorare le loro prestazioni in diverse attività, dalla scrittura creativa alla risoluzione di problemi complessi.2 Il prompt engineering continua a evolversi, offrendo potenti strumenti per sfruttare le capacità dei trasformatori avanzati nei modelli linguistici.
 

Perché la governance dell'AI è un imperativo per la scalabilità dell'intelligenza artificiale a livello aziendale

Scopri gli ostacoli all'adozione dell'AI, in particolare la mancanza di soluzioni di governance e gestione del rischio dell'AI.

Contenuti correlati

Registrati per leggere la guida sui foundation model

AI generativa + Apprendimento automatico (ML) per le imprese

Come funziona il tree of thoughts?

Il ToT guida gli LLM attraverso una serie di fasi di ragionamento che si ramificano in più percorsi, consentendo al modello di tornare indietro o esplorare strategie alternative secondo necessità. Ad esempio, la risoluzione di un sudoku può guidare il modello ad esplorare diversi posizionamenti di numeri in modo sperimentale, facendolo tornare indietro quando un numero porta a una contraddizione, per poi provare un numero diverso finché il puzzle non viene risolto. Questo imita l'approccio umano alla risoluzione dei problemi, in cui più soluzioni vengono prese in considerazione e scartate se non corrette.[1][3]

Framework per tree of thoughts (ToT)

ToT è un framework sofisticato progettato per migliorare le capacità di risoluzione dei problemi degli LLM strutturando il loro ragionamento in modo simile a quello dei processi cognitivi umani. Il framework è composto da quattro componenti chiave:

  1. Scomposizione del pensiero: il framework ToT suddivide esplicitamente un problema in fasi più piccole e gestibili chiamate pensieri, che vengono messi insieme per formare una soluzione. Ogni pensiero deve avere le dimensioni giuste: non troppo grande da maneggiare, né così piccolo da essere inutile. Ad esempio, se stai programmando un viaggio, un pensiero può consistere nel decidere in anticipo una destinazione di viaggio, poi scegliere il mezzo di trasporto migliore e infine scegliere un posto dove soggiornare. In un problema matematico, un pensiero può essere una singola linea di equazione o una spiegazione concettuale concisa. In questo modo, il problema viene suddiviso in passaggi chiave facili da affrontare e da valutare individualmente. La scomposizione dipende dalla natura del problema, per fare in modo che i pensieri siano significativi e fruibili per la valutazione.
  2. Generazione del pensiero: dopo aver definito cos'è un pensiero, il passaggio successivo è determinare come i pensieri vengono generati. Il framework propone due tecniche primarie.[4]
    • Campionamento: questa tecnica prevede la generazione di diversi pensieri in modo indipendente utilizzando lo stesso prompt. Funziona meglio quando lo spazio di pensiero è ricco e diversificato, poiché i pensieri generati in modo indipendente hanno meno probabilità di essere duplicati. Ad esempio, nella scrittura creativa, possono essere generate più idee di trama indipendenti.
    • Proposta: questa tecnica genera pensieri in sequenza utilizzando un "prompt di proposta". Ogni pensiero si basa su quello precedente, per evitare duplicazioni in spazi di pensiero più ristretti. Ad esempio, nella risoluzione logica dei problemi, ogni passaggio si basa su quello precedente per garantire coerenza e progresso.
  3. Valutazione dello stato: una volta generati i pensieri, è necessario valutarli per garantire il progresso verso una soluzione. Per farlo, il quadro si avvale di 2 strategie:
    • Valore: questa strategia prevede l'assegnazione di un valore scalare (ad esempio, un punteggio da 1 a 10) o di una classificazione (ad esempio, sicuro, probabile o impossibile) a ogni stato. Questo aiuta a indicare la qualità o la probabilità con cui il valore porterà a una soluzione. Questo metodo consente una valutazione quantitativa del potenziale di ciascun pensiero.
    • Votazione: questa strategia confronta diverse soluzioni e seleziona quella più promettente. La votazione è particolarmente utile per le attività in cui la qualità di una soluzione è soggettiva o difficile da quantificare, come nella scrittura creativa o nella pianificazione strategica. Le valutazioni multiple si combinano per determinare il miglior percorso da seguire.
  4. Algoritmo di ricerca: il componente finale riguarda l'algoritmo di ricerca utilizzato per navigare nello spazio delle soluzioni. Il framework utilizza tipicamente 2 algoritmi fondamentali:
    • Breadth-First Search (BFS): questo algoritmo esplora tutti i rami possibili a tutti i livelli prima di addentrarsi più a fondo nell'albero. Assicura che tutte le potenziali soluzioni siano considerate allo stesso modo, il che lo rende utile per i problemi in cui si preferisce il percorso più breve o la soluzione più superficiale. Ad esempio, in un rompicapo, BFS controllerà tutte le mosse immediate prima di considerare quelle successive.
    • Ricerca approfondita (DFS): questo algoritmo esplora a fondo un ramo prima di tornare indietro per esplorarne altri. Consente di esaminare in modo approfondito ogni potenziale percorso di soluzione, cosa che lo rende utile per problemi che richiedono un'esplorazione dettagliata di ciascuna opzione. Ad esempio, nel risolvere un problema logico complesso, DFS segue a fondo una singola ipotesi, verificandone la validità prima di prendere in considerazione qualsiasi alternativa.

Integrando questi componenti, il framework ToT imita la risoluzione dei problemi umana considerando sistematicamente più soluzioni e scartando quelle ritenute errate.

 

Le dinamiche operative del framework ToT implicano un'esplorazione iterativa e strutturata ad albero delle possibili soluzioni. A partire dal prompt iniziale, il modello genera una serie di pensieri o risposte, ognuno dei quali porta a query o espansioni successive. Questi rami si sviluppano man mano che il modello esplora diversi percorsi di ragionamento. Impiega il monitoraggio dei progressi e l'esplorazione dell'intero spazio delle soluzioni attraverso un'autovalutazione basata su un LLM che aiuta a garantire la validità di ogni passaggio. Se una particolare linea di ragionamento raggiunge una contraddizione o un vicolo cieco, il sistema può tornare a un nodo precedente per esplorare possibilità alternative.

Questo approccio strutturato ma flessibile consente agli LLM di gestire in modo più efficace le attività di ragionamento complesse e articolate in più fasi. Ricorda la capacità umana di orientarsi in un labirinto di pensieri e opzioni, rivalutando e modificando le strategie a seconda delle necessità.

In sostanza, il quadro ToT fornisce agli LLM una capacità più simile a quella umana di ragionare e risolvere i problemi, migliorando la loro efficacia nelle attività che richiedono un pensiero profondo e strategico e capacità decisionali.

Vantaggi e limiti del tree of thoughts

Il framework ToT rappresenta un importante progresso nelle capacità degli LLM di risolvere problemi complessi. Tuttavia, vi sono compromessi che riguardano la complessità aggiuntiva inerente all'attuazione di questo quadro.

Vantaggi

Il framework offre diversi vantaggi nel campo dell'intelligenza artificiale, tra cui:

Capacità di risoluzione dei problemi migliorate

Il ToT migliora notevolmente le capacità di risoluzione dei problemi degli LLM permettendo loro di esplorare più percorsi di ragionamento contemporaneamente in un modo che ricorda i processi cognitivi umani, nei quali vengono prese in considerazione diverse soluzioni potenziali e viene selezionata la più praticabile. Ad esempio, nelle attività che richiedono pensiero strategico o pianificazione, come la risoluzione di rompicapo di parole o la generazione di scrittura creativa, il ToT ha dimostrato prestazioni superiori, raggiungendo percentuali di successo più elevate rispetto ai metodi tradizionali. Questa maggiore capacità di ragionamento complesso ottenuta scomponendo i passaggi intermedi è particolarmente evidente in attività impegnative in cui le decisioni iniziali influenzano notevolmente i risultati.[4]

Gestione dell'incertezza

Il tree of uncertain thoughts (TouT), un'estensione del ToT, affronta in modo specifico le incertezze intrinseche presenti nei processi decisionali degli LLM. Quantificando e gestendo queste incertezze, il TouT consente di ottenere risultati più precisi e affidabili. Utilizza tecniche come il Monte Carlo Dropout, utilizzato nel machine learning e in particolare nei modelli di deep learning per stimare l'incertezza nelle previsioni. Comporta l'eliminazione causale dei neuroni durante l'addestramento e l'inferenza, creando diversi "percorsi" attraverso la rete. Calcolando la media delle previsioni di questi diversi percorsi, il modello può fornire stime più affidabili dell'incertezza. Si tratta di una tecnica preziosa nelle applicazioni in cui sono essenziali previsioni precise e affidabili, come la diagnosi medica o la previsione finanziaria.[5]

Limitazioni

Insieme ai vantaggi, ci sono alcune limitazioni intrinseche da considerare.

Sovraccarico computazionale

Il framework ToT prevede operazioni complesse come il mantenimento di più percorsi decisionali, il backtracking e l'esplorazione di soluzioni alternative, processi ad alta intensità di calcolo che spesso richiedono molte risorse di potenza computazionale e memoria. La necessità di risorse può limitare la scalabilità di ToT, soprattutto in ambienti con risorse computazionali limitate o in applicazioni in tempo reale in cui sono fondamentali tempi di risposta rapidi.

Complessità di implementazione

La configurazione di un sistema tree of thoughts comporta l'integrazione di vari componenti, come l'agente di prompt, il modulo di controllo, il modulo di memoria e il controller del tree of thoughts.[1] Ogni componente deve essere finemente adattato per funzionare in modo armonico, un processo che può essere complesso e lungo. Inoltre, l'efficacia del sistema dipende fortemente dalla qualità della sua implementazione. Una configurazione errata di qualsiasi componente può ridurre l'efficacia dell'intero sistema, rendendolo meno affidabile o portando a percorsi di risoluzione dei problemi errati.

Case study

Il framework ToT ha dimostrato la sua efficacia in varie applicazioni, provando la sua robustezza e adattabilità. Esploreremo ora 4 interessanti casi di studio in cui ToT ha migliorato notevolmente le capacità di risoluzione dei problemi:

Risoluzione dei Sudoku

L'applicazione del ToT nella risoluzione dei sudoku esemplifica la sua capacità di affrontare sfide logiche complesse. Guidando il modello attraverso vari posizionamenti numerici e consentendogli di tornare indietro in caso di contraddizioni, il ToT semplifica il percorso verso le soluzioni corrette. Questa capacità di rivalutare in modo dinamico le decisioni migliora notevolmente la precisione e l'efficienza nella risoluzione dei problemi, evidenziando il vantaggio del ToT rispetto ad approcci più statici alla risoluzione dei problemi.[1]

Gioco del 24

Nel gioco del 24, un rompicapo aritmetico strategico, il ToT ha migliorato notevolmente le percentuali di successo consentendo al modello di esplorare più percorsi di calcolo. Questo processo di ragionamento adattivo ha permesso al modello di risolvere i puzzle in modo più creativo ed efficace, dimostrando la capacità del ToT di migliorare la flessibilità cognitiva nella risoluzione dei problemi numerici.[4]

Scrittura creativa

Il ToT è stato applicato anche alle attività di scrittura creativa, dove ha aiutato gli LLM a generare narrazioni più coerenti e contestualmente appropriate. Strutturando il processo di pensiero in un albero ramificato, il modello è in grado di esplorare diversi sviluppi di trama o scelte stilistiche e di effettuare selezioni o correzioni in base ai risultati più promettenti. Questo metodo ha portato a miglioramenti nella qualità e nell'originalità del testo generato dagli LLM, fornendo un approccio più sfumato allo storytelling automatizzato.[4]

Risoluzione di cruciverba 5x5

Un'altra straordinaria applicazione del ToT è la risoluzione dei mini cruciverba 5x5. Il framework consente al modello di prendere in considerazione più opzioni di parole per ogni cruciverba, valutandole non solo in modo isolato, ma anche secondo il modo in cui interagiscono con quelle già inserite. Questo approccio di valutazione iterativo e olistico aiuta a garantire una maggiore precisione nel completamento dei puzzle e dimostra la capacità di ToT di applicare il ragionamento logico e contestuale in compiti linguisticamente complessi. L'uso del ToT in questo contesto evidenzia la sua versatilità ed efficacia per le attività che richiedono l'integrazione di più tipi di conoscenze e strategie di ragionamento.[4]

Questi case study illustrano le diverse capacità del framework del tree of thoughts, dal miglioramento del ragionamento logico e numerico all'aumento della creatività e della comprensione contestuale nelle attività basate sul linguaggio. Ogni esempio sottolinea il potenziale di ToT di rivoluzionare la risoluzione dei problemi in tutte le discipline.

Progressi recenti

I recenti progressi nella ricerca ToT si sono concentrati sull'espansione delle sue capacità e sull'affrontare le sfide intrinseche alla sua applicazione. I principali sviluppi includono:

  1. Quantificazione dell'incertezza: l'introduzione del tree of uncertain thoughts (TouT) segna un progresso significativo nella ricerca sul ToT. Il TouT migliora il ToT integrando meccanismi di quantificazione dell'incertezza che valutano l'affidabilità di ogni percorso decisionale. Questo sviluppo è cruciale per le applicazioni in cui le decisioni devono essere prese in condizioni di incertezza e dove il costo degli errori può essere elevato.[5]
  2. Processo decisionale globale: ulteriori ricerche si sono concentrate sul miglioramento delle capacità decisionali globali degli LLM quando si utilizza ToT.  Alcuni studi recenti hanno introdotto cicli di feedback nel framework, consentendo ai modelli di apprendere dalle decisioni passate e di regolare i loro processi di ragionamento in tempo reale. Questo meccanismo di feedback iterativo aiuta a perfezionare il processo decisionale, rendendolo più dinamico e reattivo al mutevole contesto del problema. Tali miglioramenti mirano ad avvicinare le capacità di ragionamento degli LLM ai processi cognitivi umani, dove l'apprendimento dalle esperienze passate gioca un ruolo cruciale nel plasmare le decisioni future.[4]

Questi recenti sviluppi sottolineano gli sforzi in corso per perfezionare ed espandere il framework del tree of thoughts, contribuendo a garantirne l'applicabilità e l'efficacia in scenari di risoluzione dei problemi sempre più complessi. Questi progressi non solo migliorano le capacità degli LLM, ma aprono anche nuove strade per la ricerca e l'applicazione nell'intelligenza artificiale.
 

Risorse Cosa sono i modelli di AI generativa

Dopo tutto il clamore intorno a ChatGPT, l'esperta IBM Kate Soule spiega come funzionano i modelli di linguaggio di grandi dimensioni e cosa può fare questa forma di intelligenza artificiale generativa per l'azienda.

IBM watsonx.data è un archivio dati aperto, ibrido e governato

Scopri come la tua organizzazione può scalare i workload AI, per tutti i tuoi dati, ovunque.

Che cos'è il Chain of Thought (CoT)?

Esplora il framework chain of thoughts (CoT) con spiegazioni dettagliate e case study.

Fai il passo successivo

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Esplora watsonx.ai Prenota una demo live
Note a piè di pagina

[1] Long, J. (maggio 2023). Large Language Model Guided Tree-of-Thought.

[2] Karthik Narasimhan, S. Y. (luglio 2023). Official Repository of Tree of Thoughts (ToT). https://github.com/princeton-nlp/tree-of-thought-llm (link esterno a ibm.com)

[3] Pengfei Liu, W. Y. (2021). Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Computing Surveys.

[4] Shunyu Yao, D. Y. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. ArXiv, abs/2305.10601. https://arxiv.org/abs/2305.10601 (link esterno a ibm.com)

[5] 5 Shentong Mo, M. X. (September 2023). Tree of Uncertain Thoughts Reasoning for Large Language Models. ArXiv, abs/2309.07694. https://arxiv.org/abs/2309.07694 (link esterno a ibm.com)