Data di pubblicazione: 15 agosto 2024
Autori: Vrunda Gadesha, Eda Kavlakoglu
Il Tree of Thoughts (ToT) è un framework innovativo progettato per migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM). Questo approccio simula le strategie cognitive umane per risolvere i problemi, consentendo agli LLM di esplorare molteplici potenziali soluzioni in modo strutturato, in modo simile alle ramificazioni di un albero.[1]
I framework Tree of Thoughts (ToT) e Chain of Thoughts (CoT) fungono da algoritmi concettuali per comprendere l'organizzazione e la progressione della generazione di testo nei modelli linguistici (LM) come i trasformatori generativi preaddestrati (ad esempio, GPT-3 e GPT-4). Queste tecniche di prompt fanno parte del prompt engineering, che prevede la creazione di input (prompt) per guidare efficacemente gli LM nella generazione di output preferiti.
Prompt di tree of thoughts: questo framework si basa sulla capacità del modello di generare testo in modo gerarchico, in cui si parte da un argomento o un'idea centrale che porta poi a sottoargomenti e dettagli ramificati. Questo approccio rispecchia il modo in cui un modello può espandersi su un prompt specifico generando testo sempre più specifico e correlato, simile a una struttura ad albero. Consente strategie di lookahead e di ricerca ad albero, in cui il modello può esplorare più rami prima di scegliere un percorso, il che lo rende adatto per la risoluzione di problemi generali e per scenari che richiedono un processo decisionale complesso. Questo metodo incorpora il buon senso e l'euristica per valutare la qualità di ogni ramo. Il meccanismo di autoconsistenza viene utilizzato per fornire valutazioni affidabili richiamando più volte il modello.
Prompt di chain of thoughts: questo concetto corrisponde invece alla capacità del modello di generare testo in modo lineare, da sinistra verso destra, dove ogni token successivo è direttamente influenzato dai token precedenti. Questa progressione sequenziale riflette un approccio più semplice e diretto alla generazione del testo. Il CoT è efficace per le attività che richiedono un flusso logico chiaro e graduale. L'apprendimento istantaneo, in cui al modello vengono forniti alcuni esempi da cui imparare, migliora questo metodo fornendo una comprensione contestuale. Il CoT funge da tecnica di base nel prompt engineering, offrendo un metodo molto più semplice da implementare ma che potrebbe non avere la profondità e la complessità del ToT.
Confronto e applicazioni: sebbene il ToT prompting rappresenti un approccio più complesso e interconnesso alla generazione di testo, utilizzando strategie di ricerca ad albero e lookahead, il CoT riflette una progressione sequenziale più semplice. La natura gerarchica del ToT lo rende adatto a compiti che richiedono l'esplorazione dettagliata di più soluzioni, come gli scenari di apprendimento per rinforzo, in cui il backtracking e le strategie alternative sono fondamentali. La progressione lineare di CoT, invece, è ideale per le attività che richiedono una sequenza di pensieri chiara e logica.
Nelle applicazioni pratiche, le API per gli LM, tra cui GPT-3 e GPT-4, utilizzano tecniche di prompting come ToT e CoT per migliorare le loro prestazioni in diverse attività, dalla scrittura creativa alla risoluzione di problemi complessi.2 Il prompt engineering continua a evolversi, offrendo potenti strumenti per sfruttare le capacità dei trasformatori avanzati nei modelli linguistici.
Scopri gli ostacoli all'adozione dell'AI, in particolare la mancanza di soluzioni di governance e gestione del rischio dell'AI.
Registrati per leggere la guida sui foundation model
AI generativa + Apprendimento automatico (ML) per le imprese
Il ToT guida gli LLM attraverso una serie di fasi di ragionamento che si ramificano in più percorsi, consentendo al modello di tornare indietro o esplorare strategie alternative secondo necessità. Ad esempio, la risoluzione di un sudoku può guidare il modello ad esplorare diversi posizionamenti di numeri in modo sperimentale, facendolo tornare indietro quando un numero porta a una contraddizione, per poi provare un numero diverso finché il puzzle non viene risolto. Questo imita l'approccio umano alla risoluzione dei problemi, in cui più soluzioni vengono prese in considerazione e scartate se non corrette.[1][3]
ToT è un framework sofisticato progettato per migliorare le capacità di risoluzione dei problemi degli LLM strutturando il loro ragionamento in modo simile a quello dei processi cognitivi umani. Il framework è composto da quattro componenti chiave:
Integrando questi componenti, il framework ToT imita la risoluzione dei problemi umana considerando sistematicamente più soluzioni e scartando quelle ritenute errate.
Le dinamiche operative del framework ToT implicano un'esplorazione iterativa e strutturata ad albero delle possibili soluzioni. A partire dal prompt iniziale, il modello genera una serie di pensieri o risposte, ognuno dei quali porta a query o espansioni successive. Questi rami si sviluppano man mano che il modello esplora diversi percorsi di ragionamento. Impiega il monitoraggio dei progressi e l'esplorazione dell'intero spazio delle soluzioni attraverso un'autovalutazione basata su un LLM che aiuta a garantire la validità di ogni passaggio. Se una particolare linea di ragionamento raggiunge una contraddizione o un vicolo cieco, il sistema può tornare a un nodo precedente per esplorare possibilità alternative.
Questo approccio strutturato ma flessibile consente agli LLM di gestire in modo più efficace le attività di ragionamento complesse e articolate in più fasi. Ricorda la capacità umana di orientarsi in un labirinto di pensieri e opzioni, rivalutando e modificando le strategie a seconda delle necessità.
In sostanza, il quadro ToT fornisce agli LLM una capacità più simile a quella umana di ragionare e risolvere i problemi, migliorando la loro efficacia nelle attività che richiedono un pensiero profondo e strategico e capacità decisionali.
Il framework ToT rappresenta un importante progresso nelle capacità degli LLM di risolvere problemi complessi. Tuttavia, vi sono compromessi che riguardano la complessità aggiuntiva inerente all'attuazione di questo quadro.
Il framework offre diversi vantaggi nel campo dell'intelligenza artificiale, tra cui:
Il ToT migliora notevolmente le capacità di risoluzione dei problemi degli LLM permettendo loro di esplorare più percorsi di ragionamento contemporaneamente in un modo che ricorda i processi cognitivi umani, nei quali vengono prese in considerazione diverse soluzioni potenziali e viene selezionata la più praticabile. Ad esempio, nelle attività che richiedono pensiero strategico o pianificazione, come la risoluzione di rompicapo di parole o la generazione di scrittura creativa, il ToT ha dimostrato prestazioni superiori, raggiungendo percentuali di successo più elevate rispetto ai metodi tradizionali. Questa maggiore capacità di ragionamento complesso ottenuta scomponendo i passaggi intermedi è particolarmente evidente in attività impegnative in cui le decisioni iniziali influenzano notevolmente i risultati.[4]
Il tree of uncertain thoughts (TouT), un'estensione del ToT, affronta in modo specifico le incertezze intrinseche presenti nei processi decisionali degli LLM. Quantificando e gestendo queste incertezze, il TouT consente di ottenere risultati più precisi e affidabili. Utilizza tecniche come il Monte Carlo Dropout, utilizzato nel machine learning e in particolare nei modelli di deep learning per stimare l'incertezza nelle previsioni. Comporta l'eliminazione causale dei neuroni durante l'addestramento e l'inferenza, creando diversi "percorsi" attraverso la rete. Calcolando la media delle previsioni di questi diversi percorsi, il modello può fornire stime più affidabili dell'incertezza. Si tratta di una tecnica preziosa nelle applicazioni in cui sono essenziali previsioni precise e affidabili, come la diagnosi medica o la previsione finanziaria.[5]
Insieme ai vantaggi, ci sono alcune limitazioni intrinseche da considerare.
Il framework ToT prevede operazioni complesse come il mantenimento di più percorsi decisionali, il backtracking e l'esplorazione di soluzioni alternative, processi ad alta intensità di calcolo che spesso richiedono molte risorse di potenza computazionale e memoria. La necessità di risorse può limitare la scalabilità di ToT, soprattutto in ambienti con risorse computazionali limitate o in applicazioni in tempo reale in cui sono fondamentali tempi di risposta rapidi.
La configurazione di un sistema tree of thoughts comporta l'integrazione di vari componenti, come l'agente di prompt, il modulo di controllo, il modulo di memoria e il controller del tree of thoughts.[1] Ogni componente deve essere finemente adattato per funzionare in modo armonico, un processo che può essere complesso e lungo. Inoltre, l'efficacia del sistema dipende fortemente dalla qualità della sua implementazione. Una configurazione errata di qualsiasi componente può ridurre l'efficacia dell'intero sistema, rendendolo meno affidabile o portando a percorsi di risoluzione dei problemi errati.
Il framework ToT ha dimostrato la sua efficacia in varie applicazioni, provando la sua robustezza e adattabilità. Esploreremo ora 4 interessanti casi di studio in cui ToT ha migliorato notevolmente le capacità di risoluzione dei problemi:
L'applicazione del ToT nella risoluzione dei sudoku esemplifica la sua capacità di affrontare sfide logiche complesse. Guidando il modello attraverso vari posizionamenti numerici e consentendogli di tornare indietro in caso di contraddizioni, il ToT semplifica il percorso verso le soluzioni corrette. Questa capacità di rivalutare in modo dinamico le decisioni migliora notevolmente la precisione e l'efficienza nella risoluzione dei problemi, evidenziando il vantaggio del ToT rispetto ad approcci più statici alla risoluzione dei problemi.[1]
Nel gioco del 24, un rompicapo aritmetico strategico, il ToT ha migliorato notevolmente le percentuali di successo consentendo al modello di esplorare più percorsi di calcolo. Questo processo di ragionamento adattivo ha permesso al modello di risolvere i puzzle in modo più creativo ed efficace, dimostrando la capacità del ToT di migliorare la flessibilità cognitiva nella risoluzione dei problemi numerici.[4]
Il ToT è stato applicato anche alle attività di scrittura creativa, dove ha aiutato gli LLM a generare narrazioni più coerenti e contestualmente appropriate. Strutturando il processo di pensiero in un albero ramificato, il modello è in grado di esplorare diversi sviluppi di trama o scelte stilistiche e di effettuare selezioni o correzioni in base ai risultati più promettenti. Questo metodo ha portato a miglioramenti nella qualità e nell'originalità del testo generato dagli LLM, fornendo un approccio più sfumato allo storytelling automatizzato.[4]
Un'altra straordinaria applicazione del ToT è la risoluzione dei mini cruciverba 5x5. Il framework consente al modello di prendere in considerazione più opzioni di parole per ogni cruciverba, valutandole non solo in modo isolato, ma anche secondo il modo in cui interagiscono con quelle già inserite. Questo approccio di valutazione iterativo e olistico aiuta a garantire una maggiore precisione nel completamento dei puzzle e dimostra la capacità di ToT di applicare il ragionamento logico e contestuale in compiti linguisticamente complessi. L'uso del ToT in questo contesto evidenzia la sua versatilità ed efficacia per le attività che richiedono l'integrazione di più tipi di conoscenze e strategie di ragionamento.[4]
Questi case study illustrano le diverse capacità del framework del tree of thoughts, dal miglioramento del ragionamento logico e numerico all'aumento della creatività e della comprensione contestuale nelle attività basate sul linguaggio. Ogni esempio sottolinea il potenziale di ToT di rivoluzionare la risoluzione dei problemi in tutte le discipline.
I recenti progressi nella ricerca ToT si sono concentrati sull'espansione delle sue capacità e sull'affrontare le sfide intrinseche alla sua applicazione. I principali sviluppi includono:
Questi recenti sviluppi sottolineano gli sforzi in corso per perfezionare ed espandere il framework del tree of thoughts, contribuendo a garantirne l'applicabilità e l'efficacia in scenari di risoluzione dei problemi sempre più complessi. Questi progressi non solo migliorano le capacità degli LLM, ma aprono anche nuove strade per la ricerca e l'applicazione nell'intelligenza artificiale.
Dopo tutto il clamore intorno a ChatGPT, l'esperta IBM Kate Soule spiega come funzionano i modelli di linguaggio di grandi dimensioni e cosa può fare questa forma di intelligenza artificiale generativa per l'azienda.
Scopri come la tua organizzazione può scalare i workload AI, per tutti i tuoi dati, ovunque.
Esplora il framework chain of thoughts (CoT) con spiegazioni dettagliate e case study.
[1] Long, J. (maggio 2023). Large Language Model Guided Tree-of-Thought.
[2] Karthik Narasimhan, S. Y. (luglio 2023). Official Repository of Tree of Thoughts (ToT). https://github.com/princeton-nlp/tree-of-thought-llm (link esterno a ibm.com)
[3] Pengfei Liu, W. Y. (2021). Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Computing Surveys.
[4] Shunyu Yao, D. Y. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. ArXiv, abs/2305.10601. https://arxiv.org/abs/2305.10601 (link esterno a ibm.com)
[5] 5 Shentong Mo, M. X. (September 2023). Tree of Uncertain Thoughts Reasoning for Large Language Models. ArXiv, abs/2309.07694. https://arxiv.org/abs/2309.07694 (link esterno a ibm.com)