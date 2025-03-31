Mentre modelli di ragionamento come o1 di OpenAI, DeepSeek-R1 e Gemini 2.5 di Google competono per i migliori benchmark, le aziende che vogliono integrare l'AI stanno diventando sempre più caute verso ciò che si chiama "bloating del modello", il fenomeno per cui i modelli diventano inutilmente grandi o complessi, aumentando i costi computazionali e i tempi di addestramento dei modelli e riducendo la velocità con cui possono fornire le risposte di cui le aziende hanno bisogno.
O1 e DeepSeek-R1 di OpenAI utilizzano il ragionamento della chain of thought (CoT) per suddividere problemi complessi in fasi, raggiungendo prestazioni senza precedenti e maggiore accuratezza rispetto ai modelli precedenti. Ma la CoT richiede anche risorse sostanziali durante l'inferenza, portando a output lunghi e una latenza ad alta, afferma Volkmar Uhlig, un VP e AI Infrastructure Portfolio Lead presso IBM, in un'intervista con IBM Think.
Ed è qui che entra in scena una nuova classe di tecniche di prompting, descritte in vari nuovi articoli, che vanno dall'atomo di pensiero (AoT) alla catena di draft (CoD), che mirano ad aumentare l'efficienza e la precisione di CoT aiutando i modelli a risolvere problemi più rapidamente, riducendo così costi e latenza.
L'AI scientist e fondatore della startup Lance Elliott vede le nuove diramazioni della chain of thought come variazioni nel toolkit di un ingegnere di prompt. "Il tipico toolkit per il fai da te domestico potrebbe includere un martello normale, che sarebbe CoT", spiega a IBM Think. "L'AoT sarebbe come usare un martello specializzato per situazioni che comportano il taglio e la regolazione del cartongesso. Per i lavori sul cartongesso potresti usare un martello normale, ma se avessi un martello per cartongesso e lo sapessi usare correttamente sarebbe meglio."
Vyoma Gajjar, AI Technical Solution Architect presso IBM, vede potenziale in questi nuovi cugini di CoT, soprattutto per le aziende "che cercano modi più economici per spingere i piccoli modelli a ottenere risposte accurate per i loro casi d'uso specifici", afferma.
A differenza del chain of thought, che risolve problemi complessi suddividendoli in passaggi dettagliati e sequenziali, l'AoT utilizza una strategia per suddividere il problema e risolverlo. In particolare, l'AoT suddivide i passaggi di un problema in "domande atomiche" che vengono elaborate in parallelo, come spiegano gli autori di un articolo della Hong Kong University of Science e della Renmin University of China, quindi assembla le singole soluzioni per raggiungere una risposta finale.
AoT può funzionare sia come framework standalone che come plug-in di potenziamento. Quando gli autori hanno utilizzato AoT con GPT-4o mini di OpenAI, hanno superato diversi modelli di ragionamento in sei benchmark di base, tra cui o3-mini del 3,4% e DeepSeek-R1 del 10,6% sul set di dati HotpotQA.
Gajjar vede del potenziale in AoT per applicazioni aziendali che cercano di bilanciare le prestazioni con il mantenimento di un determinato profilo di costo. "I compiti separati vengono eseguiti in parallelo e poi si lascia che questi compiti, o 'atomi', parlino tra loro, per ottenere la soluzione più accurata, come un elettrone parla a un protone", afferma in un'intervista a IBM Think.
Gli autori dell'articolo confermano che AoT raggiunge "prestazioni competitive a costi computazionali significativamente inferiori rispetto ai metodi esistenti", aggiungendo che "questa maggiore efficienza può essere attribuita alla nostra rappresentazione dello stato atomico che preserva solo le informazioni necessarie eliminando i calcoli ridondanti."
Tuttavia, l'AoT non funziona bene per tutti i casi d'uso. Elliott, AI scientist, afferma che l'AoT sarà probabilmente utile "quando si utilizza l'AI generativa per ricavare prove matematiche, produrre codice di programmazione e per compiti di ragionamento altamente strutturati". E sarebbe meno probabile che migliorerà l'efficienza con compiti di scrittura creativa e coinvolgimento in conversazioni, afferma.
Nel frattempo, la strategia di prompting Chain of Draft (CoD) affronta il collo di bottiglia che può verificarsi quando i modelli di ragionamento producono passaggi prolissi e molto dettagliati che aumentano la latenza. Questo fenomeno rappresenta una differenza fondamentale tra i modelli di ragionamento e gli esseri umani, che tendono a "fare affidamento su bozze concise o insight abbreviati per acquisire informazioni essenziali senza elaborazioni inutili", scrivono gli autori di Zoom Communications in un nuovo articolo sul CoD.
"Il problema della latenza è stato spesso trascurato", scrivono gli autori dell'articolo. "Tuttavia, per molte applicazioni in tempo reale è fondamentale avere una bassa latenza, pur mantenendo risposte di alta qualità."
Con i suggerimenti CoD, un LLM è incoraggiato a produrre una spiegazione concisa mentre ragiona per arrivare a una risposta. Ad esempio, il prompt CoT diceva: "Pensa passo a passo per rispondere alla seguente domanda. Restituisci la risposta alla fine della risposta dopo un separatore ####.” Al contrario, il prompt di CoD istruiva il modello a "Pensa passo a passo, ma mantieni solo una bozza minima per ogni fase di pensiero, con al massimo 5 parole. Restituisci la risposta alla fine della risposta dopo un separatore."
Utilizzando ChatGPT-4o di OpenAI e Claude 3.5 Sonnet di Anthropic, i ricercatori hanno scoperto che CoD eguagliava o superava CoT in termini di accuratezza utilizzando il 92,4% di token in meno, riducendo così i costi e la latenza in varie attività di ragionamento.
"Siamo in un mondo completamente nuovo di esplorazione algoritmica", afferma Uhlig di IBM. "Se addestri i prompt in modo diverso, è possibile ridurre drasticamente il numero di token. Questo è un passo successivo naturale."
Mentre continuano ad apparire molte nuove tecniche di prompting, una chiamata "Skeleton of Thought" (SoT) si contraddistingue per la combinazione di elementi sia dell'Atom of Thought che della Chain of Draft. Gli autori di un articolo che propone questa tecnica dicono di essere stati motivati dal "processo di scrittura e di pensiero degli esseri umani". Il prompting SoT guida l'LLM nella generazione dello scheletro di una risposta, quindi completa il contenuto di ciascun punto dello scheletro in parallelo.
Utilizzando lo scheletro del pensiero, gli autori della Tsinghua University della Cina e di Microsoft Research sono riusciti ad accelerare il funzionamento di vari LLM e a migliorare l'accuratezza delle risposte in diverse categories. "Dimostriamo la fattibilità della decodifica parallela di LLM standard senza apportare alcuna modifica al loro modello, sistema o hardware", scrivono.
Ad esempio, i ricercatori hanno posto al modello la domanda: "Quali sono le strategie più efficaci per la risoluzione dei conflitti sul posto di lavoro?" Utilizzando il prompting SoT, gli autori hanno ridotto la latenza da 22 secondi a 12 secondi (un aumento di velocità di 1,83x) con Claude, e da 43 secondi a 16 secondi (un aumento di velocità di 2,69x) con Vicuna 33B V1.3.
Nessuna delle tecniche di prompting è la soluzione definitiva per ogni sfida, sarà il compito da svolgere a determinare l'opzione più efficiente nel "toolkit dell'ingegnere di prompting", afferma Elliott. "Sapere come funziona l'AI generativa dietro le quinte è molto vantaggioso", spiega. "È come guidare un'auto. Non è necessario conoscere i dettagli complessi di come funziona un motore o un cambio, ma almeno conoscere alcuni principi chiave può essere di grande aiuto per migliorare la guida di un'automobile. Saprai affrontare meglio situazioni come strade ghiacciate o bagnate, guida in zone montane e curve strette."
