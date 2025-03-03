Il nuovo Claude 3.7 Sonnet di Anthropic ora può attivare e spegnere la modalità di deep thinking come un interruttore, rispondendo istantaneamente a domande semplici mentre riserva il lavoro computazionale pesante a problemi complessi che ne hanno bisogno.
Questo approccio di ragionamento ibrido segna un cambiamento nell'intelligenza artificiale che, secondo gli esperti, può sia ridurre i costi che aumentare le capacità, con i modelli Granite di IBM che adottano anche caratteristiche di commutazione simili in base alla complessità dell'attività. Questa evoluzione arriva mentre le organizzazioni di tutto il mondo lottano con le realtà finanziarie dell'AI avanzata, rendendo potenzialmente più accessibile il ragionamento sofisticato e conservando preziose risorse.
"La struttura dei costi dei modelli di pensiero conta: non tutte le domande richiedono una pausa di 32 secondi affinché il modello possa riflettere," afferma Maya Murad, Product Manager for AI presso IBM Research, durante un recente episodio del podcast Mixture of Experts. "Questa funzionalità permette alle imprese di utilizzare risorse in modo intelligente, applicando calcoli estesi solo quando il problema lo richiede, creando sistemi di AI che si adattino meglio a come gli esseri umani affrontano i diversi compiti cognitivi."
Il ragionamento ibrido segnala uno spostamento nell'attenzione del settore dell'AI, che passa dalla semplice costruzione di sistemi più potenti alla creazione di sistemi pratici da usare, racconta a IBM Think Abraham Daniels, Senior Program Manager presso IBM Research. Per le aziende, questo cambiamento potrebbe essere cruciale, poiché il costo di gestire un'AI sofisticata è diventato una considerazione fondamentale.
I modelli consumano molte più risorse computazionali (e quindi costano più) durante il ragionamento profondo rispetto a quando forniscono risposte semplici. Il ragionamento ibrido consente alle aziende di ottimizzare la spesa per l'AI, adeguando i livelli di calcolo alla complessità del compito.
Anthropic ha lanciato di recente Claude 3.7 Sonnet con una "modalità di pensiero estesa", che consente agli utenti di richiedere analisi più approfondite quando necessario. Allo stesso modo, IBM ha dotato i suoi modelli Granite di funzionalità di "toggling", dando agli utenti il controllo su quando attivare il ragionamento intensivo.
"Abbiamo costruito un ragionamento ibrido con una filosofia diversa rispetto ad altri modelli di ragionamento sul mercato", ha dichiarato un portavoce di Anthropic a IBM Think. "Il nostro approccio si basa su come funziona il cervello umano. Come esseri umani, non abbiamo due cervelli separati per il pensiero veloce contro quello profondo, e in Anthropic consideriamo il ragionamento come qualcosa che deve essere profondamente integrato nelle funzionalità di tutti i nostri modelli, piuttosto che come una caratteristica separata. Questo approccio si basa su come vediamo Claude integrarsi con i nostri clienti in tutte le applicazioni. Mentre alcune interazioni richiedono risposte rapide, come il brainstorming di materiale di marketing, altre, come analisi finanziarie complesse o ricerche di settore, richiedono riflessioni più approfondite e prolungate. Volevamo rendere entrambe queste funzionalità il più semplici e convenienti possibile per i nostri clienti, in modo che potessero accedervi e utilizzarle."
Il processo di pensiero dell'AI diventa più trasparente con questo approccio. "Il modello in sé è ancora una scatola chiusa, ma almeno negli output si può in un certo senso vedere come il modello è giunto a quella conclusione", afferma Daniels. Questa visibilità può migliorare i risultati e affrontare le preoccupazioni di spiegabilità, cosa particolarmente importante per i settori regolamentati, dice.
Daniels e altri esperti vedono questo sviluppo come una risposta a un'esigenza pratica: eliminare i costi di calcolo non necessari per domande semplici.
"Non servono tanti ragionamenti per tutte le attività, e ti dà la possibilità, quando le cose si fanno più complicate, di pagare di più, sia in termini di latenza che di costo", afferma durante il podcast Kate Soule, Director of Technical Product Management di IBM Research.
Il funzionamento interno dei modelli linguistici di grandi dimensioni (LLM) è stato tradizionalmente poco trasparente. Un modello riceve un prompt e genera una risposta, senza rivelare le fasi interne del suo ragionamento.
Il ragionamento ibrido cambia questa dinamica, esponendo il processo di pensiero passo dopo passo di un modello. Una volta attivati, sistemi come Granite 3.2 mostrano il loro lavoro, rendendo visibili i percorsi logici che seguono.
"La nostra decisione di rendere visibile il processo di ragionamento di Claude riflette la considerazione di molteplici fattori. "Uno di questi fattori include una migliore esperienza utente e la trasparenza della fiducia nel processo di ragionamento di Claude", ha affermato il portavoce di Anthropic. "Questo fornisce agli utenti insight su come vengono raggiunte le conclusioni, promuovendo livelli adeguati di fiducia e comprensione. In genere gli utenti si fidano di più degli output quando possono osservare la catena di pensiero. Speriamo che questa visibilità permetta agli utenti di valutare meglio la qualità e la completezza del ragionamento di Claude, e aiuti gli utenti a comprendere meglio le funzionalità di Claude. Inoltre, ci auguriamo che utenti e sviluppatori possano creare prompt migliori leggendo gli output del pensiero di Claude e fornendo feedback su passaggi specifici di ragionamento."
"Essere in grado di esporre il vero pensiero della modella è ottimo per la spiegabilità," afferma Daniels. "Prima di poter dimostrare il ragionamento della chain of thought (CoT), era in realtà solo la probabilità del token successivo. Quindi, un po' come una black box."
Queste tecnologie hanno applicazioni aziendali che si estendono a molti settori. "Settore finanziario e legale sono naturalmente adatti perché trattano documentazione strutturata", afferma Daniels, aggiungendo che "qualsiasi settore regolamentato può trarre un enorme valore" da questi modelli di pensiero avanzati.
Ma il ragionamento ibrido può essere particolarmente utile in ambiti che richiedono analisi complesse.
"La matematica e il codice sono in realtà i due punti focali che ho visto in termini di benchmark per il ragionamento", afferma Daniels. Per lo sviluppo software, i benefici potrebbero essere sostanziali: "Usare un modello di pensiero potrebbe definire come dovrebbe essere l'ambito del progetto in base ai requisiti che hai deposto", afferma.
Gli LLM standard generano risposte prevedendo la parola successiva più probabile in base a modelli presenti nei loro dati di addestramento. Questo approccio funziona bene per molti compiti, ma questi modelli possono avere difficoltà con problemi di ragionamento a più fasi.
I modelli di ragionamento ibrido possono passare a una modalità computazionalmente intensiva, generando esplicitamente passaggi intermedi di ragionamento prima di fornire una risposta finale. Il modello utilizza queste fasi per risolvere problemi complessi, in modo simile a come gli esseri umani scrivono le fasi intermedie quando risolvono problemi matematici complessi.
L'architettura che consente il ragionamento ibrido si basa su ciò che i ricercatori chiamano "computo in tempo di test", che consiste nell'impegno delle risorse computazionali durante l'inferenza piuttosto che solo durante l'addestramento.
"Molte volte, tradizionalmente, tutta la potenza di calcolo veniva usata per addestrare il modello, e poi inferire il modello era relativamente leggero in termini di requisiti computazionali," dice Daniels.
Ma man mano che i sistemi di AI diventano più complessi, la sfida non sarà solo la potenza di calcolo, ma sapere quando usarla in modo efficiente. Ecco perché la prossima frontiera del ragionamento ibrido, secondo Daniels, sarà un'autoregolazione più intelligente: insegnare all'AI quando attivare la sua modalità di pensiero più profondo da sola, senza che gli esseri umani glielo dicano.
"I prossimi passi in termini di modelli di ragionamento, o di modelli di ragionamento ibridi, sono come possiamo capire meglio o fare il triage degli input all'interno del calcolo del tempo di prova, o all'interno del framework".
