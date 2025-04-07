Il modello Claude AI di Anthropic non si limita a scrivere poesie: le fa anche rimare. Non si limita a rispondere alle domande, bensì valuta il significato tra le lingue, crea concetti interni e talvolta falsifica la sua logica per concordare con un utente. Inoltre, per la prima volta, i ricercatori stanno osservando lo svolgimento di questi processi in tempo reale.

In un nuovo studio, i ricercatori di Anthropic hanno rimosso gli strati del modello linguistico di Claude utilizzando un nuovo set di strumenti di interpretabilità, ovvero gli strumenti che aiutano a spiegare come e perché i modelli AI prendono le loro decisioni. I loro risultati rivelano un sistema che gestisce compiti di ragionamento complessi in modi che assomigliano alla cognizione umana, completo di pianificazione interna, astrazione concettuale e occasionali pregiudizi cognitivi. I risultati, che spingono i confini della trasparenza nello sviluppo dell'AI, stanno già risuonando tra i team di IBM, dove i ricercatori hanno condotto lavori di interpretabilità sui modelli IBM. Per entrambe le società, queste scoperte non sono solo curiosità scientifiche: sono un passo critico verso la creazione di modelli che possano essere compresi, affidabili e migliorati.

"Ciò che Anthropic sta facendo è affascinante," afferma Kaoutar El Maghraoui, Principal Research Scientist di IBM, in un'intervista a IBM Think. "Stanno iniziando a dimostrare che i modelli sviluppano strutture di ragionamento interno che assomigliano molto alla memoria associativa. Abbiamo osservato un comportamento simile nei nostri modelli".