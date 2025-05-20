Mentre i grandi modelli linguistici (LLM) diventano più precisi con le parole, a volte diventano più confusi con i fatti.
Questi errori, noti come allucinazioni, non sono bug innocui. Indicano un problema centrale nel modo in cui i sistemi AI generano il linguaggio. Invece di estrarre i dati da un database, i modelli prevedono cosa sembra giusto basandosi su modelli presenti nei loro dati di addestramento. Queste congetture possono portare a preventivi falsi, polizze inventate e false richieste di risarcimento presentate con sicurezza. I ricercatori stanno ora lavorando a nuovi modi per rendere questi sistemi più affidabili, insegnando loro come rispondere e quando fermarsi, rivedere o dimenticare.
"Ciò che è davvero compromesso è questa risposta non deterministica", racconta Ruchir Puri, Chief Scientist di IBM, in un'intervista a IBM Think . "La stessa domanda, con lo stesso intento, può produrre risposte diverse a seconda di come viene formulata. Ciò è davvero problematico se ci si affida a questi modelli per qualcosa di serio."
Gli ultimi risultati dei benchmark di OpenAI evidenziano il problema. Il modello o3, a quanto si dice, ha avuto allucinazioni il 33% delle volte su PersonQA, un set di dati che testa l'accuratezza dei fatti sui personaggi pubblici. Il modello o4-mini ha ottenuto risultati peggiori, inventando informazioni in circa otto risposte su dieci a prompt di cultura generale. Non si tratta di sistemi poco noti, ma di sistemi testati per attività quali la ricerca legale, le richieste di informazioni in ambito sanitario e il supporto alle decisioni dei dirigenti.
Alcuni esperti affermano che i dati descrivono un quadro incompleto e che le allucinazioni non stanno aumentando in modo generalizzato.
"Stiamo vedendo veri progressi", racconta Ja-Naé Duane, data scientist e coautore di SuperShifts: Transforming How We Live, Learn and Work in the Age of Intelligence, in un'intervista a IBM Think, aggiungendo che Gemini 2.0 Flash ora produce allucinazioni in meno dell'1% dei casi di test, rispetto al 22% nel 2021. "Quindi sì, abbiamo ancora molta strada da fare, ma siamo assolutamente sulla strada giusta".
Duane ha sottolineato che le allucinazioni non sono necessariamente peggiorate, ma sono diventate più visibili.
"Ora la posta in gioco è più alta", afferma. "Stiamo inserendo questi modelli nei workflow legali, negli ambienti medici e negli strumenti aziendali. Un errore che una volta passava inosservato in un chatbot ora rappresenta una grave responsabilità."
Mentre i sistemi all'avanguardia, come Gemini 2.0 Flash, hanno ridotto drasticamente i tassi di allucinazione, altri, soprattutto i modelli costruiti per ragionamenti complessi, fanno ancora fatica. "Questi modelli incentrati sul ragionamento vengono utilizzati per risolvere problemi più complessi", spiega Duane. “Ciò significa che spesso operano al limite delle loro capacità, il che aumenta il rischio di generare risposte che sembrano corrette ma non lo sono.”
Sostiene che risolvere il problema richiede qualcosa di più della semplice scala. "Non si tratta più solo di costruire modelli più grandi", afferma. “Abbiamo bisogno di architetture che capiscano non solo cosa dire, ma anche perché è importante e come restare ancorati alla verità quando serve”.
Duane crede che il vero progresso arriverà dall'abbinare modelli migliori a sistemi progettati per supportarli, memoria, validatori e agenti che lavorano in tandem. "Stiamo entrando in una fase in cui l'intelligenza dei modelli è solo un pezzo del puzzle", afferma. "La gestione del contesto, l'apprendimento in tempo reale e gli strumenti adattivi saranno altrettanto importanti".
Sapere come funzionano i modelli linguistici di grandi dimensioni è essenziale per capire perché a volte sbagliano. Gli LLM prevedono la parola successiva in una frase basandosi su schemi appresi da grandi quantità di testo. Non estraggono dati da un database, ma fanno ipotesi fondate. Questo può portare a risposte che sembrano accurate ma sono false, specialmente quando l'argomento è poco chiaro, raro o va oltre ciò su cui il modello è stato addestrato.
Le allucinazioni sono difficili da eliminare perché non sono bug nel sistema, sono una caratteristica intrinseca del funzionamento di questi modelli probabilistici. Quando nei dati di addestramento non è disponibile alcun modello solido, o quando un prompt è troppo vago o aperto, il modello potrebbe inventare qualcosa che sembra plausibile.
C'è anche una questione più filosofica in gioco. Quando un modello AI inventa qualcosa, sta fallendo o creando?
Puri osserva che man mano che i modelli diventano più potenti nel loro ragionamento, possono anche mostrare comportamenti più "creativi", al limite dell'allucinazione. "Si potrebbe sostenere che la creatività implichi una sorta di allucinazione", afferma. "Immagina l'inimmaginabile, ma nelle applicazioni aziendali questo è un limite, non un punto di forza."
Il ricercatore IBM Payel Das è tra coloro che cercano di affrontare la questione ripensando il modo in cui i modelli gestiscono le informazioni. "È il paradosso del progresso," dice Das a IBM Think in un'intervista. “Questi modelli stanno migliorando nel ragionamento, ma non necessariamente nella memorizzazione. Possono risolvere problemi più difficili, ma continuano a sbagliare le basi."
Il suo team presso IBM ha sviluppato Larimar, un sistema di aumento della memoria progettato per fornire ai modelli una forma di memoria a breve termine modificabile. L'idea è di permettere ai modelli di rivedere o dimenticare i fatti in base alle necessità, senza riqualificare l'intero sistema; una flessibilità in tempo reale che manca in gran parte agli attuali LLM.
"I modelli odierni sono statici e fragili", afferma. "Non puoi insegnare loro qualcosa a metà conversazione o aggiornare la loro comprensione senza riaddestrarli completamente. Larimar è un passo avanti verso una maggiore flessibilità."
Anche altri approcci basati sulla memoria si stanno rivelando promettenti. MemReasoner, sviluppato dai ricercatori Microsoft, si concentra sull'aiutare i modelli a ragionare in modo più efficace attraverso lunghe sequenze, selezionando e collegando informazioni rilevanti provenienti da parti precedenti di una conversazione. Il progetto CAMELoT di IBM è progettato per aiutare i modelli a rimanere coerenti quando si lavora con grandi volumi di testo o interazioni estese.
Al di fuori del laboratorio, aziende come Vectara stanno costruendo strumenti pratici per affrontare le allucinazioni. Gli "agenti guardiani" di Vectara monitorano gli output dell'AI in tempo reale e riscrivono gli errori prima che raggiungano gli utenti. Das sostiene che, sebbene non esista una soluzione univoca che possa risolvere il problema, combinare strategie di memoria e di revisione rappresenta un notevole passo avanti.
"Non elimineremo mai tutti gli errori", afferma Das. "Proprio come le persone commettono errori. Ma possiamo creare dei modelli che siano in grado di imparare, adattarsi e correggersi meglio. E questo fa una grande differenza."
Scopri i vantaggi fondamentali ottenuti con la governance dell'AI automatizzata sia per l'AI generativa odierna che per i modelli di machine learning tradizionali.
Scopri le nuove sfide dell'AI generativa, la necessità di governare i modelli AI e machine learning (ML) e le fasi per creare un framework AI affidabile, trasparente e spiegabile.
Comprendi perché è importante definire un processo di valutazione difendibile e classificare costantemente ogni caso d'uso nel corretto livello di rischio.
Scopri come promuovere pratiche etiche e conformi con un portfolio di prodotti AI per modelli di AI generativa.
Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.
Gestisci i modelli di AI generativa da qualsiasi luogo ed effettua l'implementazione su cloud o on-premise con IBM watsonx.governance.
Scopri come la governance dell'AI può aiutare ad aumentare la fiducia dei suoi dipendenti nell'AI, accelerare l'adozione e l'innovazione e migliorare la fidelizzazione dei clienti.
Preparati alla legge europea sull'AI e definisci un approccio di governance dell'AI responsabile con l'aiuto di IBM Consulting.
Indirizza, gestisci e monitora l'AI con un singolo portfolio per sviluppare un'AI responsabile, trasparente e spiegabile.