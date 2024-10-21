L'articolo sottolinea anche la necessità di migliori benchmark nel settore dell'AI. Secondo Minhas, gli attuali problemi di benchmark sono imperfetti perché i modelli possono risolverli tramite il pattern matching anziché tramite un ragionamento vero e proprio. "Se i benchmark fossero basati su ragionamenti reali, o se i problemi di ragionamento fossero più complessi, allora tutti i modelli funzionerebbero in modo pessimo", afferma.

Minhas afferma che i ricercatori di Apple hanno creato questo set di dati sintetico, una raccolta di dati utilizzati per addestrare e testare i modelli AI e gli algoritmi, mescolando i simboli



"Hanno dimostrato che le prestazioni di questi modelli si riducono quando si iniziano a modificare e a cambiare le cose nella sequenza di input, sia attraverso i simboli stessi che attraverso un contesto extra come i token superflui", afferma.

La metodologia dello studio di Apple prevedeva l'introduzione di vari "fluff" e clausole nel set di addestramento per osservare come cambiavano le prestazioni del modello. Tuttavia, Jess Bozorg, IBM Data Scientist, sottolinea una potenziale limitazione: "Non hanno specificato quante categorie di fluff hanno preso in considerazione nelle loro aggiunte, né quali tipi di fluff hanno utilizzato da quali categorie", afferma.

Una delle critiche mosse nel documento agli attuali benchmark LLM riguarda il problema della contaminazione dei dati. Bozorg spiega che lo studio di Apple ha utilizzato il set di dati GSM-8K, set che contiene problemi di matematica di scuola elementare creati da esseri umani. “C’è una perdita di dati”, dice. "Ciò significa che il modello aveva già visto alcuni di questi dati durante la fase di test del suo addestramento".

La contaminazione è un problema diffuso nel settore. Minhas afferma che il set di dati GSM-8K "è un benchmark del settore tale che ne sono presenti frammenti sparsi nei dati di addestramento, noti a tutti i modelli. Questo è un problema fondamentale di tutti questi benchmark creati".

È interessante notare che lo studio ha rivelato che GPT-4 ha avuto prestazioni notevolmente migliori rispetto ad altri modelli quando testato sul nuovo set di dati simbolici. Minhas ipotizza il motivo: "È possibile che durante l'addestramento di GPT-4 abbiano pensato a rappresentazioni simboliche e generato dati di test di questo tipo? Forse sta ancora semplicemente eseguendo il pattern matching, ma aveva questo tipo di dati nel suo set di dati di addestramento."

Minhas sottolinea che i ricercatori stanno cercando di spostare oltre il pattern matching introducendo la memoria nei sistemi AI. "È un modo in cui cerchiamo di renderli più generali, ma è comunque solo un pattern matching basato su ciò che gli hai fornito", afferma.

Lo studio di Apple ha messo in luce i limiti significativi degli attuali sistemi AI, rivelando che il viaggio verso macchine veramente intelligenti è ancora lontano dall'essere completato. Ora, secondo gli esperti, la comunità AI deve affrontare la sfida di colmare il divario tra la corrispondenza dei modelli e il ragionamento autentico.

"La sola architettura trasformativa non è sufficiente per ragionare", afferma Minhas. “Sono necessari progressi nell'architettura dei modelli per le funzionalità di ragionamento.”