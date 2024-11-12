Garantire un'autovalutazione affidabile dell'AI è ancora più impegnativo nei campi specializzati come la matematica avanzata e la ricerca scientifica. Ciò significa che spesso sono necessari esperto umani per convalidare i risultati e mantenere i sistemi di AI affidabili e in linea con le aspettative.

"Ci sono molti trucchi per riuscirci, come ad esempio mischiare le risposte a scelta multipla", afferma Varshney.

Secondo Dev Nag, Fondatore e CEO di QueryPal, il valutatore autodidatta di Meta si occupa di amplificare e scalare il giudizio umano, non di eliminare l'uomo dal ciclo.

"Pensiamolo come un insegnante potrebbe che inventa problemi di esercitazione basati sulla sua comprensione di ciò che rende una risposta buona o cattiva," dice Nag. "Proprio come AlphaGo ha utilizzato le regole del Go come base prima di impegnarsi nel gioco autonomo, il valutatore autodidatta si basa su criteri di qualità stabiliti dall'uomo prima di generare esempi di addestramento sintetici che incorporano implicitamente il giudizio umano."

Anche con l'AI auto-monitorante, audit periodici possono individuare bias o problemi nascosti, afferma Dan O'Toole, Presidente e CEO di Arrive AI.

"Utilizzare più modelli AI per eseguire la stessa valutazione in modo indipendente, o concatenarli in sequenza, riduce gli errori e mette in evidenza potenziali problemi", afferma. Anche la spiegabilità è essenziale. "La chain of thought è un passo importante verso la trasparenza e l'aumento dell'affidabilità."

O'Toole sottolinea che le metriche specializzate sono fondamentali per campi come la matematica avanzata e la ricerca scientifica. Meta, ad esempio, ha utilizzato MT-Bench e RewardBench per valutazioni di carattere generale, afferma, ma benchmark come GSM8K sono adatti per la risoluzione di problemi matematici. CRUXEval può aiutare nel ragionamento del codice, mentre i benchmark specifici per dominio come FactKB, PubMed e SciBench aiutano a garantire che i modelli soddisfino esigenze specifiche.

Nag sottolinea che misurare le prestazioni e garantire l'affidabilità è fondamentale, soprattutto nei settori specializzati. Ritiene che il benchmark definitivo dovrebbe essere la corrispondenza dei risultati con le valutazioni effettuate dagli esperti umani del settore.

"L'accordo dell'88,7% del valutatore autodidatta con i giudizi umani su RewardBench è una base solida, ma monitorare altri fattori, come la coerenza, la spiegabilità e la capacità del sistema di identificare i casi limite, è altrettanto importante," afferma. "Proprio come la riproduzione autonoma di AlphaGo è stata convalidata dalle sue prestazioni contro campioni umani, i sistemi di valutazione devono essere regolarmente testati contro gruppi di esperti del settore."

Jen Clark, che dirige i servizi di consulenza e tecnologia presso EisnerAmper, sottolinea che lo sviluppo dell'AI richiede framework per garantire sia la sicurezza che il progresso efficace.

"Poiché l'AI continua ad avanzare, è fondamentale affidarsi a metodologie che hanno supportato la ricerca umana, come il metodo scientifico, comunità forti e reti di collaborazione", afferma. "Concentrare gli sforzi in questo ambito è essenziale per il crowdsourcing della sicurezza dell'AI e per gestire la velocità e la scala del suo sviluppo."