AI affidabile: il caso per l'apertura nella modellazione linguistica

Due colleghi che lavorano insieme in un ufficio guardano il monitor del computer

Il rilascio di ChatGPT due anni fa ha aperto un nuovo capitolo nell'AI, guidato da grandi modelli linguistici di dimensioni e complessità senza precedenti. Questi modelli sono ora una forza trainante nella ricerca e nel business, ma molti di essi non rilasciano i propri dati, la ricetta completa del trading o i loro checkpoint. Ed è qui che entra in gioco l'organizzazione no-profit Allen Institute for Artificial Intelligence (Ai2). Ai2 è nata nel 2014, fondata dal cofondatore di Microsoft Paul Allen. Il gruppo di ricerca lavora su modelli linguistici, modelli multimodali e framework di valutazione open source.

Di recente, Ai2 ha rilasciato Molmo, una famiglia di modelli AI all'avanguardia con l'obiettivo di colmare significativamente il divario tra sistemi aperti e proprietari. "Anche i nostri modelli più piccoli superano in prestazioni i concorrenti 10 volte più grandi", afferma Ai2.

All'inizio di settembre, Ai2 ha rilasciato OlmoE, un modello mixture of experts con 1 miliardo di parametri attivi e 7 miliardi totali, sviluppato insieme a Contextual AI. È stato addestrato su 5 trilioni di token e basato su un nuovo mix di dati che incorpora lezioni tratte da Dolma di Ai2.

Abbiamo parlato con Hanna Hajishirzi, Senior Director of NLP Research di Ai2, dopo il suo intervento alla conferenza PyTorch di San Francisco, per discutere di modelli open source e di alfabetizzazione AI.

OlmoE è stato pubblicato qualche settimana fa. Cosa è successo tra l'uscita e ora?

Abbiamo pubblicato una versione minore per OlMoe a settembre. Nonostante sia un modello piccolo, svolge egregiamente molte funzioni. Da allora, abbiamo ricevuto un'ottima accoglienza dalla community. Abbiamo anche creato un'app che esegue il modello linguistico direttamente sugli smartphone senza collegarsi a una GPU. È ancora in fase di sviluppo perché stiamo lavorando su caratteristiche di sicurezza e migliorando l'interfaccia utente, ma è già entusiasmante. Stiamo anche lavorando per addestrare modelli più grandi.

Come ci sei riuscito?

Non sorprende che una combinazione di modelli esperti funzioni bene, poiché li abbiamo visti inclusi nei modelli di frontiera. Il vantaggio di un mixture of expert è che, con lo stesso sforzo di formazione, si ottiene una maggiore precisione rispetto ai modelli densi. Quello che ci ha interessato è stato portare tutto questo all'estremo e addestrare il modello più piccolo possibile, per esempio uno da 1 miliardo di parametri, per vedere cosa sarebbe successo. Siamo stati entusiasti dei risultati.

Ma come ci siamo arrivati? Per prima cosa, miglioriamo la nostra pipeline di formazione. Abbiamo iniziato con un'architettura di modelli densi e abbiamo fatto diversi esperimenti estendendola con successo a una miscela di modelli esperti. A seguire, abbiamo apportato miglioramenti al nostro mix di dati, il che ha portato a un modello migliore. Insieme, queste due cose ci hanno dato i risultati migliori.

Può parlare dei limiti dell'apertura nei modelli più grandi?

C'è un'ampia gamma di apertura nella comunità dell'AI. Ad esempio, modelli come ChatGPT di OpenAI hanno aperto le loro API, ma chi lo sa cosa succede dietro le porte chiuse?

Sembra tutto molto sofisticato, ma questa mancanza di trasparenza è l'opposto della promozione dell'alfabetizzazione AI. Il pubblico non ha una reale comprensione del motivo per cui questi modelli si comportano in un certo modo. Tutto sembra una magia, perché questi modelli sembrano migliorare. 

La community dell'AI deve iniziare a diffondere più informazioni sui modelli opachi e spiegare perché danno certe risposte. Ad esempio, potrebbero spiegare che un modello risponde in un certo modo perché incontra schemi specifici nei suoi dati di addestramento. 

È essenziale informare il pubblico su questo argomento. Anche se è difficile collegare decisioni specifiche a dati in modo facile da comprendere per il pubblico, creare demo che mostrino questo processo sarebbe davvero d'impatto.

I dati di addestramento spesso sembrano un mistero, vero?

Esatto! Questo è un obiettivo importante del nostro progetto: vogliamo pubblicare sia i pesi del modello sia i dati di addestramento.

Utilizzando i nostri modelli OLMo e OLMoE, i ricercatori della comunità stanno lavorando su come le decisioni del modello si collegano ai dati. Dolma, il nostro set di dati aperto, ha permesso ai ricercatori di analizzarlo, dando vita a pubblicazioni che spiegano in che modo specifici punti dati contribuiscono al comportamento del modello. Questa trasparenza aiuterà anche a informare il pubblico.

Abbiamo parlato di conoscenza pubblica, ma vorrei anche parlare di fiducia. Come si costruisce la fiducia nel campo della modellazione linguistica?

Posso affrontare la questione da due prospettive. Innanzitutto, quando abbiamo iniziato questo progetto, abbiamo messo in dubbio la validità dei numeri riportati da alcune aziende. Volevamo assicurarci che quei dati non derivassero da set di test selettivi o benchmark. Questo evidenzia un livello di fiducia all'interno della comunità di ricerca.

Per il nostro modello è semplice, perché forniamo l'accesso ai nostri dati e dimostriamo come vengono valutati i nostri modelli. Questa trasparenza chiarisce cosa contengono i dati e come vengono addestrati i modelli. Rilasciamo anche diversi checkpoint che sono fasi intermedie della formazione. I ricercatori possono utilizzare questi punti di controllo per osservare come le conoscenze e i miglioramenti si sviluppano nel tempo. E alcuni ricercatori li stanno già sfruttando per studiare questa evoluzione. 

Infine, in termini di fiducia pubblica, si applica un approccio simile. Molte persone credono che i modelli linguistici abbiano semplicemente delle allucinazioni. Collegando i loro output ai dati di addestramento e spiegando i processi decisionali, possiamo aumentare l'affidabilità. Anche se non abbiamo ancora raggiunto questo obiettivo, migliorare la trasparenza sui nostri dati di formazione offre importanti opportunità per costruire la fiducia del pubblico.

In questo momento c'è molto interesse per l'AI open source. Cosa ne pensi di questa tendenza?

Credo che l'AI open source sia essenziale per abilitare e accelerare la scienza dei modelli linguistici. Abbiamo fatto così tanti progressi nella ricerca e nello sviluppo dei modelli linguistici grazie alla ricerca scientifica aperta, e dovremmo continuare a fare sforzi per mantenere attiva l'open source AI.

Due colleghi impegnati a dialogare in un ufficio, uno con in mano un tablet

Newsletter Think

 

Gli ultimi insight in materia di AI e tecnologia di Think

Iscriviti oggi
Fai il passo successivo

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno strumento aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una quantità di dati minima.

Esplora watsonx.ai Prenota una demo live