Nella corsa per dominare l'AI, di solito più grande equivale a meglio. Più dati e più parametri creano sistemi di AI più grandi, che non sono solo più potenti ma anche più efficienti e veloci, ma generalmente creano meno errori rispetto ai sistemi più piccoli.
Le aziende tecnologiche che conquistano le prime pagine dei giornali rafforzano questa tendenza. "Il sistema che abbiamo appena implementato è, in termini di scala, grande quanto una balena", ha affermato Kevin Scott, CTO di Microsoft, a proposito del supercomputer che alimenta Chat GPT-5. Scott ha parlato dell'ultima versione del chatbot di AI generativa di Open AI durante il recente evento Build dell'azienda a fine maggio. "E a quanto pare è possibile creare un sacco di AI con un supercomputer grande quanto una balena."
Nel frattempo, la capitalizzazione di mercato di Nvidia ha raggiunto la soglia dei 3 trilioni di dollari a giugno. Il produttore di chip è cresciuto a un ritmo vertiginoso man mano che i suoi chip alimentano modelli linguistici sempre più grandi, supercomputer e data center che si moltiplicano in tutto il mondo.
Ma più grande è sempre meglio? Dipende dal tuo punto di vista. Per le aziende che sviluppano grandi modelli linguistici, la scalabilità è un vantaggio nella maggior parte dei casi. Ma mentre le aziende cercano di separare l'hype da ciò a cui l'AI può aggiungere un vero valore, non è chiaro se modelli linguistici sempre più ampi porteranno sempre a soluzioni migliori per le aziende.
In futuro, "non avremo bisogno di modelli 100 volte superiori a quelli che abbiamo oggi per estrarre la maggior parte del valore", ha affermato Kate Soule, direttrice del programma IBM per la ricerca sull'AI generativa, in un recente episodio del podcast Mixture of Experts di IBM. Molte aziende che stanno già ottenendo un ritorno sui loro investimenti in AI la utilizzano per attività come la classificazione e la sintesi, che non sfruttano nemmeno appieno la capacità degli attuali modelli linguistici.
Newsletter di settore
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
"Più grande è meglio" deriva dalle leggi di scalabilità dei dati che sono entrate nel dibattito con un articolo del 2012 di Prasanth Kolachina che applica le leggi di scalabilità all'apprendimento automatico. Kolachina e i suoi colleghi dimostrarono che, man mano che i modelli diventavano più grandi, generalmente diventavano più precisi e avevano prestazioni migliori. Nel 2017, Hestness e altri hanno dimostrato che la scalabilità del deep learning è prevedibile anche empiricamente. Poi, nel 2020, Kaplan e altri hanno dimostrato che le leggi di scalabilità dei dati valgono anche per i modelli linguistici.
Sebbene queste leggi siano utili per i fornitori di modelli linguistici che si sforzano di creare un'intelligenza artificiale generale, non è affatto chiaro se le aziende abbiano bisogno di questa portata di investimenti o di AI per ottenere il massimo valore.
"Solo perché si conosce il modo più conveniente per addestrare un modello di dimensioni pari all'ennesimo grado, i benefici effettivi che si ottengono da quel modello giustificheranno i costi?" ha affermato Soule di IBM. "Questa è una domanda completamente diversa a cui le leggi di scala non rispondono."
Il costo dei dati sta aumentando poiché i dati di alta qualità utilizzati per addestrare i modelli AI stanno diventando sempre più scarsi. Un documento di Epoch AI, un'organizzazione di ricerca AI, ha rilevato che i modelli AI potrebbero esaurire tutti i dati linguistici di alta qualità attualmente disponibili su Internet già nel 2026.
Per questo motivo le aziende stanno diventando creative nell'accesso a nuovi dati per addestrare modelli e gestire i costi. La versione più recente di Chat GPT di Open AI, ad esempio, è offerta gratuitamente agli utenti in cambio di alcuni dati utente e di terze parti. I principali attori stanno esaminando anche i dati sintetici, composti da immagini 2D, dati 3D, testo e altro, che vengono utilizzati con dati del mondo reale per addestrare l'AI.
Mentre le aziende che sviluppano LLM si fanno carico dei costi dei dati, i costi climatici dei modelli linguistici sempre più grandi sono stati ampiamente trascurati. Man mano che questi modelli crescono in complessità e utilizzo, consumano enormi risorse computazionali. I data center che ospitano i supercomputer che alimentano questi modelli consumano una quantità significativa di energia, generando emissioni di carbonio corrispondenti.
"Non si tratta solo di un grande impatto energetico, ma anche del fatto che l'impatto delle emissioni di anidride carbonica porterà dei costi prima di tutto alle persone che non traggono beneficio da questa tecnologia", ha detto Emily Bender, professoressa di linguistica dell'Università di Washington, che ha pubblicato un documento intitolato On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?
"Quando facciamo l'analisi costi-benefici, è importante pensare a chi ottiene il beneficio e chi ne paga il costo perché non sono le stesse persone", ha detto Bender in un comunicato stampa dell'Università di Washington.
Un modo in cui le aziende bilanciano costi e benefici è utilizzare prima modelli più grandi per indirizzare i problemi aziendali più complessi. Poi, una volta ottenuta la risposta, passano a modelli più piccoli che replicano i risultati dei modelli grandi ma a costi inferiori e con una latenza ridotta.
L'uso di modelli linguistici più piccoli sta crescendo anch'esso come alternativa ai grandi modelli linguistici.
"I LLM più piccoli offrono agli utenti un maggiore controllo rispetto ai modelli linguistici più grandi come ChatGPT o Claude di Anthropic, rendendoli più desiderabili in molti casi", ha affermato Brian Peterson, co-fondatore e direttore tecnico di Dialpad, una piattaforma basata su cloud e basata su AI detta PYMNTS.
"Sono in grado di filtrare un sottoinsieme più piccolo di dati, il che li rende più rapidi, più convenienti e, se si dispone di dati propri, molto più personalizzabili e persino più accurati." La corsa per costruire LLM più grandi e potenti difficilmente rallenterà presto. Ma in futuro, la maggior parte degli esperti concorda che assisteremo anche a un'ondata di modelli AI compatti ma potenti che eccellano in settori specifici e offrono un'alternativa alle aziende che cercano di bilanciare meglio il valore e i costi dell'AI.
Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.