Il 2022 è stato l'anno in cui l'intelligenza artificiale generativa (AI) è esplosa nella coscienza pubblica, mentre il 2023 è stato l'anno in cui ha iniziato a mettere radici nel mondo degli affari. Il 2024 sarà quindi un anno fondamentale per il futuro dell'AI, poiché ricercatori e imprese cercheranno di stabilire come questo salto evolutivo nella tecnologia possa essere integrato nella nostra vita quotidiana nel modo più pratico.
L'evoluzione dell'AI generativa ha rispecchiato quella dei computer, anche se con tempistiche notevolmente accelerate. Gli enormi computer mainframe gestiti centralmente da poche persone hanno lasciato il posto a macchine più piccole ed efficienti accessibili alle imprese e agli istituti di ricerca. Nei decenni seguenti, progressi graduali hanno portato alla realizzazione di computer domestici con cui gli utenti amatoriali potevano armeggiare. Con il passare del tempo, potenti personal computer con interfacce intuitive no-code sono diventati onnipresenti.
L'AI generativa ha già raggiunto la sua fase "amatoriale" e, come per i computer, gli ulteriori progressi mirano a ottenere maggiori prestazioni con dimensioni più piccole. Il 2023 ha visto un'esplosione di foundation model sempre più efficienti con licenze aperte, a partire dal lancio della famiglia di modelli linguistici di grandi dimensioni (LLM) LlaMa di Meta, a cui hanno fatto seguito StableLM, Falcon, Mistral e Llama 2. DeepFloyd e Stable Diffusion hanno raggiunto una relativa parità con i principali modelli di tipo proprietario. Grazie alle tecniche di messa a punto e ai set di dati sviluppati dalla comunità open source, molti modelli aperti sono in grado di superare tutti i modelli closed-source, tranne quelli più potenti, nella maggior parte dei benchmark, nonostante un numero di parametri molto inferiore.
Via via che il ritmo del progresso accelera, le funzionalità dei modelli all'avanguardia, in continua espansione, attireranno la massima attenzione da parte dei media. Tuttavia, gli sviluppi più significativi possono essere quelli riguardanti governance, middleware, tecniche di addestramento e pipeline di dati che rendono l'AI generativa più affidabile, sostenibile e accessibile, sia alle aziende che agli utenti finali.
Ecco alcune importanti tendenze attuali dell'AI da tenere d'occhio nel prossimo anno.
Quando l'AI generativa ha raggiunto per la prima volta la consapevolezza di massa, le conoscenze di un tipico dirigente aziendale provenivano principalmente dai materiali di marketing e da una copertura giornalistica carente. L'esperienza tangibile (se presente) era limitata a un'attività amatoriale con ChatGPT e DALL-E. Ora che le acque si sono calmate, la comunità imprenditoriale ha una comprensione più profonda delle soluzioni basate su AI.
Il Gartner Hype Cycle posiziona l'AI generativa esattamente al “picco delle aspettative gonfiate”, sulla soglia di una discesa nel “trogolo della disillusione”[1], in altre parole in procinto di entrare in un periodo di transizione (relativamente) deludente, mentre il report di Deloitte “State of Generated AI in the Enterprise” del primo trimestre del 2024 ha indicato che molti leader “si aspettano impatti trasformativi sostanziali nel breve termine”.[2] La realtà probabilmente si collocherà nel mezzo: l'AI generativa offre opportunità e soluzioni uniche, ma non sarà la soluzione perfetta per tutti.
Il confronto tra i risultati concreti e le aspettative è in parte una questione di prospettiva. Strumenti autonomi come ChatGPT sono solitamente al centro dell'immaginario collettivo, ma un'integrazione fluida nei servizi consolidati spesso garantisce una maggiore durata. Prima dell'attuale ciclo di hype, gli strumenti di machine learning generativo come la funzionalità "Smart Compose" lanciata da Google nel 2018 non erano considerati un cambiamento di paradigma, nonostante fossero precursori degli attuali servizi di generazione di testo. Analogamente, molti strumenti di AI generativa ad alto impatto vengono implementati come elementi integrati di ambienti aziendali che vanno a migliorare e a integrare, senza rivoluzionare o sostituire gli strumenti esistenti: ad esempio, la funzioni "Copilot" di Microsoft Office, il riempimento generativo di Adobe Photoshop o gli agenti virtuali nelle app di produttività e collaborazione.
Il punto in cui l'AI generativa prende slancio per la prima volta nei flussi di lavoro quotidiani avrà un'influenza maggiore sul futuro degli strumenti di AI rispetto all'ipotetico vantaggio di qualsiasi funzionalità specifica dell'AI. Secondo un recente sondaggio condotto da IBM intervistando più di 1.000 dipendenti di grandi aziende, i tre fattori principali che hanno portato all'adozione dell'AI sono stati i progressi negli strumenti di AI, che li rendono più accessibili, la necessità di ridurre i costi e automatizzare i processi chiave e la crescente quantità di AI incorporata nelle applicazioni aziendali standard pronte all'uso.
Newsletter di settore
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
Detto questo, l'ambizione dell'AI generativa all'avanguardia sta crescendo. La prossima ondata di progressi si concentrerà non solo sul miglioramento delle prestazioni all'interno di un dominio specifico, ma anche su modelli multimodali che possono accettare più tipi di dati come input. Sebbene i modelli che operano su diverse modalità di dati non siano un fenomeno del tutto nuovo (i modelli text-to-image come CLIP e i modelli speech-to-text come Wave2Vec esistono ormai da anni), in genere operavano solo in una direzione e venivano addestrati per svolgere un compito specifico.
La generazione in arrivo di modelli interdisciplinari, comprendente modelli proprietari come GPT-4V di OpenAI o Gemini di Google, nonché modelli open source come LLaVa, Adept o Qwen-VL, può muoversi liberamente tra l'elaborazione del linguaggio naturale (NLP) e le attività di computer vision. I nuovi modelli stanno introducendo anche video: alla fine di gennaio, Google ha annunciato Lumiere, un modello di diffusione text-to-video che può anche eseguire attività image-to-video o utilizzare immagini come riferimento di stile.
Il beneficio più immediato dell'AI multimodale è rappresentato dalle applicazioni di AI e dagli assistenti virtuali più intuitivi e versatili. Gli utenti possono, ad esempio, chiedere informazioni su un'immagine e ricevere una risposta in linguaggio naturale, oppure chiedere ad alta voce istruzioni per riparare qualcosa e ricevere aiuti visivi insieme a istruzioni scritte dettagliate.
A un livello superiore, l'AI multimodale consente a un modello di elaborare input di dati più diversificati, arricchendo ed espandendo le informazioni disponibili per l'addestramento e l'inferenza. In particolare, i video offrono grandi potenzialità per un apprendimento olistico. "Ci sono telecamere accese 24 ore su 24, 7 giorni su 7 che riprendono ciò che accade proprio mentre accade senza alcun filtro, senza alcuna intenzionalità", afferma Peter Norvig, Distinguished Education Fellow dello Stanford Institute for Human-Centered Artificial Intelligence (HAI).[3] "I modelli AI non avevano mai avuto questo tipo di dati in precedenza; questi modelli avranno semplicemente una migliore comprensione di tutto".
Nei modelli specifici per dominio, in particolare negli LLM, abbiamo probabilmente raggiunto il punto in cui i rendimenti derivanti da conteggi di parametri più elevati diminuiscono. Sam Altman, CEO di OpenAI (il cui modello GPT-4 si dice abbia circa 1,76 trilioni di parametri), l'ha lasciato intendere lo scorso aprile all'evento Imagination in Action del MIT: "Penso che siamo alla fine dell'era di questi modelli giganti e li miglioreremo in altri modi. Ritengo che ci sia stata troppa attenzione per il conteggio dei parametri".
I modelli di grandi dimensioni hanno dato il via a questa età dell'oro dell'AI, ma non sono privi di inconvenienti. Solo le aziende più grandi dispongono di fondi e di spazio per i server adeguati per addestrare e mantenere modelli ad elevato consumo energetico con centinaia di miliardi di parametri. Secondo una stima dell'Università di Washington, l'addestramento di un singolo modello GPT-3-size richiede il consumo annuale di energia elettrica di oltre 1.000 unità abitative; una giornata standard di query di ChatGPT riveste il consumo energetico quotidiano di 33.000 famiglie statunitensi.[4]
I modelli più piccoli richiedono invece molte meno risorse. Un influente articolo del marzo 2022 di Deepmind ha dimostrato che l'addestramento di modelli più piccoli su più dati produce migliori prestazioni rispetto all'addestramento di modelli più grandi su un minor numero di dati. Gran parte della continua innovazione negli LLM si è quindi concentrata sulla produzione di maggiori output con un minor numero di parametri. Come dimostrato dai recenti progressi dei modelli nell'intervallo di parametri da 3 a 70 miliardi, in particolare quelli basati sui foundation model LLaMa, Llama 2 e Mistral nel 2023, i modelli possono essere ridimensionati senza troppi sacrifici in termini di prestazioni.
La potenza dei modelli aperti continuerà a crescere. Nel dicembre del 2023, Mistral ha rilasciato "Mixtral", un modello mixture of experts (MoE) che integra 8 reti neurali, ciascuna con 7 miliardi di parametri. Mistral sostiene che Mixtral non solo superi la variante da 70 miliardi di parametri di Llama 2 sulla maggior parte dei benchmark con una velocità di inferenza 6 volte superiore, ma che addirittura sia pari o superiore a GPT-3.5 di OpenAI, che è molto più grande, sulla maggior parte dei benchmark standard. Meta ha poi annunciato a gennaio di avere già iniziato l'addestramento dei modelli Llama 3 e ha confermato che saranno open source. Anche se i dettagli (come le dimensioni del modello) non sono stati confermati, è probabile che Llama 3 segua il framework delle due generazioni precedenti.
Questi progressi nei modelli più piccoli offrono tre importanti benefici:
La tendenza verso modelli più piccoli sarà spinta tanto dalla necessità quanto dal vigore imprenditoriale, poiché i costi del cloud computing aumenteranno con la diminuzione della disponibilità di hardware.
"Le grandi aziende (e molte altre) stanno cercando di portare le funzionalità dell'AI all'interno dell'azienda, e c'è un po' di corsa per accaparrarsi le GPU", afferma James Landay, Vice-Director and Faculty Director of Research di Stanford HAI. "Ciò causerà enormi pressioni non solo per aumentare la produzione di GPU, ma anche per gli innovatori, affinché trovino soluzioni hardware più economiche e facili da realizzare e utilizzare".1
Come spiega un rapporto di O'Reilly risalente alla fine del 2023, attualmente gran parte delle elaborazioni gravano sui provider di cloud: relativamente poche aziende che adottano l'AI gestiscono la propria infrastruttura e la carenza di hardware non farà che aumentare gli ostacoli e i costi per l'installazione di server on-premise. A lungo termine, ciò potrebbe esercitare una pressione al rialzo sui costi del cloud, via via che i provider aggiornano e ottimizzano la propria infrastruttura per soddisfare efficacemente la domanda di AI generativa.[5]
Per le aziende, navigare in questo panorama incerto richiede flessibilità, sia in termini di modelli (appoggiandosi a modelli più piccoli e più efficienti quando necessario o a modelli più grandi e più performanti quando possibile), sia in termini di ambiente di implementazione. "Non vogliamo limitare il luogo in cui le persone implementano [un modello]", ha dichiarato il CEO di IBM Arvind Krishna in un'intervista del dicembre 2023 alla CNBC, in riferimento al portafoglio di prodotti AI di IBM watsonx . "Quindi, se vogliono implementarlo su un grande cloud pubblico, lo faremo lì. Se vogliono implementarlo presso IBM, lo faremo noi all'interno di IBM. Se vogliono farlo da soli, e dispongono di una sufficiente infrastruttura, lo faremo lì".
La tendenza ad aumentare al massimo le prestazioni dei modelli più compatti è ben supportata dai recenti risultati della comunità open source.
Molti progressi chiave sono stati guidati (e continueranno a esserlo) non solo da nuovi foundation model, ma anche da nuove tecniche e risorse (come i set di dati open source) per l'addestramento, la messa a punto o l'allineamento di modelli pre-addestrati. Tra le tecniche più importanti e indipendenti dal modello che hanno preso piede nel 2023 figurano:
Oltre ai progressi paralleli nei modelli open source nello spazio dei 3-70 miliardi di parametri, queste tecniche in evoluzione potrebbero cambiare le dinamiche del panorama dell'AI fornendo alle realtà più piccole, come startup e dilettanti, funzionalità di AI sofisticate che prima erano irraggiungibili.
Nel 2024 le aziende potranno quindi perseguire la differenziazione attraverso lo sviluppo di modelli su misura, piuttosto che costruire involucri attorno a servizi riconfezionati dalla "Big AI". Con il giusto framework di dati e sviluppo, i modelli e gli strumenti di AI open source esistenti possono essere adattati a quasi tutti gli scenari del mondo reale, dal supporto clienti alla gestione della supply chain, fino all'analisi complessa dei documenti.
I modelli open source offrono alle organizzazioni l'opportunità di sviluppare potenti modelli AI personalizzati, addestrati sui loro dati proprietari e ottimizzati per le loro esigenze specifiche, in modo rapido e senza investimenti infrastrutturali proibitivi. Ciò è particolarmente rilevante in settori quali quello legale, sanitario o finanziario, dove il vocabolario e i concetti altamente specializzati potrebbero non essere stati appresi dai foundation model nel pre-addestramento.
Legale, finanziario e sanitario sono anche ottimi esempi di settori che possono trarre beneficio da modelli sufficientemente piccoli da essere eseguiti localmente su un hardware modesto. Mantenere locali l'addestramento dell'AI, l'inferenza e la retrieval-augmented generation (RAG) evita il rischio che dati proprietari o informazioni personali sensibili siano utilizzati per addestrare modelli closed-source o passino nelle mani di terzi. Utilizzare la RAG per accedere alle informazioni pertinenti anziché memorizzare tutte le conoscenze direttamente all'interno dello stesso LLM contribuisce a ridurre le dimensioni del modello, aumentare ulteriormente la velocità e ridurre i costi.
Mentre il 2024 continua a creare condizioni di parità tra i modelli, il vantaggio competitivo sarà sempre più determinato dalle pipeline di dati proprietarie che consentiranno il perfezionamento del settore.
Grazie a strumenti più sofisticati ed efficienti e al feedback maturato nel corso di un anno, le aziende sono pronte ad ampliare i casi d'uso degli agenti virtuali, andando oltre i semplici chatbot per l'esperienza del cliente.
Via via che i sistemi di AI accelerano e incorporano nuovi flussi e formati di informazioni, ampliano le possibilità non solo di comunicazione e di esecuzione delle istruzioni, ma anche di automazione delle attività. "Il 2023 è stato l'anno in cui si è potuto chattare con un'AI. Diverse aziende hanno lanciato un qualche tipo di funzionalità, ma l'interazione consisteva sempre nel digitare qualcosa e vedere la risposta digitata dall'AI", afferma Norvig di Stanford. "Nel 2024 vedremo la possibilità per gli agenti virtuali di portare a termine le attività al posto degli umani. Effettuare prenotazioni, pianificare un viaggio, connettersi ad altri servizi."
L'AI multimodale, in particolare, aumenta notevolmente le opportunità di interazione senza interruzioni con gli agenti virtuali. Ad esempio, anziché limitarsi a chiedere ricette a un bot, un utente può puntare la fotocamera verso un frigorifero aperto e chiedere ricette che possano essere preparate con gli ingredienti disponibili. Be My Eyes, un'app mobile che mette in contatto persone non vedenti e ipovedenti con volontari in grado di aiutarle a svolgere attività veloci, sta sperimentando strumenti di AI in grado di aiutare gli utenti a interagire direttamente con l'ambiente circostante attraverso l'AI multimodale anziché aspettare un volontario umano.
Funzionalità multimodali elevate e barriere all'ingresso ridotte aprono anche nuove porte agli abusi: deepfake, problemi di privacy, diffusione di pregiudizi e persino l'evasione delle protezioni CAPTCHA possono diventare sempre più facili per i criminali informatici. Nel gennaio del 2024, un'ondata di deepfake vocali espliciti di celebrità ha colpito i social media; una ricerca del maggio 2023 ha indicato che è stata pubblicata online una quantità 8 volte superiore di deepfake vocali rispetto allo stesso periodo del 2022.[6]
L'ambiguità del contesto normativo può rallentare l'adozione, o almeno l'implementazione più aggressiva, nel breve e medio termine. Qualsiasi investimento importante e irreversibile in una tecnologia o in una pratica emergente comporta un rischio intrinseco che potrebbe richiedere una riorganizzazione significativa, o addirittura diventare illegale, a seguito di una nuova legislazione o di un cambiamento delle condizioni politiche nei prossimi anni.
Nel dicembre 2023 l'Unione europea (UE) ha raggiunto un accordo provvisorio per la Legge sull'AI. Tra le altre misure, questo accordo vieta lo scraping indiscriminato di immagini per creare database di riconoscimento facciale, sistemi di categorizzazione biometrica con potenziale pregiudizio discriminatorio, sistemi di «punteggio sociale» e l'uso dell'AI per la manipolazione sociale o economica. Cerca inoltre di definire una categoria di sistemi di AI "ad alto rischio", potenzialmente in grado di minacciare la sicurezza, i diritti fondamentali o lo stato di diritto, che saranno soggetti a una supervisione aggiuntiva. Allo stesso modo, stabilisce requisiti di trasparenza per quelli che definisce sistemi di "AI generica (GPAI)", ovvero i foundation model, tra cui documentazione tecnica e test sistemici antagonistici.
Tuttavia, mentre alcune aziende d'importanza chiave come Mistral risiedono nell'UE, la maggior parte dello sviluppo innovativo dell'AI sta avvenendo in America, dove una legislazione sostanziale sull'AI nel settore privato richiederà l'azione del Congresso, improbabile in un anno di elezioni. Il 30 ottobre, l'Amministrazione Biden ha emesso un ordine esecutivo completo che dettaglia 150 requisiti per l'uso delle tecnologie dell'AI da parte delle agenzie federali, mentre mesi prima l'Amministrazione aveva ottenuto impegni volontari da parte di importanti sviluppatori dell'AI per aderire a determinati criteri di fiducia e sicurezza. In particolare, sia la California che il Colorado stanno perseguendo attivamente la propria legislazione in merito ai diritti di privacy dei dati in relazione all'AI.
La Cina si è mossa in modo più proattivo verso restrizioni formali per l'AI, vietando la discriminazione dei prezzi da parte degli algoritmi di raccomandazione sui social media e imponendo una chiara etichettatura dei contenuti generati dall'AI. Le normative future sull'AI generativa mirano a richiedere che i dati utilizzati per addestrare gli LLM e il contenuto successivamente generato dai modelli debbano essere "veri e accurati", che gli esperti interpretano come un tentativo di censurare l'output degli LLM.
Nel frattempo, il ruolo del materiale protetto da copyright nell'addestramento dei modelli AI utilizzati per la generazione di contenuti, dai modelli linguistici ai generatori di immagini e ai modelli video, rimane una questione molto controversa. L'esito della causa di alto profilo intentata dal New York Times contro OpenAI potrebbe influenzare in modo significativo la traiettoria della legislazione sull'AI. Strumenti avversari, come Glaze e Nightshade,entrambi sviluppati dall'Università di Chicago, sono emersi in quella che potrebbe diventare una sorta di corsa agli armamenti tra creatori e sviluppatori di modelli AI.
Per le aziende, questo potenziale crescente di conseguenze legali, normative, economiche o di reputazione è aggravato dalla popolarità e dall'accessibilità degli strumenti di AI generativa. Le organizzazioni non devono solo disporre di una politica aziendale attenta, coerente e chiaramente articolata sull'AI generativa, ma anche diffidare della shadow AI:, ovvero l'uso personale "non ufficiale" dell'AI sul posto di lavoro da parte dei dipendenti.
Soprannominata anche "shadow IT" o "BYOAI", si parla di shadow AI quando dipendenti impazienti che cercano soluzioni rapide (o che semplicemente vogliono esplorare nuove tecnologie più velocemente di quanto consentito da una politica aziendale prudente) implementano l'AI generativa sul posto di lavoro senza passare attraverso l'IT per ottenerne l'approvazione o la supervisione. Molti servizi rivolti ai consumatori, alcuni gratuiti, permettono anche a persone non tecniche di improvvisare l'uso di strumenti di AI generativa. In uno studio di Ernst & Young, il 90% degli intervistati ha dichiarato di utilizzare l'AI sul lavoro.[7]
Questo spirito intraprendente può essere fantastico, tuttavia i dipendenti desiderosi di sperimentare potrebbero non disporre di informazioni o punti di vista pertinenti in materia di sicurezza, privacy o conformità. Ciò può esporre le aziende a una grande quantità di rischi. Ad esempio, un dipendente potrebbe inconsapevolmente inserire segreti commerciali in un modello AI rivolto al pubblico che si addestra continuamente in base agli input degli utenti, oppure utilizzare materiale protetto da copyright per addestrare un modello proprietario per la generazione di contenuti ed esporre la propria azienda ad azioni legali.
Come avviene per molte attività in costante fase di sviluppo, è evidente che i pericoli dell'AI generativa aumentino quasi linearmente con le sue funzionalità. Da un grande potere derivano grandi responsabilità.
Mentre proseguiamo in questo anno cruciale per l'intelligenza artificiale, comprendere e adattarsi alle tendenze emergenti è essenziale per aumentare al massimo il potenziale, ridurre al minimo i rischi e scalare in modo responsabile l'adozione dell'AI generativa.
1“Gartner Places Generative AI on the Peak of Inflated Expectations on the 2023 Hype Cycle for Emerging Technologies” (link esterno a ibm.com), Gartner, 16 agosto 2023
2 ”Deloitte’s State of Generative AI in the Enteprise Quarter one report” (link esterno a ibm.com), Deloitte, gennaio 2024
3 ”What to Expect in AI in 2024” (link esterno a ibm.com), Stanford University, 8 dicembre 2023
4 ”Q&A: UW researcher discusses just how much energy ChatGPT uses” (link esterno a ibm.com), University of Washington, 27 luglio 2023
5 “Generative AI in the Enterprise” (link esterno a ibm.com), O’Reilly, 28 novembre 2023
6 ”Deepfaking it: America’s 2024 election coincides with AI boom” (link esterno a ibm.com), Reuters, 30 maggio 2023
7 ”How organizations can stop skyrocketing AI use from fueling anxiety” (link esterno a ibm.com), Ernst & Young, dicembre 2023