L'AI generativa, talvolta chiamata gen AI, è un tipo di intelligenza artificiale (AI) in grado di creare contenuti originali, come testi, immagini, video, audio o codice software, in risposta al prompt o alla richiesta di un utente.
L'AI generativa si affida a sofisticati modelli di machine learning chiamati modelli di deep learning: algoritmi che simulano i processi di apprendimento e processo decisionale del cervello umano.Questi modelli funzionano identificando e codificando modelli e relazioni in enormi quantità di dati, quindi utilizzando tali informazioni per comprendere le richieste o le domande in linguaggio naturale degli utenti e rispondere con nuovi contenuti pertinenti.
L'AI è stata un tema tecnologico scottante negli ultimi dieci anni, ma l'AI generativa, e in particolare l'avvento di ChatGPT nel 2022, ha portato l'AI sui titoli di giornale di tutto il mondo e ha lanciato un'ondata di innovazione e adozione dell'AI senza precedenti. L'AI generativa offre enormi vantaggi in termini di produttività a individui e organizzazioni e, sebbene presenti anche sfide e rischi molto reali, le aziende continuano a esplorare i modi in cui la tecnologia può migliorare i workflow interni e arricchire i loro prodotti e servizi. Secondo una ricerca della società di consulenza aziendale McKinsey, un terzo delle organizzazioni utilizza già regolarmente l'AI generativa in almeno una funzione aziendale.¹ L'analista di settore Gartner prevede che entro il 2026 oltre l'80% delle organizzazioni avrò implementato applicazioni di AI generativa o utilizzato application programming interface (API) di AI generativa.2
In generale, l'AI generativa opera in tre fasi:
L'AI generativa parte da un foundation model, un modello di deep learning che funge da base per diversi tipi di applicazioni di AI generativa. Oggi i foundation model più comuni sono i modelli linguistici di grandi dimensioni (LLM), creati per applicazioni di generazione di testo, ma esistono anche foundation model per la generazione di immagini, video, audio e musica, nonché foundation model multimodali in grado di supportare diversi tipi di contenuti.
Per creare un foundation model, i professionisti addestrano un algoritmo di deep learning su enormi volumi di dati grezzi, non strutturati e non etichettati, come terabyte di dati raccolti da internet o da altre enormi fonti di dati. Durante l'addestramento, l'algoritmo esegue e valuta milioni di esercizi di "fill in the blank" (riempimento degli spazi), cercando di prevedere l'elemento successivo in una sequenza, ad esempio la parola successiva in una frase, l'elemento successivo in un'immagine, il comando successivo in una riga di codice, e regolandosi continuamente per ridurre al minimo la differenza tra le previsioni e i dati reali (o il risultato "corretto").
Il risultato di questo addestramento è una rete neurale di parametri, ovvero rappresentazioni codificate di entità, pattern e relazioni nei dati, in grado di generare contenuti in modo autonomo in risposta agli input o ai prompt.
Questo processo di addestramento è ad alta intensità di calcolo, dispendioso in termini di tempo e molto costoso: richiede infatti migliaia di unità di elaborazione grafica (GPU) in cluster e settimane di elaborazione, il che costa milioni di dollari. I progetti di foundation model open source, come Llama-2 di Meta, consentono agli sviluppatori di gen AI di saltare questo passaggio e i relativi costi.
Metaforicamente parlando, un foundation model è generalista: sa molte cose su molti tipi di contenuti, ma spesso non è in grado di generare tipi specifici di output con la precisione o la fedeltà desiderate. Per questo, il modello deve essere ottimizzato secondo un'attività di generazione di contenuti specifica. Questo può essere fatto in vari modi.
La messa a punto comporta alimentare il modello etichettato con i dati specifici dell'applicazione di generazione di contenuti, cioè domande o prompt che l'applicazione probabilmente riceverà e le risposte corrette corrispondenti nel formato desiderato. Ad esempio, se un team di sviluppo sta tentando di creare un customer service chatbot, creerà centinaia o migliaia di documenti contenenti domande etichettate sul servizio clienti e le risposte corrette, quindi invierà tali documenti al modello.
La messa a punto richiede molto lavoro. Gli sviluppatori spesso esternalizzano questa attività ad aziende con una grande forza lavoro per l'etichettatura dei dati.
Nell'RLHF (Reinforcement Learning from Human Feedback), gli utenti umani rispondono ai contenuti generati con valutazioni che il modello può utilizzare per aggiornare il modello e ottenere maggiore precisione o rilevanza. Spesso, l'RLHF coinvolge persone che assegnano risultati diversi in risposta allo stesso prompt, ma può bastare anche chiedere alle persone di digitare o parlare con un chatbot o un assistente virtuale, correggendone l'output.
Gli sviluppatori e gli utenti valutano continuamente gli output delle loro app di AI generativa e adattano ulteriormente il modello, anche una volta alla settimana, per una maggiore precisione o pertinenza. (Il foundation model stesso, invece, viene aggiornato molto meno di frequente, forse ogni anno o 18 mesi.)
Un'altra opzione per migliorare le prestazioni di un'app di gen AI è la RAG (retrieval-augmented generation). La RAG è un framework per estendere il modello di base per utilizzare fonti pertinenti al di fuori dei dati di addestramento, per integrare e perfezionare i parametri o le rappresentazioni nel modello originale. La RAG può garantire che un'app di AI generativa abbia sempre accesso alle informazioni più aggiornate. Come bonus, le fonti aggiuntive a cui si accede tramite RAG sono trasparenti per gli utenti, a differenza delle conoscenze del foundation model originale.
Negli ultimi dodici anni si sono evoluti modelli di AI veramente generativa, ovvero modelli di deep learning in grado di creare autonomamente contenuti su richiesta. Le architetture dei modelli cardine durante questo periodo includono:
Autoencoder variazionali (VAE), che hanno portato a scoperte rivoluzionarie nel riconoscimento delle immagini, nell'elaborazione del linguaggio naturale e nel rilevamento delle anomalie.
Reti generative avversarie (GAN) e modelli di diffusione, che hanno migliorato l'accuratezza delle applicazioni precedenti e hanno reso possibili alcune delle prime soluzioni di AI per la generazione di immagini foto realistiche.
Trasformatori, l'architettura dei modelli di deep learning alla base dei principali foundation model e delle soluzioni di AI generativa di oggi.
Un autoencoder è un modello di deep learning composto da due reti neurali connesse: una che codifica (o comprime) un'enorme quantità di dati di formazione non strutturati e non etichettati in parametri e un'altra che decodifica tali parametri per ricostruire il contenuto.Tecnicamente, gli autoencoder possono generare nuovi contenuti, ma sono più utili per comprimere i dati per lo storage o il trasferimento e decomprimerli per l'uso che per la generazione di contenuti di alta qualità.
Introdotti nel 2013, gli autoencoder variazionali (VAE) possono codificare i dati come un autoencoder, ma decodificare più nuove varianti del contenuto. Addestrando un VAE a generare variazioni verso un particolare obiettivo, questo può concentrarsi su contenuti più accurati e ad alta fedeltà nel tempo. Le prime applicazioni dei VAE includevano il rilevamento delle anomalie (ad esempio, l'analisi delle immagini mediche) e la generazione del linguaggio naturale.
Anche le GAN, introdotte nel 2014, comprendono due reti neurali: un generatore, che genera nuovi contenuti e un discriminatore, che valuta l'accuratezza e la qualità dei dati generati.Questi algoritmi antagonisti spingono il modello a generare output di qualità sempre più elevata.
Le GAN sono comunemente utilizzate per la generazione di immagini e video, ma possono generare contenuti realistici e di alta qualità in vari domini.Si sono dimostrate particolarmente efficaci in attività come il trasferimento dello stile (alterazione dello stile di un'immagine, ad esempio, da una foto a uno schizzo a matita) e l'aumento dei dati (creazione di nuovi dati sintetici per aumentare le dimensioni e la diversità di un set di dati di formazione).
Introdotti anch'essi nel 2014, i modelli di diffusione funzionano aggiungendo prima rumore ai dati di addestramento fino a renderli casuali e irriconoscibili, quindi addestrando l'algoritmo a disperdere iterativamente il rumore per rivelare l'output desiderato.
I modelli di diffusione richiedono più tempo per l'addestramento rispetto ai VAE o alle GAN, ma offrono un controllo più preciso sull'output, in particolare per gli strumenti di generazione di immagini di alta qualità. DALL-E, lo strumento di generazione di immagini di Open AI, è guidato da un modello di diffusione.
Documentati per la prima volta in un articolo del 2017 pubblicato da Ashish Vaswani e altri, i trasformatori evolvono il paradigma encoder-decoder per consentire un grande passo avanti nel modo in cui i foundation model vengono addestrati e nella qualità e nella gamma di contenuti che possono produrre. Questi modelli sono alla base della maggior parte degli strumenti di AI generativa all'avanguardia di oggi, tra cui ChatGPT e GPT-4, Copilot, BERT, Bard e Midjourney per citarne alcuni.
Per determinare e concentrarsi su ciò che è più importante dei dati all'interno di una sequenza, i trasformatori utilizzano un concetto denominato attenzione per:
elaborare intere sequenze di dati contemporaneamente (ad es. frasi invece di parole singole);
acquisire il contesto dei dati all'interno della sequenza;
codificare i dati di addestramento in incorporamenti (chiamati anche iperparametri) che rappresentano i dati e il loro contesto.
Oltre a consentire un addestramento più rapido, i trasformatori eccellono nell'elaborazione del linguaggio naturale (NLP) e nel natural language understanding (NLU) e sono in grado di generare sequenze di dati più lunghe (ad esempio, non solo risposte a domande, ma anche poesie, articoli o documenti) con maggiore precisione e qualità rispetto ad altri modelli di AI generativa profonda. I modelli trasformatori possono anche essere addestrati o ottimizzati per utilizzare strumenti, ad esempio un'applicazione di fogli di calcolo, HTML, un programma di disegno, per generare contenuti in un formato particolare.
L'AI generativa può creare molti tipi di contenuti in molti domini diversi.
I modelli generativi,soprattutto quelli basati sui trasformatori, possono generare testi coerenti e contestualmente rilevanti, come istruzioni, documentazione, brochure, e-mail, testi per siti web, blog, articoli, relazioni, documenti e persino scrittura creativa. Possono anche eseguire compiti di scrittura ripetitivi o noiosi (ad esempio, la stesura di riassunti di documenti o meta descrizioni di pagine web), lasciando agli scrittori il tempo per dedicarsi a lavori più creativi e di maggior valore.
La generazione di immagini come DALL-E, Midjourney e Stable Diffusion può creare immagini realistiche o opere d'arte originali ed eseguire il trasferimento di stili, la traduzione image-to-image e altre attività di modifica o miglioramento delle immagini. Gli strumenti gen AI per i video possono creare animazioni a partire da prompt di testo e possono applicare effetti speciali ai video esistenti in modo più rapido ed economico rispetto ad altri metodi.
I modelli generativi possono sintetizzare contenuti vocali e audio che sembrano reali per chatbot e assistenti digitali AI a comando vocale, narrazione di audiolibri e altre applicazioni. La stessa tecnologia può generare musica originale che imita la struttura e l'audio delle composizioni professionali.
La gen AI può generare codice originale, completare automaticamente frammenti di codice, tradurre tra i linguaggi di programmazione e riassumere le funzionalità del codice. Consente agli sviluppatori di ottenere prototipi, rifattorizzare ed eseguire rapidamente il debug delle applicazioni, offrendo al contempo un'interfaccia in linguaggio naturale per le attività di codifica.
I modelli di AI generativa possono generare opere d'arte e di design uniche o assistere nella progettazione grafica. Le applicazioni includono la generazione dinamica di ambienti, personaggi o avatar ed effetti speciali per simulazioni virtuali e videogiochi.
I modelli di AI generativa possono essere addestrati per generare dati sintetici o strutture sintetiche basate su dati reali o sintetici. Ad esempio, l'AI generativa viene applicata nella scoperta di farmaci per generare strutture molecolari con le proprietà desiderate, contribuendo alla progettazione di nuovi composti farmaceutici.
Il vantaggio generale dell'AI generativa è una maggiore efficienza. Poiché è in grado di generare contenuti e risposte su richiesta, la gen AI ha il potenziale per accelerare o automatizzare le attività ad alta intensità di lavoro, ridurre i costi e liberare il tempo dei dipendenti per un lavoro di maggior valore.
Ma l'AI generativa offre molti altri vantaggi per individui e organizzazioni.
Gli strumenti di gen AI possono ispirare la creatività attraverso il brainstorming automatizzato, generando più versioni inedite dei contenuti. Queste variazioni possono anche servire come punti di partenza o riferimenti che aiutano scrittori, artisti, designer e altri creatori a superare il blocco creativo.
L'AI generativa eccelle nell'analisi di grandi set di dati, nell'identificazione di schemi e nell'estrazione di insight significativi, per poi generare ipotesi e raccomandazioni basate su tali insight supportando dirigenti, analisti, ricercatori e altri professionisti nel prendere decisioni più intelligenti e basate sui dati.
In applicazioni come i sistemi di raccomandazione e la creazione di contenuti, l'AI generativa può analizzare le preferenze e la cronologia degli utenti e generare contenuti personalizzati in tempo reale, portando a un'esperienza utente più personalizzata e coinvolgente.
L'AI generativa funziona in maniera costante senza fatica, fornendo una disponibilità continua per attività come i chatbot del supporto clienti e le risposte automatiche.
Di seguito sono riportati solo alcuni casi d'uso della gen AI per le aziende. Man mano che la tecnologia si sviluppa e le organizzazioni incorporano questi strumenti nei workflow, ci aspettiamo di vederne molti altri.
Le organizzazioni di marketing possono risparmiare tempo e aumentare la produzione di contenuti utilizzando strumenti di gen AI per redigere i testi di blog, pagine web, documentazione accessoria, e-mail e altro ancora. Ma le soluzioni di AI generativa possono anche produrre testi e immagini di marketing altamente personalizzati in tempo reale, in base a quando, dove e a chi viene erogato l'annuncio. Inoltre, alimenterà i chatbot di nuova generazione e gli agenti virtuali in grado di fornire risposte personalizzate e persino di avviare azioni per conto del cliente, un avanzamento significativo rispetto alla precedente generazione di modelli di AI conversazionale formati su dati più limitati per attività molto specifiche.
Gli strumenti di generazione di codice possono automatizzare e accelerare il processo di scrittura di nuovo codice. La generazione di codice ha anche il potenziale per accelerare drasticamente la modernizzazione delle applicazioni, automatizzando gran parte della codifica ripetitiva necessaria per modernizzare le applicazioni legacy per ambienti hybrid cloud.
L'AI generativa è in grado di redigere o rivedere rapidamente contratti, fatture, bollette e altri documenti digitali o fisici, in modo che i dipendenti che la utilizzano o la gestiscono possano concentrarsi su attività di livello superiore. Ciò accelera i workflow in quasi tutte le aree aziendali, comprese le risorse umane, gli uffici legali, gli acquisti e le finanze.
I modelli di AI generativa possono aiutare scienziati e ingegneri a proporre nuove soluzioni a problemi complessi. Nel settore sanitario, ad esempio, i modelli generativi possono essere applicati per sintetizzare le immagini mediche per la formazione e per testare i sistemi di imaging medico.
L'AI generativa ha fatto passi da gigante in un periodo di tempo relativamente breve, ma presenta ancora problematiche e rischi significativi per gli sviluppatori, gli utenti e il pubblico in generale. Di seguito sono riportati alcuni dei problemi più gravi e come vengono affrontati.
Un'allucinazione dell'AI è un output di AI generativa privo di senso o del tutto impreciso ma che, il più delle volte, sembra del tutto plausibile. L'esempio classico è quando un avvocato ha utilizzato uno strumento di gen AI per la ricerca in preparazione di un caso di alto profilo e lo strumento ha "prodotto" diversi casi di esempio, completi di citazioni e attribuzioni, che erano interamente fittizi.
Alcuni professionisti considerano le allucinazioni come una conseguenza inevitabile del bilanciamento tra l'accuratezza di un modello e le sue funzionalità creative. Gli sviluppatori possono però implementare misure preventive, chiamate guardrail, che limitano il modello a fonti di dati rilevanti o affidabili. Una valutazione e una messa a punto continue contribuiscono a ridurre le allucinazioni e le imprecisioni.
A causa della natura variazionale o probabilistica dei modelli di AI generativa, gli stessi input possono produrre output leggermente o molto diversi. Ciò può essere un aspetto indesiderato in alcune applicazioni, come i chatbot del servizio clienti, dove ci si aspetta coerenza nei risultati. Tramite prompt engineering, ossia perfezionando o compattando i prompt, gli utenti possono arrivare a prompt che forniscono costantemente i risultati desiderati dalle loro applicazioni di AI generativa.
I modelli generativi possono apprendere le distorsioni sociali presenti nei dati di addestramento (o nei dati etichettati, nelle fonti di dati esterne o nei valutatori umani utilizzati per adattare il modello) e generare di conseguenza contenuti distorti, ingiusti o offensivi. Per evitare che i modelli restituiscano degli output distorti, gli sviluppatori devono garantire dati di addestramento diversificati, stabilire linee guida per prevenire le distorsioni durante l'addestramento e la messa a punto e valutare continuamente gli output del modello per garantirne l'accuratezza.
Molti modelli di AI generativa sono modelli "black box", ovvero che può essere difficile o impossibile comprenderne i processi decisionali. Anche gli ingegneri o i data scientist che creano l’algoritmo sottostante fanno fatica a capire o spiegare cosa succede esattamente all'interno e come si arriva a un risultato specifico. Le pratiche e le tecniche di AI spiegabile possono aiutare professionisti e utenti a comprendere e fidarsi dei processi e degli output dei modelli generativi.
Anche valutare e confrontare la qualità dei contenuti generati può essere impegnativo. Le metriche di valutazione tradizionali potrebbero non cogliere gli aspetti sfumati di creatività, coerenza o pertinenza. Lo sviluppo di metodi di valutazione robusti e affidabili per l'AI generativa rimane un'area di ricerca attiva.
I modelli di AI generativa possono essere sfruttati per generare e-mail di phishing convincenti, false identità o altri contenuti nocivi in grado di ingannare gli utenti nell'esecuzione di azioni che compromettono la sicurezza e la privacy dei dati.Gli sviluppatori e gli utenti devono prestare attenzione al fatto che i dati inseriti nel modello (durante l'adattamento o come parte di un prompt) non espongano la proprietà intellettuale (IP) o le informazioni protette come IP da altre organizzazioni, e monitorare gli output per evitare che i nuovi contenuti violino la proprietà intellettuale o quella di altri.
I deepfake sono immagini, video o audio generati o gestiti dall'AI per convincere le persone di aver visto o sentito qualcosa che non è mai stato fatto o detto. Sono tra gli esempi più agghiaccianti di come la potenza dell'AI generativa possa essere applicata con intenti malevoli.
La maggior parte delle persone conosce i deepfake creati per danneggiare la reputazione o diffondere disinformazione. Di recente, i criminali informatici hanno utilizzato i deepfake come parte di attacchi informatici (ad esempio, voci false nelle truffe di phishing vocale) o di schemi di frode finanziaria.
I ricercatori stanno lavorando alacremente per creare modelli AI in grado di rilevare i deepfake con maggiore precisione. Nel frattempo, la formazione degli utenti e le best practice (ad esempio, non condividere materiale controverso, non verificato o non controllato) aiutano a limitare il danno che i deepfake possono arrecare.
Newsletter di settore
Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e altro con la newsletter Think. Leggi l'Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
Il termine "AI generativa" è esploso nel dibattito pubblico negli ultimi anni, ma la gen AI fa parte delle nostre vite da decenni e la tecnologia di AI generativa di oggi si basa sulle scoperte dell'apprendimento automatico risalenti all'inizio del XX secolo. Una storia rappresentativa ma non esaustiva dell'AI generativa potrebbe includere alcune delle seguenti date.
1964: Joseph Weizenbaum, informatico del MIT, sviluppa ELIZA, un'applicazione di elaborazione del linguaggio naturale basata su testo. ELIZA, che è stato sostanzialmente il primo chatbot (all'epoca chiamato "chatterbot"), utilizzava script di pattern-matching per rispondere agli input in linguaggio naturale digitati con risposte testuali empatiche.
1999: Nvidia lancia GeoForce, la prima unità di elaborazione grafica. Originariamente sviluppate per fornire una grafica in movimento fluida per i videogiochi, le GPU erano diventate di fatto la piattaforma per lo sviluppo di modelli AI e il mining di criptovalute.
2004: appare per la prima volta il completamento automatico di Google, che genera potenziali parole o frasi successive quando gli utenti inseriscono i termini di ricerca. L'esempio relativamente moderno dell'AI generativa è basato su una catena Markov, un modello matematico sviluppato nel 1906.
2013: compaiono i primi autoencoder variazionali (VAE).
2014: compaiono le prime reti generative avversarie (GAN) e i primi modelli di diffusione.
2017: Ashish Vaswani, un team di Google Brain e un gruppo della University of Toronto pubblicano "Attention is All You Need", un documento che documenta i principi dei modelli di trasformazione, ampiamente riconosciuti come in grado di abilitare i più potenti foundation model e strumenti di AI generativa in fase di sviluppo oggi.
2019-2020: OpenAI implementa i suoi modelli linguistici di grandi dimensioni GPT (Generative Pretrained Transformer), GPT-2 e GPT-3.
2022: OpenAI presenta ChatGPT, un front-end di GPT-3 che genera frasi complesse, coerenti e contestualizzate, e contenuti a lungo termine in risposta ai prompt degli utenti finali.
Con la notorietà e la popolarità acquisite da ChatGPT, gli sviluppi dell'AI generativa e le release di prodotti si sono susseguiti a un ritmo forsennato, fino a giungere alle release di Google Bard (ora Gemini), Microsoft Copilot, IBM watsonx.ai, e del modello linguistico di grandi dimensioni open source Llama-2, di Meta.
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.
Scopri come i CEO possono trovare il giusto equilibrio tra il valore che l'AI generativa può creare, gli investimenti che richiede e i rischi che introduce.
Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.
Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.
Vuoi ottenere un ritorno migliore sui tuoi investimenti nell'AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.
Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.
IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.
Scopri come scegliere il foundation model di AI più adatto al tuo caso d'uso.
Approfondisci i 3 elementi critici di una solida strategia AI: creare un vantaggio competitivo, scalare l'AI attraverso l'azienda e promuovere un'AI affidabile.
1 The state of AI in 2023: Generative AI’s breakout year, McKinsey, 1 agosto 2023
2 Gartner afferma che più dell'80% delle aziende utilizzerà API di AI o distribuirà applicazioni basate sull'AI entro il 2026, Gartner, 11 ottobre 2023