Che cos'è il deep learning?

Data di aggiornamento: 17 giugno 2024
Collaboratori: Jim Holdsworth, Mark Scapicchio

Cos'è il deep learning?

Il deep learning è un sottoinsieme di machine learning che utilizza reti neurali multilivello, chiamate reti neurali profonde, per simulare il complesso potere decisionale del cervello umano. Una forma di deep learning potenzia la maggior parte delle applicazioni di AI (intelligenza artificiale) nella nostra vita attuale.

La principale differenza tra deep learning e machine learning è la struttura dell'architettura della rete neurale sottostante. «Nondeep», i modelli tradizionali di machine learning utilizzano reti neurali semplici con uno o due livelli computazionali. I modelli di deep learning utilizzano tre o più livelli, ma in genere centinaia o migliaia di livelli, per addestrare i modelli.

Mentre i modelli di apprendimento supervisionato richiedono dati di input strutturati ed etichettati per produrre output accurati, i modelli di deep learning possono utilizzare l'apprendimento non supervisionato. Con l'apprendimento non supervisionato, i modelli di deep learning possono estrarre le caratteristiche, le funzioni e le relazioni necessarie per ottenere risultati accurati da dati non elaborati e non strutturati. Inoltre, questi modelli possono anche valutare e perfezionare i propri risultati per una maggiore precisione.

Il deep learning è un aspetto della data science che promuove numerosi servizi e applicazioni che migliorano l'automazione, eseguendo attività analitiche e fisiche senza l'intervento umano. Questo riguarda numerosi prodotti e servizi di uso quotidiano, come assistenti digitali, telecomandi TV con funzionalità vocali, rilevamento delle frodi con carte di credito, auto a guida autonoma e AI generativa.

Crea flussi di lavoro AI responsabili con la governance AI

Scopri gli elementi costitutivi e le best practice per aiutare i tuoi team ad accelerare l’AI responsabile.

Contenuti correlati

Registrati per l'ebook sull'AI generativa

Inizia il percorso verso l'AI

Impara a scalare l'AI

Esplora l'AI Academy

Come funziona il deep learning

Reti neurali, o reti neurali artificiali, tentano di imitare il cervello umano attraverso una combinazione di input di dati, pesi e pregiudizi, il tutto agendo come neuroni in silicio. Questi elementi funzionano insieme per riconoscere, classificare e descrivere accuratamente gli oggetti all'interno dei dati.

Le reti neurali profonde sono costituite da più livelli di nodi interconnessi, ognuno dei quali si basa sul livello precedente per perfezionare e ottimizzare la previsione o la categorizzazione. Questa progressione dei calcoli attraverso la rete è chiamata propagazione in avanti. I livelli di input e output di una rete neurale profonda sono chiamati livelli visibili . Il livello di input è il punto in cui il modello di deep learning inserisce i dati per l'elaborazione e il livello di output è il punto in cui viene effettuata la previsione o la classificazione finale.

Un altro processo chiamato retropropagazione utilizza algoritmi, come la discesa del gradiente, per calcolare gli errori nelle previsioni e quindi regola i pesi e le distorsioni della funzione spostandosi all'indietro attraverso i livelli per addestrare il modello. Insieme, la propagazione in avanti e la retropropagazione consentono a una rete neurale di fare previsioni e correggere eventuali errori. Nel tempo, l'algoritmo diventa gradualmente più accurato.

Il deep learning richiede un’enorme quantità di potenza di calcolo. Le unità di elaborazione grafica (GPU) ad alte prestazioni sono ideali perché sono in grado di gestire un volume elevato di calcoli in più core con memoria copiata disponibile. Anche il cloud computing distribuito può essere d'aiuto. Questo livello di potenza di calcolo è necessario per addestrare algoritmi profondi attraverso il deep learning. Tuttavia, la gestione di più GPU on-premise può creare un'elevata richiesta di risorse interne ed essere incredibilmente costosa da scalare. Per i requisiti software, la maggior parte delle app di deep learning è codificata con uno di questi tre framework di apprendimento: JAX, PyTorch o TensorFlow.

Tipi di modelli di deep learning

Gli algoritmi di deep learning sono incredibilmente complessi ed esistono diversi tipi di reti neurali per affrontare problemi o set di dati specifici. Eccone sei. Ognuno ha i suoi vantaggi e sono presentati qui approssimativamente nell'ordine di sviluppo, con ogni modello successivo che si adatta per superare una debolezza di un modello precedente.

Una potenziale debolezza comune a tutti è che i modelli di deep learning sono spesso delle "black box" che rendono difficile la comprensione del loro funzionamento interno e pongono problemi di interpretabilità. Ma questo può essere compensato rispetto ai vantaggi complessivi dell'alta precisione e della scalabilità.

CNN

Le reti neurali convolutive (CNN o ConvNets) sono utilizzate principalmente nelle applicazioni di computer vision e classificazione delle immagini. Sono in grado di rilevare funzioni e modelli all'interno di immagini e video, consentendo attività come il rilevamento di oggetti, il riconoscimento di immagini, il riconoscimento di modelli e il riconoscimento facciale. Queste reti sfruttano i principi dell'algebra lineare, in particolare la moltiplicazione della matrice, per individuare i modelli all'interno di un'immagine.

Le CNN sono un tipo specifico di rete neurale, composta da livelli di nodi contenenti un livello di input, uno o più livelli nascosti e un livello di output. Ogni nodo si connette a un altro e ha un peso e una soglia associati. Se l'output di qualsiasi singolo nodo è al di sopra del valore di soglia specificato, tale nodo viene attivato, inviando i dati al livello successivo della rete. In caso contrario, non viene passato alcun dato al livello successivo della rete.

Almeno tre tipi principali di livelli costituiscono una CNN: un livello convolutivo, un livello di pooling e un livello completamente connesso (FC). Per usi complessi, una CNN può contenere fino a migliaia di livelli, ognuno dei quali si basa sui livelli precedenti. Con la "convoluzione", lavorando e rielaborando l'input originale, è possibile scoprire modelli dettagliati. A ogni livello, la complessità della CNN aumenta, così come la porzione dell'immagine che viene individuata. I primi livelli si concentrano su funzioni semplici, ad esempio i colori e i contorni. Mentre i dati dell'immagine avanzano attraverso i livelli della CNN, vengono riconosciuti elementi o forme più grandi fino a quando, infine, non viene identificato l'oggetto.

Le CNN si distinguono dalle altre reti neurali per le loro prestazioni superiori con input di immagini, segnali vocali o audio. Prima delle CNN, per identificare gli oggetti nelle immagini era necessario impiegare metodi di estrazione delle funzioni manuali e impegnativi in termini di tempo. Tuttavia, le CNN ora forniscono un approccio più scalabile alle attività di classificazione delle immagini e riconoscimento degli oggetti ed elaborano dati ad alta dimensione. E le CNN possono scambiare dati tra livelli per fornire un trattamento dei dati più efficiente. Anche se le informazioni potrebbero andare perse nel livello di pooling, questo potrebbe essere controbilanciato dai vantaggi delle CNN, che possono aiutare a ridurre la complessità, migliorare l'efficienza e limitare il rischio di overfitting.

Ci sono altri svantaggi delle reti CNN, che sono impegnative dal punto di vista computazionale: costano tempo e budget, richiedono molte unità di elaborazione grafica (GPU). Richiedono inoltre esperti altamente qualificati con conoscenze trasversali e test accurati di configurazioni, iperparametri e configurazioni.

RNN

Le reti neurali ricorrenti (RNN) vengono generalmente utilizzate in linguaggio naturale e applicazioni di riconoscimento vocale in quanto utilizzano dati sequenziali o serie temporali. Le RNN possono essere individuate dai loro cicli di feedback. Questi algoritmi di apprendimento vengono utilizzati principalmente quando si utilizzano dati di serie temporali per fare previsioni sui risultati futuri. I casi d'uso includono previsioni di mercato azionario o previsioni di vendita oppure problemi ordinali o temporali, come la traduzione del linguaggio, l'elaborazione del linguaggio naturale (NLP), il riconoscimento vocale e l'intestazione delle immagini. Queste funzioni spesso sono incorporate in applicazioni popolari come Siri, la ricerca vocale e Google Translate.

Le reti RNN usano la loro "memoria" quando prendono informazioni dagli input precedenti per influenzare input e output correnti. Mentre le reti neurali profonde tradizionali presuppongono che gli input e gli output siano indipendenti l'uno dall'altro, l'output delle RNN dipende dagli elementi precedenti all'interno della sequenza. Mentre gli eventi futuri sarebbero utili per determinare l'output di una determinata sequenza, le reti neurali ricorrenti unidirezionali non possono tenere conto di questi eventi nelle loro previsioni.

Le reti RNN condividono i parametri su ogni livello della rete e condividono lo stesso parametro di peso all'interno di ogni livello della rete, con i pesi regolati attraverso i processi di retropropagazione e discesa del gradiente per facilitare l'apprendimento per rinforzo.

Le RNN utilizzano un algoritmo di retropropagazione nel tempo (BPTT) per determinare i gradienti, il che è leggermente diverso dalla retropropagazione tradizionale, in quanto è specifico per i dati di sequenza. I principi del BPTT sono gli stessi della retropagazione tradizionale, in cui il modello si allena calcolando gli errori dal suo livello di uscita al suo livello di input. Il BPTT si differenzia dall'approccio tradizionale in quanto il BPTT somma gli errori in ogni fase temporale, mentre le reti feedforward non hanno bisogno di sommare gli errori, in quanto non condividono i parametri in ogni livello.

Un vantaggio rispetto ad altri tipi di reti neurali è che le RNN utilizzano sia il trattamento dei dati binari, sia la memoria. Le RNN possono pianificare più input e produzioni in modo che, invece di fornire un solo risultato per un singolo input, le RMM possano produrre output one-to-many, many-to-one o many-to-many.

Esistono inoltre opzioni all'interno delle RNN. Ad esempio, la rete con memoria a breve termine (LSTM) è superiore alle RNN semplici, in quanto apprende e agisce sulle dipendenze a lungo termine.

Tuttavia, le RNN tendono a incontrare due problemi fondamentali, noti come gradienti esplosivi e gradienti che scompaiono. Questi problemi sono definiti dalla dimensione del gradiente, che è la pendenza della funzione di perdita lungo la curva di errore.

Quando il gradiente sta svanendo ed è troppo piccolo, continua a ridursi, aggiornando i parametri del peso fino a renderli insignificanti, ovvero zero (0). Quando ciò accade, l'algoritmo non sta più imparando.
I gradienti che esplodono si verificano quando il gradiente è troppo grande, creando un modello instabile. In questo caso, i pesi del modello diventano troppo grandi e alla fine verranno rappresentati come NaN (non come un numero). Una soluzione a questi problemi consiste nel ridurre il numero di livelli nascosti all'interno della rete neurale, eliminando parte della complessità dei modelli RNN.

Alcuni svantaggi finali: le RNN potrebbero anche richiedere lunghi tempi di addestramento ed essere difficili da usare su set di dati di grandi dimensioni. L'ottimizzazione delle RNN aggiunge complessità quando in caso di livelli e parametri numerosi.

Autoencoder e autoencoder variazionali

Il deep learning ha consentito di andare oltre l'analisi dei dati numerici, aggiungendo l'analisi di immagini, parlato e altri tipi di dati complessi. Tra la prima classe di modelli a raggiungere questo obiettivo c'erano gli autoencoder variazionali (VAE). Sono stati i primi modelli di deep learning ad essere ampiamente utilizzati per generare immagini e parlato realistici, il che ha potenziato la modellazione generativa profonda rendendo i modelli più facili da scalare, il che rappresenta la pietra miliare di ciò che consideriamo AI generativa.

Gli autoencoder funzionano codificando i dati non etichettati in una rappresentazione compressa e quindi decodificando i dati nella loro forma originale. Gli autoencoder semplici sono stati utilizzati per una varietà di scopi, tra cui la ricostruzione di immagini danneggiate o sfocate. Gli autoencoder variazionali hanno aggiunto la capacità fondamentale non solo di ricostruire i dati, ma anche di generare variazioni sui dati originali.

Questa capacità di generare nuovi dati ha dato il via a una rapida successione di nuove tecnologie, dalle reti generative antagoniste (GAN) ai modelli di diffusione, in grado di produrre immagini sempre più realistiche, ma false. In questo modo, i VAE hanno posto le basi per l'AI generativa di oggi.

Gli autoencoder sono costituiti da blocchi di encoder e decoder, un'architettura che è alla base anche degli odierni modelli linguistici di grandi dimensioni. Gli encoder comprimono un set di dati in una rappresentazione densa, disponendo punti dati simili più vicini tra loro in uno spazio astratto. I decoder eseguono il campionamento da questo spazio per creare qualcosa di nuovo mantenendo le funzioni più importanti del set di dati.

Il più grande vantaggio degli autoencoder è la capacità di gestire grandi batch di dati e mostrare i dati di input in forma compressa, in modo che gli aspetti più significativi risaltino, consentendo attività di rilevamento e classificazione delle anomalie. In questo modo si velocizza anche la trasmissione e si riducono i requisiti di storage. Gli autoencoder possono essere addestrati su dati non etichettati in modo da poter essere utilizzati laddove i dati etichettati non sono disponibili. Quando si utilizza l'addestramento senza supervisione, c'è un vantaggio in termini di risparmio di tempo: gli algoritmi di deep learning apprendono automaticamente e ottengono precisione senza bisogno di ingegneria manuale delle funzioni. Inoltre, i VAE possono generare nuovi dati di esempio per la generazione di testo o immagini.

Gli autoencoder presentano degli svantaggi. L'addestramento di strutture profonde o intricate può esaurire le risorse computazionali. E durante l'addestramento non supervisionato, il modello potrebbe trascurare le proprietà necessarie e replicare semplicemente i dati di input. Gli autoencoder potrebbero anche trascurare i collegamenti di dati complessi nei dati strutturati in modo da non identificare correttamente le relazioni complesse.

GAN

Le reti generative avversarie (GAN) sono reti neurali utilizzate sia all'interno sia all'esterno dell'AI (intelligenza artificiale) per creare nuovi dati simili ai dati di addestramento originali. Questi possono includere immagini che sembrano volti umani ma sono generate, non prese da persone reali. La parte "antagonista" del nome deriva dall’andirivieni tra le due parti della GAN: un generatore e un discriminatore.

Il generatore crea qualcosa: immagini, video o audio e poi produce un output con una svolta. Ad esempio, un cavallo può essere trasformato in zebra con un certo grado di precisione. Il risultato dipende dall'input e da quanto sono ben addestrati i livelli nel modello generativo per questo caso d'uso.
Il discriminatore è l'avversario, in cui il risultato generativo (immagine falsa) viene confrontato con le immagini reali nel set di dati. Il discriminatore cerca di distinguere tra immagini, video o audio veri e falsi.

Le GAN si addestrano da sole. Il generatore crea dei falsi mentre il discriminatore impara a identificare le differenze tra i falsi del generatore e gli esempi reali. Quando il discriminatore è in grado di segnalare il falso, il generatore viene penalizzato. Il ciclo di feedback continua fino a quando il generatore non riesce a produrre un output che il discriminatore non è in grado di distinguere.

Il principale vantaggio della GAN è la creazione di output realistici che possono essere difficili da distinguere rispetto agli originali, che a loro volta possono essere utilizzati per addestrare ulteriormente i modelli di machine learning. L'impostazione di una GAN per l'apprendimento è semplice, in quanto vengono addestrati utilizzando dati non etichettati o con un'etichettatura minima. Tuttavia, il potenziale svantaggio è che il generatore e il discriminatore potrebbero andare avanti e indietro in competizione per un lungo periodo, creando un grande drenaggio del sistema. Una limitazione della formazione è che potrebbe essere necessaria un'enorme quantità di dati in ingresso per ottenere un output soddisfacente. Un altro potenziale problema è il "collasso della modalità," quando il generatore produce un insieme limitato di output anziché una varietà più ampia.

Modelli di diffusione

I modelli di diffusione sono modelli generativi addestrati utilizzando il processo di diffusione in avanti e in senso inverso di addizione progressiva del rumore e negazione. I modelli di diffusione generano dati, il più delle volte immagini, simili ai dati su cui vengono addestrati, ma poi sovrascrivono i dati utilizzati per addestrarli. Aggiungono gradualmente rumore gaussiano ai dati di addestramento fino a renderli irriconoscibili, poi apprendono un processo di "denoising" inverso in grado di sintetizzare l'output (di solito immagini) da un input di rumore casuale.

Un modello di diffusione apprende a ridurre al minimo le differenze dei campioni generati rispetto al target desiderato. Qualsiasi discrepanza viene quantificata e i parametri del modello vengono aggiornati per ridurre al minimo la perdita, addestrando il modello a produrre campioni molto simili ai dati di addestramento autentici.

Oltre alla qualità delle immagini, i modelli di diffusione hanno il vantaggio di non richiedere un addestramento contraddittorio, il che accelera il processo di apprendimento e offre inoltre un controllo ravvicinato del processo. L'addestramento è più stabile rispetto alle GAN e i modelli di diffusione non sono così inclini al collasso della modalità.

Tuttavia, rispetto alle GAN, i modelli di diffusione possono richiedere più risorse di calcolo per l'addestramento, inclusa una maggiore messa a punto. IBM Research® ha inoltre scoperto che questa forma di AI generativa può essere violata con backdoor nascosti, dando agli aggressori il controllo sul processo di creazione delle immagini in modo che i modelli di diffusione dell'AI possano essere ingannati nella generazione di immagini manipolate.

modelli trasformatori

I modelli trasformatori combinano un'architettura encoder-decoder con un meccanismo di elaborazione del testo e hanno rivoluzionato la formazione dei modelli linguistici. Un encoder converte il testo non elaborato e non annotato in rappresentazioni note come incorporamenti; il decoder prende questi incorporamenti insieme agli output precedenti del modello e prevede successivamente ogni parola in una frase.

Utilizzando l'ipotesi da riempire, l'encoder impara come parole e frasi si relazionano tra loro, creando una potente rappresentazione del linguaggio senza dover etichettare parti del discorso e altre funzioni grammaticali. I trasformatori, infatti, possono essere preaddestrati all'inizio senza un compito particolare in mente. Dopo aver appreso queste potenti rappresentazioni, i modelli possono essere successivamente specializzati, con molti meno dati, per eseguire un'attività richiesta.

Diverse innovazioni lo rendono possibile. I trasformatori elaborano le parole in una frase contemporaneamente, consentendo l'elaborazione del testo in parallelo, accelerando l'addestramento. Le tecniche precedenti, tra cui le reti neurali ricorrenti (RNN), elaboravano le parole una per una. I trasformatori hanno inoltre imparato le posizioni delle parole e le loro relazioni: questo contesto consente loro di dedurre il significato e disambiguare parole come "esso" in frasi lunghe.

Eliminando la necessità di definire un'attività in anticipo, i trasformatori hanno reso pratico il pre-addestramento di modelli linguistici su grandi quantità di testo non elaborato, consentendo loro di aumentare notevolmente le dimensioni. In precedenza, i dati etichettati venivano raccolti per addestrare un modello su un'attività specifica. Con i trasformatori, un modello addestrato su un'enorme quantità di dati può essere adattato a più attività ottimizzandolo su una piccola quantità di dati etichettati specifici per attività.

I trasformatori linguistici oggi vengono utilizzati per attività non generative come la classificazione e l'estrazione di entità, nonché per attività generative tra cui la traduzione automatica, il riassunto e la risposta alle domande. I trasformatori hanno sorpreso molte persone con la loro capacità di generare dialoghi, saggi e altri contenuti convincenti.

I trasformatori di elaborazione del linguaggio naturale (NLP) forniscono una potenza notevole in quanto possono funzionare in parallelo, elaborando più porzioni di una sequenza contemporaneamente, il che velocizza notevolmente l'addestramento. I trasformatori tengono anche traccia delle dipendenze a lungo termine nel testo, il che consente loro di conoscere il contesto generale in modo più chiaro e di creare un output superiore. Inoltre, i trasformatori sono più scalabili e flessibili per essere personalizzati in base all'attività.

Per quanto riguarda le limitazioni, a causa della loro complessità, i trasformatori richiedono enormi risorse computazionali e un lungo periodo di addestramento. Inoltre, i dati sull'addestramento devono essere accurati, imparziali e abbondanti per produrre risultati accurati.

Casi d'uso di deep learning

Il numero di utilizzi del deep learning cresce ogni giorno. Ecco solo alcuni dei modi in cui sta aiutando le aziende a diventare più efficienti e a servire meglio i propri clienti.

Modernizzazione delle applicazioni

L'AI generativa può migliorare le funzionalità degli sviluppatori e ridurre il crescente divario di competenze nei settori della modernizzazione delle applicazioni e dell'automazione IT. L'AI generativa per la codifica è possibile grazie alle recenti scoperte nelle tecnologie di modelli linguistici di grandi dimensioni (LLM) e nell'elaborazione del linguaggio naturale (NLP). Utilizza algoritmi di deep learning e reti neurali di grandi dimensioni su vasti set di dati del codice sorgente esistente. Il codice di addestramento proviene generalmente da un codice disponibile pubblicamente prodotto da progetti open source.

I programmatori possono inserire prompt di testo esplicativi che descrivono cosa desiderano che faccia il codice. Gli strumenti di AI generativa suggeriscono frammenti di codice o funzioni complete, semplificando il processo di codifica gestendo attività ripetitive e riducendo la codifica manuale. L'AI generativa può inoltre tradurre il codice da un linguaggio all'altro, semplificando la conversione del codice o progetti di modernizzazione, come l'aggiornamento di applicazioni legacy traducendo COBOL in Java.

Computer vision

La computer vision è un campo dell'AI che include classificazione delle immagini, rilevamento degli oggetti e segmentazione semantica. Utilizza la machine learning e le reti neurali per insegnare ai computer e ai sistemi di apprendimento di ricavare informazioni significative da immagini digitali, video e altri input visivi e a formulare consigli o intraprendere azioni quando il sistema rileva difetti o problemi. Se l'AI consente ai computer di pensare, la computer vision consente loro di vedere, osservare e capire.

Poiché un sistema di computer vision viene spesso addestrato per ispezionare i prodotti o osservare gli asset di produzione, di solito può analizzare migliaia di prodotti o processi al minuto, notando difetti o problemi impercettibili. La computer vision viene utilizzata in settori che vanno dall'energia e servizi di pubblica utilità alla produzione e all'automotive.

La computer vision ha bisogno di numerosi dati, quindi esegue le analisi di tali dati più e più volte fino a quando non discerne e alla fine riconosce le immagini. Ad esempio, per addestrare un computer a riconoscere i pneumatici delle automobili, è necessario fornire grandi quantità di immagini di pneumatici e articoli relativi ai pneumatici per imparare le differenze e riconoscere uno pneumatico, in particolare uno senza difetti.

La computer vision utilizza modelli algoritmici per consentire a un computer di apprendere da solo il contesto dei dati visivi. Se nel modello vengono inseriti dati sufficienti, il computer "guarderà" i dati e imparerà a distinguere un’immagine da un'altra. Gli algoritmi consentono alla macchina di imparare da sola, piuttosto che con una persona che la programma per riconoscere un'immagine.

La computer vision consente ai sistemi di ricavare informazioni significative da immagini digitali, video e altri input visivi e, in base a tali input, di agire. Questa capacità di fornire consigli la distingue dalle semplici attività di riconoscimento delle immagini. Oggi è possibile vedere alcune applicazioni comuni di computer vision in:

Automotive: sebbene l'era delle auto a guida autonoma non sia completamente arrivata, la tecnologia alla base ha iniziato a essere impiegata sulle automobili, migliorando la sicurezza di conducente e passeggeri attraverso funzioni quali il rilevamento della corsia.
Sanità: la computer vision è stata incorporata nella tecnologia della radiologia per consentire ai medici di individuare in modo più efficace i tumori nell'anatomia altrimenti sana.
Marketing: le piattaforme dei social forniscono suggerimenti su chi potrebbe essere presente in una foto pubblicata su un profilo, rendendo più semplice taggare gli amici negli album fotografici.
Retail: la ricerca visiva è stata incorporata in alcune piattaforme di e-commerce, consentendo ai brand di consigliare articoli che potrebbero costituire aggiunte pertinenti a un guardaroba esistente.

Servizio clienti

L'AI sta aiutando le aziende a capire meglio e soddisfare le crescenti esigenze dei consumatori. Con l'aumento degli acquisti online altamente personalizzati, dei modelli diretti al consumatore e dei servizi di consegna, l'AI generativa può aiutare a sbloccare ulteriormente una serie di vantaggi che possono migliorare l'assistenza clienti, la trasformazione dei talenti e le prestazioni delle applicazioni.

L'AI consente alle aziende di adottare un approccio incentrato sul cliente, sfruttando i preziosi insight derivanti dal feedback dei clienti e dalle loro abitudini di acquisto. Questo approccio basato sui dati può aiutare a migliorare la progettazione e l'imballaggio dei prodotti e può contribuire a promuovere un'elevata soddisfazione dei clienti e un aumento delle vendite.

L'AI generativa può inoltre avere funzione di assistente cognitivo per l'assistenza clienti, fornendo indicazioni contestuali basate sulla cronologia delle conversazioni, sull'analisi del sentiment e sulle trascrizioni dei call center. Inoltre, l'AI generativa può consentire esperienze di acquisto personalizzate, favorire la fidelizzazione dei clienti e offrire un vantaggio competitivo.

Manodopera digitale

Le organizzazioni possono incrementare la forza lavoro sviluppando e implementando la Robotic Process Automation (RPA) e il lavoro digitale per collaborare con gli esseri umani per aumentare la produttività o per aiutare ogni volta che è necessario un backup. Ad esempio, questo può aiutare gli sviluppatori a velocizzare l'aggiornamento del software legacy.

Il lavoro digitale utilizza foundation model per automatizzare e migliorare la produttività dei lavoratori con competenze abilitando l'automazione self-service in modo rapido e affidabile, senza barriere tecniche. Per automatizzare le prestazioni delle attività o le API di chiamata, un modello di riempimento degli slot di livello aziendale basato su LLM può individuare le informazioni in una conversazione e raccogliere tutte le informazioni necessarie per completare un'azione o chiamare un'API senza troppi sforzi manuali.

Invece di chiedere a esperti tecnici di registrare e codificare i flussi di azioni ripetitive per i lavoratori con competenze, le automazioni del lavoro digitale basate su una base di istruzioni e dimostrazioni conversazionali basate su modelli possono essere utilizzate dal lavoratore con competenze per l'automazione self-service. Ad esempio, per accelerare la creazione di app, gli apprendisti digitali no-code possono aiutare gli utenti finali che non hanno competenze di programmazione, insegnando, supervisionando e convalidando efficacemente il codice.

Generative AI

L'AI generativa (detta anche "gen AI") è una categoria di AI (intelligenza artificiale) che crea autonomamente testo, immagini, video, dati o altri contenuti in risposta al prompt o alla richiesta di un utente.

L'AI generativa si basa su modelli di deep learning in grado di apprendere dai modelli nei contenuti esistenti e generare nuovi contenuti simili basati su tale addestramento. Ha applicazioni in molti campi, tra cui il servizio clienti, il marketing, lo sviluppo software e la ricerca, e offre un enorme potenziale per semplificare i workflow aziendali attraverso la creazione e l'aumento di contenuti rapidi e automatizzati.

L'AI generativa eccelle nella gestione di diverse fonti di dati come e-mail, immagini, video, file audio e contenuti sui social. Questi dati non strutturati costituiscono la spina dorsale per la creazione di modelli e l'addestramento continuo dell'AI generativa, in modo che possa rimanere efficace nel tempo. L'utilizzo di questi dati non strutturati può migliorare il servizio clienti attraverso i chatbot e facilitare un instradamento più efficace delle e-mail. In pratica, ciò potrebbe significare indirizzare gli utenti verso le risorse appropriate, che si tratti di metterli in contatto con l'agente giusto o indirizzarli alle guide per l'utente e alle domande frequenti.

Nonostante i limiti e i rischi tanto discussi, numerose aziende stanno andando avanti, esplorando con cautela come le loro organizzazioni possono sfruttare l'AI generativa per migliorare i workflow interni e migliorare i loro prodotti e servizi. Questa è la nuova frontiera: come rendere il posto di lavoro più efficiente senza creare problemi legali o etici.

AI generativa per gli sviluppatori

Elaborazione del linguaggio naturale e riconoscimento vocale

L'elaborazione del linguaggio naturale, o NLP (Natural Language Processing), coniuga la linguistica computazionale, modellazione del linguaggio umano basata su regole, con modelli statistici e di machine learning per consentire a computer e dispositivi digitali di riconoscere, comprendere e generare testo e parlato. La NLP alimenta applicazioni e dispositivi che possono tradurre il testo da una lingua all'altra, rispondere a comandi digitati o parlati, riconoscere o autenticare gli utenti in base alla voce. Aiuta a riassumere grandi volumi di testo, a valutare l'intento o il sentimento di un testo o di un discorso e a generare testo, grafica o altri contenuti su richiesta.

Un sottoinsieme della PNL è la PNL statistica, che combina algoritmi informatici con modelli di machine learning e di deep learning. Questo approccio aiuta a estrarre, classificare ed etichettare automaticamente gli elementi dei dati testuali e vocali, per poi assegnare una probabilità statistica a ogni possibile significato di questi elementi. Oggi, i modelli di deep learning e le tecniche di apprendimento basate sulle RNN consentono ai sistemi NLP di "imparare" mentre lavorano e di estrarre significati sempre più precisi da enormi volumi di testo non elaborato, non strutturato e non etichettato e da set di dati vocali.

Riconoscimento vocale, noto anche come riconoscimento vocale automatico (ASR), riconoscimento vocale informatico o speech to text, è una funzionalità che consente a un programma di elaborare il linguaggio umano in un formato scritto.

Sebbene il riconoscimento vocale sia comunemente confuso con il riconoscimento vocale, il riconoscimento vocale si concentra sulla traduzione del parlato da un formato verbale a uno testuale mentre il riconoscimento vocale cerca solo di identificare la voce di un singolo utente.

Applicazioni di settore

Le applicazioni di deep learning del mondo reale sono ovunque intorno a noi e così ben integrate in prodotti e servizi che gli utenti non sono consapevoli della complessa trattamento dei dati che avviene in background. Alcuni di questi esempi includono:

Deep learning del servizio clienti

Numerose organizzazioni incorporano la tecnologia di deep learning nei propri processi di assistenza clienti. I chatbot sono spesso utilizzati in vari portali di applicazioni, servizi e assistenza clienti. I chatbot tradizionali utilizzano il linguaggio naturale e persino il riconoscimento visivo, comunemente presenti nei menu dei call center. Tuttavia, le sofisticate soluzioni per chatbot tentano di determinare, attraverso l'apprendimento, se ci sono più risposte alle domande ambigue in tempo reale. In base alle risposte che riceve, il chatbot cerca quindi di rispondere direttamente a queste domande o indirizza la conversazione verso un utente umano.

Gli assistenti virtuali come Siri di Apple, Amazon Alexa o Google Assistant estendono l'idea di un chatbot attivando la funzionalità di riconoscimento vocale. Questo crea un nuovo metodo per coinvolgere gli utenti in modo personalizzato.

Analisi dei servizi finanziari

Gli istituti finanziari utilizzano regolarmente l'analisi predittiva per guidare il trading algoritmico di azioni, valutare i rischi aziendali per l'approvazione dei prestiti, rilevare le frodi e aiutare a gestire i portafogli di credito e di investimento per i clienti.

Conservazione delle cartelle cliniche

Il settore sanitario ha tratto grandi benefici dalle funzionalità di deep learning sin dalla digitalizzazione delle immagini e delle cartelle cliniche. Le applicazioni di riconoscimento delle immagini possono supportare specialisti in immagini mediche e radiologi, aiutandoli ad analizzare e valutare più immagini in meno tempo.

L'applicazione della legge utilizza il deep learning

Gli algoritmi di deep learning possono analizzare e apprendere dai dati transazionali per individuare modelli pericolosi che indicano possibili attività fraudolente o criminali. Il riconoscimento vocale, la computer vision e altre applicazioni di deep learning possono migliorare l'efficienza e l'efficacia dell'analisi investigativa estraendo modelli e prove da registrazioni audio e video, immagini e documenti. Questa funzionalità aiuta le forze dell'ordine ad analizzare grandi quantità di dati in modo più rapido e accurato.

Soluzioni correlate

IBM watsonx™

IBM watsonx è un portfolio di strumenti, applicazioni e soluzioni per il business, progettati per ridurre i costi e gli ostacoli dell'adozione dell'AI, ottimizzando al contempo i risultati e l'utilizzo responsabile dell'AI.

Esplora IBM watsonx

IBM watsonx™ Assistant™ - Chatbot AI

IBM watsonx Assistant è il chatbot AI per il business. Questa tecnologia di AI per le aziende consente agli utenti di creare soluzioni di AI conversazionale.

Scopri watsonx Assistant

IBM Watson Studio

Costruisci, esegui e gestisci i modelli AI. Prepara i dati e crea modelli su qualsiasi cloud utilizzando codice open source o modellazione visiva. Prevedi e ottimizza i risultati.

Esplora Watson Studio

Risorse

Apprendimento pratico e gratuito per le tecnologie di AI generativa

Impara i concetti fondamentali dell’AI e dell’AI generativa, tra cui l’ingegneria del prompt, i modelli linguistici di grandi dimensioni e i migliori progetti open-source.

Introduzione al deep learning

Esplora questo ramo del machine learning che è addestrato su grandi quantità di dati e si occupa di unità computazionali che lavorano in tandem per eseguire previsioni.

Architetture di deep learning

Esplora i fondamenti dell’architettura del machine learning e deep learning e scopri le applicazioni e i vantaggi associati.

Confronta i framework di deep learning

Scegliere il giusto framework di deep learning in base al workload individuale è un primo passo fondamentale nel deep learning.

Fai il passo successivo

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno strumento aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una quantità di dati minima.

Esplora watsonx.ai

Prenota una demo live