My IBM

Accedi

Cos'è la retropropagazione?

2 Luglio 2024

Autori

Cos'è la retropropagazione?

La retropropagazione è una tecnica di machine learning essenziale per l'ottimizzazione delle reti neurali. Facilita l'uso di algoritmi di discesa del gradiente per aggiornare i pesi della rete, che è il modo in cui i modelli di deep learning alla base dell'intelligenza artificiale (AI) moderna "apprendono".

Abbreviazione di "propagazione all'indietro dell'errore", la retropropagazione è un metodo elegante per calcolare in che modo le modifiche a uno qualsiasi dei pesi o dei bias di una rete neurale influiranno sull'accuratezza delle previsioni del modello. È essenziale per l'uso dell'apprendimento supervisionato, dell'apprendimento semi-supervisionato o dell'apprendimento auto-supervisionato per addestrare le reti neurali.

Sebbene gli equivalenti e i predecessori della retropropagazione siano stati proposti indipendentemente in diversi contesti risalenti agli anni '60, David E. Rumelhart, Geoffrey Hinton e Ronald J. Williams sono stati i a pubblicare primi l'algoritmo di apprendimento formale. Il loro articolo del 1986, "Learning representations by back-propagating errors", forniva la derivazione dell'algoritmo di retropropagazione così come utilizzato e compreso in un moderno contesto di machine learning.

La logica della retropropagazione è che gli strati di neuroni nelle reti neurali sono essenzialmente una serie di funzioni matematiche annidate. Durante l'allenamento, queste equazioni interconnesse sono annidate in un'altra funzione: una "funzione di perdita" che misura la differenza (o "perdita") tra l'output desiderato (o "verità di base") per un dato input e l'output effettivo delle reti neurali.

Possiamo quindi utilizzare la "regola della catena", un principio di calcolo che risale al XVII secolo , per calcolare la velocità con cui ogni neurone contribuisce alla perdita complessiva. In tal modo, possiamo calcolare l'impatto delle modifiche a qualsiasi variabile, ovvero a qualsiasi peso o bias, nelle equazioni che quei neuroni rappresentano.

Matematicamente parlando, la retropropagazione lavora a ritroso dall'output per calcolare in modo efficiente il "gradiente" della funzione di perdita: un vettore di derivate per ogni equazione nella rete. Questo gradiente indica agli algoritmi di ottimizzazione come "discesa del gradiente" quali equazioni regolare e in che direzione, per ridurre le perdite.

Questi tre processi intrecciati - una funzione di perdita che traccia l'errore del modello su diversi input, la propagazione a ritroso di quell'errore per vedere come le diverse parti della rete contribuiscono all'errore e gli algoritmi di discesa del gradiente che regolano i pesi dei modelli di conseguenza - costituiscono il modo in cui i modelli di deep learning "imparano". Per questo motivo, la retropropagazione è fondamentale per l'addestramento dei modelli di reti neurali, dai più semplici percettori multistrato alle complesse architetture di reti neurali profonde utilizzate per l'AI generativa.

Newsletter di settore

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e altro con la newsletter Think. Leggi l'Informativa sulla privacy IBM.

Come funzionano le reti neurali

Poiché il processo di retropropagazione è fondamentale per il modo in cui le reti neurali vengono addestrate, una spiegazione utile del processo richiede una comprensione pratica di come le reti neurali fanno previsioni.

È soprattutto importante comprendere lo scopo e il contesto di "pesi" e "bias": i parametri del modello regolabili che vengono ottimizzati tramite la retropropagazione e la discesa del gradiente.

Struttura di una rete neurale

Lo scopo delle reti neurali è imitare approssimativamente la struttura del cervello umano. Sono composti da molti nodi (o neuroni) interconnessi, disposti in strati. Le reti neurali fanno previsioni una volta che i dati di input originali hanno effettuato un "passaggio in avanti" attraverso l'intera rete.

I neuroni nello "strato di input" ricevono dati di input, solitamente sotto forma di incorporamento vettoriale, con ogni neurone di input che riceve una singola caratteristica del vettore di input. Ad esempio, un modello che funziona con immagini in scala di grigi da 10x10 pixel avrà in genere 100 neuroni nel suo strato di input, con ogni neurone di input corrispondente a un singolo pixel. Le reti neurali quindi richiedono tipicamente input di dimensioni fisse, anche se tecniche come il pooling o la normalizzazione possono fornire una certa flessibilità.

In una rete neurale feedforward standard, ogni neurone nello strato di input è connesso a ciascuno dei neuroni nello strato successivo, i quali sono a loro volta connessi ai neuroni nel successivo strato, e così via fino allo strato di output dove vengono fatte le previsioni finali. Gli strati intermedi tra quello di input e quello di output, chiamati livelli nascosti della rete, sono quelli in cui avviene la maggior parte dell' "apprendimento".

Sebbene alcune architetture di reti neurali specializzate, come una combinazione di modelli esperti o reti neurali convoluzionali, comportino variazioni, aggiunte o eccezioni a questa semplice disposizione, tutte le reti neurali utilizzano questa struttura centrale.

Pesi e bias

Sebbene ogni neurone riceva input da ciascun nodo del livello precedente, non tutti questi input hanno la stessa importanza. Ad ogni connessione tra due neuroni viene assegnato un "peso" unico: un moltiplicatore che aumenta o diminuisce il contributo di un neurone a un neurone nello strato successivo.

A ogni singolo neurone può essere assegnato anche un "bias": un valore costante aggiunto alla somma degli input ponderati dei neuroni nello strato precedente.

L'obiettivo finale della retropropagazione e della discesa del gradiente è calcolare i pesi e le distorsioni che forniranno le migliori previsioni del modello. Ai neuroni corrispondenti a caratteristiche dei dati che sono significativamente correlate a previsioni accurate viene assegnato un peso maggiore, mentre ad altre connessioni può essere assegnato un peso prossimo allo zero.

Le moderne reti neurali profonde, spesso con dozzine di livelli nascosti ciascuno contenente molti neuroni, potrebbero comprendere migliaia, milioni o, nel caso della maggior parte dei modelli linguistici di grandi dimensioni (LLM), miliardi di parametri regolabili.

Funzioni di attivazione

Ogni neurone è configurato per eseguire un'operazione matematica, chiamata "funzione di attivazione", sulla somma degli input pesati in modo variabile che riceve dai nodi nello strato precedente. Le funzioni di attivazione introducono la "non linearità", che consente al modello di acquisire pattern complessi nei dati di input e produrre gradienti che possono essere ottimizzati. L'utilizzo delle sole funzioni di attivazione lineare fa collassare le reti neurali in un modello di regressione lineare .

Le funzioni di attivazione comuni nelle reti neurali includono:

La funzione sigmoide, che mappa qualsiasi input su un valore compreso tra 0 e 1.
La funzione tangente iperbolica (o tanh), che mappa gli input su un valore compreso tra -1 e 1.
L'unità lineare rettificata (o ReLU), che mappa qualsiasi input negativo su 0 e lascia invariato qualsiasi input positivo.
La funzione softmax, che converte un vettore di input in un vettore i cui elementi vanno da 0 e 1 e la somma collettiva è 1.

Consideriamo un'ipotetica unità z nascosta, con una funzione di attivazione tanh e un termine di bias t, nel secondo strato di una rete neurale con 3 nodi di input, a, b e c, nel suo strato di input. Ciascuna delle connessioni tra i nodi di input e il nodo z ha un peso univoco, w. Possiamo descrivere il valore di output che il nodo z passerà ai neuroni nel livello successivo con l'equazione semplificata z = tanh(w_az*a + w_bz*b + w_cz*c + t).

Il neurone z è collegato ai neuroni nello strato successivo. Quell'equazione per z fa quindi parte delle funzioni di attivazione nel livello successivo e, per estensione, anche è parte di ogni funzione di attivazione per qualsiasi neurone in qualsiasi livello successivo.

Perché utilizzare la retropropagazione?

Come vedremo nelle sezioni seguenti, la retropropagazione è un algoritmo straordinariamente veloce ed efficiente per districare l'enorme rete di variabili ed equazioni interconnesse in una rete neurale.

Per illustrare l'efficienza della retropropagazione, Michael Nielsen la confronta con un approccio alternativo semplice e intuitivo al calcolo del gradiente della funzione di perdita di una rete neurale nel suo libro di testo online, "Neural Networks and Deep Learning".

Come spiega Nielsen, si può facilmente stimare l'impatto delle modifiche a qualsiasi peso specifico w_j nella rete semplicemente completando un passaggio in avanti per due valori leggermente diversi di w_j, mantenendo invariati tutti gli altri parametri e confrontando la perdita risultante per ogni passaggio. Formalizzando quel processo in una semplice equazione e implementando alcune righe di codice in Python, si può automatizzare quel processo per ogni peso nella rete.

Immagina però che nel tuo modello ci siano 1 milione di pesi, il che sarebbe un numero piuttosto modesto per un moderno modello di deep learning. Per calcolare l'intero gradiente, devi completare 1.000.001 passaggi in avanti attraverso la rete: 1 per stabilire una linea di riferimento e poi un altro passaggio per valutare le modifiche a ciascuno dei milioni di pesi.

Con la retropropagazione si può raggiungere lo stesso obiettivo in 2 passaggi: 1 passaggio in avanti e 1 passaggio all'indietro.

Mixture of Experts | Podcast

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda gli episodi

Concetti matematici chiave per la retropropagazione

Per semplificare la spiegazione del funzionamento della retropropagazione, sarà utile rivedere brevemente alcuni concetti e termini matematici fondamentali.

Una derivata è il tasso di variazione di un'equazione in un istante specifico. In un'equazione lineare, il tasso di variazione è una pendenza costante. In un'equazione non lineare, come quelle utilizzate per le funzioni di attivazione, questa pendenza varia. La differenziazione è il processo di ricerca della derivata di una funzione specifica. Differenziando una funzione non lineare, possiamo quindi trovare la pendenza, il suo tasso di variazione istantaneo, in qualsiasi punto specifico della curva.

Nelle funzioni con più variabili, una derivata parziale è la derivata di una variabile rispetto alle altre. Se cambiamo una variabile, ma manteniamo le altre uguali, come cambia l'output della funzione complessiva? Le funzioni di attivazione dei singoli nodi di una rete neurale hanno molte variabili, tra cui i numerosi input provenienti dai neuroni dei livelli precedenti e i pesi applicati a tali input. Quando si tratta di un nodo specifico n, trovare le derivate parziali delle funzioni di attivazione dei neuroni dello strato precedente ci permette di isolare l'impatto di ciascuno sull'output complessivo della funzione di attivazione di n.

Un gradiente è un vettore che contiene tutte le derivate parziali di una funzione con più variabili. Rappresenta essenzialmente tutti i fattori che influenzano la velocità con cui l'output di un'equazione complessa cambia in seguito a una modifica dell'input.

La regola della catena è una formula per il calcolo delle derivate di funzione che coinvolgono non solo più variabili, ma più funzioni. Consideriamo, ad esempio, una funzione composta ƒ(x) = A(B(x)). La derivata della funzione composta, f, è uguale alla derivata della funzione esterna (A) moltiplicata per la derivata della funzione interna (B).

La regola della catena è essenziale per calcolare le derivate delle funzioni di attivazione nelle reti neurali, che sono composte dagli output delle funzioni di attivazione di altri neuroni negli strati precedenti.

Sebbene la logica alla base della retropropagazione sia relativamente semplice, la matematica e la notazione possono diventare molto complesse, specialmente per chi non ha familiarità con il calcolo delle variabili.

Come funziona la retropropagazione?

Partendo dall'output del modello, la retropropagazione applica la regola della catena per calcolare l'influenza delle modifiche a ogni singolo parametro delle reti neurali sull'errore complessivo delle previsioni del modello.

A livello teorico, lo scopo della retropropagazione è addestrare una rete neurale a fare previsioni migliori attraverso l'apprendimento supervisionato. A livello più pratico, l'obiettivo della retropropagazione è determinare in che modo i pesi e le distorsioni del modello devono essere regolati per ridurre al minimo gli errori misurati da una "funzione di perdita".

A livello tecnico e matematico, l'obiettivo della retropropagazione è quello di calcolare il gradiente della funzione di perdita rispetto a ciascuno dei singoli parametri della rete neurale. In termini più semplici, la retropropagazione utilizza la regola della catena per calcolare la velocità con cui la perdita cambia in risposta a qualsiasi modifica di un peso specifico (o bias) nella rete.

In generale, l'addestramento delle reti neurali con la retropropagazione prevede i seguenti passaggi:

Un passaggio in avanti, che fa previsioni sui dati di addestramento.
Una funzione di perdita misura l'errore delle previsioni del modello durante il passaggio in avanti.
La retropropagazione degli errori, o un passaggio all'indietro, per calcolare le derivate parziali della funzione di perdita.
Discesa del gradiente, per aggiornare i pesi dei modelli.

Passaggio in avanti

Le reti neurali producono previsioni tramite propagazione in avanti. La propagazione in avanti è essenzialmente una lunga serie di equazioni nidificate, con gli output delle funzioni di attivazione da un livello di neuroni che fungono da input per le funzioni di attivazione dei neuroni nel livello successivo.

L'addestramento dei modelli inizia in genere con un'inizializzazione casuale dei pesi e dei bias. Gli iperparametri del modello, come il numero di strati nascosti, il numero di nodi in ogni strato e le funzioni di attivazione per neuroni specifici, sono configurati manualmente e non sono soggetti ad addestramento.

In ogni passaggio in avanti viene prelevato un input dal set di dati di addestramento. I nodi del livello di input ricevono il vettore di input e ciascuno passa il proprio valore, moltiplicato per un peso iniziale casuale, ai nodi del primo layer nascosto. Le unità nascoste prendono la somma ponderata di questi valori di output come input per una funzione di attivazione, il cui valore di output (condizionato da un peso iniziale casuale) funge da input per i neuroni nello strato successivo. Questo processo continua fino allo strato di output, dove avviene la previsione finale.

Consideriamo questo esempio semplificato di una rete neurale che classifica gli input in una delle 5 categorie:

Lo strato di input riceve una rappresentazione numerica di un esempio campionato dai dati di addestramento.
I nodi di input passano i loro valori alle unità nascoste nello strato successivo. Le unità nascoste utilizzano una funzione di attivazione ReLU.
I dati fluiscono attraverso gli strati nascosti, ognuno dei quali estrae progressivamente le caratteristiche chiave fino a raggiungere lo strato di output.
Lo strato di output contiene 5 neuroni, ciascuno corrispondente a una potenziale categoria di classificazione.
I neuroni di output utilizzano una funzione di attivazione softmax. Il valore di output della funzione softmax di ogni neurone di output corrisponde alla probabilità, su 1, che l'input debba essere classificato nella categoria rappresentata dal neurone.
La rete prevede che l'input originale appartenga alla categoria del neurone di output con il valore softmax più alto.

In una rete ben addestrata, questo modello produrrà costantemente un valore di probabilità elevato per la classificazione corretta e produrrà valori di bassa probabilità per le altre classificazioni errate. Tuttavia, questa rete neurale non è ancora stata addestrata. A questo punto, i suoi pesi e i suoi bias hanno valori iniziali casuali, quindi le sue previsioni sono generalmente imprecise.

Funzione di perdita

Dopo ogni passaggio in avanti, una "funzione di perdita" misura la differenza (o "perdita") tra l'output previsto del modello per un determinato input e le previsioni corrette (o "ground truth") per quell'input. In altre parole, misura la differenza tra l'output effettivo del modello e quello desiderato.

Nell'apprendimento supervisionato, che utilizza dati etichettati, la verità di base è fornita dalle annotazioni manuali. Nell'apprendimento auto-supervisionato, che maschera o trasforma parti di campioni di dati non etichettati e incarica i modelli ricostruendoli, mentre il campione originale stesso funge da ground truth.

L'obiettivo di questa funzione di perdita è quantificare l'imprecisione in modo che rifletta in modo appropriato sia la natura che l'entità dell'errore dell'output del modello per ogni input. Diverse formule matematiche per calcolare la perdita sono più adatte a compiti specifici: ad esempio, le varianti dell'errore quadratico medio funzionano bene per i problemi di regressione, mentre le varianti della perdita di entropia incrociata funzionano bene per la classificazione.

Poiché la funzione di perdita prende come input l'output di una rete neurale, e quell'output della rete neurale è una funzione composita che comprende molte funzioni di attivazione annidate dei singoli neuroni, derivare la funzione di perdita implica derivare l'intera rete. A tale scopo, la retropropagazione utilizza la regola della catena.

"Funzione di perdita", "funzione di costo" o "funzione di errore"?
Vale la pena notare rapidamente che in alcuni contesti, i termini funzione di costo o funzione di errore sono usati al posto di funzione di perdita, con "costo" o "errore" che sostituiscono "perdita".

Sebbene alcuni testi sull'apprendimento automatico assegnino una sfumatura unica a ciascun termine, in genere sono intercambiabili.¹ Una funzione obiettivo è un termine più ampio per qualsiasi funzione di valutazione che vogliamo minimizzare o massimizzare. La funzione di perdita, la funzione di costo o la funzione di errore si riferiscono specificamente ai termini che vogliamo minimizzare.

Passaggio all'indietro

A partire dal livello finale, un passaggio "all'indietro" differenzia la funzione di perdita per calcolare in che modo ogni singolo parametro della rete contribuisce all'errore complessivo per un singolo input.

Tornando al nostro esempio precedente del modello classificatore, inizieremmo con i 5 neuroni dello strato finale, che chiameremo livello L. Il valore softmax di ciascun neurone di output rappresenta la probabilità, su 1, che un input appartenga alla loro categoria. In un modello perfettamente addestrato, il neurone che rappresenta la classificazione corretta avrebbe un valore di output vicino a 1 e gli altri neuroni avrebbero un valore di output vicino allo 0.

Per il momento ci concentreremo sull'unità di output che rappresenta la previsione corretta, che chiameremo L_c. La funzione di attivazione di L_c è una funzione composita, contenente le numerose funzioni di attivazione annidate dell'intera rete neurale dal livello di input a quello di output. Ridurre al minimo la funzione di perdita comporterebbe l'esecuzione in tutta la rete di regolazioni che portino l'uscita della funzione di attivazione di L_c più vicina a 1.

Per fare ciò, avremo bisogno di sapere in che modo qualsiasi modifica nei livelli precedenti cambierà l'output di L_c. In altre parole, avremo bisogno di trovare le derivate parziali della funzione di attivazione di L_c.

L'output della funzione di attivazione di L_c dipende dai contributi che riceve dai neuroni del penultimo strato, che chiameremo strato L-1. Un modo per modificare l'output di L_c è modificare i pesi tra i neuroni in L-1 e L_c. Calcolando la derivata parziale di ogni peso L-1 rispetto agli altri pesi, possiamo vedere come l'aumento o la diminuzione di ognuno di essi porterà l'output di L_c più vicino (o più lontano) a 1.

Ma questo non è l'unico modo per modificare l'output di L_c. I contributi che L_c riceve dai neuroni L-1 sono determinati non solo dai pesi applicati ai valori di output di L-1, ma dai valori di output effettivi (pre-peso) stessi. I valori di output dei neuroni L-1 , a loro volta, sono influenzati dai pesi applicati agli input che ricevono da L-2. Quindi possiamo differenziare le funzioni di attivazione in L-1 per trovare le derivate parziali dei pesi applicati ai contributi di L-2. Queste derivate parziali ci mostrano come qualsiasi variazione di un peso L-2 influenzerà gli output in L-1, che successivamente influenzeranno il valore di output di L_c e quindi la funzione di perdita.

Con la stessa logica, potremmo anche influenzare i valori di output che i neuroni L-1 ricevono dai neuroni L-2 regolando i contributi che i neuroni L-2 ricevono dai neuroni in L-3. Quindi troviamo le derivate parziali in L-3, e così via, ripetendo ricorsivamente questo processo fino a raggiungere lo strato di input. Quando abbiamo finito, abbiamo il gradiente della funzione di perdita: un vettore della sua derivata parziale per ogni parametro di peso e bias della rete.

Ora abbiamo completato un passaggio in avanti e un passaggio all'indietro per un singolo esempio di addestramento. Tuttavia, il nostro obiettivo è addestrare il modello affinché si generalizzi bene a nuovi input. A tale scopo, è necessario eseguire l'addestramento su un numero elevato di campioni che riflettano la diversità e la gamma di input su cui il modello avrà il compito di effettuare previsioni dopo l'addestramento.

Discesa del gradiente

Ora che abbiamo i gradienti della funzione di perdita rispetto a ciascun parametro di peso e distorsione nella rete, possiamo ridurre al minimo la funzione di perdita e quindi ottimizzare il modello, utilizzando la discesa del gradiente per aggiornarne i parametri.

Scendendo verso il basso, il gradiente della funzione di perdita diminuirà la perdita. Poiché il gradiente che abbiamo calcolato durante la retropropagazione contiene le derivate parziali per ogni parametro del modello, sappiamo in quale direzione "spostare" ciascuno dei nostri parametri per ridurre le perdite.

Ogni passaggio riflette l'apprendimento del modello dai suoi dati di addestramento. Il nostro obiettivo è aggiornare i pesi in modo iterativo fino a raggiungere il gradiente minimo. Lo scopo degli algoritmi di discesa del gradiente è trovare le regolazioni specifiche dei parametri che ci sposteranno verso il basso nel gradiente nel modo più efficiente.

Tasso di apprendimento

La dimensione di ogni passaggio è un iperparametro regolabile, chiamato tasso di apprendimento. La scelta del giusto tasso di apprendimento è importante per un addestramento efficiente ed efficace.

Ricordiamo che le funzioni di attivazione in una rete neurale sono non lineari. Alcuni gradienti possono avere una forma approssimativamente a U: muovendosi in una direzione si scende in basso lungo il gradiente, ma continuando a muoversi in quella direzione alla fine si risale lungo il gradiente.

Un basso tasso di apprendimento ci assicura di andare sempre nella giusta direzione, ma calcolare così tante modifiche richiede tempo e denaro dal punto di vista computazionale. Un alto tasso di apprendimento è efficiente dal punto di vista computazionale, ma rischia di superare il minimo.

Dimensione batch

Un'altra considerazione da fare nella discesa del gradiente è la frequenza con cui aggiornare i pesi. Un'opzione consiste nel calcolare i gradienti per ogni esempio nel set di dati di addestramento, quindi prendere una media di tali gradienti e utilizzarla per aggiornare i parametri. Il processo viene ripetuto iterativamente in una serie di epoche di addestramento fino a quando il tasso di errore si stabilizza. Questo metodo è la discesa del gradiente batch.

Quando il set di dati di addestramento è molto ampio, come in genere nel deep learning, la discesa del gradiente batch comporta tempi di elaborazione proibitivi. Il calcolo dei gradienti per milioni di esempi per ogni iterazione di aggiornamenti del peso diventa inefficiente. Nella discesa stocastica del gradiente (SGD), ogni epoca utilizza un singolo esempio di addestramento per ogni passo. Sebbene la perdita possa variare da un'epoca all'altra, converge rapidamente al minimo nel corso di molti aggiornamenti.

La discesa del gradiente mini-batch rappresenta un approccio intermedio. Gli esempi di addestramento vengono campionati casualmente in batch di dimensioni fisse e i loro gradienti vengono quindi calcolati e mediati. Ciò riduce i requisiti di memorizzazione rispetto alla discesa del gradiente batch riducendo al contempo l'instabilità relativa della SGD.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l’AI generativa e il machine learning nella tua azienda.

Risorse

Reti neurali da zero

Ottieni una comprensione approfondita delle reti neurali, delle loro funzioni di base e dei fondamenti per costruirne una.

Esplora IBM Granite

IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.

AI in Action 2024

Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d’anticipo.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l’AI generativa e il machine learning nella tua azienda.

Come scegliere il giusto foundation model

Scopri come scegliere il foundation model di AI più adatto al tuo caso d’uso.

La guida del CEO all'AI generativa

Scopri come i CEO possono trovare il giusto equilibrio tra il valore che l’AI generativa può creare, gli investimenti che richiede e i rischi che introduce.

Sfruttare al meglio l'AI: aumentare il ROI con la gen AI

Vuoi ottenere un ritorno migliore sui tuoi investimenti nell’AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.

Soluzioni correlate

IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai

Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI

Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI

Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai

Prenota una demo live

Note a piè di pagina

¹ "Deep Learning", Goodfellow et al, MIT Press, 2016.

Cos'è la retropropagazione?

2 Luglio 2024

Autori

Dave Bergmann

Cole Stryker

Cos'è la retropropagazione?

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Grazie per aver effettuato l'iscrizione!

Come funzionano le reti neurali

Struttura di una rete neurale

Pesi e bias

Funzioni di attivazione

Perché utilizzare la retropropagazione?

Decoding AI: Weekly News Roundup

Concetti matematici chiave per la retropropagazione

Come funziona la retropropagazione?

Passaggio in avanti

Funzione di perdita

Passaggio all'indietro

Discesa del gradiente

Tasso di apprendimento

Dimensione batch

Risorse

Soluzioni correlate

Note a piè di pagina