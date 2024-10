Nella maggior parte dei casi, la perdita di classificazione è calcolata in termini di entropia. L'entropia, in parole povere, è una misura dell'incertezza all'interno di un sistema. Per fare un esempio, paragoniamo il lancio di una moneta al lancio di un dado: il primo ha un'entropia inferiore, perché ci sono meno potenziali risultati nel lancio di una moneta (2) rispetto al lancio di un dado (6).

Nell'apprendimento supervisionato, le previsioni del modello vengono confrontate con le classificazioni di ground truth fornite dalle etichette dei dati. Queste etichette di ground truth sono certe e hanno quindi un'entropia bassa o assente. Pertanto, possiamo misurare la perdita in termini di differenza di certezza che avremmo utilizzando le etichette di ground truth rispetto alla certezza delle etichette previste dal modello.

La formula per la perdita di entropia incrociata (CEL) è derivata da quella della divergenza di Kullback-Leibler (divergenza KL), che misura la differenza tra due distribuzioni di probabilità. In definitiva, ridurre al minimo le perdite implica ridurre al minimo la differenza tra la distribuzione di verità di base delle probabilità assegnata a ciascuna potenziale etichetta e le probabilità relative per ciascuna etichetta prevista dal modello.



Entropia incrociata binaria (perdita logaritmica)

La perdita di entropia incrociata binaria, chiamata anche perdita logaritmica, viene utilizzata per la classificazione binaria. Gli algoritmi di classificazione binaria tipicamente producono un valore di verosimiglianza compreso tra 0 e 1. Ad esempio, in un modello di rilevamento dello spam via e-mail, gli input di posta elettronica che producono output più vicini a 1 potrebbero essere etichettati come "spam". Gli input che producono output più vicini a 0 verrebbero classificati come "non spam". Un output di 0,5 indicherebbe la massima incertezza o entropia.

Sebbene l'algoritmo emetta valori compresi tra 0 e 1, i valori della ground truth per le previsioni corrette sono esattamente "0" o "1". La minimizzazione della perdita di entropia incrociata binaria comporta quindi non solo la penalizzazione delle previsioni errate, ma anche quella delle previsioni con bassa certezza. Ciò incentiva il modello ad apprendere parametri che producono previsioni non solo corrette ma anche affidabili. Inoltre, concentrarsi sui logaritmi dei valori di verosimiglianza previsti porta l'algoritmo a penalizzare più severamente le previsioni che sono sicuramente errate.

Per mantenere la convenzione comune secondo cui valori di perdita più bassi equivalgono a meno errori, il risultato viene moltiplicato per -1. La perdita logaritmica per un singolo esempio i è quindi calcolata come – ( y i · log ( p ( y i ) ) + ( 1 - y i ) · log ( 1 - p ( y i ) ) ) , dove y i è la probabilità effettiva - 0 o 1 - e p(y i ) è la probabilità prevista. La perdita media su un intero set di n esempi di addestramento viene quindi calcolata come – 1 n ∑ i = 1 n y i · l o g ( p ( y i ) ) + ( 1 - y i ) · l o g ( 1 - p ( y i ) ) .



Perdita di entropia incrociata categorica

La perdita di entropia incrociata categorica (CCEL) applica questo stesso principio alla classificazione multi-classe. Un modello di classificazione multi-classe di solito produce un valore per ogni classe potenziale, che rappresenta la probabilità che un input appartenga a ciascuna rispettiva categoria. In altre parole, produce previsioni come una distribuzione di probabilità.

Nel deep learning, i classificatori di reti neurali utilizzano tipicamente una funzione di attivazione softmax per i neuroni nello strato di output. Il valore di ciascun neurone di output viene mappato su un numero compreso tra 0 e 1, con la somma complessiva dei valori pari a 1.

Ad esempio, in un punto dati contenente una sola categoria potenziale, i valori di ground truth per ciascuna previsione comprendono quindi "1" per la classe vera e "0" per ogni classe errata. Minimizzare la CCEL comporta aumentare il valore di output per la classe corretta e diminuire i valori di output per le classi errate, avvicinando così la distribuzione di probabilità a quella della ground truth. Per ogni esempio, la perdita logaritmica deve essere calcolata per ogni potenziale classificazione prevista dal modello.