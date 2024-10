Dans la plupart des cas, la perte de classification est calculée en termes d'entropie. L'entropie, en termes simples, est une mesure de l'incertitude dans un système. Pour un exemple intuitif, comparons le lancer d'une pièce de monnaie avec le lancer d'un dé : le premier a une entropie plus faible, car il y a moins de résultats possibles dans le lancer d'une pièce (2) que dans celui d'un dé (6).

Dans l'apprentissage supervisé, les prédictions du modèle sont comparées aux classifications de la vérité terrain fournies par les étiquettes des données. Ces étiquettes de vérité terrain sont certaines et ont donc une faible entropie, voire aucune. Ainsi, on peut mesurer la perte en termes de différence entre la certitude que nous aurions en utilisant les étiquettes de vérité terrain et la certitude des étiquettes prédites par le modèle.

La formule de la perte d'entropie croisée (CEL) est dérivée de celle de la divergence Kullback-Leibler (KL divergence), qui mesure la différence entre deux distributions de probabilité. Finalement, minimiser la perte revient à minimiser la différence entre la distribution de probabilité de la vérité terrain attribuées à chaque étiquette potentielle et celle des étiquettes prédites par le modèle.



Entropie binaire (perte logarithmique)

La perte d'entropie croisée binaire, également appelée perte logarithmique, est utilisée pour la classification binaire. Les algorithmes de classification binaire produisent généralement une valeur de vraisemblance comprise entre 0 et 1. Par exemple, dans un modèle de détection de spam par e-mail, les entrées d'e-mails qui produisent des résultats proches de 1 sont étiquetées comme « spam ». Les entrées dont les résultats sont proches de 0 sont classées comme « non spam ». Une sortie de 0,5 indiquerait une incertitude maximale, donc une entropie élevée.

Bien que l'algorithme produise des valeurs comprises entre 0 et 1, les valeurs de vérité terrain pour les prédictions correctes sont exactement « 0 » ou « 1 ». Minimiser la perte d'entropie croisée binaire implique donc de pénaliser non seulement les prédictions incorrectes, mais aussi celles qui manquent de certitude. Cela incite le modèle à apprendre des paramètres qui produisent des prédictions à la fois correctes et confiantes. De plus, en utilisant les logarithmes des valeurs de vraisemblance prédites, l'algorithme pénalise plus sévèrement les prédictions qui sont erronées avec certitude.

Pour maintenir la convention selon laquelle des valeurs de perte plus faibles signifient moins d'erreurs, le résultat est multiplié par -1. La perte logarithmique pour un seul exemple i est calculée ainsi : – ( y i · log ( p ( y i ) ) + ( 1 - y i ) · log ( 1 - p ( y i ) ) ) , où y i est la vraie probabilité (0 ou 1) et p(y i ) est la probabilité prédite. La perte moyenne sur un ensemble de n exemples d'entraînement est donc calculée en prenant la moyenne de ces valeurs pour tous les exemples. – 1 n ∑ i = 1 n y i · l o g ( p ( y i ) ) + ( 1 - y i ) · l o g ( 1 - p ( y i ) ) .



Perte d'entropie croisée catégorielle

La perte d'entropie croisée catégorielle (CCEL) applique ce même principe à la classification multiclasse. Un modèle de classification multiclasse produit généralement une valeur pour chaque classe potentielle, représentant la probabilité qu'une entrée appartienne à chaque catégorie respective. En d'autres termes, le modèle produit des prédictions sous forme de distribution de probabilité.

Dans l'apprentissage profond, les classificateurs de réseaux neuronaux utilisent généralement une fonction d'activation softmax pour les neurones de la couche de sortie. Chaque neurone de sortie a une valeur comprise entre 0 et 1, et la somme de toutes ces valeurs atteint 1.

Par exemple, pour un point de données avec une seule catégorie correcte, les valeurs de vérité terrain comprennent « 1 » pour la vraie classe et « 0 » pour toutes les classes incorrectes. Minimiser la CCEL implique d'augmenter la valeur de sortie pour la classe correcte et de diminuer les valeurs de sortie pour les classes incorrectes, ce qui rapproche la distribution de probabilité de celle de la vérité terrain. Pour chaque exemple, la perte logarithmique doit être calculée pour chaque classification potentielle prédite par le modèle.