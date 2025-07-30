La similarité cosinus est un indicateur largement utilisé pour déterminer la similarité de deux points de données en fonction de la direction dans laquelle ils pointent, et non de leur longueur ni de leur taille. Elle est particulièrement efficace dans les espaces à haute dimension, où les mesures traditionnelles axées sur la distance peuvent s’avérer difficiles à mettre en œuvre.

Pour calculer la similarité cosinus, il faut mesurer le cosinus de l’angle (thêta) entre deux vecteurs non nuls dans un espace de produit interne. Cette mesure génère un score de similarité cosinus. Les valeurs de similarité cosinus varient de -1 à 1 :

Un score de similarité cosinus de 1 indique que les vecteurs pointent dans la même direction.

indique que les vecteurs pointent dans la même direction. Un score de similarité cosinus de 0 indique que les vecteurs sont orthogonaux, ce qui signifie qu’ils n’ont aucune similarité directionnelle.

indique que les vecteurs sont orthogonaux, ce qui signifie qu’ils n’ont aucune similarité directionnelle. Un score de similarité cosinus de -1 indique que les vecteurs pointent dans des directions complètement opposées.

C’est un peu comme comparer des flèches : si elles pointent dans la même direction, elles sont très similaires. Celles à angle droit sont sans rapport, et les flèches pointant dans des directions opposées sont dissemblables.

Sur cette approche angulaire reposent de nombreux systèmes de machine learning (ML), de traitement automatique du langage naturel (TAL) et d’intelligence artificielle (AI). Ces technologies s’appuient sur des représentations vectorielles des données, ce qui signifie que ces dernières ont été converties en forme numérique pour en saisir le sens et la similitude avec d’autres données.

Par exemple, un chatbot peut utiliser des techniques d’embedding lexical pour convertir du texte en vecteurs, des modèles de deep learning pour comprendre l’intention, et des algorithmes de recherche de similarité pour récupérer la réponse la plus pertinente depuis une base de données. La similarité cosinus est utilisée à chaque étape de ce processus.