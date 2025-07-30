Pour calculer la similarité cosinus, il faut mesurer le cosinus de l’angle (thêta) entre deux vecteurs non nuls dans un espace de produit interne. Cette mesure génère un score de similarité cosinus. Les valeurs de similarité cosinus varient de -1 à 1 :
C’est un peu comme comparer des flèches : si elles pointent dans la même direction, elles sont très similaires. Celles à angle droit sont sans rapport, et les flèches pointant dans des directions opposées sont dissemblables.
Sur cette approche angulaire reposent de nombreux systèmes de machine learning (ML), de traitement automatique du langage naturel (TAL) et d’intelligence artificielle (AI). Ces technologies s’appuient sur des représentations vectorielles des données, ce qui signifie que ces dernières ont été converties en forme numérique pour en saisir le sens et la similitude avec d’autres données.
Par exemple, un chatbot peut utiliser des techniques d’embedding lexical pour convertir du texte en vecteurs, des modèles de deep learning pour comprendre l’intention, et des algorithmes de recherche de similarité pour récupérer la réponse la plus pertinente depuis une base de données. La similarité cosinus est utilisée à chaque étape de ce processus.
Qu’il s’agisse de prédire le mot suivant d’une phrase ou de recommander un endroit à proximité pour se restaurer, de nombreux systèmes présents dans notre vie numérique reposent sur la mesure de la similarité. Des technologies telles que les moteurs de recommandation et les grands modèles de langage (LLM) font appel à la similarité cosinus pour identifier le contenu le plus pertinent et les réponses qui ont le plus de sens.
Ces décisions sont prises en analysant les relations entre les points de données au sein des jeux de données à haute dimension ou peu denses. Lors d’une analyse de texte classique, les documents sont généralement convertis en représentations numériques à l’aide de techniques comme la fréquence inverse des documents (tf-idf), une forme avancée de bag of words (BoW). La technique BoW note la fréquence à laquelle un terme apparaît dans un document, tandis que la tf-idf ajuste ce score en fonction de la fréquence ou de la rareté du mot dans un jeu de données plus grand.
Les systèmes plus avancés s’appuient sur les réseaux de neurones pour générer des plongements vectoriels, c’est-à-dire des représentations numériques de points de données qui expriment les différents types de données sous forme de tableau de nombres. Par exemple, les mots « médecin» et « infirmière » peuvent figurer à proximité l’un de l’autre dans l’espace vectoriel, ce qui signifie que le modèle les considère comme étant proches. Ces embeddings passent souvent par des étapes supplémentaires, comme l’analyse en composantes principales (ACP), pour accélérer et améliorer la comparaison à grande échelle.
Dans les deux approches, la similarité cosinus mesure le niveau d’alignement des vecteurs obtenus pour permettre aux systèmes d’identifier les schémas et les relations au sein des jeux de données complexes. Dans le cas du TAL, de l’IA et de la science des données, la similarité cosinus joue un rôle central dans les tâches suivantes :
Les moteurs de recherche utilisent la similarité cosinus pour associer les requêtes des utilisateurs aux documents correspondants, ce qui améliore la précision et la qualité du classement.
Les réseaux de neurones et les LLM comparent les embeddings à l’aide de la similarité cosinus pour évaluer la proximité sémantique des entrées.
Les systèmes de recommandation appliquent les techniques de recherche par similarité pour suggérer produits, médias et contenus adaptés au comportement et aux préférences de l’utilisateur.
La similarité cosinus facilite la modélisation des sujets en regroupant les documents dont les thèmes sont similaires. En général, ces distributions de sujets sont générées à l’aide de méthodes comme l’allocation de Dirichlet latente (LDA).
Outre les cas d’utilisation textuels, la similarité cosinus est adaptée à tout scénario qui exige que des modèles multidimensionnels soient comparés avec précision et rapidité, comme la reconnaissance d’images, la détection des fraudes et la segmentation client.
La similarité cosinus mesure l’alignement de deux vecteurs en calculant le cosinus de l’angle entre eux.
Dans des applications réelles comme la comparaison de documents, les données sont représentées sous forme de vecteurs dans un espace multidimensionnel. Chaque dimension représente un mot, un attribut ou une action, et la valeur de cette dimension indique le degré de proéminence ou d’importance de l’élément en question.
Pour calculer la similarité cosinus :
La formule peut être représentée comme suit :
Similitude cosinus = (A · B) / (||A|| × ||B||)
Où :
Le score obtenu est compris entre -1 et 1.
Pour illustrer ceci, prenons deux mots : « roi » et « reine ».
Tous deux apparaissent souvent dans des contextes similaires. Lorsqu’ils sont traités par un LLM, chacun est transformé en embedding vectoriel qui capture son sens sémantique à partir de son usage dans des millions de phrases. Étant donné que « roi » et « reine » apparaissent souvent près de mots comme « royal », « trône » et « monarque », les embeddings qui en résultent pointeront pratiquement dans la même direction.
Considérons maintenant un troisième mot, « pomme ». Bien qu’il puisse parfois apparaître dans les mêmes documents que les deux autres, il est plus souvent associé à des termes comme « fruit », « verger » ou « croquant ». Son vecteur pointe dans une direction presque opposée, ce qui entraîne une similarité cosinus plus faible. Sur un graphique, les flèches de « roi » et « reine » avanceraient pratiquement côte à côte, tandis que celle de « pomme » s’en écarterait nettement.
Pour optimiser la performance et permettre une récupération plus rapide des correspondances pertinentes, de nombreuses entreprises stockent ces embeddings dans des bases de donnéesvectorielles spécialisées. Il s’agit d’outils conçus pour indexer les vecteurs à haute dimension afin d’améliorer la recherche et de renvoyer des résultats avec un haut degré de similarité.
La similarité cosinus n’est une approche au sein d’un large écosystème d’indicateurs de similarité. Chaque indicateur est pensé pour évaluer la similarité à sa manière, et adapté à un certain type de données dans un espace multidimensionnel. Exemples :
Cet indicateur calcule la distance en ligne droite entre deux points dans un espace vectoriel. Cette méthode est intuitive et couramment utilisée dans l’analyse de données, en particulier pour comparer des données numériques ou des caractéristiques physiques. Cependant, dans les espaces à haute dimension où les vecteurs ont tendance à converger en distance, la distance euclidienne devient moins fiable pour des tâches telles que le clustering ou la recherche d’information.
La similarité de Jaccard mesure le chevauchement entre deux jeux de données en divisant la taille de l’intersection par la taille de l’union. Elle est généralement appliquée aux jeux de données contenant des données catégorielles ou binaires comme les balises, les clics et les vues de produits, et est particulièrement utile aux systèmes de recommandation. Si la similarité de Jaccard se concentre sur la présence ou l’absence, elle ne prend en compte ni la fréquence ni la magnitude.
Le produit scalaire des vecteurs A et B indique dans quelle mesure ils pointent dans la même direction, sans toutefois normaliser les magnitudes. Ce facteur le rend sensible au dimensionnement : les vecteurs comportant des valeurs élevées peuvent sembler plus similaires, même si leur direction diffère.
Plus efficace, la similarité cosinus divise le produit scalaire des vecteurs par le produit de leurs magnitudes respectives (la formule de similarité cosinus). La similarité cosinus s’avère donc plus stable pour comparer les vecteurs non nuls de différentes longueurs, surtout dans les jeux de données à haute dimension.
En pratique, les entreprises associent souvent les mesures de similarité cosinus à d’autres indicateurs, selon la structure du jeu de données et du type de dissimilarité qu’elles souhaitent éviter.
Par exemple, la recherche de similarité dans les applications de types TAL et LLM associe souvent distance cosinus et modèles d’embedding entraînés sur des algorithmes d’apprentissage profond. Les calculs de similarité cosinus sont également intégrés à des outils open source comme Scikit-learn, TensorFlow et PyTorch, pour permettre aux data scientists de calculer plus facilement la similarité cosinus sur les jeux de données à grande échelle.
Compte tenu de son rôle dans une myriade de systèmes, la similarité cosinus offre plusieurs avantages par rapport aux indicateurs traditionnels :
Malgré ses avantages, la similarité cosinus présente quelques limites :
Pour tirer le meilleur parti de la similarité cosinus, les entreprises sont invitées à prendre en compte les aspects suivants :
Les entreprises peuvent normaliser les vecteurs avant le calcul pour assurer la cohérence de la mise à l’échelle et la validité des résultats, surtout lorsqu’elles utilisent des entrées à haute dimension.
Les entreprises ont tout intérêt à nettoyer leurs jeux de données pour supprimer ou signaler les vecteurs nuls, car ils entraînent des erreurs de type « division par zéro » lors des calculs de similarité cosinus.
Les entreprises peuvent compléter la similarité cosinus par des indicateurs supplémentaires tels que la similarité Jaccard ou la distance euclidienne, lorsque plusieurs dimensions de similarité sont nécessaires.
Avant le déploiement, il est conseillé aux entreprises d’évaluer la performance de la similarité cosinus dans des environnements reflétant les conditions réelles, surtout dans le cas des systèmes en temps réel tels que les interfaces de programmation d’application (API).
Les entreprises peuvent tirer parti de bibliothèques open source matures pour calculer efficacement la similarité cosinus à l’échelle. Par exemple, Scikit-learn fournit une fonction de similarité cosinus prête à l’emploi par le biais du chemin de module Python suivant : sklearn.indicateurs.pairwise.
La formule peut également être codée directement en Python grâce à NumPy :
“cosine_similarity = np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))”
Comme des flèches, la similarité cosinus aide les organisations à s’aligner directionnellement. Qu’il s’agisse de faire correspondre des résultats de recherche ou d’éclairer la prise de décision fondée sur les données, elle peut fournir des informations puissantes et aider à personnaliser les expériences à travers de nombreux cas d’utilisation.
