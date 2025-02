Bien que les indicateurs de distance mentionnés précédemment puissent être utilisés pour mesurer la similarité vectorielle, il s’avère inefficace et lent de comparer tous les vecteurs possibles au vecteur de requête au moment de la requête pour la recherche de similarité. Pour résoudre ce problème, nous pouvons utiliser une recherche approximative du plus proche voisin (ANN).

Au lieu de rechercher une correspondance exacte, les algorithmes ANN identifient les vecteurs qui sont approximativement les plus proches d’une requête donnée en fonction d’une mesure comme la distance euclidienne ou la similarité cosinus. En autorisant un certain niveau d’approximation, ces algorithmes peuvent réduire de manière significative les coûts de calcul liés la recherche des plus proches voisins, sans avoir à calculer les similitudes d’intégration sur l’ensemble du corpus.

L’un des algorithmes ANN les plus utilisés est le graphe HNSW. Ce dernier indexe le jeu de données et accélère la recherche rapide des plus proches voisins en regroupant les vecteurs similaires au fur et à mesure qu’il crée l’index. Le graphe HNSW organise les données en voisinages et les relie à des connexions probables. Lors de l’indexation d’un vecteur dense, il identifie le voisinage approprié, ainsi que ses connexions potentielles, et les stocke dans une structure de graphe. Au cours d’une recherche HNSW avec une requête vectorielle dense, il localise le point d’entrée de voisinage optimal et renvoie les voisins les plus proches.