La nature des données a considérablement évolué ces dernières années. Elle ne se limite plus aux informations structurées, stockées dans les lignes et les colonnes d’une base de données traditionnelle. Les données non structurées, notamment les publications, les images, les vidéos et l’audio sur les réseaux sociaux, voient tant leur volume que leur valeur augmenter pour remodeler les stratégies d’IA des entreprises, tout en imposant de nouvelles exigences à l’infrastructure de données.
Les bases de données relationnelles traditionnelles excellent dans la gestion des jeux de données structurées et semi-structurées dans des schémas définis. Néanmoins, le chargement et la préparation de données non structurées dans une base de données relationnelle pour les workloads d’IA demandent beaucoup de travail.
La recherche traditionnelle accentue cette limitation : elle s’appuie sur des tokens discrets tels que des mots-clés, des balises ou des métadonnées, et renvoie des résultats basés sur des correspondances exactes. Une recherche sur le terme « smartphone », par exemple, renvoie uniquement le contenu contenant ce terme précis.
Les bases de données vectorielles adoptent une approche fondamentalement différente. Au lieu d’être organisés en lignes et colonnes, les points de données sont représentés par des vecteurs denses dont chaque dimension correspond à une caractéristique apprise des données. Ces embeddings vectoriels de haute dimension se trouvent dans un espace vectoriel où les relations entre les éléments peuvent être mesurées géométriquement.
Parce que chaque dimension représente une caractéristique latente, déduite à l’aide de modèles mathématiques et d’algorithmes, les représentations vectorielles capturent les schémas cachés. Une requête de recherche vectorielle pour « smartphone » peut également donner des résultats sémantiquement proches comme « téléphone portable » ou « appareil mobile », même si ces mots exacts n’apparaissent pas.
En modélisant les données dans un espace à haute dimension et en appliquant des techniques d’indexation spécialisées, les bases de données vectorielles permettent d’effectuer une recherche de similarité à faible latence dans les jeux de données volumineux. Il s’agit d’une capacité que les bases de données relationnelles n’ont pas été conçues pour prendre en charge.