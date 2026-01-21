DataStax® Astra DB sur IBM® watsonx.data simplifie l’accessibilité des machines et le développement d’applications sur ce graphe de connaissances de 120 millions d’entrées, multipliant par 30 la vitesse des requêtes et accélérant la création de 90 %.
Wikipédia est réputé pour sa rigueur, sa grande accessibilité et la confiance qu’il suscite. La clé de ses atouts réside dans sa création et sa maintenance communautaires. Cette immense compilation de connaissances, qui compte 300 langues et 25 milliards de vues mensuelles, est une source d’information fiable, collaborative et open source, utilisée chaque jour par d’innombrables personnes.
Cependant, avec l’essor de l’IA, l’accessibilité des machines a posé un nouveau défi aux entreprises qui développent et soutiennent Wikipédia. Wikidata, la plateforme ouverte liée qui met les données de Wikipédia à la disposition de milliers de développeurs dans l’environnement open source, devait rendre cet énorme graphe de connaissances multilingues (avec environ 120 millions d’entrées et 2,4’milliards de modifications à ce jour) plus accessible aux grands modèles de langage (LLM) et plus facile à utiliser.
Après avoir testé plusieurs bases de données vectorielles, Wikimedia Deutschland, l’entreprise qui développe Wikidata, s’est tournée vers DataStax Astra DB sur IBM watsonx.data. Par rapport au calcul local des vecteurs, la base de données Astra DB, hautement évolutive et à faible latence, a permis de multiplier par 30 la vitesse des requêtes, un facteur critique pour les applications de génération augmentée par récupération (RAG). Le temps de développement chez Wikimedia Deutschland a été réduit de 90 %, car son équipe de développement peut désormais privilégier l’innovation au lieu de se concentrer sur l’hébergement et la maintenance de l’infrastructure de données.
Le cas d’utilisation de Wikimedia repose sur le fait que l’adoption du LLM est en hausse et que les équipes cherchent à utiliser des données fiables pour rendre l’IA générative plus fiable et plus transparente. Elles souhaitent également donner à la communauté plus de contrôle sur les données référencées.
Mais l’accès constituait un obstacle : Wikidata est principalement interrogé via SPARQL (un langage de requête sémantique). Il est puissant, mais il exige des utilisateurs qu’ils apprennent tant le langage de requête que la structure spécifique au domaine de Wikidata.
Wikimedia cherchait un moyen plus simple pour les développeurs de découvrir et de récupérer les éléments pertinents avant d’écrire des requêtes graphiques précises.
La création d’une couche d’API au-dessus d’une base de données vectorielle a fourni cet accès aux développeurs, prenant en charge les applications en aval. Ces applications comprennent des expériences utilisateur multilingues (OpenStreetMap en est un bon exemple) et des moteurs de recherche qui nécessitent un contexte rapide et fiable (informations sur les musées, les livres et les institutions culturelles, par exemple).
Cela permet de réduire le temps passé à élaborer des requêtes complexes, ainsi que la courbe d’apprentissage pour les nouveaux développeurs, et d’accélérer l’itération pour les systèmes de pipelines RAG.
La couche d’API Wikidata permet aux machines d’accéder à une base de données vectorielles par deux voies :
L’itinéraire de recherche commence par une requête en langage naturel et des paramètres de configuration, et effectue une recherche hybride en combinant les éléments suivants :
Les résultats de la recherche par mots-clé et de la recherche vectorielle sont fusionnés grâce à la fusion de classement réciproque, une méthode simple qui récompense les éléments bien classés et qui apparaissant dans les deux listes.
Enfin, Wikimedia ajoute une étape de reclassement facultative. Une fois activé, le système appelle l’API Wikidata pour récupérer les dernières informations sur les éléments, puis applique un modèle de reclassement Jina.ai pour réorganiser les résultats par pertinence. L’étape de reclassement est facultative car, dans certains cas d’utilisation de la RAG, la liste complète est transmise en aval à un LLM et le classement est moins critique. Les utilisateurs peuvent ignorer le reclassement pour accélérer le temps de réponse.
La base de données vectorielle Astra DB est segmentée par :
L’itinéraire des scores de similarité commence par une requête en langage naturel et une liste d’entités Wikidata spécifiée par l’utilisateur. Au lieu de récupérer les candidats, le système mesure l’alignement entre chaque entité fournie et la requête.
Le processus commence par l’embedding de la requête avec le même modèle Jina.ai. Il recherche ensuite les vecteurs stockés pour les entités spécifiées dans Astra DB et calcule leur score de similarité par rapport au vecteur de la requête.
Cette voie permet des applications telles que la classification, la mise en relation des entités ou encore la désambiguïsation des entités nommées. Ici, les systèmes en aval peuvent utiliser directement les scores de similarité pour choisir la meilleure étiquette ou déterminer l’entité à laquelle une mention fait référence.
Les composantes de l’API s’exécutent sur les services cloud de Wikimedia, une infrastructure hébergée par la Fondation Wikimedia. Les raisons pour lesquelles Wikimedia héberge sa propre infrastructure sont liées à la protection de la vie privée (protection de la communauté de contributeurs et prise en charge de la gestion de données). Elles sont également liées au contrôle de l’endroit et du type d’informations stockées, ainsi que des personnes qui peuvent y accéder.
Ce projet vise en fin de compte à faciliter l'utilisation d'un actif de connaissances fondamental, largement réutilisé dans les pipelines d’IA modernes, sans demander à chaque développeur de devenir d’abord un expert en requêtes graphiques.
Le recours à Astra DB a engendré des avantages indéniables :
Wikimedia a également découvert une information multilingue importante : si la création de vecteurs discrets pour chaque langue semblait initialement redondante, les expériences ont montré que la précision s’améliorait au fur et à mesure que de nouvelles langues étaient intégrées. Les résultats suggèrent que l’approche embedding permet de saisir les nuances linguistiques au lieu de fournir une simple traduction univoque.
Wikimedia a promu le lancement de cette API en octobre 2025 et s’attache à la mettre à jour pour continuer à améliorer l’accès aux données de base pour les réutilisateurs de Wikidata et les développeurs d’IA.
Les étapes suivantes prévues par Wikimedia visent à élargir la couverture linguistique, à encourager l’utilisation dans le monde réel et à recueillir le feedback des développeurs construisant sur Astra DB. Wikimedia a également pour objectif de continuer à développer une intégration de protocole de contexte de modèle (MCP) pour Wikidata, qui utilise Astra DB pour faciliter l’exploration tout en conservant la précision des requêtes graphiques. Wikimedia est également en train d’explorer des techniques avancées de RAG, notamment GraphRAG, qui intègre les données structurées sous forme de graphe pour traiter les requêtes très complexes.
En séparant la couche d’API, en combinant recherche par mots-clés et recherche vectorielle et en rendant le reclassement facultatif, Wikimedia a créé un chemin flexible, capable de répondre tant à l’exploration interactive qu’aux flux de récupération de l’IA en production. Le tout sans imposer une refonte de l’infrastructure de base ni de la posture de gouvernance de Wikimedia.
La capacité, la performance et l’évolutivité de la base de données vectorielle gérée, ainsi que la réduction des frais de développement liées à l’adoption d’Astra DB permettent à Wikimedia d’avancer plus rapidement, tout en se concentrant sur les avantages apportés aux utilisateurs. Il s’agit notamment d’offrir une meilleure récupération, des réponses plus rapides et un accès simplifié à Wikidata aux développeurs qui construisent la nouvelle génération d’expériences optimisées par l’IA.