DataStax® Astra DB su IBM watsonx.data semplifica l'accessibilità delle macchine e lo sviluppo di app su questo knowledge graph da 120 milioni di voci, aumentando di 30 volte la velocità di query e riducendo del 90% il tempo di compilazione.
Wikipedia è celebre per la sua completezza, l'ampia accessibilità e la fiducia che ha saputo generare. Queste qualità sono dovute alla sua creazione e manutenzione, basate sulla community. Questa enorme raccolta di conoscenze (300 lingue e 25 miliardi di visualizzazioni mensili) è una fonte affidabile, collaborativa e open source di informazioni utilizzate da moltissime persone ogni giorno.
Tuttavia, con l'avvento dell'AI, l'accessibilità delle macchine ha rappresentato una nuova sfida per le organizzazioni che sviluppano e supportano Wikipedia. Wikidata, la piattaforma aperta e collegata che rende i dati di Wikipedia disponibili a migliaia di sviluppatori nel panorama open source, doveva rendere questo enorme grafo di data knowledge multilingue (con circa 120 milioni di voci e 2,4 miliardi di modifiche a oggi) più accessibile e utilizzabile da parte dei modelli linguistici di grandi dimensioni (LLM).
Dopo aver provato diversi database vettoriali, Wikimedia Deutschland, l'organizzazione che sviluppa Wikidata, si è rivolta a DataStax Astra DB su IBM watsonx.data. Rispetto al calcolo locale dei vettori, Astra DB, altamente scalabile e a bassa latenza, ha aumentato di 30 volte la velocità di query (un fattore critico per le app di retrieval-augmented generation (RAG). Il tempo di sviluppo di Wikimedia Deutschland si è ridotto del 90%, poiché il team di sviluppo può ora concentrarsi sull'innovazione piuttosto che sull'hosting e sulla manutenzione dell'infrastruttura di dati.
Il caso d'uso di Wikimedia si basa sul fatto che l'adozione degli LLM è in aumento e i team vogliono utilizzare dati affidabili per rendere l'AI generativa più affidabile e trasparente. Vogliono anche fornire alla comunità un maggiore controllo sui dati a cui si fa riferimento.
Tuttavia, l'accesso era un ostacolo: Wikidata è principalmente accessibile tramite SPARQL (un linguaggio di query semantica). È potente ma richiede agli utenti di imparare sia il linguaggio di query, sia la struttura specifica per dominio di Wikidata.
Wikimedia cercava un modo più semplice per consentire agli sviluppatori di esplorare e recuperare elementi rilevanti prima di scrivere query grafiche precise.
Costruire un livello API sopra un database vettoriale forniva questo accesso agli sviluppatori, supportando le applicazioni a valle. Queste applicazioni includono esperienze utente multilingue (OpenStreetMap è un buon esempio) e motori di ricerca che necessitano di un contesto rapido e affidabile (ad esempio, informazioni su musei, libri e istituzioni culturali).
Questo riduce il tempo impiegato per creare query complesse, abbassa la curva di apprendimento per i nuovi sviluppatori e accelera l'iterazione dei sistemi di pipeline RAG.
Il livello API di Wikidata fornisce alle macchine l'accesso a un database vettoriale attraverso due percorsi:
Il percorso di ricerca inizia con una query in linguaggio naturale, più parametri di configurazione, ed esegue la ricerca ibrida combinando:
I risultati della ricerca per parole chiave e vettori vengono uniti utilizzando la fusione reciproca dei ranghi, un metodo semplice che premia gli elementi che hanno un punteggio elevato e compaiono in entrambi gli elenchi.
Infine, Wikimedia aggiunge una fase di reranking opzionale. Quando abilitato, il sistema chiama l'API Wikidata per recuperare le informazioni più recenti sugli elementi, quindi applica un modello di reranker Jina.ai per riordinare i risultati in base alla rilevanza. Il passaggio di riclassificazione è intenzionalmente opzionale perché, in alcuni casi d'uso del RAG, l'elenco completo viene passato a valle a un LLM e l'ordine è meno critico. Gli utenti possono saltare il reranking per ottenere tempi di risposta più rapidi.
Il database vettoriale Astra DB è segmentato per:
Il percorso del punteggio di somiglianza inizia con una query in linguaggio naturale e un elenco di entità Wikidata specificato dall'utente. Invece di recuperare i candidati, il sistema misura quanto ciascuna entità fornita si allinea con la query.
Il processo inizia con l'embedding della query con lo stesso modello Jina.ai. Successivamente, cerca i vettori memorizzati per le entità specificate in Astra DB e calcola i loro punteggi di somiglianza rispetto al vettore di interrogazione.
Questo percorso supporta applicazioni come classificazione, collegamento di entità o disambiguazione di entità nominate, dove i sistemi a valle possono utilizzare direttamente i punteggi di somiglianza per scegliere la migliore etichetta o risolvere a quale entità si riferisce una menzione.
I componenti API funzionano su Wikimedia Cloud Services, un'infrastruttura ospitata dalla Wikimedia Foundation. I motivi per cui Wikimedia ospita la propria infrastruttura sono legati alla privacy (proteggere la comunità dei collaboratori e assumersi la responsabilità della gestione dei dati). Sono anche legati al controllo su dove e quali informazioni vengono memorizzate e chi può accedervi.
In ultima analisi, questo progetto mira a rendere un asset di conoscenza fondamentale e ampiamente riutilizzato più facile da usare nelle moderne pipeline di AI, senza chiedere prima a ogni sviluppatore di diventare un esperto di graph-query.
Affidarsi ad Astra DB ha comportato alcuni chiari benefici:
Wikimedia si è anche imbattuta in un'importante insight multilingue: la creazione di vettori discreti per ogni lingua sembrava inizialmente ridondante, ma gli esperimenti hanno dimostrato che l'accuratezza migliorava con l'inserimento di più lingue. I risultati hanno suggerito che l'approccio di embedding ha catturato le sfumature linguistiche piuttosto che la semplice traduzione individuale.
Wikimedia ha promosso il lancio di questa API nell'ottobre 2025 e si impegna ad aggiornarla per continuare a migliorare l'accesso ai dati di grounding per servire gli utenti di Wikidata e gli sviluppatori di AI.
I prossimi passi di Wikimedia si concentrano sull'espansione della copertura linguistica, sull'incoraggiamento dell'uso nel mondo reale e sulla raccolta di feedback dagli sviluppatori che programmano su Astra DB. Wikimedia vuole anche continuare a sviluppare un'integrazione del model context protocol (MCP) per Wikidata che utilizzi Astra DB per supportare l'esplorazione, pur mantenendo la precisione della query dei grafi. Wikimedia sta inoltre esplorando tecniche RAG avanzate, tra cui GraphRAG, che incorpora dati strutturati a grafi per gestire query altamente complesse.
Separando il livello API, combinando il recupero di parole chiave e vettoriali e rendendo opzionale il reranking, Wikimedia ha creato un percorso flessibile che può servire sia l'esplorazione interattiva che i flussi di recupero dell'AI in produzione. Lo ha fatto senza forzare un replatforming dell'infrastruttura principale o del livello di governance di Wikimedia.
La funzionalità del database vettoriale, le prestazioni e la scalabilità e il ridotto sovraccarico di sviluppo forniti dall'adozione di Astra DB aiutano Wikimedia a lavorare più velocemente, pur mantenendo l'attenzione sugli esiti per gli utenti. Questi risultati si traducono in un migliore recupero, risposte più rapide e un accesso semplificato a Wikidata per gli sviluppatori che creano la nuova generazione di esperienze AI.