Wikipedia es reconocida por su exhaustividad y accesibilidad generalizada y la confianza que ha generado. La clave de estas características es su creación y mantenimiento basados en la comunidad. Esta enorme recopilación de conocimiento (con 300 idiomas y 25 000 millones de visualizaciones mensuales) es una fuente confiable, colaborativa y de código abierto de información empleada por innumerables personas cada día.

Sin embargo, con el auge de la IA, la accesibilidad de las máquinas planteó un nuevo desafío para las organizaciones que desarrollan y apoyan Wikipedia. Wikidata, la plataforma abierta y vinculada que pone los datos de Wikipedia a disposición de miles de desarrolladores en todo el ámbito del código abierto, necesitaba hacer que este gráfico de conocimiento de datos masivo y multilingüe (con alrededor de 120 millones de entradas y 2.4 mil millones de ediciones hasta la fecha) fuera más accesible y utilizable por modelos de lenguaje grandes (LLM).

Tras probar varias bases de datos vectoriales, Wikimedia Deutschland, la organización que desarrolla Wikidata, recurrió a DataStax Astra DB en IBM watsonx.data. En comparación con los vectores informáticos localmente, Astra DB, altamente escalable y de baja latencia, aumentó la velocidad de consulta, un factor crítico para las aplicaciones de generación aumentada por recuperación (RAG, por sus siglas en inglés), en 30 veces. El tiempo de desarrollo en Wikimedia Deutschland experimentó una reducción del 90 %, ya que su equipo de desarrollo ahora puede centrarse en la innovación en lugar de alojar y mantener la infraestructura de datos.