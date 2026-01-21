DataStax Astra DB en IBM® watsonx.data simplifica la accesibilidad de las máquinas y el desarrollo de aplicaciones en este gráfico de conocimiento de 120 millones de entradas, multiplicando por 30 la velocidad de las consultas y reduciendo el tiempo de compilación en un 90 %.
Wikipedia es conocida por su exhaustividad, su amplia accesibilidad y la confianza que ha generado. La clave de estas características es su creación y mantenimiento basados en la comunidad. Esta enorme recopilación de conocimientos (con 300 idiomas y 25 000 millones de visualizaciones mensuales) es una fuente fiable, colaborativa y de código abierto de información utilizada por innumerables personas cada día.
Sin embargo, con el auge de la IA, la accesibilidad de las máquinas planteó un nuevo desafío para las organizaciones que desarrollan y apoyan Wikipedia. Wikidata, la plataforma abierta y vinculada que pone los datos de Wikipedia a disposición de miles de desarrolladores en todo el panorama del código abierto, necesitaba hacer que este enorme gráfico de conocimiento de datos multilingüe (con alrededor de 120 millones de entradas y 2400 millones de ediciones hasta la fecha) fuera más accesible y utilizable por modelos de lenguaje de gran tamaño (LLM).
Tras probar varias bases de datos vectoriales, Wikimedia Deutschland, la organización que desarrolla Wikidata, recurrió a DataStax Astra DB en IBM watsonx.data. En comparación con los vectores informáticos localmente, Astra DB, altamente escalable y de baja latencia, aumentó 30 veces la velocidad de consulta, un factor crítico para las aplicaciones de generación aumentada por recuperación (RAG). El tiempo de desarrollo en Wikimedia Deutschland se redujo en un 90 %, ya que su equipo de desarrollo ahora puede centrarse en la innovación en lugar de alojar y mantener la infraestructura de datos.
El caso de uso de Wikimedia se basa en el hecho de que la adopción de LLM está aumentando y los equipos quieren utilizar datos fiables para hacer que la IA generativa sea más fiable y transparente. También quieren proporcionar a la comunidad más control sobre a qué datos se hace referencia.
Pero el acceso era un obstáculo: a Wikidata se accede principalmente a través de SPARQL (un lenguaje de consulta semántica). Es potente, pero requiere que los usuarios aprendan tanto el lenguaje de consulta como la estructura específica del dominio de Wikidata.
Wikimedia buscó una forma más sencilla para que los desarrolladores exploraran y recuperaran los elementos pertinentes antes de escribir consultas de grafos precisas.
Crear una capa de API sobre una base de datos vectorial proporcionaba este acceso a los desarrolladores y permitía aplicaciones posteriores. Estas aplicaciones incluyen experiencias de usuario multilingües (OpenStreetMap es un buen ejemplo) y motores de búsqueda que necesitan un contexto rápido y fiable (información sobre museos, libros e instituciones culturales, por ejemplo).
Esto reduce el tiempo dedicado a elaborar consultas complejas, reduce la curva de aprendizaje para los nuevos desarrolladores y acelera la iteración de los sistemas de pipeline RAG.
La capa API de Wikidata proporciona a las máquinas acceso a una base de datos vectorial a través de dos rutas:
La ruta de búsqueda comienza con una consulta en lenguaje natural más los parámetros de configuración, y realiza la búsqueda híbrida combinando:
Los resultados de la búsqueda por palabras clave y vectoriales se combinan mediante la fusión recíproca de rangos, un método sencillo que recompensa los objetos que tienen una clasificación alta y aparecen en ambas listas.
Por último, Wikimedia añade un paso de reclasificación opcional. Cuando está activado, el sistema llama a la API de Wikidata para obtener la información más reciente sobre los artículos y, a continuación, aplica un modelo de reclasificación de Jina.ai para reordenar los resultados por relevancia. El paso de reclasificación es intencionalmente opcional porque, en algunos casos de uso de RAG, la lista completa se pasa en sentido descendente a un LLM y el orden es menos crítico. Los usuarios pueden omitir la reclasificación para obtener tiempos de respuesta más rápidos.
La base de datos vectorial de Astra DB está segmentada por:
La ruta de puntuación de similitud comienza con una consulta en lenguaje natural y una lista de entidades de Wikidata especificada por el usuario. En lugar de recuperar candidatos, el sistema mide en qué medida cada entidad proporcionada se alinea con la consulta.
El proceso comienza mediante el embedding de la consulta con el mismo modelo Jina.ai. A continuación, busca los vectores almacenados para las entidades especificadas en Astra DB y calcula sus puntuaciones de similitud con respecto al vector de consulta.
Esta ruta admite aplicaciones como la clasificación, la vinculación de entidades o la desambiguación de entidades con nombre, en las que los sistemas posteriores pueden utilizar directamente las puntuaciones de similitud para elegir la mejor etiqueta o resolver a qué entidad se refiere una mención.
Los componentes de la API se ejecutan en Wikimedia Cloud Services, una infraestructura alojada por la Fundación Wikimedia. Las razones de Wikimedia para alojar su propia infraestructura están relacionadas con la privacidad (proteger a la comunidad de colaboradores y asumir la responsabilidad de la administración de los datos). También están vinculadas al control sobre dónde y qué información se almacena y quién puede acceder a ella.
Este proyecto trata, en última instancia, de hacer que un activo de conocimiento fundamental y ampliamente reutilizado sea más fácil de usar en pipelines de IA modernos, sin pedir a todos los desarrolladores que se conviertan primero en expertos en consultas de grafos.
Confiar en Astra DB proporcionó algunos beneficios claros:
Wikimedia también encontró un conocimiento multilingüe significativo: crear vectores discretos para cada idioma inicialmente parecía redundante, pero los experimentos mostraron que la precisión mejoraba a medida que se incorporaban más idiomas. Los resultados sugirieron que el enfoque de embedding capturaba los matices del idioma en lugar de la simple traducción uno a uno.
Wikimedia promovió el lanzamiento de esta API en octubre de 2025 y se comprometió a actualizarla para seguir mejorando el acceso a los datos de grounding para servir a los reusuarios de Wikidata y desarrolladores de IA.
Los próximos pasos de Wikimedia se centran en ampliar la cobertura de idiomas, fomentar el uso en el mundo real y recopilar feedback de los desarrolladores que construyen sobre Astra DB. Wikimedia también tiene como objetivo continuar construyendo una integración de protocolo de contexto del modelo (MCP) para Wikidata que utilice Astra DB para respaldar la exploración y, al mismo tiempo, conservar la precisión de las consultas de grafos. Wikimedia también está explorando técnicas avanzadas de RAG, incluyendo GraphRAG, que incorpora datos estructurados por grafos para manejar consultas altamente complejas.
Al separar la capa API, combinar la recuperación de palabras clave y vectores y hacer que la reclasificación sea opcional, Wikimedia creó una ruta flexible que puede servir tanto para la exploración interactiva como para los flujos de recuperación de IA de producción. Lo hizo sin forzar una reestructuración de la infraestructura central de Wikimedia ni de su postura de gobierno.
La capacidad gestionada de base de datos vectorial, el rendimiento y la escalabilidad y la reducción de la carga de desarrollo que proporciona la adopción de Astra DB, ayudan a Wikimedia a avanzar más rápido manteniendo el foco en los resultados de los usuarios. Estos resultados significan una mejor recuperación, respuestas más rápidas y un acceso simplificado a Wikidata para los desarrolladores que construyan la próxima generación de experiencias habilitadas por la IA.