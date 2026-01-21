DataStax Astra DB en IBM® watsonx.data simplifica la accesibilidad de las máquinas y el desarrollo de aplicaciones en este gráfico de conocimiento de 120 millones de entradas, lo que aumenta la velocidad de consulta 30 veces y reduce el tiempo de compilación en un 90 %.
Wikipedia es reconocida por su exhaustividad y accesibilidad generalizada y la confianza que ha generado. La clave de estas características es su creación y mantenimiento basados en la comunidad. Esta enorme recopilación de conocimiento (con 300 idiomas y 25 000 millones de visualizaciones mensuales) es una fuente confiable, colaborativa y de código abierto de información empleada por innumerables personas cada día.
Sin embargo, con el auge de la IA, la accesibilidad de las máquinas planteó un nuevo desafío para las organizaciones que desarrollan y apoyan Wikipedia. Wikidata, la plataforma abierta y vinculada que pone los datos de Wikipedia a disposición de miles de desarrolladores en todo el ámbito del código abierto, necesitaba hacer que este gráfico de conocimiento de datos masivo y multilingüe (con alrededor de 120 millones de entradas y 2.4 mil millones de ediciones hasta la fecha) fuera más accesible y utilizable por modelos de lenguaje grandes (LLM).
Tras probar varias bases de datos vectoriales, Wikimedia Deutschland, la organización que desarrolla Wikidata, recurrió a DataStax Astra DB en IBM watsonx.data. En comparación con los vectores informáticos localmente, Astra DB, altamente escalable y de baja latencia, aumentó la velocidad de consulta, un factor crítico para las aplicaciones de generación aumentada por recuperación (RAG, por sus siglas en inglés), en 30 veces. El tiempo de desarrollo en Wikimedia Deutschland experimentó una reducción del 90 %, ya que su equipo de desarrollo ahora puede centrarse en la innovación en lugar de alojar y mantener la infraestructura de datos.
El caso de uso de Wikimedia se basa en el hecho de que la adopción de LLM está aumentando y los equipos quieren utilizar datos confiables para hacer que la IA generativa sea más confiable y transparente. También quieren proporcionar a la comunidad más control sobre a qué datos se hace referencia.
Pero el acceso era un obstáculo: a Wikidata se accede principalmente a través de SPARQL (un lenguaje de consulta semántica). Es potente, pero requiere que los usuarios aprendan tanto el lenguaje de consulta como la estructura específica del dominio de Wikidata.
Wikimedia buscó una forma más sencilla para que los desarrolladores exploraran y recuperaran elementos relevantes antes de escribir consultas gráficas precisas.
La creación de una capa de API sobre una base de datos vectorial proporcionó este acceso a los desarrolladores, lo que admite aplicaciones posteriores. Estas aplicaciones incluyen experiencias de usuario multilingües (OpenStreetMap es un buen ejemplo) y motores de búsqueda que necesitan un contexto rápido y confiable (información sobre museos, libros e instituciones culturales, por ejemplo).
Esto reduce el tiempo dedicado a elaborar consultas complejas, reduce la curva de aprendizaje para los nuevos desarrolladores y acelera la iteración de los sistemas de pipelines de RAG.
La capa de API de Wikidata proporciona a las máquinas acceso a una base de datos vectorial a través de dos rutas:
La ruta de búsqueda comienza con una consulta en lenguaje natural más parámetros de configuración y realiza una búsqueda híbrida combinando:
Los resultados de la búsqueda por palabras clave y vectoriales se fusionan mediante el uso de fusión de rango recíproco, un método simple que recompensa a los elementos que tienen una clasificación alta y aparecen en ambas listas.
Finalmente, Wikimedia agrega un paso opcional de reclasificación. Cuando está habilitado, el sistema llama a la API de Wikidata para obtener la información más reciente sobre los elementos y, a continuación, aplica un modelo de reclasificación de IA de Jina.ai para reordenar los resultados por relevancia. El paso de reclasificación es intencionalmente opcional porque, en algunos casos de uso de RAG, la lista completa se pasa en sentido descendente a un LLM y la clasificación es menos crítica. Los usuarios pueden omitir la reclasificación para obtener tiempos de respuesta más rápidos.
La base de datos vectorial de Astra DB está segmentada por:
La ruta de puntuación de similitud comienza con una consulta en lenguaje natural y una lista especificada por el usuario de entidades de Wikidata. En lugar de recuperar candidatos, el sistema mide el grado de coincidencia de cada entidad proporcionada con la consulta.
El proceso comienza con la incorporación de la consulta con el mismo modelo Jina.ai. A continuación, busca los vectores almacenados para las entidades especificadas en Astra DB y calcula sus puntuaciones de similitud con el vector de consulta.
Esta ruta admite aplicaciones como la clasificación, la vinculación de entidades o la desambiguación de entidades nombradas, donde los sistemas posteriores pueden usar las puntuaciones de similitud directamente para elegir la mejor etiqueta o resolver a qué entidad se refiere una mención.
Los componentes de la API se ejecutan en Wikimedia Cloud Services, una infraestructura alojada por la Wikimedia Foundation. Las razones de Wikimedia para alojar su propia infraestructura están ligadas a la privacidad (proteger a la comunidad de colaboradores y asumir la responsabilidad de la administración de datos). También están vinculados al control sobre dónde y qué información se almacena y quién puede acceder a ella.
Este proyecto trata, en última instancia, de hacer que un activo de conocimiento fundamental y ampliamente reutilizado sea más fácil de usar en pipelines modernos de IA, sin pedir a todos los desarrolladores que se conviertan primero en expertos en consultas de grafos.
Confiar en Astra DB resultó en algunos beneficios claros:
Wikimedia también encontró un insight multilingüe significativo: crear vectores discretos para cada idioma inicialmente parecía redundante, pero los experimentos mostraron que la precisión mejoró a medida que se incorporaron más idiomas. Los resultados sugirieron que el enfoque de incorporación capturó los matices del lenguaje en lugar de una simple traducción uno a uno.
Wikimedia promovió el lanzamiento de esta API en octubre de 2025 y se comprometió a actualizarla para continuar mejorando el acceso a los datos base para servir a los usuarios recurrentes de Wikidata y a los desarrolladores de IA.
Los siguientes pasos de Wikimedia se centran en ampliar la cobertura lingüística, fomentar el uso en el mundo real y recopilar feedback de los desarrolladores que trabajan con Astra DB. Wikimedia también tiene como objetivo seguir construyendo una integración de protocolo de contexto modelo (MCP) para Wikidata que utilice Astra DB para respaldar la exploración mientras conserva la precisión de las consultas de grafos. Wikimedia también está explorando técnicas avanzadas de RAG, incluido GraphRAG, que incorpora datos estructurados por grafos para manejar consultas altamente complejas.
Al separar la capa de API, combinar la recuperación de palabras clave y vectores y hacer que la reclasificación sea opcional, Wikimedia creó una ruta flexible que puede servir tanto para la exploración interactiva como para los flujos de recuperación de IA de producción. Lo hizo sin forzar un cambio de plataforma de la infraestructura central o la postura de gobernanza de Wikimedia.
La capacidad de base de datos vectorial gestionada, el margen de rendimiento y escalabilidad y la reducción de la sobrecarga de desarrollo proporcionada por la adopción de Astra DB ayudan a Wikimedia a moverse más rápido mientras se mantiene el enfoque en los resultados del usuario. Estos resultados significan una mejor recuperación, respuestas más rápidas y un acceso simplificado a Wikidata para los desarrolladores que crean la próxima generación de experiencias habilitadas para IA.