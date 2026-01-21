O DataStax Astra DB on IBM watsonx.data simplifica a acessibilidade da máquina e o desenvolvimento de aplicativos nesse gráfico de conhecimento de 120 milhões de entradas, aumentando a velocidade da consulta em 30 vezes e reduzindo o tempo de compilação em 90%.
A Wikipedia é reconhecida por sua abrangência, ampla acessibilidade e pela confiança que gerou. O segredo dessas características é a criação e manutenção baseadas na comunidade. Essa enorme compilação de conhecimento (atingindo 300 idiomas e 25 bilhões de visualizações mensais) é uma fonte confiável, colaborativa e código aberto de informações usada por inúmeras pessoas todos os dias.
No entanto, com o surgimento da IA, a acessibilidade das máquinas representou um novo desafio para as organizações que desenvolvem e apoiam a Wikipedia. A Wikidata, a plataforma aberta e vinculada que torna os dados da Wikipedia disponíveis para milhares de desenvolvedores em todo o cenário de código aberto, precisava tornar esse enorme gráfico de conhecimento de dados multilíngue (com cerca de 120 milhões de entradas e 2,4 bilhões de edições até o momento) mais acessível e utilizável por grandes modelos de linguagem (LLMs).
Após testar vários bancos de dados de vetores, a Wikimedia Deutschland, a organização que desenvolve a Wikidata, recorreu ao DataStax Astra DB on IBM watsonx.data. Comparado aos vetores de computação localmente, o Astra DB altamente escalável e de baixa latência aumentou a velocidade de consulta, um fator crítico para aplicativos de geração aumentada de recuperação (RAG) em 30 vezes. O tempo de desenvolvimento na Wikimedia Deutschland viu uma redução de 90%, pois sua equipe de desenvolvimento agora pode se concentrar na inovação em vez de hospedar e manter a infraestrutura de dados.
O caso de uso da Wikimedia se baseia no fato de que a adoção de LLMs está aumentando, e as equipes querem usar dados de confiança para tornar a IA generativa mais confiável e transparente. Elas também querem dar à comunidade mais controle sobre quais dados são referenciados.
Mas o acesso era um obstáculo: a Wikidata é acessada principalmente por meio de SPARQL (uma linguagem de consulta semântica). É poderosa, mas exige que os usuários aprendam tanto a linguagem de consulta quanto a estrutura específica de domínio da Wikidata.
A Wikimedia procurava uma maneira mais simples para os desenvolvedores explorarem e recuperarem itens relevantes antes de escreverem consultas gráficas precisas.
A construção de uma camada de APIs sobre um banco de dados de vetores forneceu esse acesso aos desenvolvedores, sendo compatível com aplicações posteriores. Essas aplicações incluem experiências de usuário multilíngues (oOpenStreetMap é um bom exemplo) e mecanismos de busca que precisam de contexto rápido e confiável (informações sobre museus, livros e instituições culturais, por exemplo).
Isso reduz o tempo gasto na criação de consultas complexas, reduz a curva de aprendizado para novos desenvolvedores e acelera a iteração para os sistemas de pipelines de RAG.
A camada de APIs da Wikidata fornece a máquinas acesso a um banco de dados de vetores por meio de duas rotas:
A rota de pesquisa começa com uma consulta de linguagem natural mais parâmetros de configuração e executa a pesquisa híbrida combinando:
Os resultados das pesquisas por palavras-chave e vetoriais são mesclados usando a fusão de classificação recíproca, um método simples que recompensa itens com alta classificação que aparecem em ambas as listas.
Finalmente, a Wikimedia adiciona uma etapa de reclassificação opcional. Quando ativado, o sistema chama a API do Wikidata para buscar as informações mais recentes do item e, em seguida, aplica um modelo de reclassificação Jina.ai para reordenar os resultados por relevância. A etapa de reclassificação é intencionalmente opcional porque, em alguns casos de uso da RAG, a lista completa é passada para um LLM, e a ordem é menos crítica. Os usuários podem ignorar o reclassificação para obter tempos de resposta mais rápidos.
O banco de dados de vetores do Astra DB é segmentado por:
A rota da pontuação de similaridade começa com uma consulta de linguagem natural e uma lista de entidades da Wikidata especificada pelo usuário. Em vez de recuperar os candidatos, o sistema mede o quanto cada entidade fornecida se alinha com a consulta.
O processo começa com o embedding da consulta com o mesmo modelo Jina.ai. Em seguida, procura os vetores armazenados para as entidades especificadas no Astra DB e calcula suas pontuações de similaridade em relação ao vetor de consulta.
Essa rota é compatível com aplicações como classificação, vinculação de entidades ou desambiguação de entidades nomeadas, onde sistemas posteriores podem usar as pontuações de similaridade diretamente para escolher o melhor rótulo ou resolver a qual entidade uma menção se refere.
Os componentes da API são executados no Wikimedia Cloud Services, uma infraestrutura hospedada pela Wikimedia Foundation. As razões da Wikimedia para hospedar sua própria infraestrutura estão ligadas à privacidade (proteger a comunidade de colaboradores e assumir a responsabilidade pela administração de dados). Elas também estão ligadas ao controle sobre onde e quais informações são armazenadas e quem pode acessá-las.
Esse projeto visa, em última análise, facilitar o uso de um ativo de conhecimento fundamental e amplamente reutilizado em pipelines de IA modernos, sem pedir que todos os desenvolvedores se tornem especialistas em consulta gráfica primeiro.
Utilizar o Astra DB resultou em alguns benefícios claros:
A Wikimedia também se deparou com um insight multilíngue significativo: criar vetores discretos para cada idioma inicialmente parecia redundante, mas experimentos mostraram que a precisão melhorava à medida que mais idiomas eram incorporados. Os resultados sugeriram que a abordagem de embedding capturava nuances da linguagem em vez de simples tradução um-para-um.
A Wikimedia promoveu o lançamento dessa API em outubro de 2025 e está comprometida em atualizá-la para continuar melhorando o acesso aos dados básicos para atender aos reutilizadores da Wikidata e desenvolvedores de IA.
As próximas etapas da Wikimedia se concentram na expansão da cobertura de idiomas, incentivando o uso no mundo real e coletando feedback de desenvolvedores que criam sobre o Astra DB. A Wikimedia também pretende continuar desenvolvendo uma integração com o model context protocol (MCP) para a Wikidata, que utiliza o Astra DB para apoiar a exploração, mantendo a precisão da consulta de gráficos. A Wikimedia também está explorando técnicas avançadas de RAG, incluindo o GraphRAG, que incorpora dados estruturados em gráficos para lidar com consultas altamente complexas.
Ao separar a camada de APIs, combinar a recuperação de palavras-chave e vetores e tornar o reclassificação opcional, a Wikimedia criou um caminho flexível que pode atender aos fluxos de exploração interativa e de recuperação de IA de produção. Ela o fez sem forçar uma reformulação da infraestrutura central ou da postura de governança da Wikimedia.
Os recursos do banco de dados de vetores, o desempenho e a escalabilidade e a redução da sobrecarga de desenvolvimento proporcionados pela adoção do Astra DB ajudam a Wikimedia a se mover mais rapidamente, mantendo o foco nos resultados para os usuários. Esses resultados significam melhor recuperação, respostas mais rápidas e acesso simplificado à Wikidata para os desenvolvedores que criam a última geração de experiência habilitada para IA.