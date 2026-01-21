基于 IBM® watsonx.data 的 DataStax Astra DB 简化了这个拥有 1.2 亿个条目的知识图谱的机器可访问性和应用程序开发，将查询速度提高了 30 倍，并将构建时间缩短了 90%。
Wikipedia 以其全面、广泛的可访问性和多年积累的信任而闻名。这些特性的关键在于基于社区的创建和维护。这个拥有 300 种语言、每月浏览量达 250 亿次的庞大知识库，是一个可靠、协作和开源的信息源，每天都有无数人在使用。
然而，随着 AI 的兴起，机器可访问性给开发和支持 Wikipedia 的组织带来了新的挑战。Wikipedia 是一个链接的开放平台，将 Wikipedia 数据提供给开源环境中的数千名开发人员，这个拥有海量多语言数据的知识图谱（目前已有 1.2 亿个条目和 24 亿次编辑）需要更易于被大型语言模型 (LLM) 访问和使用。
在试用了多个矢量数据库后，Wikimedia Deutschland（开发 Wikidata 的组织）转向使用基于 IBM® watsonx.data 的 DataStax Astra DB。与本地计算矢量相比，高度可扩展、低延迟的 Astra DB 将查询速度（检索增强生成 (RAG) 应用程序的关键制约因素）提高了 30 倍。Wikimedia Deutschland 的开发时间缩短了 90%，因为其开发团队现在可以专注于创新，而不是托管和维护数据基础架构。
Wikimedia 的用例基于这样一个事实：随着 LLM 的采用增加，团队希望使用可信数据来使生成式 AI 更加可靠透明。他们还希望让社区能够更好地控制引用哪些数据。
但访问是一个障碍：Wikidata 主要通过 SPARQL（一种语义查询语言）进行访问。它功能强大，但要求用户学习查询语言和 Wikidata 专属领域的结构知识。
Wikimedia 希望找到一种更简单的方式，让开发者在编写准确的图表查询前即可探索和检索相关条目。
在矢量数据库上构建 API 层为开发者提供了这种访问方式，可支持下游应用程序。这些应用程序包括多语言用户体验（例如 OpenStreetMap）和需要快速、可信上下文（例如有关博物馆、书籍和文化机构的信息）的搜索引擎。
这减少了编写复杂查询的时间，降低了新开发者的学习曲线，并加快了 RAG 管道系统的迭代速度。
Wikidata 的 API 层通过两种途径支持机器访问矢量数据库：
搜索路径从自然语言查询和配置参数开始，并通过结合以下方式执行混合搜索：
关键词搜索和矢量搜索的结果通过倒数排序融合进行合并，这是一种简单的合并方法，会奖励排名靠前且同时出现在两个列表中的条目。
最后，Wikimedia 新增了可选的重新排序步骤。启用后，系统会调用 Wikidata API 来获取最新的条目信息，然后应用 Jina.ai 重新排序模型按相关度对结果重新排序。重新排序步骤故意设为可选，因为在某些 RAG 用例中，完整列表会向下游传递给 LLM，排序的重要性较低。用户可以跳过重新排序步骤，加快响应速度。
Astra DB 矢量数据库按以下维度进行分割：
相似度评分路径从自然语言查询和用户指定的 Wikidata 实体列表开始。系统不会检索候选实体，而是计算提供的每个实体与查询的匹配度。
该流程首先是将查询嵌入到相同的 Jina.ai 模型中。然后查找 Astra 数据库中指定实体的已存储矢量，并计算它们与查询矢量的相似度分数。
该路径支持分类、实体链接或命名实体消歧等应用，在这些场景中，下游系统可以直接利用相似度分数来选择最佳标签或解析提及项指的是哪个实体。
API 组件在 Wikimedia Cloud Services 上运行，这是由 Wikimedia Foundation 托管的基础设施。Wikimedia 自主托管基础设施的原因与隐私有关（保护贡献者社区并承担数据管理责任）。同时还关乎对信息存储位置、存储内容以及访问权限的控制。
该项目最终旨在让一个被广泛重复使用的基础性知识库更容易用于现代 AI 管道中，而无需要求每个开发者先成为图谱查询专家。
依赖 Astra DB 带来了明显的优势：
Wikimedia 还发现了一个有意义的多语言洞察分析：最初为每种语言创建离散矢量看似冗余，但实验表明，随着更多语言的加入，准确性也得到提升。结果表明，这种嵌入方法捕捉到了语言的细微差别，不是简单地一一对应翻译。
Wikimedia 在 2025 年 10 月推出了该 API，并致力于继续更新，以持续改善基础数据的可访问性，为 Wikidata 重复使用者和 AI 开发人员提供服务。
Wikimedia 的下一步发展重点是扩大语言覆盖范围，鼓励实际使用，并收集基于 Astra DB 进行构建的开发人员的反馈。Wikimedia 也继续为 Wikidata 构建模型上下文协议 (MCP) 集成，以便使用 Astra DB 来支持探索，同时维持图谱查询的精度。Wikimedia 还在探索先进的 RAG 技术，包括 GraphRAG——结合图谱结构数据来处理高度复杂的查询。
通过分离 API 层、结合关键词检索和矢量检索，并将重新排序设为可选，Wikimedia 创建了一个能同时服务于交互式探索和生产环境 AI 检索流程的灵活路径。此举无需对 Wikimedia 的核心基础设施或治理态势进行平台重构。
采用 Astra DB 获得了托管矢量数据库能力、性能和可扩展性空余空间，并降低了开发成本，有助于 Wikimedia 更快迭代，同时专注于用户体验成果。这些成果意味着，构建下一代 AI 体验的开发人员可享受更好的检索和更快的响应，并更便捷地访问 Wikidata。