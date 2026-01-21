IBM watsonx.data上のDataStax Astra DBは、この1億2,000万のエントリー・ナレッジ・グラフにおけるマシン・アクセシビリティーとアプリ開発を簡素化し、クエリー速度を30倍向上させ、ビルド時間を90％短縮します。
Wikipediaは、その包括性、幅広いアクセス性、そして培ってきた信頼性で知られています。これらの特徴の鍵は、コミュニティー・ベースの作成と保守にあります。この膨大な知識の集積は300言語に及び、月間閲覧数は250億回にも上っており、信頼性が高く共同作業が可能なオープンソースの情報源として毎日数え切れないほどの人々が利用しています。
しかし、AIが台頭すると、マシンのアクセシビリティーは、Wikipediaを開発・サポートする組織に新たな課題をもたらしました。ウィキデータは、オープンソースの何千人もの開発者がWikipediaのデータを利用できるようにする、リンクされたオープン・プラットフォームです。これまでに約1億2,000万件のエントリーと24億回の編集を誇るこの大規模で多言語のデータ・ナレッジ・グラフを、大規模言語モデル（LLM）によってよりアクセスしやすく、また使いやすくする必要がありました。
ウィキデータを開発する組織であるWikimedia Deutschlandは、いくつかのベクトル・データベースを試用した後、IBM watsonx.data上のDataStax Astra DBを採用しました。ローカルでベクトルを計算するのに比べ、高度にスケーラブルで低遅延のAstra DBは、検索拡張生成（RAG）アプリにとってクリティカルな要素であるクエリー速度を30倍も向上させました。Wikimedia Deutschlandの開発チームは、データ・インフラストラクチャーのホスティングと保守ではなく、イノベーションに注力できるようになり、開発時間は90％短縮されました。
Wikimediaのユースケースは、LLMの採用が進んでおり、チームは信頼できるデータを使用して生成AIの信頼性と透明性を高めたいと考えている、という事実に基づいています。また、参照データをコミュニティーでより詳細に制御できるようにしたいとも考えています。
しかし、アクセスには障害がありました。ウィキデータは主にSPARQL（セマンティック・クエリ言語）を通じてアクセスされます。これは強力ですが、ユーザーはクエリー言語とウィキデータのドメイン固有の構造の両方を学習する必要があります。
Wikimediaは、開発者が正確なグラフ・クエリーを作成する前に、関連アイテムを探索し取得できるより簡単な方法を求めました。
ベクトル・データベース上にAPI層を構築することで、開発者にこのアクセスを提供し、ダウンストリーム・アプリケーションをサポートしました。このようなアプリケーションには、多言語でのユーザー・エクスペリエンス（OpenStreetMapなど）や、高速で信頼できるコンテキストを必要とする検索エンジン（博物館、書籍、文化施設に関する情報など）が含まれます。
これにより、複雑なクエリーの作成に費やす時間が短縮され、新しい開発者の学習曲線が短縮され、RAGパイプライン・システムの反復が高速化されます。
ウィキデータのAPI層は、次の2つのルートを通じてマシンにベクトル・データベースへのアクセスを提供します。
検索ルートは、自然言語クエリーと設定パラメーターから始まり、以下を組み合わせてハイブリッド検索を実行します。
キーワード検索とベクトル検索の成果は、相互ランク融合を使用して統合されます。これは、上位にランクされ、両方のリストに表示されるアイテムに報酬を与えるシンプルな方法です。
最後に、Wikimediaはオプションの再ランキングステップを追加しています。有効にすると、システムはウィキデータAPIを呼び出して最新のアイテム情報を取得し、Jina.ai再ランク付けモデルを適用して関連性に基づいて成果を並べ替えます。一部のRAGユースケースでは、完全なリストが下流のLLMに渡され、順序付けがそれほどクリティカルではないため、再ランク付けステップは意図的に任意になっています。ユーザーは再ランク付けをスキップして応答時間を短縮できます。
Astra DBベクトル・データベースは、以下によってセグメント化されています。
類似性スコアのルートは、自然言語クエリーとユーザーが指定したウィキデータ・エンティティーのリストから始まります。候補者を取得するのではなく、システムは提供された各エンティティがクエリーとどの程度一致しているかを測定します。
このプロセスは、同じJina.aiモデルを使用してクエリーを埋め込むことから始まります。次に、Astra DBにある指定されたエンティティーの保管ベクトルを検索し、クエリー・ベクトルに対するそれらの類似性スコアを計算します。
このルートは、分類、エンティティー・リンク、名前付きエンティティーの曖昧性解消などのアプリケーションをサポートし、ダウンストリーム・システムは類似性スコアを直接使用して最適なラベルを選択したり、言及対象のエンティティーを解析したりできます。
APIコンポーネントは、Wikimedia協会がホストするインフラストラクチャーであるWikimediaクラウド・サービス上で実行されます。Wikimediaが独自のインフラストラクチャーをホスティングする理由は、プライバシー（寄稿者のコミュニティーの保護とデータ管理に責任を持つ）と関連しています。また、どのような情報がどこに保管され、誰がアクセスできるかの制御にも関与しています。
このプロジェクトの最終的な目的は、広く再利用されている基礎的な知識資産を、最新のAIパイプラインで使いやすくすることです。ただし、すべての開発者に最初にグラフ・クエリーの専門家になることは求めません。
Astra DBを利用することで、いくつかの明らかな成果が得られました。
さらに、Wikimediaは、多言語に関する有意義な洞察にも遭遇しました。各言語ごとに離散ベクトルを作成するのは、当初は冗長的と思われていましたが、実験により、取り込まれる言語が増えるにつれて精度が向上することが示されました。この結果は、埋め込みアプローチが単純な1対1の翻訳ではなく、言語のニュアンスを捉えていることを示唆していました。
Wikimediaは2025年10月にこのAPIの立ち上げを推進し、ウィキデータの再利用者とAI開発者のために、地盤データへのアクセスを改善し続けるために次に進むことを約束しています。
Wikimediaの次のステップは、言語の対象範囲を拡大し、実際の使用を促進し、Astra DB上に構築している開発者からのフィードバックを収集することに重点を置いています。Wikimediaはまた、グラフ・クエリーの精度を維持しながら探索をサポートするためにAstra DBを使用する、ウィキデータのモデル・コンテキスト・プロトコル（MCP）統合の構築を継続することを目指しています。Wikimediaでは、グラフ構造化データを組み込んで非常に複雑なクエリーを処理するGraphRAGなどの高度なRAG技術も利用しています。
Wikimediaは、API層を分離し、キーワードとベクトルの検索を組み合わせ、再ランキングを任意にすることで、インタラクティブな探索フローと本番AIの検索フローの両方に対応できる柔軟な方法を作成しました。これは、Wikimediaのコア・インフラストラクチャーやガバナンス体制の再プラットフォーム化を強制することなく実現しました。
Astra DBを採用することで提供されるマネージド・ベクトル・データベース機能、性能と拡張性のヘッドルーム、開発オーバーヘッドの削減により、ウィキメディアはユーザーの成果に重点を置きながら、より迅速に動きを進めることができます。これらの成果は、次世代のAI対応エクスペリエンスを構築する開発者にとって、検索の向上、応答の迅速化、ウィキデータへのアクセスの簡素化を意味します。