DataStax® Astra DB pada IBM® watsonx.data menyederhanakan akses mesin dan pengembangan aplikasi pada grafik pengetahuan dengan 120 juta entri ini, meningkatkan kecepatan kueri hingga 30 kali lipat dan memangkas waktu pembuatan hingga 90%.
Wikipedia terkenal dengan ketelitiannya, aksesibilitas yang luas dan kepercayaan yang dibangunnnya. Kunci dari karakteristik ini adalah penciptaan dan pemeliharaan komunitasnya. Kompilasi pengetahuan besar-besaran ini, hingga 300 bahasa dan 25 miliar tampilan bulanan, adalah sumber informasi yang andal, kolaboratif, dan sumber terbuka yang digunakan oleh banyak orang setiap hari.
Namun, dengan munculnya AI, aksesibilitas mesin menimbulkan tantangan baru bagi organisasi yang mengembangkan dan mendukung Wikipedia. Wikidata, platform terbuka yang terhubung yang membuat data Wikipedia tersedia bagi ribuan pengembang di seluruh lingkungan sumber terbuka, diperlukan untuk membuat grafik pengetahuan data multibahasa yang masif ini (dengan sekitar 120 juta entri dan 2,4 miliar suntingan hingga saat ini) lebih mudah diakses dan dapat digunakan oleh model bahasa besar (LLMs).
Setelah menguji beberapa basis data vektor, Wikimedia Deutschland, organisasi yang mengembangkan Wikidata, mengandalkan DataStax Astra DB di IBM watsonx.data. Dibandingkan dengan komputasi vektor secara lokal, Astra DB yang dapat diskalakan, latensi rendah meningkatkan kecepatan kueri, faktor penting untuk Retrieval-Augmented Generation (RAG) aplikasi, sebanyak 30 kali lipat. Waktu pengembangan di Wikimedia Deutschland mengalami pengurangan 90%, karena tim pengembangnya sekarang dapat fokus pada inovasi alih-alih pada hosting dan pemeliharaan infrastruktur data.
Kasus penggunaan Wikimedia didasarkan pada fakta bahwa adopsi LLM meningkat, dan tim ingin menggunakan data tepercaya untuk membuat AI generatif lebih dapat diandalkan dan transparan. Mereka juga ingin memberikan komunitas lebih banyak kontrol atas data mana yang direferensikan.
Namun, akses merupakan hambatan: Wikidata terutama diakses melalui SPARQL (bahasa kueri semantik). Ini sangat kuat tetapi mengharuskan pengguna untuk mempelajari bahasa kueri dan struktur khusus domain Wikidata.
Wikimedia mencari cara yang lebih sederhana bagi pengembang untuk menjelajahi dan mengambil item yang relevan sebelum menulis kueri grafik yang tepat.
Membangun lapisan API di atas basis data vektor menyediakan akses ini untuk pengembang, mendukung aplikasi. Aplikasi ini termasuk pengalaman pengguna multibahasa (OpenStreetMap adalah contoh yang baik) dan mesin pencari yang membutuhkan konteks yang cepat dan tepercaya (informasi tentang museum, buku, dan lembaga budaya, misalnya).
Ini mengurangi waktu yang dihabiskan untuk menyusun kueri kompleks, menurunkan kurva pembelajaran untuk pengembang baru, dan mempercepat iterasi untuk sistem pipeline RAG.
Lapisan API Wikidata menyediakan mesin dengan akses ke basis data vektor melalui dua rute:
Rute pencarian dimulai dengan kueri bahasa alami ditambah parameter konfigurasi, dan melakukan pencarian hybrid dengan menggabungkan:
Hasil dari pencarian kata kunci dan vektor digabungkan dengan menggunakan fusi peringkat timbal balik, metode sederhana yang memberi penghargaan pada item yang memiliki peringkat tinggi dan muncul di kedua daftar.
Akhirnya, Wikimedia menambahkan langkah penilaian ulang opsional. Saat diaktifkan, sistem memanggil API Wikidata untuk mengambil informasi item terbaru, kemudian menerapkan model reranker Jina.ai untuk menyusun ulang hasil berdasarkan relevansi. Langkah penilaian ulang sengaja bersifat opsional karena, dalam beberapa contoh penggunaan RAG, daftar lengkap diteruskan ke hilir ke LLM dan urutan kurang penting. Pengguna dapat melewati penilaian ulang peringkat untuk waktu respons yang lebih cepat.
Basis data vektor Astra DB dibagi berdasarkan:
Rute skor kesamaan dimulai dengan kueri bahasa alami dan daftar entitas Wikidata yang ditentukan pengguna. Alih-alih mengambil kandidat, sistem mengukur seberapa dekat setiap entitas yang disediakan selaras dengan kueri.
Proses dimulai dengan menyematkan kueri dengan model Jina.ai yang sama. Kemudian mencari vektor yang toko untuk entitas tertentu di Astra DB dan menghitung skor kesamaan mereka terhadap vektor kueri.
Rute ini mendukung aplikasi seperti klasifikasi, penautan entitas, atau disambiguasi entitas bernama, di mana sistem hilir dapat menggunakan skor kemiripan secara langsung untuk memilih label terbaik atau menyelesaikan entitas mana yang dimaksud oleh suatu penyebutan.
Komponen API berjalan di Wikimedia Cloud Services, sebuah infrastruktur yang diselenggarakan oleh Wikimedia Foundation. Alasan Wikimedia untuk menghosting infrastruktur mereka sendiri terkait dengan privasi (melindungi komunitas kontributor dan bertanggung jawab atas pengelolaan data). Mereka juga terikat untuk mengontrol di mana dan informasi apa yang disimpan dan siapa yang dapat mengaksesnya.
Pada akhirnya, proyek ini bertujuan untuk mempermudah penggunaan aset pengetahuan mendasar yang banyak digunakan dalam alur kerja AI modern, tanpa mengharuskan setiap pengembang untuk menjadi pakar kueri grafik terlebih dahulu.
Mengandalkan Astra DB menghasilkan beberapa manfaat yang jelas:
Wikimedia juga menemukan insight multibahasa yang bermakna: membuat vektor terpisah untuk setiap bahasa awalnya tampak berlebihan, tetapi eksperimen menunjukkan bahwa akurasi meningkat karena lebih banyak bahasa dimasukkan. Hasil menunjukkan bahwa pendekatan menanamkan menangkap nuansa bahasa daripada terjemahan satu-ke-satu sederhana.
Wikimedia mempromosikan peluncuran API ini pada bulan Oktober 2025 dan mereka berkomitmen untuk memperbaruinya untuk terus meningkatkan akses ke data dasar untuk melayani pengguna Wikidata dan pengembang AI.
Langkah Wikimedia selanjutnya berfokus pada perluasan cakupan bahasa, mendorong penggunaan dunia nyata dan mengumpulkan masukan dari pengembang yang membangun di atas Astra DB. Wikimedia juga bertujuan untuk terus membangun Integrasi protokol konteks model (MCP) untuk Wikidata yang menggunakan Astra DB untuk mendukung eksplorasi sambil mempertahankan ketepatan kueri grafik. Wikimedia juga menjelajahi teknik RAG canggih, termasuk GraphRAG, yang menggabungkan data terstruktur grafik untuk menangani kueri yang sangat kompleks.
Dengan memisahkan lapisan API, menggabungkan pencarian kata kunci dan vektor dan membuat penilaian ulang menjadi opsional, Wikimedia menciptakan jalur fleksibel yang dapat melayani eksplorasi interaktif dan aliran pengambilan AI produksi. Itu dilakukan tanpa memaksa penggantian platform infrastruktur inti atau postur tata kelola Wikimedia.
Kemampuan basis data vektor, kinerja dan skalabilitas headroom serta pengurangan overhead pengembangan yang disediakan dengan mengadopsi Astra DB membantu Wikimedia bergerak lebih cepat sambil tetap fokus pada hasil pengguna. Hasil ini berarti pengambilan yang lebih baik, respons yang lebih cepat, dan akses yang disederhanakan ke Wikidata bagi para pengembang yang membangun pengalaman berbasis AI generasi berikutnya.