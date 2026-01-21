DataStax® Astra DB auf IBM watsonx.data® vereinfacht den maschinellen Zugriff und die App-Entwicklung auf diesem Wissensgraphen mit 120 Millionen Einträgen, steigert die Abfragegeschwindigkeit um das 30-fache und verkürzt die Entwicklungszeit um 90 %.
Wikipedia ist bekannt für seine Gründlichkeit, seine weite Verbreitung und das Vertrauen, das es sich erworben hat. Entscheidend für diese Eigenschaften ist die gemeinschaftliche Erstellung und Wartung. Diese gewaltige Wissenssammlung – mit insgesamt 300 Sprachen und 25 Milliarden monatlichen Aufrufen– ist eine zuverlässige, kollaborative Open Source, die von unzähligen Menschen täglich genutzt wird.
Jedoch stellt die maschinelle Zugänglichkeit mit dem Aufkommen der KI eine neue Herausforderung für die Unternehmen dar, die Wikipedia entwickeln und unterstützen. Wikidata, die verlinkte, offene Plattform, die Wikipedia-Daten für Tausende von Entwicklern in der gesamten Open Source-Geschäftswelt verfügbar macht, musste diesen massiven, mehrsprachigen Daten-Wissensgraphen (mit bisher etwa 120 Millionen Einträgen und 2,4 Milliarden Bearbeitungen) für große Sprachmodelle (LLMs) besser zugänglich und nutzbar machen.
Nach der Erprobung mehrerer Vektordatenbanken wandte sich Wikimedia Deutschland, die Organisation, die Wikidata entwickelt, an DataStax Astra DB auf IBM watsonx.data. Im Vergleich zur lokalen Berechnung von Vektoren steigerte die hochskalierbare Astra-Datenbank mit geringer Latenz die Abfragegeschwindigkeit – ein entscheidender Faktor für Retrieval-Augmented Generation-(RAG-)Apps – um das 30-fache. Bei Wikimedia Deutschland reduzierte sich die Entwicklungszeit um 90 %, da sich das Entwicklungsteam nun auf Innovationen konzentrieren kann, anstatt die Dateninfrastruktur zu hosten und zu warten.
Der Anwendungsfall von Wikimedia basiert auf der Tatsache, dass die Nutzung von LLM zunimmt und Teams vertrauenswürdige Daten verwenden möchten, um generative KI zuverlässiger und transparenter zu gestalten. Sie wollen der Community außerdem mehr Kontrolle darüber geben, auf welche Daten verwiesen wird.
Aber der Zugang war eine Hürde: Wikidata wird hauptsächlich über SPARQL (eine semantische Abfragesprache) erreicht. Sie ist leistungsstark, erfordert jedoch, dass Nutzer sowohl die Abfragesprache als auch die domänenspezifische Struktur von Wikidata lernen.
Wikimedia suchte nach einer einfacheren Möglichkeit für Entwickler, relevante Elemente zu erkunden und abzurufen, bevor sie präzise Graph-Abfragen schreiben.
Durch den Aufbau einer API-Schicht auf einer Vektordatenbank wurde Entwicklern dieser Zugriff ermöglicht und nachgelagerte Anwendungen unterstützt. Diese Anwendungen umfassen mehrsprachige Nutzererfahrungen (OpenStreetMap ist ein gutes Beispiel) und Suchmaschinen, die schnellen, vertrauenswürdigen Kontext benötigen (zum Beispiel Informationen über Museen, Bücher und kulturelle Einrichtungen).
Dies reduziert den Zeitaufwand für die Erstellung komplexer Abfragen, senkt die Lernkurve für neue Entwickler und beschleunigt die Iteration für RAG-Pipeline-Systeme.
Die API-Schicht von Wikidata ermöglicht es Maschinen, über zwei Wege auf eine Vektordatenbank zuzugreifen:
Die Suchroute beginnt mit einer Abfrage in natürlicher Sprache plus Konfigurationsparametern und führt eine hybride Suche durch, indem sie Folgendes kombiniert:
Die Ergebnisse der Stichwort- und Vektorsuche werden mittels reziproker Rangfusion zusammengeführt. Diese einfache Methode belohnt Elemente, die einen hohen Rang erreichen und in beiden Listen vorkommen.
Schließlich fügt Wikimedia einen optionalen Reranking-Schritt hinzu. Wenn aktiviert, ruft das System die Wikidata-API auf, um die neuesten Artikel-Informationen abzurufen, und wendet dann ein Jina.ai-Modell für die Neubewertung an, um Ergebnisse nach Relevanz neu zu ordnen. Der Schritt der Neusortierung ist bewusst optional, da in einigen Anwendungsfällen von RAG die vollständige Liste an einen LLM weitergegeben wird und die Reihenfolge weniger entscheidend ist. Nutzer können Rerankings überspringen, um schnellere Reaktionszeiten zu erhalten.
Die Astra DB-Vektordatenbank ist segmentiert nach:
Der Weg zur Ähnlichkeitsbewertung beginnt mit einer Abfrage in natürlicher Sprache und einer vom Benutzer angegebenen Liste von Wikidata-Entitäten. Anstatt Kandidaten abzurufen, misst das System, wie eng jede bereitgestellte Entität mit der Abfrage übereinstimmt.
Der Prozess beginnt mit dem Einbetten der Abfrage in das gleiche Jina.ai-Modell. Dann sucht es die gespeicherten Vektoren für die angegebenen Entitäten in Astra DB und berechnet deren Ähnlichkeitswerte gegen den Abfragevektor.
Dieser Weg unterstützt Anwendungen wie Klassifikation, Entitätsverknüpfung oder Begriffsklärung von benannten Entitäten, bei denen nachgelagerte Systeme die Ähnlichkeitswerte direkt nutzen können, um das beste Label auszuwählen oder zu entscheiden, auf welche Entität sich eine Erwähnung bezieht.
Die API-Komponenten laufen auf Wikimedia Cloud Services, einer Infrastruktur, die von der Wikimedia Foundation gehostet wird. Die Gründe von Wikimedia für die Nutzung einer eigenen Infrastruktur liegen im Datenschutz (Schutz der Mitwirkendengemeinschaft und Übernahme der Verantwortung für die Datenverwaltung). Sie sind außerdem mit der Kontrolle darüber verbunden, wo und welche Informationen gespeichert werden und wer darauf zugreifen kann.
Bei diesem Projekt geht es letztendlich darum, eine grundlegende, weit verbreitete Wissensressource einfacher in modernen KI-Pipelines nutzbar zu machen – ohne von jedem Entwickler zu verlangen, dass er erst ein Asset-Experte wird.
Die Nutzung der Astra-Datenbank brachte einige klare Nutzen mit sich:
Wikimedia stieß zudem auf eine bedeutende mehrsprachige Erkenntnis: Die Erstellung diskreter Vektoren für jede Sprache schien zunächst redundant, aber Experimente zeigten, dass die Genauigkeit sich verbesserte, je mehr Sprachen einbezogen wurden. Die Ergebnisse deuteten darauf hin, dass der Einbetten-Ansatz sprachliche Nuancen erfasste und nicht eine einfache Eins-zu-Eins-Übersetzung.
Wikimedia hat den Start dieser API im Oktober 2025 gefördert und ist bestrebt, sie zu aktualisieren, um den Zugang zu Basisdaten für Wikidata-Nutzer und KI-Entwickler weiter zu verbessern, um fortzufahren.
Die nächsten Schritte von Wikimedia konzentrieren sich auf die Erweiterung der Sprachabdeckung, die Förderung der Nutzung in der Praxis und das Sammeln von Feedback von Entwicklern, die auf Astra DB aufbauen. Wikimedia möchte auch fortfahren, eine Modellkontextprotokoll-(MCP-)Integration für Wikidata aufzubauen, die Astra DB zur Unterstützung der Exploration nutzt und dabei die Präzision der Graphabfragen beibehält. Wikimedia erkundet außerdem fortschrittliche RAG-Techniken, darunter GraphRAG, das graphenstrukturierte Daten zur Behandlung hochkomplexer Abfragen integriert.
Durch die Trennung der API-Schicht, die Kombination von Schlüsselwort- und Vektorabfrage und die optionale Möglichkeit des Rerankings hat Wikimedia einen flexiblen Pfad geschaffen, der sowohl für die interaktive Exploration als auch für die produktive KI-Abfrage geeignet ist. Dies geschah, ohne eine grundlegende Umstrukturierung der Kerninfrastruktur oder der Governance-Struktur von Wikimedia zu erzwingen.
Die Funktionen der Vektordatenbank, die Leistung und die Skalierbarkeit und der reduzierte Entwicklungsaufwand, die durch die Einführung von Astra DB geschaffen werden, helfen Wikimedia, schneller voranzukommen, während der Fokus auf Nutzerergebnisse bleibt. Diese Ergebnisse bedeuten eine bessere Abfrage, schnellere Antworten und einen vereinfachten Zugang zu Wikidata für die Entwickler, die an der nächsten Generation von KI-gestützten Erfahrungen arbeiten.