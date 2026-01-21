Wikipedia ist bekannt für seine Gründlichkeit, seine weite Verbreitung und das Vertrauen, das es sich erworben hat. Entscheidend für diese Eigenschaften ist die gemeinschaftliche Erstellung und Wartung. Diese gewaltige Wissenssammlung – mit insgesamt 300 Sprachen und 25 Milliarden monatlichen Aufrufen– ist eine zuverlässige, kollaborative Open Source, die von unzähligen Menschen täglich genutzt wird.

Jedoch stellt die maschinelle Zugänglichkeit mit dem Aufkommen der KI eine neue Herausforderung für die Unternehmen dar, die Wikipedia entwickeln und unterstützen. Wikidata, die verlinkte, offene Plattform, die Wikipedia-Daten für Tausende von Entwicklern in der gesamten Open Source-Geschäftswelt verfügbar macht, musste diesen massiven, mehrsprachigen Daten-Wissensgraphen (mit bisher etwa 120 Millionen Einträgen und 2,4 Milliarden Bearbeitungen) für große Sprachmodelle (LLMs) besser zugänglich und nutzbar machen.

Nach der Erprobung mehrerer Vektordatenbanken wandte sich Wikimedia Deutschland, die Organisation, die Wikidata entwickelt, an DataStax Astra DB auf IBM watsonx.data. Im Vergleich zur lokalen Berechnung von Vektoren steigerte die hochskalierbare Astra-Datenbank mit geringer Latenz die Abfragegeschwindigkeit – ein entscheidender Faktor für Retrieval-Augmented Generation-(RAG-)Apps – um das 30-fache. Bei Wikimedia Deutschland reduzierte sich die Entwicklungszeit um 90 %, da sich das Entwicklungsteam nun auf Innovationen konzentrieren kann, anstatt die Dateninfrastruktur zu hosten und zu warten.