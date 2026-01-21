IBM® watsonx.data의 DataStax Astra DB 1억 2천만 개 항목으로 구성된 이 지식 그래프에서 머신 접근성과 앱 개발을 단순화해, 쿼리 속도를 30배 향상시키고 구축 시간을 90% 단축합니다.
Wikipedia는 철저함, 광범위한 접근성, 그리고 쌓아온 신뢰로 잘 알려져 있습니다. 이러한 특성의 핵심은 커뮤니티 기반의 생성과 유지 관리에 있습니다. 300개 언어와 월 250억 회의 조회수를 자랑하는 이 방대한 지식 집합은, 매일 수많은 사람들이 사용하는 신뢰할 수 있는 협업형 오픈 소스 정보원입니다.
그러나 AI의 부상과 함께, 머신 접근성은 Wikipedia를 개발하고 지원하는 조직에 새로운 과제로 떠올랐습니다. Wikipedia 데이터를 오픈 소스 생태계 전반의 수천 명 개발자에게 제공하는 연결형 오픈 플랫폼인 Wikidata는, 약 1억 2천만 개의 항목과 현재까지 24억 건의 편집을 포함한 이 방대한 다국어 데이터 지식 그래프를 대규모 언어 모델(LLM)이 더 쉽게 접근하고 활용할 수 있도록 해야 했습니다.
여러 벡터 데이터베이스를 시험한 끝에, Wikidata를 개발하는 조직인 Wikimedia Deutschland는 IBM watsonx.data의 DataStax Astra DB를 선택했습니다. 로컬에서 벡터를 계산하는 방식과 비교해, 확장성이 뛰어나고 지연 시간이 낮은 Astra DB는 검색 증강 생성(RAG) 애플리케이션에 중요한 요소인 쿼리 속도를 30배 향상시켰습니다. 그 결과 Wikimedia Deutschland의 개발 시간은 90% 단축되었으며, 개발팀은 이제 데이터 인프라의 호스팅과 유지 관리가 아닌 혁신에 집중할 수 있게 되었습니다.
Wikimedia의 사용 사례는 LLM 도입이 증가하고 있으며, 팀들이 생성형 AI의 신뢰성과 투명성을 높이기 위해 신뢰할 수 있는 데이터를 활용하고자 한다는 점에 기반하고 있습니다. 또한 커뮤니티가 어떤 데이터가 참조되는지에 대해 더 많은 통제권을 갖기를 원합니다.
그러나 접근성은 장애물이었습니다. Wikidata는 주로 SPARQL(시맨틱 쿼리 언어)을 통해 접근됩니다. 이는 강력하지만, 사용자가 쿼리 언어와 Wikidata의 도메인 특화 구조를 모두 학습해야 합니다.
Wikimedia는 개발자가 정교한 그래프 쿼리를 작성하기 전에 관련 항목을 탐색하고 검색할 수 있는 더 간단한 방법을 모색했습니다.
벡터 데이터베이스 위에 API 계층을 구축함으로써 개발자에게 이러한 접근성을 제공하고, 다운스트림 애플리케이션을 지원했습니다. 이러한 애플리케이션에는 다국어 사용자 경험(OpenStreetMap이 대표적인 예)과 박물관, 도서, 문화 기관 정보와 같은 빠르고 신뢰할 수 있는 컨텍스트가 필요한 검색 엔진이 포함됩니다.
이를 통해 복잡한 쿼리를 작성하는 데 드는 시간이 줄어들고, 신규 개발자의 학습 곡선이 완화되며, RAG 파이프라인 시스템의 반복 작업 속도가 빨라집니다.
Wikidata의 API 계층은 두 가지 경로를 통해 머신에 벡터 데이터베이스 접근을 제공합니다.
검색 경로는 자연어 쿼리와 구성 파라미터로 시작하며, 다음을 결합한 하이브리드 검색을 수행합니다.
키워드 검색과 벡터 검색 결과는 상호 순위 융합(recursive rank fusion)을 사용해 병합되며, 이는 두 목록 모두에서 높은 순위를 차지한 항목에 가중치를 부여하는 간단한 방법입니다.
마지막으로 Wikimedia는 선택적 재정렬 단계를 추가합니다. 이 기능이 활성화되면, 시스템은 Wikidata API를 호출해 최신 항목 정보를 가져온 뒤 Jina.ai 재정렬 모델을 적용해 관련도 기준으로 결과를 재정렬합니다. 재정렬 단계는 일부 RAG 사용 사례에서 전체 목록이 LLM으로 전달되며 순서의 중요성이 낮기 때문에 의도적으로 선택 사항으로 설계되었습니다. 사용자는 더 빠른 응답 시간을 위해 재정렬을 건너뛸 수 있습니다.
Astra DB 벡터 데이터베이스는 다음 기준으로 분할됩니다.
유사도 점수 경로는 자연어 쿼리와 사용자가 지정한 Wikidata 엔티티 목록으로 시작합니다. 후보를 검색하는 대신, 시스템은 각 제공된 엔티티가 쿼리와 얼마나 밀접하게 일치하는지를 측정합니다.
이 과정은 동일한 Jina.ai 모델을 사용해 쿼리를 임베딩하는 것으로 시작합니다. 그 다음 Astra DB에서 지정된 엔티티의 저장된 벡터를 조회하고, 쿼리 벡터와의 유사도 점수를 계산합니다.
이 경로는 분류, 엔티티 연결, 개체명 중의성 해소와 같은 애플리케이션을 지원하며, 다운스트림 시스템은 유사도 점수를 직접 사용해 최적의 레이블을 선택하거나 언급이 어떤 엔티티를 가리키는지 결정할 수 있습니다.
API 구성 요소는 Wikimedia Foundation이 호스팅하는 인프라인 Wikimedia Cloud Services에서 실행됩니다. Wikimedia가 자체 인프라를 호스팅하는 이유는 개인정보 보호(기여자 커뮤니티 보호 및 데이터 관리 책임)에 있습니다. 또한 어떤 정보가 어디에 저장되고 누가 접근할 수 있는지에 대한 통제와도 관련이 있습니다.
이 프로젝트의 궁극적인 목적은, 모든 개발자가 먼저 그래프 쿼리 전문가가 되도록 요구하지 않으면서도, 널리 재사용되는 핵심 지식 자산을 현대적인 AI 파이프라인에서 더 쉽게 활용할 수 있도록 하는 것입니다.
Astra DB를 활용함으로써 다음과 같은 명확한 이점을 얻었습니다.
Wikimedia는 의미 있는 다국어 인사이트도 발견했습니다. 언어별로 개별 벡터를 생성하는 방식은 처음에는 중복처럼 보였지만, 더 많은 언어를 포함할수록 정확도가 향상되는 것으로 나타났습니다. 이 결과는 임베딩 접근 방식이 단순한 일대일 번역이 아니라 언어의 뉘앙스를 포착한다는 점을 시사했습니다.
Wikimedia는 2025년 10월 이 API의 출시를 알렸으며, Wikidata 재사용자와 AI 개발자를 위해 그라운딩 데이터 접근성을 지속적으로 개선하도록 업데이트를 이어갈 계획입니다.
Wikimedia의 다음 단계는 언어 지원 범위를 확장하고, 실제 사용을 장려하며, Astra DB 위에서 개발하는 개발자들의 피드백을 수집하는 데 초점을 맞춥니다. 또한 Wikimedia는 Astra DB를 활용해 탐색을 지원하면서도 그래프 쿼리의 정밀도를 유지하는 Wikidata용 모델 컨텍스트 프로토콜(MCP) 통합을 계속 구축할 계획입니다. Wikimedia는 그래프 구조 데이터를 활용해 매우 복잡한 쿼리를 처리하는 GraphRAG를 포함한 고급 RAG 기법도 탐색하고 있습니다.
API 계층을 분리하고 키워드 검색과 벡터 검색을 결합하며 재정렬을 선택 사항으로 둠으로써, Wikimedia는 대화형 탐색과 프로덕션 AI 검색 흐름을 모두 지원할 수 있는 유연한 경로를 구축했습니다. 이는 Wikimedia의 핵심 인프라나 거버넌스 체계를 재플랫폼화하지 않고도 가능했습니다.
Astra DB 도입으로 제공되는 관리형 벡터 데이터베이스 역량, 성능과 확장성 여유, 그리고 개발 오버헤드 감소는 Wikimedia가 사용자 성과에 집중하면서 더 빠르게 움직일 수 있도록 돕습니다. 이러한 성과는 더 나은 검색, 더 빠른 응답, 그리고 차세대 AI 기반 경험을 구축하는 개발자를 위한 Wikidata 접근성 단순화를 의미합니다.