RAG 벡터 데이터베이스란 무엇인가요?

By Tom Krantz , Alexandra Jonker

RAG 벡터 데이터베이스, 정의

검색 증강 생성(RAG) 벡터 데이터베이스는 인공 지능(AI)과 고급 검색을 결합하여 대규모 언어 모델(LLM)이 실시간으로 관련 정보를 검색하고 보다 정확한 문맥 인식 응답을 생성할 수 있도록 합니다.

RAG 벡터 데이터베이스는 검색 아키텍처(RAG)와 데이터 계층(벡터 데이터베이스)의 두 가지 주요 구성 요소로 구성됩니다.

RAG란 무엇인가요?

RAG는 언어 모델을 외부 지식 소스에 연결하여 관련 정보를 검색하고 쿼리 시 해당 컨텍스트를 응답에 통합할 수 있도록 하는 아키텍처입니다. 이 접근 방식은 지식 단절, 할루시네이션, 도메인 특이성 부족 등 LLM의 일반적인 한계를 해결합니다.

검색 증강 생성에 대해 자세히 보기

벡터 데이터베이스란 무엇인가요?

벡터 데이터베이스(또는 벡터 DB)는 데이터를 벡터 임베딩이라는 숫자 표현으로 저장하고 검색하기 때문에 정확한 키워드 일치보다는 의미적 유사성을 기반으로 검색할 수 있습니다. 이 프로세스를 통해 시스템은 표현이 다른 경우에도 의미를 기반으로 정보를 검색할 수 있습니다.

벡터 데이터베이스에 대해 자세히 알아보기

이 기술의 성능 향상은 측정 가능합니다. Wikimedia Deutschland는 위키데이터의 1억 2천만 개 항목에 달하는 지식 그래프를 LLM이 액세스할 수 있게 만들어야 했을 때 IBM® watsonx.data의 DataStax Astra DB를 벡터 데이터베이스로 선택했습니다. 그 결과 로컬 벡터 계산에 비해 쿼리 속도가 30배 더 빠르고 개발 시간이 90% 단축되어 팀이 인프라 유지 관리보다는 구축에 집중할 수 있습니다.

대부분의 RAG 구현에서 RAG 시스템은 벡터 데이터베이스 또는 벡터 인덱싱 기술을 사용하여 시맨틱 검색을 가능하게 합니다. 그러나 벡터 검색이 반드시 필요한 것은 아닙니다. RAG 아키텍처는 사용 사례에 따라 키워드 검색, 구조화된 쿼리 또는 하이브리드 접근 방식을 통합할 수도 있습니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

RAG 벡터 데이터베이스가 중요한 이유

RAG 벡터 데이터베이스는 머신 러닝 과 생성형 AI(gen AI) 시스템이 정보를 접근하고 적용하는 방식을 재정의합니다. 지식을 모델 내부에 고정된 것으로 취급하는 대신, 상황에 따라 동적으로 검색, 평가 및 사용할 수 있는 것으로 취급합니다.

이러한 변화는 지식, 검색, 기반 및 운영이라는 네 가지 핵심 영역에 영향을 미칩니다.

지식

가장 진보된 모델도 학습 데이터의 제약을 받습니다. 데이터가 오래되거나 사용 사례가 더욱 전문화됨에 따라 격차가 나타나기 시작합니다.

RAG는 연구자들이 흔히 "비매개변수 메모리"라고 부르는 것, 즉 모델의 매개변수에 저장하는 대신 런타임에 쿼리할 수 있는 외부 지식을 도입함으로써 이 문제를 해결합니다.¹

검색

기존 검색 시스템은 일반적으로 사용자와 데이터가 동일한 언어를 사용한다고 가정하는 키워드 일치에 의존합니다. 실제로는 그렇지 않은 경우가 많습니다. 벡터 데이터베이스는 벡터 유사성을 사용하여 표현이 얼마나 밀접하게 정렬되어 있는지 비교하여 일치하는 단어에서 일치하는 의미로 검색을 전환합니다.

RAG 시스템에서 사용되는 하이브리드 검색 접근 방식은 시맨틱 검색과 기존 검색 방법을 결합하여 특히 데이터가 이질적이고 복잡한 엔터프라이즈 환경에서 정확도와 회수율을 모두 향상시킵니다.²

기반

생성형 모델은 확률적 모델로, 검증된 사실이 아닌 그럴듯한 응답을 생성합니다. 이로 인해 할루시네이션의 위험이 발생합니다.

RAG는 검색된 데이터에 응답을 기반으로 하여 이러한 문제를 완화합니다. 의료 및 교육과 같은 다양한 분야의 연구에 따르면 검색과 생성을 결합하면 질문 답변 시스템의 사실 정확성과 신뢰성이 향상됩니다.³

운영

RAG는 AI 시스템을 유지 관리하고 확장하는 방식을 변화시킵니다. 조직은 새로운 지식을 통합하기 위해 모델을 재훈련하는 대신 기본 데이터 또는 검색 로직을 업데이트하여 사용 사례 전반에 걸쳐 더 빠른 반복과 더 큰 적응성을 가능하게 할 수 있습니다.

그 결과, RAG는 특히 모델이 정확한 응답을 생성하기 위해 최신 데이터 또는 외부 데이터에 액세스해야 하는 엔터프라이즈 환경과 소비자 대상 앱에서 최신 AI 시스템의 주요 아키텍처 패턴으로 자리 잡았습니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

RAG 벡터 데이터베이스는 어떻게 작동하나요?

높은 수준에서 RAG 벡터 데이터베이스는 다음과 같은 구조화된 순서를 따릅니다.

사용자가 프롬프트를 제출합니다.
토큰은 임베딩으로 변환됩니다.
벡터 데이터베이스는 유사한 임베딩을 검색합니다.
검색된 데이터는 원래 쿼리와의 관련성을 기준으로 순위가 매겨집니다.
모델 컨텍스트는 검색된 데이터로 보강됩니다.
모델이 응답을 생성합니다.

1. 사용자가 프롬프트를 제출합니다.

모든 상호작용은 자연어로 표현된 사용자 쿼리에서 시작됩니다. 이 단계에서 입력은 언어 모델이 처리하는 텍스트 단위인 토큰으로 존재합니다. 토큰은 언어가 작성되고 구조화되는 방식을 나타내지만 아직 검색할 수 있는 방식으로 의미를 포착하지는 못합니다.

2. 토큰은 임베딩으로 변환됩니다.

쿼리를 검색 가능하게 만들기 위해 의미의 숫자 표현을 제공하는 임베딩으로 변환됩니다. 이를 이해하는 한 가지 방법은 지리를 통해 이해하는 것입니다.

토큰은 '뉴욕시', 'NYC', '맨해튼'과 같은 장소 이름과 같습니다.
임베딩은 좌표와 같은 위도와 경도입니다.

토큰을 임베딩으로 변환함으로써 시스템은 언어에서 의미를 수학적으로 비교할 수 있는 공간(고차원 벡터 공간)으로 이동합니다.

3. 벡터 데이터베이스는 유사한 임베딩을 검색합니다.

쿼리가 임베딩(또는 쿼리 벡터)으로 표현되면 벡터 데이터베이스는 유사한 벡터를 검색합니다. 이 프로세스는 벡터가 고차원 공간에서 얼마나 밀접하게 정렬되어 있는지 측정하는 코사인 유사성과 같은 유사성 지표에 의존합니다. 또한 많은 시스템에는 가장 관련성이 높은 결과의 우선순위를 지정하여 정확성과 일관성을 개선하는 순위 계층이 포함되어 있습니다.

4. 검색된 데이터는 원래 쿼리와의 관련성을 기준으로 순위가 매겨집니다.

시스템은 가장 유사한 임베딩과 관련된 데이터의 더 작은 세그먼트 또는 '청크'를 검색합니다. '청킹'이라고도 하는 이 프로세스는 청크를 정의하는 방식에 따라 검색 품질이 결정됩니다. 너무 크면 검색 정확도가 떨어질 수 있습니다. 너무 작으면 컨텍스트를 잃을 수 있습니다.

5. 모델 컨텍스트는 검색된 데이터로 보강됩니다.

검색된 정보는 모델의 입력에 삽입되는데, 이를 프롬프트 증강이라고 합니다. 원래 쿼리와 검색된 컨텍스트는 단일 토큰 시퀀스를 형성합니다. 모델은 이들을 구분하지 않습니다. 이는 단순히 결합된 입력을 처리하여 응답을 생성하는 것이므로 프롬프트 구조가 매우 중요합니다.

6. 모델이 응답을 생성합니다.

증강 프롬프트가 작성되면 모델이 응답을 생성합니다. 이 단계에서는 RAG가 모델의 내부 매개변수를 수정하고 지식을 모델에 직접 내장하는 미세 조정과 같은 프로세스와 어떻게 다른지 살펴봅니다. RAG는 모델을 변경하지 않고 런타임 시 지식을 검색합니다. 즉, 미세 조정은 모델이 알고 있는 정보를 개선하는 반면, RAG는 모델이 액세스할 수 있는 정보를 개선합니다.

RAG 벡터 데이터베이스 시스템의 핵심 구성 요소

RAG 벡터 데이터베이스 시스템은 단일 도구가 아니라 응답을 구조화하고 생성하기 위해 함께 작동하는 조정된 구성 요소 집합입니다. 이 프로세스의 핵심 구성 요소는 다음과 같습니다.

지식 기반
임베딩 모델
벡터 데이터베이스
리트리버
통합 계층
제너레이터(Generator)

지식 기반

지식 기반은 시스템의 신뢰할 수 있는 외부 소스입니다. 여기에는 모델이 검색할 데이터(문서, PDF, 정형 기록, 지원 티켓 또는 기타 비정형 콘텐츠 포함)가 포함됩니다.

엔터프라이즈 환경에서는 이러한 데이터가 여러 시스템과 형식에 걸쳐 파편화되어 있는 경우가 많습니다. 따라서 지식 기반의 품질은 시스템 출력의 품질에 직접적인 영향을 미칩니다.

임베딩 모델

임베딩 모델은 자연어를 의미를 포착하는 벡터 표현으로 변환합니다.

이 구성 요소는 시맨틱 공간에서 정보가 배치되는 방식을 결정하여 검색 중에 쿼리와 문서가 비교되는 방식을 형성합니다. 임베딩 모델이 기술 용어나 컨텍스트 관계와 같은 도메인별 뉘앙스를 포착하지 못하면 검색 품질이 저하됩니다.

벡터 데이터베이스

벡터 데이터베이스는 임베딩을 저장하고 인덱싱하여 대규모 데이터 세트에서 빠른 유사성 검색을 가능하게 합니다. 그 역할은 단순한 스토리지가 아니라 검색 성능입니다. 근사 최근접 이웃(ANN) 검색과 같은 인덱싱 기술을 사용하면 시스템이 대규모에서도 관련 벡터를 빠르게 찾을 수 있습니다. 최근 IBM 연구에 따르면 수백억에서 수천억 개의 벡터를 처리할 수 있는 시스템이 입증되었습니다.

동시에 벡터 데이터베이스는 종종 메타데이터 필터링 및 하이브리드 검색을 지원하므로 시스템이 날짜, 범주 또는 소스와 같은 추가 제약 조건을 기반으로 결과를 구체화할 수 있습니다.

리트리버

리트리버는 사용자 쿼리와 벡터 데이터베이스 사이의 인터페이스 역할을 합니다. 임베딩 모델을 사용하여 쿼리를 벡터 표현으로 변환하고, 애플리케이션 프로그래밍 인터페이스(API) 또는 소프트웨어 개발 키트(SDK)를 사용하여 검색을 실행한 후 가장 관련성이 높은 결과를 반환합니다.

이 프로세스는 최신 AI 검색의 기초를 형성합니다. 더 발전된 시스템에서는 리트리버가 순위 매김 논리, 필터링 메커니즘 또는 정확도를 높이기 위한 다단계 검색 전략을 포함할 수도 있습니다.

통합 계층

통합 계층은 구성 요소 간 데이터 흐름 방식과 프롬프트 구성 방식을 관리하여 시스템을 제어합니다. 검색된 결과를 가져와 정리하고 구조화된 방식으로 모델의 입력에 삽입합니다.

통합은 프롬프트 엔지니어링 및 오케스트레이션 프레임워크가 작동하여 모델이 명확하고 관련성 있는 컨텍스트를 수신하도록 하는 곳입니다. 종종 오픈 소스 도구, Python 라이브러리, Pinecone이나 Milvus 같은 벡터 데이터베이스 플랫폼을 조합하여 시스템을 구축하는 경우가 많습니다. 이러한 조정을 통해 궁극적으로 앱과 대규모 데이터 세트 전반에서 확장 가능한 AI 검색이 가능해집니다.

제너레이터

생성기는 최종 응답을 생성하는 언어 모델입니다. 정보 자체를 검색하지는 않습니다. 대신 증강 프롬프트를 해석하고 주어진 컨텍스트에 따라 응답을 생성합니다. 이 구분은 중요합니다. 생성기의 역할은 모든 것을 '아는' 것이 아니라 시스템에서 제공하는 정보를 종합하고 표현하는 것입니다.

RAG 벡터 데이터베이스 고려 사항

RAG 벡터 데이터베이스를 설계하고 배포하려면 정확성, 성능 및 시스템 복잡성 간의 균형이 필요합니다. 아키텍처는 개념적으로는 간단하지만, 그 효과는 각 구성 요소가 당면한 작업에 얼마나 잘 조정되어 있는지에 따라 달라집니다. 고려 사항에는 다음이 포함되는 경우가 많습니다.

검색 품질
청킹 전략
컨텍스트 창 크기 제한
지연 시간 및 복잡성
보안 및 거버넌스

검색 품질

RAG 시스템은 검색을 주요 신뢰할 수 있는 소스로 사용합니다. 시스템이 불완전하거나 관련 없는 정보를 검색하면 모델은 결함이 있는 응답을 생성합니다. 이러한 문제는 임베딩 품질 및 순위 논리에서 비롯되는 경우가 많습니다. 임베딩은 도메인별 뉘앙스를 놓칠 수 있는 반면, 유사성 검색은 기술적으로 가깝지만 문맥적으로 잘못된 결과를 표시할 수 있습니다.

이러한 문제를 해결하기 위해 최신 시스템은 재순위화 계층, 도메인별 임베딩 모델, 의미 유사성과 구조적 필터링을 결합한 하이브리드 검색 기술을 통합합니다.

청킹 전략

검색 성능은 데이터가 세분화되는 방식에 의해서도 형성됩니다. 문서가 검색되기 전에 더 작은 조각으로 나뉘기 때문에, 정의가 부족한 청킹 전략은 의미를 단편화하거나 정밀도를 떨어뜨릴 수 있습니다. 종종 팀에서는 청킹을 설계 고려 사항으로 취급하여 구체성과 컨텍스트의 균형을 맞추는 경우가 많습니다.

청킹 전략에 대해 자세히 보기

컨텍스트 창 크기 제한

검색이 효과적인 경우에도 모델은 제한된 양의 정보만 한 번에 처리할 수 있습니다(컨텍스트 창). 복잡한 쿼리, 특히 여러 소스를 종합해야 하는 쿼리에서는 이러한 제한으로 인해 시스템이 가장 관련성이 높은 쿼리의 우선순위를 지정하여 추론을 제한할 수 있습니다. 비용 효율적인 시스템은 요약 및 선택적 검색과 같은 기술을 사용하여 컨텍스트를 희소 자원으로 취급하여 그 가치를 극대화합니다.

지연 시간 및 복잡성

RAG는 임베딩 생성, 벡터 검색 및 프롬프트 생성을 포함하여 추론 파이프라인에 추가 단계를 도입합니다. 각 단계는 가치를 더하지만 지연 시간도 늘어납니다.

실시간 AI 애플리케이션에서 작은 지연도 사용자 경험에 영향을 미칠 수 있습니다. 대규모 배포에서는 처리량과 응답성에 대한 문제가 발생할 수 있습니다. 그렇기 때문에 프로덕션 시스템에서는 정확도와 복잡성의 균형을 맞추기 위해 ANN 검색, 캐싱 및 병렬 처리와 같은 최적화된 인덱싱 기술에 의존하는 경우가 많습니다.

보안 및 거버넌스

RAG 시스템은 모델을 외부 데이터 소스에 연결하기 때문에 데이터 액세스, 개인정보 보호 및 규정 준수와 관련하여 새로운 보안 고려 사항을 도입합니다.

지식이 매개변수 내에 포함되는 기존 모델과 달리 RAG 애플리케이션은 라이브 데이터에서 작동합니다. 이를 통해 실시간 업데이트 및 액세스 제어가 가능하지만 파이프라인 전체에서 민감한 정보를 보호할 수 있도록 가드레일과 같은 보호 장치도 필요합니다.

특히 벡터 데이터베이스는 소스 데이터에서 파생된 임베딩을 저장합니다. 직접 복사본은 아니지만 이러한 표현은 리버스 엔지니어링을 통해 기본 정보를 유추할 수 있습니다. 따라서 엔터프라이즈 RAG 시스템에는 암호화, 액세스 제어 및 감사 기능을 포함한 강력한 거버넌스 프레임워크가 필요합니다.

RAG 벡터 데이터베이스 사용 사례

RAG 벡터 데이터베이스는 정보가 방대하고 동적이며 기존 인터페이스를 사용하여 탐색하기 어려운 시나리오에서 가장 유용합니다. 예를 들면 다음과 같습니다.

엔터프라이즈 챗봇 및 지식 어시스턴트

RAG 벡터 데이터베이스는 대규모 분산 데이터 소스에서 실시간으로 정보를 검색하고 합성하여 챗봇과 내부 지식 어시스턴트를 모두 지원합니다. 이를 통해 챗봇은 최신 지원 응답을 제공하는 동시에 직원들이 여러 시스템을 검색할 필요 없이 자연어를 사용하여 내부 문서와 워크플로를 쿼리할 수 있습니다.

연구 및 분석 워크플로

금융, 의료 및 법률 분석과 같은 영역에서 RAG 시스템은 상황에 따라 여러 소스의 관련 정보를 표시하여 사용자가 복잡한 여러 부분으로 구성된 질문을 하고 종합된 답변을 받을 수 있도록 합니다. 그 결과 의사 결정의 속도와 정확성이 향상됩니다.

RAG 벡터 데이터베이스의 미래

조직이 실험적인 구현에서 프로덕션 규모의 시스템으로 전환함에 따라 RAG 벡터 데이터베이스는 빠르게 진화하고 있습니다. 연구 및 산업 발전은 다음과 같은 몇 가지 새로운 추세를 보여주고 있습니다.

에이전틱 검색
하이브리드 검색 아키텍처
실시간 지식 시스템
멀티모달 및 추론 기반 RAG

에이전트 검색

초기 RAG 시스템은 검색, 증강, 생성이라는 고정된 파이프라인을 따랐습니다. 새롭게 등장하는 시스템들은 더욱 역동적인 행동 양식을 보여주고 있습니다.

모델은 에이전틱 검색을 통해 정보를 검색할 대상, 시기, 방법을 결정할 수 있습니다. 시스템은 단일 검색 단계 대신 여러 검색 작업을 수행하거나, 쿼리를 구체화하거나, 생성 중에 추가 컨텍스트를 요청할 수 있습니다.

AI 에이전트에 대한 최근 연구에 따르면 이러한 접근 방식은 복잡한 다단계 작업, 특히 반복적인 추론이나 탐색이 필요한 작업의 성능을 향상시킬 수 있습니다.⁴

에이전트 RAG에 대해 자세히 보기

하이브리드 검색 아키텍처

벡터 검색은 여전히 기본이지만 키워드 검색, 메타데이터 필터링, 경우에 따라 그래프 기반 검색(GraphRAG)과 점점 더 결합되고 있습니다. 이러한 조정을 통해 시스템은 시맨틱 의미와 구조화된 관계를 모두 포착하여 복잡한 환경에서 정밀도와 재현율을 향상시킬 수 있습니다.

GraphRAG에 대해 자세히 보기