데이터 검색이란 무엇인가요?

By Alice Gomstyn , Alexandra Jonker

데이터 검색 정의

데이터 검색은 데이터 소스에서 바로 사용할 수 있는 정보에 액세스하는 프로세스입니다.

전통적으로 데이터 검색이라는 용어는 쿼리 언어를 사용해 데이터베이스에서 정형 데이터를 검색하는 것을 의미했습니다. 하지만 데이터 규모가 증가하고 기술이 발전함에 따라 이 용어는 정형 데이터와 비정형 데이터를 포함한 다양한 유형의 데이터를 검색하는 의미로 사용되게 되었습니다.

조직은 자체 시스템 및 타사 저장소 전반에서 점점 더 풍부해지는 데이터 컬렉션을 활용하기 위해 데이터 검색을 사용합니다. 기업 사용자, 연구원 및 기타 사용자는 데이터 검색 툴을 통해 수작업 방식으로는 접근이 어렵거나 사실상 불가능한 소스에서 질문에 대한 답을 찾고 핵심 데이터 포인트를 식별할 수 있습니다.

과거에는 기본적인 데이터베이스 검색에 제한되었던 데이터 검색 시스템은 오늘날 복잡한 데이터 요청을 관리하고 더 많은 지식 베이스와 연결하며 쿼리 실행을 동적으로 최적화할 수 있는 자동화 및 인공지능(AI) 기술로 강화되는 경우가 많습니다. 머신 러닝, 자연어 처리 및 검색 증강 생성(RAG)은 쿼리에 대한 응답으로 제공되는 데이터의 정확성과 관련성을 향상시키는 데 도움이 됩니다.

데이터 검색이 중요한 이유는 무엇인가요?

조직이 고품질 데이터에서 분석 정보를 도출할 수 있을 때 스마트한 의사 결정이 이루어집니다.

하지만 분석이 이루어지기 전에 조직은 해당 데이터에 액세스할 수 있어야 합니다. 이 작업은 데이터가 대규모 데이터 세트 또는 방대한 데이터 자산 내에 존재할 경우 특히 어려울 수 있습니다. 예를 들어 대규모 과학 연구 데이터베이스나 광범위한 하이브리드 멀티클라우드 스토리지 시스템에 데이터가 저장되어 있는 경우가 이에 해당합니다.

폭발적인 데이터 증가는 이러한 과제를 더욱 심화시킵니다. 일부 추정에 따르면 매일 4억 테라바이트 이상의 데이터가 생성되며, 기업은 자체적으로 1페타바이트 이상의 데이터를 관리하는 경우도 많습니다.¹

인공지능의 발전 또한 기업의 데이터 요구 사항을 변화시켰습니다. AI 워크플로에는 대량의 비정형 데이터에 대한 액세스를 포함해 빠른 데이터 액세스가 필요합니다.

과거 데이터 검색 프로세스는 관계형 데이터베이스 관리 시스템과 같은 정형 소스의 쿼리에 중점을 두었습니다. 하지만 조직은 오늘날의 방대한 내부 및 외부 데이터 소스를 일일이 살펴보기 위해 시간 소모적인 수작업 방식을 사용하는 대신 최신 데이터 검색 방식을 활용하고 있습니다. 이 접근 방식은 벡터 데이터베이스 및 검색 증강 생성과 같은 기술을 사용해 내부 관계형 데이터베이스 외부에 존재하는 데이터에 대한 수요를 충족합니다.

특히 에이전틱 RAG는 이러한 수요를 충족하는 데 매우 강력한 성능을 입증했습니다.IBM® Client Engineering의 Advisory Technology Engineer인 David Levy는 IBM® Technology를 위한 프레젠테이션에서 에이전틱 RAG의 기능을 설명했습니다.

“에이전틱 RAG는 단순한 응답 생성을 넘어 더욱 지능적인 의사 결정으로 발전함으로써 RAG 파이프라인을 향상시키는 방식의 진화입니다. 에이전트가 최적의 데이터 소스를 선택하고 실시간 데이터나 타사 서비스와 같은 외부 정보까지 활용할 수 있도록 함으로써 더 높은 응답성, 정확성 및 적응성을 갖춘 파이프라인을 구축할 수 있습니다.”라고 Levy는 말했습니다.

그 결과는 무엇일까요? 기업 및 기타 조직은 자체적인 정형 및 비정형 기업 데이터뿐 아니라 에코시스템 외부에서 생성되는 점점 더 방대한 데이터도 더욱 효과적으로 활용할 수 있게 됩니다. 이를 통해 필요한 시점에 필요한 정확한 데이터에 액세스할 수 있게 되며, 더 나은 비즈니스 성과를 이끄는 분석 및 데이터 기반 분석 정보를 확보할 수 있습니다.

데이터 검색과 정보 검색 및 데이터 마이닝의 차이점

데이터 검색과 정보 검색(IR)이라는 용어는 종종 같은 의미로 사용되며, 여기에는 충분한 이유가 있습니다.

전통적으로는 서로 다른 데이터 유형과 연관되어 있었지만(데이터 검색은 정형 데이터, IR은 비정형 데이터), 데이터 과학의 발전으로 이러한 구분은 점점 모호해졌습니다. 오늘날 데이터 검색은 비정형 데이터까지 처리할 수 있을 뿐 아니라 일부 IR 시스템은 XML을 사용해 텍스트 문서를 인덱싱함으로써 “구조화된 문서 검색”도 지원합니다.

두 개념의 더 중요한 차이점은 각각이 생성하는 결과 유형에서 나타난다고 볼 수 있습니다. 데이터 검색은 사용자 쿼리와 정확히 일치하는 결과를 반환하는 데 중점을 두는 반면, 웹 검색 엔진의 기반을 이루는 IR 시스템은 관련 정보를 기준으로 순위가 매겨진 여러 결과(예: 웹 페이지)를 제공합니다.

데이터 검색과 정보 검색은 모두 때때로 데이터 마이닝과 혼용되기도 합니다. 하지만 여기에서의 차이는 명확합니다. 데이터 검색과 IR은 데이터에 액세스하고 이를 제공하는 데 중점을 두는 반면, 데이터 마이닝은 데이터에서 패턴과 분석 정보를 발견하는 작업을 의미합니다. 즉, 이는 단순한 검색이 아니라 분석까지 포함합니다. 또한 데이터 마이닝은 대규모 데이터 세트에 적용되는 반면 데이터 검색과 IR은 규모와 관계없이 모든 데이터 컬렉션에 사용할 수 있습니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

전통적인 데이터 검색 접근 방식

데이터 검색 방식은 전통적인 기술과 AI 기술이라는 두 가지 범주로 나눌 수 있습니다.² 전통적인 기술에는 다음이 포함됩니다.

쿼리 언어 사용
인덱싱
쿼리 최적화

쿼리 언어 사용

데이터는 쿼리 언어를 통해 기존 데이터베이스 관리 시스템(DBMS)에서 검색됩니다. 가장 대표적인 쿼리 언어는 관계형 데이터베이스에 사용되는 구조화 질의 언어, 즉 SQL입니다. 사용자는 SQL 명령을 사용해 데이터를 검색하고 추가, 업데이트 및 삭제를 포함한 다양한 작업을 수행합니다.

인덱싱

인덱싱은 대규모 테이블 내 데이터 레코드를 가리키는 검색 가능한 데이터 구조를 생성하는 작업입니다. 검색 작업은 전체 테이블 대신 인덱스를 스캔할 수 있으므로 더 빠르고 효율적인 쿼리 처리가 가능합니다.

쿼리 최적화

데이터베이스 관리 시스템에서 쿼리 최적화 툴은 다양한 쿼리 계획, 즉 여러 쿼리 수행 방식 중 가장 효율적인 방식을 선택함으로써 쿼리 성능을 향상시킵니다. 예를 들어 최적화 툴은 인덱스 사용 여부, 테이블 읽기 방식 및 조인이 요청되었을 때 테이블을 어떤 순서로 조인할지를 결정합니다.

이처럼 잘 확립된 기술은 정형 데이터를 검색하고 기본적인 검색 작업을 지원하는 데 효과적인 것으로 입증되었지만, 비정형 데이터 검색, 복잡한 쿼리 실행, 의미적 맥락 파악, 확장성 지원 및 실시간 결과 제공과 같은 여러 영역에서는 한계가 있는 것으로 알려져 있습니다.³

데이터 검색을 위한 AI 기술

AI 기반 데이터 검색 기술은 전통적인 데이터 검색 기술의 한계를 보완함으로써 쿼리 성능과 사용자 경험을 향상시키는 데 도움이 됩니다.⁴

주요 AI 데이터 검색 기술에는 다음이 포함됩니다.

벡터 검색
머신 러닝 및 딥 러닝
자연어 처리
검색 증강 생성 및 에이전틱 RAG

벡터 검색

벡터 데이터베이스에서는 텍스트와 이미지를 포함한 다양한 유형의 데이터가 벡터 임베딩이라고 하는 수치 표현 형태로 저장됩니다. 유사한 차원을 가진 벡터 임베딩은 함께 그룹화됩니다. 벡터 검색 과정에서 시스템은 검색어와 유사한 벡터 임베딩을 가진 관련 데이터 및 문서를 검색합니다. 이러한 검색은 일반적으로 데이터 포인트 간의 근접성을 기반으로 연결 관계를 추론하는 최근접 이웃 알고리즘에 의존합니다.

머신 러닝(ML) 및 딥 러닝

과거 데이터와 사용자 행동을 기반으로 학습된 머신 러닝 알고리즘은 일반적인 쿼리 패턴을 바탕으로 사용자에게 쿼리를 추천하고 관련 데이터를 표시할 수 있습니다. 또한 딥 러닝이라고 하는 머신 러닝의 한 분야는 비정형 데이터 검색을 지원할 수 있습니다. 예를 들어 합성곱 신경망(CNN)은 컴퓨터 비전을 구동하며, 이는 이미지 및 동영상 파일 검색에 활용될 수 있습니다.⁵

자연어 처리

자연어 처리(NLP)는 사용자가 쿼리를 쿼리 언어 명령 형식으로 구성하는 대신 대화형 방식으로 표현할 수 있도록 함으로써 사용자 친화적인 검색 쿼리를 가능하게 합니다. 이후 NLP 기반 검색 엔진은 단순히 키워드 일치에만 의존하는 대신 의미 기반 검색을 수행할 수 있습니다. 즉, 정확한 검색어가 문서에 포함되어 있지 않더라도 쿼리의 의도를 반영하는 관련 결과를 식별할 수 있습니다.

검색 증강 생성 및 에이전틱 RAG

검색 증강 생성은 애플리케이션 프로그래밍 인터페이스(API)를 사용해 대규모 언어 모델을 외부 지식 베이스와 연결합니다. 이를 통해 시스템은 도메인에 특화되어 있으면서도 시의성 있는 정보를 검색할 수 있습니다.

에이전틱 RAG 시스템은 쿼리를 동적으로 최적화하고 데이터 검색 성능을 향상시키는 에이전틱 추론 기능을 통해 기존 RAG에 고급 기능을 추가합니다. 대표적인 에이전틱 RAG 시스템의 구성 요소에는 다음이 포함됩니다.

핵심 검색 기능: 데이터 검색은 인덱싱 및 키워드 검색과 벡터 검색의 조합(하이브리드 검색)을 포함한 전통적 및 AI 기반 데이터 검색 방식으로 수행됩니다.

시맨틱 캐싱: 에이전틱 RAG 시스템은 이전 쿼리 세트, 컨텍스트 및 결과를 저장하고 참조할 수 있습니다. 이러한 메모리는 새로운 검색에 활용되어 더 관련성 높고 개인화된 결과를 제공할 수 있습니다.

에이전틱 청킹: 에이전틱 청킹은 대규모 텍스트 입력을 의미적으로 일관된 더 작은 블록(청크)으로 분할해 벡터 데이터베이스에 저장합니다. 이러한 의미적 일관성은 시스템이 쿼리에 대해 더 완전하고 품질 높은 답변을 검색할 수 있도록 합니다.

라우팅 에이전트: 라우팅 에이전트는 사용자 쿼리에 가장 적합한 외부 지식 소스와 툴을 결정합니다.

쿼리 계획 에이전트: 쿼리 계획 에이전트는 복잡한 사용자 쿼리를 단계별 프로세스로 분해하고, 생성된 하위 쿼리를 RAG 시스템 내 다른 에이전트에 전달합니다. 이후 각 에이전트가 답변을 제공하면 쿼리 계획 에이전트는 이를 결합해 일관된 응답을 생성합니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

데이터 검색 사용 사례

데이터 검색 기술과 솔루션은 다양한 산업 및 분야 전반에서 데이터 액세스와 데이터 관리를 향상시킬 수 있습니다.

의료 서비스

의료 기관 대상 서비스 공급자는 자연어 처리와 검색 증강 생성을 사용해 비즈니스 핵심 데이터 검색 속도를 90% 향상시켰습니다.

금융 서비스

한 핀테크 기업은 실시간 정보를 검색하는 RAG 기반 고객 서비스 챗봇을 구축했으며, 이를 통해 기존 콜센터 대비 평균 상호작용 시간을 80% 줄였습니다.

전자 상거래

이커머스 기업은 쇼핑객이 구매하려는 제품의 사진을 업로드할 수 있도록 지원하고 있으며, 컴퓨터 비전 기반 검색 솔루션은 해당 이미지와 유사한 제품 정보를 검색합니다.

데이터 검색 과제

기업이 데이터 검색 솔루션을 검토할 때는 잠재적인 과제도 함께 고려하는 것이 중요합니다.

데이터 품질

기업이 데이터 검색에 더욱 성공하게 될수록 일부 데이터에 누락과 오류가 많다는 사실을 발견할 수 있습니다. 데이터 품질 관리 방식인 데이터 프로파일링 및 데이터 정제는 조직이 정확성, 완전성, 일관성 및 기타 품질 요소 측면에서 데이터 세트를 최적화할 수 있도록 지원합니다.

보안

민감한 데이터를 권한이 없는 사람이 검색하지 못하도록 하는 적절한 보안 조치가 마련되지 않으면 고급 데이터 검색 기능 구현은 위험할 수 있습니다. 관리형 데이터 플랫폼은 무단 액세스를 방지하고 규정 준수를 지원하기 위해 기본 제공 보안, ID 및 액세스 제어 기능을 포함할 수 있습니다.

공급업체 종속

독점 데이터 솔루션은 데이터 검색, 오케스트레이션 및 AI 모델을 폐쇄형 시스템으로 함께 제공하는 경우가 많으며, 이로 인해 조직은 공급업체가 제어하는 기술 스택에 제한될 수 있습니다. 에이전틱 RAG 및 기타 기술을 포함한 오픈 소스 데이터 솔루션은 대안이 될 수 있으며, 이를 통해 기업은 자체 기술 스택과 데이터 관리 기능을 더 효과적으로 제어할 수 있습니다.

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor