전통적으로 데이터 검색이라는 용어는 쿼리 언어를 사용해 데이터베이스에서 정형 데이터를 검색하는 것을 의미했습니다. 하지만 데이터 규모가 증가하고 기술이 발전함에 따라 이 용어는 정형 데이터와 비정형 데이터를 포함한 다양한 유형의 데이터를 검색하는 의미로 사용되게 되었습니다.
조직은 자체 시스템 및 타사 저장소 전반에서 점점 더 풍부해지는 데이터 컬렉션을 활용하기 위해 데이터 검색을 사용합니다. 기업 사용자, 연구원 및 기타 사용자는 데이터 검색 툴을 통해 수작업 방식으로는 접근이 어렵거나 사실상 불가능한 소스에서 질문에 대한 답을 찾고 핵심 데이터 포인트를 식별할 수 있습니다.
과거에는 기본적인 데이터베이스 검색에 제한되었던 데이터 검색 시스템은 오늘날 복잡한 데이터 요청을 관리하고 더 많은 지식 베이스와 연결하며 쿼리 실행을 동적으로 최적화할 수 있는 자동화 및 인공지능(AI) 기술로 강화되는 경우가 많습니다. 머신 러닝, 자연어 처리 및 검색 증강 생성(RAG)은 쿼리에 대한 응답으로 제공되는 데이터의 정확성과 관련성을 향상시키는 데 도움이 됩니다.
조직이 고품질 데이터에서 분석 정보를 도출할 수 있을 때 스마트한 의사 결정이 이루어집니다.
하지만 분석이 이루어지기 전에 조직은 해당 데이터에 액세스할 수 있어야 합니다. 이 작업은 데이터가 대규모 데이터 세트 또는 방대한 데이터 자산 내에 존재할 경우 특히 어려울 수 있습니다. 예를 들어 대규모 과학 연구 데이터베이스나 광범위한 하이브리드 멀티클라우드 스토리지 시스템에 데이터가 저장되어 있는 경우가 이에 해당합니다.
폭발적인 데이터 증가는 이러한 과제를 더욱 심화시킵니다. 일부 추정에 따르면 매일 4억 테라바이트 이상의 데이터가 생성되며, 기업은 자체적으로 1페타바이트 이상의 데이터를 관리하는 경우도 많습니다.1
인공지능의 발전 또한 기업의 데이터 요구 사항을 변화시켰습니다. AI 워크플로에는 대량의 비정형 데이터에 대한 액세스를 포함해 빠른 데이터 액세스가 필요합니다.
과거 데이터 검색 프로세스는 관계형 데이터베이스 관리 시스템과 같은 정형 소스의 쿼리에 중점을 두었습니다. 하지만 조직은 오늘날의 방대한 내부 및 외부 데이터 소스를 일일이 살펴보기 위해 시간 소모적인 수작업 방식을 사용하는 대신 최신 데이터 검색 방식을 활용하고 있습니다. 이 접근 방식은 벡터 데이터베이스 및 검색 증강 생성과 같은 기술을 사용해 내부 관계형 데이터베이스 외부에 존재하는 데이터에 대한 수요를 충족합니다.
특히 에이전틱 RAG는 이러한 수요를 충족하는 데 매우 강력한 성능을 입증했습니다.IBM® Client Engineering의 Advisory Technology Engineer인 David Levy는 IBM® Technology를 위한 프레젠테이션에서 에이전틱 RAG의 기능을 설명했습니다.
“에이전틱 RAG는 단순한 응답 생성을 넘어 더욱 지능적인 의사 결정으로 발전함으로써 RAG 파이프라인을 향상시키는 방식의 진화입니다. 에이전트가 최적의 데이터 소스를 선택하고 실시간 데이터나 타사 서비스와 같은 외부 정보까지 활용할 수 있도록 함으로써 더 높은 응답성, 정확성 및 적응성을 갖춘 파이프라인을 구축할 수 있습니다.”라고 Levy는 말했습니다.
그 결과는 무엇일까요? 기업 및 기타 조직은 자체적인 정형 및 비정형 기업 데이터뿐 아니라 에코시스템 외부에서 생성되는 점점 더 방대한 데이터도 더욱 효과적으로 활용할 수 있게 됩니다. 이를 통해 필요한 시점에 필요한 정확한 데이터에 액세스할 수 있게 되며, 더 나은 비즈니스 성과를 이끄는 분석 및 데이터 기반 분석 정보를 확보할 수 있습니다.
데이터 검색과 정보 검색(IR)이라는 용어는 종종 같은 의미로 사용되며, 여기에는 충분한 이유가 있습니다.
전통적으로는 서로 다른 데이터 유형과 연관되어 있었지만(데이터 검색은 정형 데이터, IR은 비정형 데이터), 데이터 과학의 발전으로 이러한 구분은 점점 모호해졌습니다. 오늘날 데이터 검색은 비정형 데이터까지 처리할 수 있을 뿐 아니라 일부 IR 시스템은 XML을 사용해 텍스트 문서를 인덱싱함으로써 “구조화된 문서 검색”도 지원합니다.
두 개념의 더 중요한 차이점은 각각이 생성하는 결과 유형에서 나타난다고 볼 수 있습니다. 데이터 검색은 사용자 쿼리와 정확히 일치하는 결과를 반환하는 데 중점을 두는 반면, 웹 검색 엔진의 기반을 이루는 IR 시스템은 관련 정보를 기준으로 순위가 매겨진 여러 결과(예: 웹 페이지)를 제공합니다.
데이터 검색과 정보 검색은 모두 때때로 데이터 마이닝과 혼용되기도 합니다. 하지만 여기에서의 차이는 명확합니다. 데이터 검색과 IR은 데이터에 액세스하고 이를 제공하는 데 중점을 두는 반면, 데이터 마이닝은 데이터에서 패턴과 분석 정보를 발견하는 작업을 의미합니다. 즉, 이는 단순한 검색이 아니라 분석까지 포함합니다. 또한 데이터 마이닝은 대규모 데이터 세트에 적용되는 반면 데이터 검색과 IR은 규모와 관계없이 모든 데이터 컬렉션에 사용할 수 있습니다.
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
데이터 검색 방식은 전통적인 기술과 AI 기술이라는 두 가지 범주로 나눌 수 있습니다.2 전통적인 기술에는 다음이 포함됩니다.
데이터는 쿼리 언어를 통해 기존 데이터베이스 관리 시스템(DBMS)에서 검색됩니다. 가장 대표적인 쿼리 언어는 관계형 데이터베이스에 사용되는 구조화 질의 언어, 즉 SQL입니다. 사용자는 SQL 명령을 사용해 데이터를 검색하고 추가, 업데이트 및 삭제를 포함한 다양한 작업을 수행합니다.
인덱싱은 대규모 테이블 내 데이터 레코드를 가리키는 검색 가능한 데이터 구조를 생성하는 작업입니다. 검색 작업은 전체 테이블 대신 인덱스를 스캔할 수 있으므로 더 빠르고 효율적인 쿼리 처리가 가능합니다.
데이터베이스 관리 시스템에서 쿼리 최적화 툴은 다양한 쿼리 계획, 즉 여러 쿼리 수행 방식 중 가장 효율적인 방식을 선택함으로써 쿼리 성능을 향상시킵니다. 예를 들어 최적화 툴은 인덱스 사용 여부, 테이블 읽기 방식 및 조인이 요청되었을 때 테이블을 어떤 순서로 조인할지를 결정합니다.
이처럼 잘 확립된 기술은 정형 데이터를 검색하고 기본적인 검색 작업을 지원하는 데 효과적인 것으로 입증되었지만, 비정형 데이터 검색, 복잡한 쿼리 실행, 의미적 맥락 파악, 확장성 지원 및 실시간 결과 제공과 같은 여러 영역에서는 한계가 있는 것으로 알려져 있습니다.3
AI 기반 데이터 검색 기술은 전통적인 데이터 검색 기술의 한계를 보완함으로써 쿼리 성능과 사용자 경험을 향상시키는 데 도움이 됩니다.4
주요 AI 데이터 검색 기술에는 다음이 포함됩니다.
검색 증강 생성은 애플리케이션 프로그래밍 인터페이스(API)를 사용해 대규모 언어 모델을 외부 지식 베이스와 연결합니다. 이를 통해 시스템은 도메인에 특화되어 있으면서도 시의성 있는 정보를 검색할 수 있습니다.
에이전틱 RAG 시스템은 쿼리를 동적으로 최적화하고 데이터 검색 성능을 향상시키는 에이전틱 추론 기능을 통해 기존 RAG에 고급 기능을 추가합니다. 대표적인 에이전틱 RAG 시스템의 구성 요소에는 다음이 포함됩니다.
데이터 검색 기술과 솔루션은 다양한 산업 및 분야 전반에서 데이터 액세스와 데이터 관리를 향상시킬 수 있습니다.
의료 기관 대상 서비스 공급자는 자연어 처리와 검색 증강 생성을 사용해 비즈니스 핵심 데이터 검색 속도를 90% 향상시켰습니다.
한 핀테크 기업은 실시간 정보를 검색하는 RAG 기반 고객 서비스 챗봇을 구축했으며, 이를 통해 기존 콜센터 대비 평균 상호작용 시간을 80% 줄였습니다.
이커머스 기업은 쇼핑객이 구매하려는 제품의 사진을 업로드할 수 있도록 지원하고 있으며, 컴퓨터 비전 기반 검색 솔루션은 해당 이미지와 유사한 제품 정보를 검색합니다.
기업이 데이터 검색 솔루션을 검토할 때는 잠재적인 과제도 함께 고려하는 것이 중요합니다.
재플랫폼이나 종속 없이, 거버넌스가 적용된 연결된 데이터를 기반으로 하는 컨텍스트 인식 AI 에이전트를 통해 신뢰할 수 있는 답변을 얻을 수 있습니다.
탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선해 주는 데이터 전략을 구축하세요.
적합한 전략, 데이터, 보안과 거버넌스를 마련하여 AI를 성공적으로 확장하세요.
1 “AI & Information Management Report.” AvePoint. 2024년.
2, 3, 4, 5 “AI for Intelligent Data Retrieval.” Advances in Smart Computing and Applications. 2025년 8월 15일.