업계 뉴스레터
전문가가 전하는 최신 AI 트렌드
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
정보 검색(IR)은 사용자 쿼리에 대한 데이터 검색을 다루는 컴퓨터 과학 및 정보 과학의 광범위한 분야입니다. 라이브러리 카탈로그 및 웹 검색 엔진과 같은 검색 툴을 지원합니다.
일반적으로 IR은 특정 정보 요구 사항을 충족하기 위해 대규모 컬렉션 내에서 비정형 데이터를 찾는 것으로 정의할 수 있습니다.1 IR 시스템(정보 검색 시스템)은 주어진 쿼리에 대한 응답으로 자료를 제공합니다. 시스템은 사용자의 검색어와 관련된 항목이 있는지 컬렉션을 검색합니다. 그런 다음 해당 항목을 일반적으로 계산된 관련성에 따라 정렬된 목록 형식으로 사용자에게 반환합니다.2
IR 시스템과 기술은 웹 검색 엔진 및 Digital Library 카탈로그와 같은 다양한 검색 툴을 지원합니다.
많은 온라인 소스는 IR 시스템을 데이터 검색과 대조합니다. IR 시스템은 텍스트 문서 및 웹 페이지와 같은 비정형 정보를 검색합니다. 반면, 데이터 검색은 관계형 데이터베이스 관리 시스템에서 볼 수 있는 정형 데이터를 처리합니다. 더 나아가 데이터 검색은 정형 쿼리 언어(SQL)를 사용하여 검색 쿼리를 수행합니다.
그러나 비정형이며 비관계형인 IR과 정형이며 관계형인 데이터 검색을 구분하는 것은 많은 온라인 자료에서 제시하는 것보다 더 모호합니다. IR 시스템 색인 및 이에 따른 구조, 정보. 예를 들어 IR은 전통적으로 원시 텍스트 문서 검색을 다루지만 일부 IR 시스템에서는 XML을 사용하여 텍스트를 표현하고 인덱싱합니다. 연구 문헌에서는 종종 XML 기반 시스템을 정형 검색 또는 반정형 검색이라고 하는 IR의 한 분야로 설명합니다.3 또한 문헌에서는 수십 년 동안 관계형 IR 모델의 사용을 탐구해 왔습니다.4
따라서 IR과 데이터 검색의 구분은 기존에 생각했던 것보다 더 모호합니다. 사실 데이터는 정의상 정보이므로, 정형 데이터 검색은 정보 검색의 한 유형으로 이해하는 것이 더 나을 수 있습니다.
IR은 추천 시스템과 다릅니다. 협업 필터링 및 콘텐츠 기반 필터링과 같은 머신 러닝 추천 기술은 정보검색 시스템의 하위 작업인 정보 필터링의 한 형태로 이해될 수 있습니다. 그럼에도 불구하고 IR과 추천 시스템은 별개의 시스템입니다. IR은 일반적으로 사용자 쿼리가 필요하지만, 추천 엔진은 일반적으로 사용자 쿼리 없이 개체를 검색합니다.5
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
IR 모델마다 정보를 표현하는 방식이 다릅니다. 선택한 문서 표현 형식에 따라 모델이 정보를 검색하고 조회하는 방식이 크게 달라집니다. 그럼에도 불구하고 인덱싱, 가중치 및 관련성 피드백은 IR 모델에서 흔히 사용되는 세 가지 정보 검색 기법입니다.
인덱싱은 기본적으로 메타데이터 생성에 해당합니다.6 많은 사람들이 인쇄된 책의 뒷면에 있는 색인을 본 적이 있을 것입니다. 이는 주어진 인쇄 문서에서 편집된 구조화된 단어 집합으로, 독자가 주어진 주제에 대한 구절에 쉽게 접근할 수 있도록 합니다. IR 지수도 비슷합니다. IR 인덱스(또는 반전 인덱스)는 검색 쿼리 결과를 개선하기 위한 일련의 문서에서 가져온 데이터 구조입니다.7
인덱스를 구성하려면 먼저 기능 추출을 위해 문서를 구문 분석해야 합니다. 예를 들어 텍스트 기반 문서를 위한 IR 시스템을 만든다고 가정해 보겠습니다. 자연어 처리(NLP) 에서 흔히 볼 수 있는 것처럼 토큰화 및 중지 단어 제거와 같은 다양한 전처리 기술을 사용하여 문서 컬렉션을 준비합니다. 그런 다음 IR 시스템은 이렇게 처리된 문서 모음을 체계적인 데이터 구조로 표현합니다. 이러한 구조 중 하나는 각 문서에 나타나는 단어(또는 인덱스 용어)가 가리키는 ID가 있는 사전입니다.8 텍스트 검색 시스템을 위한 또 다른 잠재적인 데이터 구조는 Bag of words와 같은 벡터 공간 모델입니다.9 이 두 가지 방법 모두 단어를 기능으로 추출한 다음 사용자 쿼리에 대한 응답으로 문서를 검색하고 순위를 지정하는 데 사용됩니다.
검색 시스템은 주어진 쿼리에 대해 대략적인 일치 또는 정확한 일치 항목의 순위를 어떻게 매기나요? 정보의 순위를 매기고 검색하는 방법은 시스템에서 사용하는 정보 검색 모델의 유형과 문서 표현 형식에 따라 달라집니다. 그러나 인덱스 용어는 IR 시스템이 쿼리에 대한 응답으로 문서 순위를 매기는 데 중요한 역할을 합니다. 하지만 모든 인덱스 용어가 동일하지는 않습니다. 따라서 IR 시스템은 인식된 중요도에 따라 지수 용어에 가중치를 부여하기 위해 다양한 방법을 사용합니다.
Bag of words와 같은 벡터 공간 모델을 사용하는 IR 시스템은 용어 빈도 역문서 빈도(TF-IDF)를 사용할 수 있습니다. TF-IDF는 텍스트 집합의 각 문서에서 단어의 사용 빈도를 설명하는 Bag of words의 변형입니다. TF-IDF는 주어진 단어가 사용된 문서가 많을수록 해당 단어의 가중치를 줄입니다. 다른 접근 방식으로는 특이값 분해(SVD) 및 잠재 의미 분석(LSA)이 있으며, 후자는 일반적인 주제 모델링 접근 방식입니다.10
이러한 가중치 접근 방식은 IR 시스템이 쿼리에 대한 응답으로 문서의 순위를 매기는 방식에 영향을 미칩니다. 그러나 IR 모델 유형에 따라 이러한 가중치를 사용하여 순위를 매기는 방식이 다릅니다.
시스템에서 검색 결과를 개선하려면 어떻게 해야 할까요? 즉, 시스템이 사용자의 검색을 미세 조정하고 반환되는 관련 문서의 수를 늘리려면 어떻게 해야 할까요?
관련성 피드백은 검색 결과를 개선하기 위한 일반적인 정보 검색 기법입니다. 관련성 피드백은 기본적으로 초기 쿼리 결과 집합에 대한 사용자 응답에 대한 정보를 수집합니다. 그런 다음 시스템은 사용자의 응답을 고려하여 항목 관련성을 재평가합니다. 그런 다음 초기 쿼리와 사용자의 피드백을 초기 쿼리 결과 집합에 통합한 새로운 검색 결과 집합을 반환합니다.
관련성 피드백은 일반적으로 검색된 문서의 관련성에 대해 사용자가 명시적인 답변을 제공하는 방식으로 이루어집니다. 암묵적 피드백은 사용자 행동을 관찰하여 항목의 관련성을 추론하는 변형입니다. 예를 들어, 검색 결과 페이지에서 사용자가 어떤 웹사이트 링크를 클릭하는지 관찰할 수 있습니다. 가상 관련성 피드백은 초기 쿼리의 검색된 처음 n개 문서가 관련성이 있다고 가정합니다. 그런 다음 해당 문서에서 공통적으로 사용되는 추가 기능을 수집하여 쿼리를 추가로 수정합니다.11
정보 검색 모델에는 다양한 유형이 있습니다. 포괄적인 요약을 제공하려면 훨씬 더 많은 논의가 필요합니다. 그럼에도 불구하고 IR 교과서와 백과사전에는 부울, 대수, 확률 방법론의 세 가지 일반적인 IR 방법론에 대한 언급이 중복되는 경우가 많습니다.
부울 모델은 아마도 가장 간단하고 단순한 IR 모델일 것입니다. 이는 앞에서 설명한 것처럼 인덱스 용어의 사전 구조를 사용합니다. 그런 다음 모델은 검색된 문서에 사용자 쿼리의 단어가 있는지 여부에 따라 문서 순위를 매깁니다. 예를 들어 사용자가 "jazz AND dancing"이라는 쿼리를 제공하는 경우 부울 모델은 jazz와 dancing이라는 단어가 함께 포함된 문서만 검색합니다. 따라서 부울 모델은 문서에 있는 단어의 유무만을 고려하며, 부울 검색 시스템에서는 부분 일치 항목이 존재하지 않습니다. 형태소 분석 및 표제어 추출과 같은 텍스트 전처리 기술은 사용자의 쿼리 dancing 뿐만 아니라 dance, dances 또는 dancer를 포함하는 문서와 같은 형태학적 변형 문제를 해결할 수 있습니다.
앞서 언급했듯이, 부울 모델은 단어의 존재 여부만 고려합니다. 이 이원적 결정 기준에는 사용자의 쿼리와 가장 관련성이 높은 문서를 결정하기 위한 등급 척도가 없습니다. 한 가지 잠재적인 해결책은 사용자 쿼리 용어의 빈도를 기준으로 문서에 등급을 매기는 것입니다. 다시 말해, 문서에서 Jazz와 dancing에 대한 언급이 많을수록 모델은 이를 사용자 쿼리에 대한 관련성이 더 높다고 간주합니다. 그러나 용어 빈도가 증가한다고 해서 반드시 관련성이 높아지는 것은 아닙니다. 이러한 잠재적 단점에도 불구하고 부울 모델은 구현이 쉽다는 이유로 많은 IR 시스템에서 사용되어 왔습니다.12
부울 문서 검색은 모든 형태의 부분 일치를 금지합니다. 대수 및 확률 모델은 인덱스 용어에 이진법이 아닌 가중치를 할당하여 이 문제를 해결합니다.
대표적인 대수 모델 중 하나는 벡터 공간 모델입니다. 이 접근 방식에서 IR 시스템은 문서와 쿼리를 다차원 벡터 공간의 벡터로 표현합니다. 이 공간에서 인덱스 용어는 벡터 공간의 기능이 될 가능성이 높으며, 쿼리와 문서는 인덱스 용어가 포함된 유무와 빈도에 따라 이 공간에 그려집니다. IR 시스템은 벡터 공간에서의 근접성에 따라 검색 쿼리와 문서 간의 유사성을 계산합니다.
벡터 공간 모델에는 Jaccard 및 점곱과 같이 근접성을 결정하기 위한 여러 메트릭이 있습니다. 그러나 가장 일반적인 것 중 하나는 다음 공식으로 표현되는 코사인 유사성입니다.
여기서 A와 B는 벡터 공간에 있는 두 벡터를 나타냅니다. 코사인 유사성 점수는 -1과 1 사이의 값이 될 수 있습니다. 코사인 점수가 높을수록 두 항목이 더 유사한 것으로 간주됩니다.
IR 벡터 공간 모델은 측정된 유사성에 따라 문서를 순서대로 반환합니다. 이러한 방식으로, 벡터 공간 모델과 같은 대수 IR 시스템은 부분 매칭을 허용하여, 잠재적으로 보다 정확하거나 미묘한 형태의 정보 검색을 제공할 수 있습니다.13
확률 모델을 사용하면 사용자 쿼리와 문서 간의 부분적인 매칭도 가능합니다. 확률 모델은 주어진 쿼리에 검색된 정보 시스템 리소스의 이상적인 집합이 있다는 가정 하에 작동합니다. 물론 이 이상적인 집합은 아직 알려지지 않았습니다. 그러나 인덱스 용어 의미론은 이 집합의 속성을 특징 지을 수 있습니다.
대수 모델과 마찬가지로 확률 모델은 인덱스 용어의 존재와 빈도를 사용하여 쿼리와 문서 간의 유사성을 결정합니다. 그러나 확률 모델은 추가 요소를 고려한다는 점에서 다릅니다. 예를 들어, 문서의 전체 텍스트 길이와 관련하여 인덱스 용어 공동 빈도(문서에서 인덱스 용어가 얼마나 자주 함께 나타나는지)를 설명하거나 주어진 쿼리의 모든 쿼리 용어에서 단일 인덱스 용어가 얼마나 자주 나타나는지 설명할 수 있습니다. 이는 고려할 수 있는 몇 가지 잠재적 요인일 뿐이며, 보다 자세한 논의는 확률 이론에 대한 보다 철저한 이해가 필요합니다.
모든 확률 모델이 문서 유사성 또는 확률을 계산할 때 동일한 요소를 고려하는 것은 아닙니다. 예를 들어, 최초의 확률 IR 모델인 이진 독립성 모델(BIM)은 용어 빈도를 고려하지 않습니다. 그러나 주제 모델링 기법인 잠재 디리클레 할당(LDA)을 통합한 모델은 용어 공동 빈도를 설명할 수 있습니다.14
편향. 웹 검색 엔진은 아마도 가장 잘 알려진 IR 사용 사례 중 하나일 것입니다. 텍스트 요약 툴인 PageRank는 웹 페이지(HTML 문서)를 검색하고 순위를 매기는 데 사용됩니다. 연구에 따르면 검색 알고리즘이 인종 및 성별 기반과 같은 다양한 편향을 지속시키는 안타까운 현실이 잘 드러납니다.15 이에 대해 발표된 실험에서는 네거티브 샘플링16 및 편향된 결과에 대한 페널티를 통합하는 편향 인식 알고리즘 등 IR 시스템에서 사회적 편향을 줄이기 위한 다양한 방법을 모색하고 있습니다.17 편향을 완화하는 것은 IR 및 인공 지능에 대한 윤리적 실천을 개발하기 위한 연구에서 가장 중요한 영역입니다.
IBM watsonx Orchestrate를 사용하여 확장 가능한 AI 어시스턴트 및 에이전트를 쉽게 설계하고, 반복적인 작업을 자동화하고, 복잡한 프로세스를 간소화합니다.
강력하고 유연한 라이브러리, 서비스 및 애플리케이션 포트폴리오로 인공 지능의 비즈니스 가치를 가속화합니다.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
1 Christopher Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009년.
2 Qiaozhu Mei 및 Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016년.
3 Christopher Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009년. Mounia Lalmas 및 Ricardo Baeza-Yates, “Structured Document Retrieval,” Encyclopedia of Database Systems, Springer, 2018년.
4 Robert Crawford, “The relational model in information retrieval,” Journal of the American Society for Information Science, Vol. 32, No. 1, 1981년, pp. 51-64.
5 Alejandro Bellogín 및 Alan Said, “Information Retrieval and Recommender Systems,” Data Science in Practice, Springer, 2018년.
6 Jeffrey Pomerantz, Metadata, MIT Press, 2015년.
7 Steven Beitzel, Eric Jensen, Ophir Frieder, “Index Creation and File Structures,” Encyclopedia of Database Systems, Springer, 2018년.
8 Christopher Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009년.
9 Qiaozhu Mei 및 Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016년.
10 Qiaozhu Mei 및 Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016년. Ricardo Baeza-Yates 및 Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999년.
11 Qiaozhu Mei 및 Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016년. Stefan Büttcher, Charles Clarke, Gordon Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2016년.
12 Ricardo Baeza-Yates 및 Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999년. Christopher Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009년.
13 Qiaozhu Mei 및 Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016년. Christopher Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009년.
14 Ricardo Baeza-Yates 및 Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999년. Christopher Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009년.
15 Safiya Umoja Noble, Algorithms of Oppression: How Search Engines Reinforce Racism, NYU Press, 2018년.
16 Amin Bigdeli 외, “A Light-Weight Strategy for Restraining Gender Biases in Neural Rankers,” Proceedings of the 44th European Conference on Advances in Information Retrieval, 2022년, pp. 47-55.
17 Dhanasekar Sundararaman and Vivek Subramanian, “Debiasing Gender Bias in Information Retrieval Models,” 2022, https://arxiv.org/abs/2208.01755. Shirin Seyed Salehi et al., “Bias-aware Fair Neural Ranking for Addressing Stereotypical gender Biases,” Microsoft Research, 2022.