OpenSearch란 무엇인가요?

OpenSearch, 정의

OpenSearch는 오픈 소스 검색 및 분석 엔진으로, 다양한 데이터 소스의 데이터를 인덱싱, 쿼리 및 분석하는 데 사용됩니다.

Apache Lucene을 기반으로 구축되었으며 원래 또 다른 검색 및 분석 엔진인 Elasticsearch에서파생된 OpenSearch는 실시간 검색, 관측 가능성, 분석 및 보안 분석 사용 사례를 위한 확장 가능한 분산 아키텍처를 제공합니다.

OpenSearch에는 데이터 시각화 및 애플리케이션 모니터링을 위한 OpenSearch 대시보드가 포함되어 있습니다. 또한 최신 데이터 환경 전반에서 분석 워크플로를 지원하는 플러그인, 애플리케이션 프로그래밍 인터페이스(API) 및 클라이언트로 구성된 광범위한 에코시스템을 갖추고 있습니다.

커뮤니티 기반 로드맵이 포함된 오픈 소스 프로젝트로 개발되었기 때문에 조직은 라이선스 제한이나 공급업체 종속 없이 OpenSearch를 사용할 수 있습니다. 확장 가능한 플러그인 프레임워크와 함께 이전 버전의 Elasticsearch와의 호환성을 통해 팀은 운영 워크로드, 머신 러닝 파이프라인 및 애플리케이션을 위한 유연한 Flexible Analytics 엔진으로 OpenSearch를 채택할 수 있습니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

OpenSearch의 주요 기능은 무엇인가요?

오늘날 기업들은 엄청난 양의 데이터를 생성하는데, 이 데이터는 매우 귀중하지만, 색인화되고 검색 가능하며 실시간으로 이용 가능할 때만 그 가치를 제대로 발휘합니다. OpenSearch는 확장성, 비용 효율성 및 상호 운용성을 위해 설계된 오픈 소스 검색 아키텍처를 통해 이 기능을 제공합니다.

실제로 OpenSearch는 다음을 제공합니다.

오픈 소스 거버넌스

기업은 OpenSearch의 코드베이스와 로드맵에 대한 완전한 가시성을 확보하여 내부 요구 사항에 맞게 플랫폼을 사용자 정의할 수 있습니다.

호환성 및 마이그레이션 유연성

OpenSearch는 오픈 소스 Elasticsearch와 API 및 쿼리 구문 호환성을 유지합니다. 즉, 조직은 광범위한 재작성 없이 워크로드를 채택하거나 현대화할 수 있습니다.

확장성 및 배포

클러스터 아키텍처는 노드, 복제본, 샤드를 통해 고가용성을 지원하여 대규모 데이터 세트에서 저지연 검색을 가능하게 합니다(자세한 내용은 OpenSearch 작동 방식 참조).

실시간 관측 가능성 지원

OpenSearch는 로그, 지표 및 추적을 대규모로 수집하여 문제 해결 및 분석에 사용되는 운영 대시보드를 강화할 수 있습니다.

보안 및 분석 통합

기본 제공되는 인증 및 액세스 제어를 통해 팀은 보안 워크로드 전반에 검색 기능을 적용할 수 있습니다.

비용 효율적인 배포

오픈 소스 소프트웨어인 OpenSearch는 온프레미스, 클라우드 제공업체 또는 관리형 서비스 오퍼링을 통해 배포할 수 있습니다.

OpenSearch의 간략한 역사

OpenSearch는 인기 있는 시각화 계층인 Elasticsearch 및 Kibana의 라이선스 변경에 대한 커뮤니티의 대응으로 시작되었습니다. Elasticsearch의 이전 버전은 Apache 2.0 라이선스에 따라 출시되었지만 이후 릴리스에서는 서버 측 공개 라이선스(SSPL)와 탄력적 라이선스를 채택했습니다. 이러한 라이선스는 오픈 소스 재사용을 제한하여 자유롭게 배포 및 재배포 가능한 검색 소프트웨어에 의존하는 조직에 어려움을 야기했습니다.

오픈 검색 에코시스템을 보존하기 위해 Amazon Web Services(AWS)는 Elasticsearch와 Kibana의 최신 Apache 2.0 버전을 포크하여(즉, 독립적인 복사본을 생성) OpenSearch 프로젝트를 만들었습니다. 이 프로젝트는 개방형 거버넌스 모델에 따라 새로운 기능과 개선 사항을 도입했으며, Elasticsearch API 및 클라이언트 라이브러리와의 호환성을 확장하여 마이그레이션을 간소화했습니다.

그 이후로 OpenSearch 프로젝트는 독립적으로 발전해 왔습니다. 커뮤니티 중심의 로드맵, 여러 제공업체의 기여, GitHub에서 호스팅되는 플러그인 에코시스템의 성장 등을 특징으로 합니다. OpenSearch는 기존의 많은 Elasticsearch 패턴과 호환성을 유지하면서 벡터 검색, 이상 탐지 및 관측 가능성 도구를 위한 플러그인을 추가하여 기능을 확장했습니다.

OpenSearch는 Elasticsearch와 동일한가요?

두 프로젝트 모두 공통된 기원을 공유하지만, 그 길은 서로 달랐습니다. Elasticsearch는 독점적인 기능 개발 전략을 통해 SSPL 및 Elastic 라이선스에 따라 계속 운영됩니다. 반면 OpenSearch는 Apache 2.0 라이선스를 유지하며 개방성, 확장성 및 운영 가시성을 우선시합니다. 그 결과, 조직은 이제 기능뿐만 아니라 거버넌스 모델, 라이선스 조건 및 장기적인 에코시스템 방향까지 평가하게 됩니다.

호환성은 계속해서 프로젝트 간의 중요한 가교 역할을 합니다. OpenSearch는 여전히 이전 버전의 많은 Elasticsearch API, 쿼리 패턴 및 클라이언트 라이브러리를 지원하므로 팀이 최소한의 리팩토링으로 마이그레이션할 수 있습니다. 또한 유사한 리포지토리 구조와 인덱스 형식을 유지하여 Elasticsearch에서 전환하는 사용자에게 친숙함을 유지합니다.

OpenSearch는 어떻게 작동하나요?

OpenSearch는 확장성과 실시간 성능을 위해 설계된 분산 아키텍처를 기반으로 합니다. 핵심 구성 요소에는 클러스터, 노드, 인덱스, 샤드 및 문서가 포함되며 모두 함께 작동하여 데이터를 효율적으로 저장하고 검색합니다.

노드

노드는 인덱싱, 쿼리 및 스토리지 작업을 수행하는 서버 또는 컨테이너화된 인스턴스입니다. 일반적인 노드 유형에는 다음이 포함됩니다.

마스터 노드: 클러스터 상태를 관리하고, 샤드 배치를 조정하고, 메타데이터를 유지 관리합니다.
데이터 노드: 문서와 샤드를 저장하고 인덱싱 및 검색 작업을 실행합니다.
클라이언트(조정) 노드: 데이터를 저장하지 않고도 검색 쿼리를 라우팅하고 결과를 집계하며 로드 밸런싱을 지원합니다.

클러스터

클러스터는 함께 작동하여 데이터를 관리하고 쿼리를 실행하는 하나 이상의 노드 모음입니다. 클러스터는 노드 장애가 전체 성능에 영향을 미치지 않도록 중복성과 로드 밸런싱을 제공합니다. 각 클러스터는 인덱스, 샤드 및 라우팅 정보에 대한 메타데이터를 유지합니다.

인덱스

인덱스는 관계형 데이터베이스 테이블과 유사한 논리적 네임스페이스입니다. 여기에는 JSON 문서의 구조를 정의하는 매핑과 해당 문서를 저장하는 샤드에 대한 참조가 포함되어 있습니다. '인덱스'라는 용어는 데이터로 인덱스를 채우는 행위를 설명하는 동사로도 사용됩니다.

문서

문서는 개별 레코드를 나타내는 JSON 객체입니다. 간단히 말해, 데이터를 저장하고 검색하는 것입니다. 인덱싱되면 각 문서 내의 필드가 분석, 토큰화 및 반전 인덱스에 저장됩니다.

샤드

샤드는 문서가 보관되는 OpenSearch의 기본 저장 단위입니다. 각 인덱스는 기본 샤드와 선택적 복제 샤드로 구성됩니다.

기본 샤드는 데이터의 초기 사본을 저장합니다.
복제본 샤드는 중복성을 제공하고 읽기 처리량을 증가시킵니다.

각 샤드는 독립형 Lucene 인스턴스(독립형 검색 엔진 라이브러리)이기 때문에 OpenSearch는 노드에 샤드를 배포하여 검색 작업을 병렬화하고 성능을 확장합니다.

그렇다면 이 모든 것이 어떻게 결합될까요? 문서가 인덱싱되면 OpenSearch는 콘텐츠를 분석하고 텍스트 분석기와 토크나이저를 적용합니다. 처리 후에는 해당 용어를 적절한 샤드에 기록합니다.

인덱싱은 데이터 노드에서 처리되며 속도와 안정성을 위해 클러스터 전체에 분산될 수 있습니다. 그런 다음 쿼리가 조정 노드에 제출되면 조정 노드는 관련 데이터가 포함된 샤드를 식별하고 쿼리를 해당 샤드에 전달하고 결과를 집계합니다.

다양한 스테이션이 있는 레스토랑 주방이라고 생각하면 됩니다. 인덱싱은 주문이 들어올 때 바로 준비할 수 있도록 재료를 준비하여 올바른 스테이션으로 보내는 것과 같습니다. 쿼리가 도착하면 조정 노드는 필요한 것을 호출하고 각 방송국의 기여도를 수집하여 완성된 접시 하나를 전달하는 익스페디터처럼 작동합니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

OpenSearch 기능

OpenSearch에는 검색, 분석 및 관측 가능성 기능을 위한 내장 기능이 포함되어 있습니다. 플러그인과 확장 기능으로 기능이 확장되어 팀에서 특수한 워크로드에 맞게 플랫폼을 조정할 수 있습니다.

핵심 플랫폼 기능

전체 텍스트 검색 및 관련성 점수: Apache Lucene을 사용하여 구문 쿼리, 관련성 조정 및 필터를 지원합니다.
분산 인덱싱 및 검색: 기본 및 복제본 샤드에 데이터를 저장하여 병렬 인덱싱 및 저지연 쿼리를 지원합니다.
집계 및 분석 쿼리: 추세 감지 및 운영 모니터링을 위해 실시간으로 데이터를 요약하고 분석합니다.
SQL 쿼리 구문: 익숙한 SQL Query Language(구조화된 쿼리 언어)를 사용하여 인덱싱된 데이터를 쿼리하고 결과를 JSON 또는 표 형식으로 반환합니다.
파이프 처리 언어(PPL): 로그, 지표 및 기타 운영 데이터 세트를 탐색하기 위한 파이프라인 스타일의 구문입니다.
인덱스 상태 관리(ISM): 롤오버 및 보존과 같은 인덱스 수명 주기 작업을 자동화합니다.
데이터 프리퍼(수집 파이프라인): 관측 가능성과 보안을 위해 색인화하기 전에 데이터를 필터링, 보강 및 변환합니다.
대시보드 및 시각화: 로그, 지표 및 추적에서 시각화, 운영 패널 및 보고서를 생성합니다.
인증 및 액세스 제어: Active Directory, SAML(Security Assertion Markup Language) 및 LDAP(Lightweight Directory Access Protocol)를 지원하여 인덱스, 문서 및 필드에 대한 세분화된 액세스 제어를 제공합니다.
관측 가능성 프리미티브: 분산 시스템을 모니터링하는 데 사용되는 주요 관측 가능성 데이터에 대한 기본 지원을 제공합니다.

플러그인 기반 기능

다음은 모든 기능을 나열한 것은 아니지만, 분석, 머신 러닝(ML) 및 관측 가능성 시나리오를 지원하는 인기 있는 확장 기능입니다.

이상 징후 탐지: Random Cut Forest 알고리즘을 사용하여 로그와 지표에서 비정상적인 패턴을 탐지합니다.
k-NN 및 벡터 검색: 시맨틱 검색 및 유사성 검색을 지원하며, 근사 최근접 이웃(k-NN) 기법을 사용하는 추천 워크로드와 함께 제공됩니다.
ML Commons: OpenSearch 내에서 직접 머신 러닝 모델을 실행하여 학습 및 추론을 지원합니다.
성능 분석기: 클러스터 전체에 상세한 리소스 및 성능 지표를 제공하여 팀이 CPU 및 쿼리 처리량을 최적화할 수 있도록 지원합니다.
클러스터 간 복제: 클러스터 간에 인덱스를 복제하여 재해 복구, 중복성 및 워크로드 격리를 지원합니다.
추적 분석: 분산 시스템의 추적을 시각화하고 팀이 서비스 종속성과 지연 경로를 이해할 수 있도록 도와줍니다.

관리형 환경을 선호하는 조직은 AWS의 OpenSearch 클러스터에 대한 확장, 백업, 노드 교체 및 유지 관리를 자동화하는 Amazon OpenSearch Service를 사용할 수도 있습니다.

OpenSearch 대시보드란 무엇인가요?

OpenSearch 대시보드는 OpenSearch를 위한 시각화 및 분석 인터페이스입니다. 인덱싱된 데이터를 탐색하고, 시각화를 구축하고, 관측 가능성, 보안 분석 및 애플리케이션 모니터링 워크플로 전반에 걸쳐 사용되는 운영 대시보드를 만들기 위한 대화형 환경을 제공합니다. 예를 들어 팀은 대시보드를 활용하여 지표의 추세를 시각화하고 거의 실시간으로 이상 현상을 조사할 수 있습니다.

OpenSearch 대시보드는 차트, 표, 지도, 노트북 및 사용자 정의 패널 생성을 지원합니다. 또한 분석을 간소화하도록 설계된 기능도 포함되어 있습니다. 노트북을 사용하면 사용자는 시각화와 텍스트를 결합하여 하나의 내러티브를 만들 수 있으며, 운영 패널은 파이프라인 처리 언어로 생성된 관측 가능성 시각화를 통합된 디스플레이로 구성합니다.

OpenSearch 대시보드는 Kibana와 사용자 인터페이스(UI)의 유산을 공유하기 때문에 많은 데이터 팀에서 워크플로가 익숙하다고 느낍니다. 하지만 자체 로드맵에 따라 개발되었으며 광범위한 OpenSearch 기능 세트를 반영하는 기능을 포함합니다.

OpenSearch 사용 사례

OpenSearch는 다음을 포함하여 산업 전반에 걸쳐 광범위한 사용 사례를 지원합니다.

로그 분석 및 운영 인텔리전스
관측 가능성 워크플로
보안 분석 및 위협 탐지
검색 엔진 애플리케이션
데이터 시각화 및 보고
머신 러닝으로 강화된 분석

로그 분석 및 운영 인텔리전스

팀은 애플리케이션, 인프라 및 클라우드 서비스의 로그를 인덱싱하여 성능 문제를 분석하고 중단 문제를 해결합니다. OpenSearch는 대용량 수집 및 실시간 분석을 지원하므로 다국적 전자상거래 사이트와 같은 분산 프로덕션 시스템에 적합합니다.

관측 가능성 워크플로

지표, 로그 및 추적을 지원하는 OpenSearch는 통합 관측 가능성 플랫폼을 제공합니다. Trace Analytics는 서비스 상호 작용을 시각화하고, 애플리케이션 분석은 원격 측정의 상관 관계를 파악하여 시스템 동작을 이해하고 지연 시간 또는 장애를 정확히 찾아냅니다. 대시보드와 PPL 쿼리를 통해 팀은 문제를 신속하게 조사하고 재사용 가능한 운영 뷰를 만들 수 있습니다.

보안 분석 및 위협 탐지

OpenSearch의 이상 탐지 및 ML Commons 알고리즘을 통해 조직은 보안 운영 전반에 검색 및 분석 기술을 적용할 수 있습니다. 팀은 이를 사용하여 인증 로그 또는 애플리케이션 동작에서 비정상적인 패턴을 감지하고 조건이나 임계값이 충족되면 알림을 트리거합니다.

검색 엔진 애플리케이션

조직은 웹사이트, 제품 카탈로그 및 엔터프라이즈 콘텐츠 시스템의 기반이 되는 검색 엔진으로 OpenSearch를 사용합니다. 전체 텍스트 검색, 자동 완성, 구문 일치 및 벡터 검색은 다양한 사용자 경험 및 추천 사용 사례를 지원합니다.

데이터 시각화 및 보고

OpenSearch 대시보드는 팀이 데이터를 탐색하고, 추세를 모니터링하고, KPI를 추적하고, 이해관계자와 통찰력을 공유하는 데 도움이 되는 대화형 시각화, 보고 및 노트북을 제공합니다.

머신 러닝으로 강화된 분석

ML Commons를 사용하여 팀은 OpenSearch 내에서 클러스터, 분류 및 예측과 같은 모델 기반 작업을 실행할 수 있습니다. 이러한 기능은 사기 탐지, 수요 예측, 고객 세분화 및 하위 데이터 파이프라인 강화와 같은 사용 사례를 지원합니다.

작성자

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor