데이터 레이크하우스 아키텍처 및 이점

개요

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 장점을 하나의 데이터 관리 솔루션으로 병합하는 데이터 플랫폼입니다.

하이브리드 클라우드 환경을 위한 IBM의 데이터 레이크하우스 및 거버넌스 아키텍처는 watsonx.data 플랫폼을 기반으로 합니다. 이 플랫폼을 통해 기업은 분석 및 AI를 확장하여 오픈 레이크하우스 아키텍처에 구축된 강력한 데이터 저장소를 제공할 수 있습니다. 이 아키텍처는 데이터 웨어하우스의 성능 및 사용성과 데이터 레이크의 유연성 및 확장성을 결합하여 데이터 관리 및 분석 작업을 위한 균형 잡힌 솔루션을 제공합니다.

배포

watsonx.data 플랫폼은 SaaS 오퍼링과 온프레미스 솔루션으로 제공됩니다. IBM은 SaaS 오퍼링이 없거나 규제 또는 기타 제약으로 인해 레이크하우스 플랫폼을 온프레미스로 유지해야 하는 고객을 위해 다음의 배포 옵션을 통해 어디서나 데이터 레이크하우스 기능을 사용할 수 있는 유연성을 제공합니다.

IBM Cloud 또는 AWS에서 watsonx.data SaaS를 프로비저닝합니다.
관리형 OpenShift를 사용하여 OpenShift 온프레미스 또는 기타 하이퍼스케일러에 독립형 솔루션으로 watsonx.data를 배포합니다.
IBM CloudPak for Data(CP4D) 클러스터의 watsonx.data 부분을 배포합니다.

IBM CloudPak for Data(CP4D) 클러스터의 watsonx.data 부분 배포 워크플로 차트

목적에 맞는 여러 쿼리 엔진을 사용하면서 모든 엔진에서 동일한 데이터에 동시에 액세스할 수 있도록 지원하는 데이터 레이크하우스 아키텍처.

데이터 소스 - 여기에는 데이터베이스 및 애플리케이션의 정형 데이터뿐만 아니라 파일, 소셜 미디어, IoT 디바이스 등의 비정형 데이터, 그리고 엔터프라이즈 데이터 웨어하우스 및 기타 비정형 데이터 저장소(클라이언트 온프레미스 애플리케이션 및 SaaS 둘 다)가 포함됩니다.
클라이언트 애플리케이션 - 클라이언트는 데이터가 데이터 레이크에 없을 수 있는 자체 데이터 저장소(정형 및 비정형)를 통해 애플리케이션을 온프레미스 또는 SaaS로 유지할 수 있으며, 클라이언트는 손쉬운 쿼리를 위해 해당 데이터를 레이크하우스로 가져오길 원할 수 있습니다.
데이터 레이크하우스 - watsonx.data는 데이터 레이크와 데이터 웨어하우스의 기능 간에 균형을 맞춘 차세대 데이터 저장소 아키텍처입니다. 이는 효율적인 데이터 거버넌스를 보장하면서 AI 및 머신 러닝(ML) 워크로드의 확장을 촉진하는 IBM의 데이터 레이크하우스 접근 방식의 토대입니다.
생성형 AI 플랫폼 - 데이터 레이크하우스는 선택적으로 생성형 AI 플랫폼에 연결하여 LLM으로 쿼리를 보강할 수 있습니다. 사용자는 프롬프트를 입력할 수 있으며, 이는 미세 조정된 LLM으로 전송되어 데이터 레이크하우스에서 지원되는 엔진에 의해 실행될 수 있는 검색 쿼리를 생성할 수 있습니다.

레이크하우스 패턴

레이크하우스 패턴 1: 목적에 맞는 다양한 쿼리 엔진

목적에 맞는 컴퓨팅을 통해 적합한 워크로드에 적합한 엔진을 활용하여 비용을 최적화하는 동시에 모든 엔진, 공유 메타스토어(예: 데이터 카탈로그) 및 동일한 환경 간에 데이터와 메타데이터를 공유하세요.

여러 쿼리 엔진을 사용하여 비용과 성능을 최적화할 수 있는 데이터 레이크하우스 아키텍처.

레이크하우스 패턴 2: 모든 데이터를 위한 단일 창

데이터 레이크하우스는 현재의 데이터 아키텍처에 대한 현대적인 접근 방식을 지원합니다. 기업들은 수년에 걸쳐 구조화된 고성능 엔터프라이즈 데이터 웨어하우스(EDW)부터 대량의 비정형/반정형 데이터 레이크에 이르기까지 다양한 요구 사항을 충족하기 위해 여러 데이터 저장소를 구축해 왔으며, 대개의 경우 데이터 늪(중복, 데이터 품질, 거버넌스 부재)으로 변질되는 경우가 많았습니다. watsonx.data를 지원하는 데이터 레이크하우스는 데이터를 이동할 필요 없이 여러 쿼리 엔진, 개방형 데이터 형식 및 거버넌스를 통해 다양한 데이터 저장소에 대한 단일 계층을 지원합니다.

오브젝트 스토리지, 관계형 데이터 및 데이터 레이크를 포함한 기업의 모든 데이터 저장소에 대한 단일 액세스 계층(단일 창)을 제공하는 데이터 레이크하우스 아키텍처.

레이크하우스 패턴 3: 데이터 웨어하우스 워크로드 최적화를 통한 비용 최적화

레이크하우스의 저렴한 스토리지 및 컴퓨팅을 활용하고 여러 쿼리 엔진이 동일한 데이터 세트를 사용할 수 있도록 함으로써 임시 쿼리 기능을 유지하면서 웨어하우징 비용을 절감합니다. Spark와 같은 쿼리 엔진을 사용하면 모든 데이터 변경 내역이 아닌 현재 상태의 데이터에 대해 진공/물질화 쿼리를 수행할 수 있으므로 데이터 쿼리 크기와 쿼리 컴퓨팅 비용이 줄어듭니다. 또한 레이크하우스 전처리 및 선택적 변환 기능 덕분에 데이터 웨어하우스 워크로드가 최적으로 분산되어 비용이 절감됩니다.

데이터 웨어하우스 워크로드를 최적화하여 비용을 최적화하고, 웨어하우징 비용을 절감하는 동시에 시간적 쿼리 능력을 유지하세요.

데이터 웨어하우스 비용을 최소화하고 웨어하우스 쿼리 성능을 최적화하는 데이터 레이크하우스 아키텍처.

레이크하우스 패턴 4: 하이브리드 멀티 클라우드 배포

하이브리드 클라우드 전반에서 원격으로 데이터에 연결하고 액세스하여 원격 소스를 캐싱합니다.

여러 제공업체에 걸쳐 온프레미스 및 클라우드 데이터를 통합하기 위한 데이터 레이크하우스 아키텍처.

레이크하우스 패턴 5: 메인프레임 데이터와 분석 에코시스템 통합

레이크하우스 분석을 위해 Db2 for z/OS 데이터를 동기화 및 통합하고, 메인프레임에서 VSAM 및 Db2 데이터 전반에 걸쳐 실시간 분석을 수행합니다. 데이터 가상화는 항상 추가 부하를 고려하여 메인프레임에서 직접 데이터를 쿼리하는 반면, CDC는 관리자가 정의한 빈도에 따라 아이스버그 형식으로 정보를 캡처합니다(메인프레임에 부하를 더하지 않고 실시간 데이터도 제공하지 않음).

데이터 게이트웨이 및 데이터 가상화를 사용하여 메인프레임 데이터를 메인프레임이 아닌 소스 데이터와 통합하는 데이터 레이크하우스 아키텍처.

기타 레이크하우스 사용 사례

새로운 데이터 자산에 대한 스토리지 계층 최신 애플리케이션은 보다 효율적이고 확장 가능한 데이터 기반 서비스를 제공하기 위해 새로운 데이터 세트와 고급 데이터 처리 기술을 사용하는 경우가 많습니다. 데이터 레이크하우스는 필요한 데이터/스토리지 계층, 통합, 성능, 확장성 및 비용 효율성을 제공할 수 있습니다.
자연어 데이터 프롬프트 및 응답 데이터 레이크하우스(watsonx.data)와 생성형 AI 및 대규모 언어 모델(LLM) 기능(watsonx.ai)은 정보의 기술적 구조를 모르거나 SQL에 숙달되지 않은 분석가가 프롬프트를 사용하여 다양한 데이터 저장소에 걸쳐 교차 분석을 수행하고 LLM에서 응답을 얻을 수 있도록 지원합니다.

아키텍처 결정

쿼리 엔진 선택

사용할 쿼리 엔진의 선택은 일반적으로 쿼리할 데이터 유형에 따라 결정됩니다.

Presto 쿼리 엔진은 Hive 및 Parquet 테이블/버킷과 함께 사용할 때 가장 적합합니다.
Spark 쿼리 엔진은 기존 Hadoop/Cloudera 환경 내에서 SCALA 코딩을 사용할 때 가장 적합합니다.
DB2 쿼리 엔진은 DB2 데이터 저장소와 함께 사용할 때 가장 적합합니다.
Netezza 쿼리 엔진은 Netezza 데이터 웨어하우스를 쿼리할 때 가장 적합합니다.

데이터 레이크하우스 특성

데이터 관리: 데이터 레이크하우스가 신뢰할 수 있는 단일 소스 역할을 하는지 확인하는 것은 데이터 분석 및 의사 결정의 일관성과 신뢰성을 위해 매우 중요합니다.
데이터 통합: 실시간 및 일괄 데이터 수집을 지원하여 다양한 소스와 다양한 형식의 데이터를 원활하게 통합할 수 있어야 합니다.
쿼리 성능: 기업 SLA/SLO에 따라 분석 및 보고 요구 사항을 지원하도록 최적화된 쿼리 성능을 제공합니다.
데이터 거버넌스: 성공적인 데이터 레이크하우스 구현에는 데이터 품질, 메타데이터 관리, 리니지 추적을 보장하는 강력한 데이터 거버넌스 프레임워크가 필요합니다.
보안: 데이터 암호화, 액세스 제어, 감사 추적을 보장하여 조직 규제 요구 사항을 준수합니다.
배포 유연성: 온프레미스, 하이브리드 및 멀티클라우드 배포를 지원하여 유연성을 제공하고 비용 및 성능을 최적화하도록 지원합니다.
데이터 민감도: 데이터 일관성과 무결성을 유지하면서 다양한 환경에서 데이터를 쉽게 이동할 수 있도록 보장합니다.
모니터링 및 관리: 데이터 이동, 작업 완료 시간 및 속도, 성능 조정을 파악하기 위한 모니터링, 로깅 및 관리 툴을 구현합니다.