데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 장점을 하나의 데이터 관리 솔루션으로 병합하는 데이터 플랫폼입니다.
하이브리드 클라우드 환경을 위한 IBM의 데이터 레이크하우스 및 거버넌스 아키텍처는 watsonx.data 플랫폼을 기반으로 합니다. 이 플랫폼을 통해 기업은 분석 및 AI를 확장하여 오픈 레이크하우스 아키텍처에 구축된 강력한 데이터 저장소를 제공할 수 있습니다. 이 아키텍처는 데이터 웨어하우스의 성능 및 사용성과 데이터 레이크의 유연성 및 확장성을 결합하여 데이터 관리 및 분석 작업을 위한 균형 잡힌 솔루션을 제공합니다.
watsonx.data 플랫폼은 SaaS 오퍼링과 온프레미스 솔루션으로 제공됩니다. IBM은 SaaS 오퍼링이 없거나 규제 또는 기타 제약으로 인해 레이크하우스 플랫폼을 온프레미스로 유지해야 하는 고객을 위해 다음의 배포 옵션을 통해 어디서나 데이터 레이크하우스 기능을 사용할 수 있는 유연성을 제공합니다.
데이터 레이크하우스 - watsonx.data는 데이터 레이크와 데이터 웨어하우스의 기능 간에 균형을 맞춘 차세대 데이터 저장소 아키텍처입니다. 이는 효율적인 데이터 거버넌스를 보장하면서 AI 및 머신 러닝(ML) 워크로드의 확장을 촉진하는 IBM의 데이터 레이크하우스 접근 방식의 토대입니다.
생성형 AI 플랫폼 - 데이터 레이크하우스는 선택적으로 생성형 AI 플랫폼에 연결하여 LLM으로 쿼리를 보강할 수 있습니다. 사용자는 프롬프트를 입력할 수 있으며, 이는 미세 조정된 LLM으로 전송되어 데이터 레이크하우스에서 지원되는 엔진에 의해 실행될 수 있는 검색 쿼리를 생성할 수 있습니다.
레이크하우스 패턴 1: 목적에 맞는 다양한 쿼리 엔진
목적에 맞는 컴퓨팅을 통해 적합한 워크로드에 적합한 엔진을 활용하여 비용을 최적화하는 동시에 모든 엔진, 공유 메타스토어(예: 데이터 카탈로그) 및 동일한 환경 간에 데이터와 메타데이터를 공유하세요.
레이크하우스 패턴 2: 모든 데이터를 위한 단일 창
데이터 레이크하우스는 현재의 데이터 아키텍처에 대한 현대적인 접근 방식을 지원합니다. 기업들은 수년에 걸쳐 구조화된 고성능 엔터프라이즈 데이터 웨어하우스(EDW)부터 대량의 비정형/반정형 데이터 레이크에 이르기까지 다양한 요구 사항을 충족하기 위해 여러 데이터 저장소를 구축해 왔으며, 대개의 경우 데이터 늪(중복, 데이터 품질, 거버넌스 부재)으로 변질되는 경우가 많았습니다. watsonx.data를 지원하는 데이터 레이크하우스는 데이터를 이동할 필요 없이 여러 쿼리 엔진, 개방형 데이터 형식 및 거버넌스를 통해 다양한 데이터 저장소에 대한 단일 계층을 지원합니다.
레이크하우스 패턴 3: 데이터 웨어하우스 워크로드 최적화를 통한 비용 최적화
레이크하우스의 저렴한 스토리지 및 컴퓨팅을 활용하고 여러 쿼리 엔진이 동일한 데이터 세트를 사용할 수 있도록 함으로써 임시 쿼리 기능을 유지하면서 웨어하우징 비용을 절감합니다. Spark와 같은 쿼리 엔진을 사용하면 모든 데이터 변경 내역이 아닌 현재 상태의 데이터에 대해 진공/물질화 쿼리를 수행할 수 있으므로 데이터 쿼리 크기와 쿼리 컴퓨팅 비용이 줄어듭니다. 또한 레이크하우스 전처리 및 선택적 변환 기능 덕분에 데이터 웨어하우스 워크로드가 최적으로 분산되어 비용이 절감됩니다.
레이크하우스 패턴 4: 하이브리드 멀티 클라우드 배포
하이브리드 클라우드 전반에서 원격으로 데이터에 연결하고 액세스하여 원격 소스를 캐싱합니다.
레이크하우스 패턴 5: 메인프레임 데이터와 분석 에코시스템 통합
레이크하우스 분석을 위해 Db2 for z/OS 데이터를 동기화 및 통합하고, 메인프레임에서 VSAM 및 Db2 데이터 전반에 걸쳐 실시간 분석을 수행합니다. 데이터 가상화는 항상 추가 부하를 고려하여 메인프레임에서 직접 데이터를 쿼리하는 반면, CDC는 관리자가 정의한 빈도에 따라 아이스버그 형식으로 정보를 캡처합니다(메인프레임에 부하를 더하지 않고 실시간 데이터도 제공하지 않음).
사용할 쿼리 엔진의 선택은 일반적으로 쿼리할 데이터 유형에 따라 결정됩니다.