데이터 레이크는 10년이 훨씬 넘는 기간 동안 세계 유수 기업들의 분석 운영을 지원해 왔습니다. 하지만 이러한 배포의 대부분이 이제 데이터 '늪'이 되었다고 주장하는 사람들도 있습니다. 여러분이 이 주장에 찬성하든 반대하든, 여전히 많은 데이터가 이러한 시스템에 보관되어 있는 것이 현실입니다. 이렇게 방대한 데이터는 이동, 마이그레이션, 현대화하기가 쉽지 않습니다.
데이터 레이크는 높은 수준에서 볼 때 대규모 단일 데이터 저장소입니다. 데이터를 원시 원본 형태로 저장하거나 특수 엔진에서 사용하기에 적합한 다른 형식으로 최적화할 수 있습니다.
Hadoop라는 인기 있는 데이터 레이크는 오픈 소스 소프트웨어를 사용하여 이러한 리포지토리를 구현하고 이를 모두 상용 하드웨어에서 실행합니다. 그래서 매우 저렴한 비용으로 많은 데이터를 이러한 시스템에 저장할 수 있습니다. 데이터가 오픈 데이터 형식으로 유지되어 소비가 민주화되고, 자동 복제는 고가용성을 유지하는 데 도움이 되었습니다. 기본 처리 프레임워크는 비행 중에도 장애를 복구하는 기능을 제공했습니다. 이는 공급업체에 종속되고 대규모 데이터를 다룰 수 없는 기존 분석 환경을 크게 벗어난 것이 분명했습니다.
또 다른 예상치 못한 어려움은 빅데이터를 위한 처리 프레임워크로 Spark를 도입하는 것이었습니다. 이는 데이터 변환, 스트리밍 및 SQL에 대한 지원으로 빠르게 인기를 얻었지만 기존 데이터 레이크 환경 안에서는 결코 우호적으로 공존하지 못했습니다. 그 결과 Spark를 실행하기 위한 전용 컴퓨팅 클러스터가 추가로 필요했습니다.
거의 15년이 지난 지금, 현실은 이 기술이 수반하는 절충점과 타협점에 직면해 있습니다. 도입이 빨라지면서 고객은 데이터 레이크에 무슨 일이 발생했는지 금방 추적할 수 없게 되었습니다. 데이터가 어디에서 와서 어떻게 수집되었는지, 그 과정에서 어떻게 변환되었는지 알 수 없다는 것도 문제였습니다. 데이터 거버넌스는 이 기술의 미개척 분야로 남아 있습니다. 소프트웨어는 개방적일 수 있지만 누군가는 소프트웨어 사용, 유지 관리, 지원 방법을 배워야 합니다. 커뮤니티 지원에 의존하면 비즈니스 운영에 필요한 처리 시간을 얻을 수 없을 수도 있습니다. 복제를 통해 가용성을 높이니 디스크와 데이터 사본, 스토리지 비용, 오류가 늘어났습니다. 고가용성 분산 처리 프레임워크를 사용하려면 복원력을 위해 성능을 포기해야 했습니다(대화형 분석과 BI 성능 저하).
데이터 레이크는 특정 사용 시나리오로 범위를 좁힐 수 있는 기업에서 성공적인 것으로 입증되었습니다. 그러나 분명한 것은 이러한 배포를 현대화하고 인프라에 대한 투자, 기술 및 해당 시스템에 보관된 데이터를 보호해야할 필요성이 시급하다는 점입니다.
업계에서는 해답을 찾기 위해 기존 데이터 플랫폼 기술과 그 강점을 살펴보았습니다. 기존(레거시) 웨어하우스나 데이터 마트의 주요 기능과 데이터 레이크에서 가장 유용한 기능을 결합하는 것이 가장 효과적이라는 점이 명백했습니다. 몇 가지 항목이 빠르게 기본 조건으로 부상했습니다.
이에 따라 데이터 레이크하우스가 등장했습니다. 데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스의 장점을 결합해서 응집력 있는 데이터 관리 솔루션으로 병합하는 데이터 플랫폼입니다.
현재 우리가 도달한 분석의 교차로에 대한 IBM의 해답은 watsonx.data입니다. 이것은 기업이 마이그레이션할 필요 없이 기존 데이터 레이크와 데이터 웨어하우스를 둘러싸고 보강하며 현대화할 수 있는 새로운 대규모 데이터 관리용 오픈 데이터 저장소입니다. 하이브리드 특성상 고객이 관리하는 인프라(온프레미스 및/또는 IaaS)와 클라우드에서 실행할 수 있습니다. 이 아키텍처는 레이크하우스 아키텍처를 기반으로 하며 모든 폼팩터에 맞는 단일 솔루션 세트(및 공통 소프트웨어 스택)가 내장되어 있습니다.
IBM은 시중 경쟁사들과 달리 오픈 소스 스택과 아키텍처를 기반으로 합니다. 이는 새로운 구성 요소가 아니라 업계에 잘 알려진 구성 요소입니다. IBM은 이들의 상호 운용성, 공존, 메타데이터 교환을 손보았습니다. 사용자는 고수준 아키텍처와 익숙하고 직관적인 기본 개념을 통해 시작 속도를 높이고 진입 및 채택 비용을 크게 절감할 수 있습니다.
watsonx.data는 기업이 데이터 레이크와 웨어하우징에 대한 수십 년간의 투자를 보호하는 수단을 제공합니다. 이를 통해 가장 중요한 사용 시나리오에서 각 구성 요소에 초점을 맞춰 설치를 즉시 확장하고 점진적으로 현대화할 수 있습니다.
주요 차별화 요소는 사용자가 통합 데이터 플랫폼을 통해 적시에 적절한 작업에 적합한 기술을 활용하게 하는 멀티 엔진 전략입니다. Watsonx.data는 고객이 완전히 동적인 계층형 스토리지와 관련 컴퓨팅을 구현할 수 있게 합니다. 그러면 앞으로의 데이터 관리 및 처리 비용을 크게 절감할 수 있습니다.
또한 궁극적으로 최신 데이터 레이크하우스로 기존 데이터 레이크 배포를 현대화하는 것이 목표인 경우, watsonx.data는 컴퓨팅 선택을 통해 데이터 마이그레이션 및 애플리케이션 마이그레이션을 최소화하여 작업을 용이하게 합니다.
지난 몇 년 동안 데이터 레이크는 대부분의 기업의 데이터 관리 전략에서 중요한 역할을 해왔습니다. 진정한 하이브리드 분석 클라우드 아키텍처로 데이터 관리 전략을 발전시키고 현대화하는 것이 목표라면, 데이터 레이크하우스 아키텍처에 기반한 IBM의 새로운 데이터 저장소인 watsonx.data를 고려해 볼 만합니다.
