데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스 비교 

2024년 11월 20일

작성자

Matthew Kosinski

Enterprise Technology Writer

데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스 비교

데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스는 서로 다른 기능을 가진 다양한 유형의 데이터 관리 솔루션입니다.

  • 데이터 레이크는 저렴한 비용으로 많은 양의 원시 데이터를 저장합니다. 

  • 데이터 레이크하우스는 레이크의 유연한 데이터 스토리지와 웨어하우스의 고성능 분석 기능을 하나의 솔루션으로 결합합니다.

이러한 솔루션은 서로 다른 기능을 가지고 있고 서로 다른 용도로 사용되기 때문에, 많은 엔터프라이즈 데이터 아키텍처는 전체적인 데이터 패브릭에서 이 중 두 가지 또는 세 가지 모두를 사용합니다.

  • 조직은 데이터 레이크를 모든 형식의 모든 수신 데이터에 대한 범용 스토리지 솔루션으로 사용할 수 있습니다.

  • 레이크의 데이터는 개별 사업부에 맞게 조정된 데이터 웨어하우스에 공급되어 의사 결정에 필요한 정보를 제공할 수 있습니다.

  • 데이터 레이크하우스 아키텍처는 데이터 과학자와 데이터 엔지니어가 머신 러닝(ML), 인공 지능(AI)데이터 과학 프로젝트를 위해 데이터 레이크에서 원시 데이터로 더 쉽게 작업할 수 있도록 도와줍니다.

데이터 레이크하우스는 기존 데이터 아키텍처의 현대화 경로로도 널리 사용되고 있습니다. 조직은 현재 레이크와 웨어하우스를 전면 교체하지 않고도 새로운 레이크하우스를 구현하여 통합 데이터 스토리지 및 분석 솔루션으로의 전환을 간소화할 수 있습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트 


주간 Think 뉴스레터에서 AI, 클라우드 등에 대한 전문적으로 선별된 인사이트와 뉴스를 발견하세요. 

데이터 웨어하우스의 주요 특성

데이터 웨어하우스는 데이터베이스, 비즈니스 애플리케이션, 소셜 미디어 피드 등 다양한 데이터 소스에서 데이터를 단일 저장소로 집계합니다. 데이터 웨어하우징 툴의 가장 큰 특징은 수집하는 데이터 세트를 정리하고 준비한다는 것입니다. 

데이터 웨어하우스는 스토리지에 기록되는 모든 데이터에 일관된 스키마를 적용하는 “스키마 온 라이트”라는 접근 방식을 사용합니다. 이는 비즈니스 인텔리전스 및 분석을 위해 데이터를 최적화하는 데 도움이 됩니다.

예를 들어 소매 판매 데이터를 위한 웨어하우스는 날짜, 금액, 거래 번호와 같은 세부 정보가 올바르게 형식화되고 관계형 테이블의 올바른 셀에 할당되도록 하는 데 도움이 될 수 있습니다. 

데이터 마트는 전체 기업이 아닌 특정 사업 부문이나 부서에 맞는 데이터를 포함하는 일종의 데이터 웨어하우스입니다. 예를 들어 마케팅 팀에는 자체 데이터 마트가 있을 수 있고, 인사팀에도 데이터 마트가 있을 수 있습니다. 

데이터 웨어하우스 아키텍처  

일반적인 데이터 웨어하우스는 3개의 계층으로 구성되어 있습니다.

  • 중간 계층은 온라인 분석 처리(OLAP) 시스템 또는 SQL 기반 엔진과 같은 분석 엔진을 중심으로 구축됩니다. 이 중간 계층을 통해 사용자는 웨어하우스에서 직접 데이터 세트를 쿼리하고 분석을 실행할 수 있습니다. 

  • 최상위 계층에는 사용자가 비즈니스 데이터에 대한 임시 데이터 분석을 수행할 수 있는 사용자 인터페이스 및 보고 툴이 포함되어 있습니다.  

초기 데이터 웨어하우스는 온프레미스에서 호스팅되었지만 이제는 많은 데이터가 클라우드에서 호스팅되거나 클라우드 서비스로 제공됩니다. 하이브리드 접근 방식도 일반적입니다. 

기존 데이터 웨어하우스는 관계형 데이터베이스 시스템과 엄격한 스키마에 의존하기 때문에 정형 데이터에서 가장 효과적입니다. 일부 최신 웨어하우스는 반정형 및 비정형 데이터를 수용하도록 발전했지만, 많은 조직은 이러한 유형의 데이터를 위해 데이터 레이크와 레이크하우스를 선호합니다.

데이터 웨어하우스 사용 사례

데이터 웨어하우스는 비즈니스 분석가, 데이터 과학자 및 데이터 엔지니어가 셀프 서비스 분석 작업을 수행하는 데 사용합니다.  

정의된 스키마를 모든 데이터에 적용하면 데이터 일관성이 향상되어 데이터를 더 안정적이고 쉽게 사용할 수 있습니다. 데이터 웨어하우스는 데이터를 구조화된 관계형 스키마에 저장하므로 고성능 구조화된 쿼리 언어(SQL) 쿼리를 지원합니다.

조직에서는 기본으로 제공되거나 연결된 BI 및 데이터 분석 툴을 사용하여 거래 데이터와 과거 데이터를 분석하고, 데이터 시각화를 생성하고, 데이터 기반 의사 결정을 지원하는 대시보드를 만들 수 있습니다.

데이터 웨어하우스 과제

웨어하우스는 유지 관리 비용이 많이 들 수 있습니다. 데이터를 웨어하우스에 로드하기 전에 데이터를 변환해야 하므로 시간과 리소스가 필요합니다. 기존 웨어하우스에서는 스토리지와 컴퓨팅이 긴밀하게 결합되어 있기 때문에 확장에 많은 비용이 들 수 있습니다. 데이터가 제대로 유지 관리되지 않으면 쿼리 성능이 저하될 수 있습니다. 

데이터 웨어하우스는 비정형 및 반정형 데이터 세트를 처리하는 데 어려움을 겪을 수 있기 때문에 AI 및 ML 워크로드에 적합하지 않습니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

데이터 레이크의 주요 특성

데이터 레이크는 대량의 데이터를 처리하도록 설계된 저비용 데이터 스토리지 솔루션입니다. 데이터 레이크는 스키마 온 리드 접근 방식을 사용하므로 들어오는 데이터에 표준 형식을 적용하지 않습니다. 대신 사용자가 분석 툴 또는 기타 인터페이스를 통해 데이터에 액세스할 때 스키마가 적용됩니다.

데이터 레이크는 데이터를 기본 형식으로 저장합니다. 이를 통해 데이터 레이크는 정형 데이터, 비정형 데이터, 반정형 데이터를 모두 동일한 데이터 플랫폼에 저장할 수 있습니다.  

데이터 레이크는 2000년대 후반과 2010년대 초반에 웹 2.0과 클라우드 및 모바일 컴퓨팅의 부상으로 촉발된 빅데이터의 홍수를 조직이 관리할 수 있도록 돕기 위해 등장했습니다. 조직은 그 어느 때보다 많은 데이터를 처리하고 있으며, 그 중 상당수는 기존 웨어하우스에서 쉽게 관리할 수 없는 자유 형식의 텍스트와 이미지와 같은 비정형 형식입니다.

데이터 레이크 아키텍처 

초기 데이터 레이크는 Apache Hadoop 분산 파일 시스템(HDFS)을 기반으로 구축되는 경우가 많았습니다. 최신 데이터 레이크는 Amazon Simple Storage Service(S3), Microsoft Azure Blob Storage 또는 IBM Cloud Object Storage와 같은 Cloud Object Storage를 사용하는 경우가 많습니다.

데이터 레이크는 데이터 스토리지를 컴퓨팅 리소스와 분리하므로 데이터 웨어하우스보다 비용 효율적이고 확장성이 뛰어납니다. 조직은 컴퓨팅 리소스를 확장하지 않고도 스토리지를 추가할 수 있습니다. 클라우드 스토리지스는 조직이 온프레미스 리소스를 확장하지 않고도 더 많은 스토리지를 스핀업할 수 있으므로 확장성을 더욱 지원합니다.

데이터 레이크에서 데이터를 처리하기 위해 사용자는 Apache Spark와 같은 외부 데이터 처리 툴을 연결할 수 있습니다. 데이터 웨어하우스와 달리 이러한 처리 툴은 레이크에 내장되어 있지 않습니다.

데이터 레이크 사용 사례

데이터 레이크는 저렴한 비용, 확장성 및 모든 형식의 데이터를 저장할 수 있는 기능 때문에 범용 데이터 스토리지에 널리 사용됩니다.

조직에서는 종종 데이터 레이크를 사용하여 백업을 유지 관리하고 오래되고 사용되지 않는 데이터를 보관합니다. 조직은 또한 레이크를 사용하여 정의된 목적이 없는 데이터를 포함하여 새로 들어오는 모든 데이터를 저장할 수 있습니다. 데이터는 조직에서 사용할 때까지 레이크에 보관할 수 있습니다.

조직에서는 ML, AI, 분석 워크로드(예: 데이터 디스커버리, 모델 학습, 실험 분석 프로젝트)를 위한 데이터 세트를 저장하는 데도 데이터 레이크를 사용합니다.  

데이터 레이크의 과제

데이터 레이크는 엄격한 스키마를 적용하지 않고 내장된 처리 툴이 없기 때문에 데이터 거버넌스와 데이터 품질 측면에서 어려움을 겪을 수 있습니다. 또한 비즈니스 사용자의 일상적인 BI 및 데이터 분석 작업에도 적합하지 않습니다.

조직은 정확성과 품질을 유지하기 위해 포괄적인 데이터 카탈로그 및 메타데이터 관리 시스템과 같은 별도의 툴이 필요한 경우가 많습니다. 이러한 툴이 없으면 데이터 레이크는 쉽게 데이터 늪이 될 수 있습니다.

데이터 레이크하우스의 주요 특성

데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스의 핵심 기능을 하나의 데이터 관리 솔루션으로 통합합니다. 

데이터 레이크와 마찬가지로 데이터 레이크하우스는 저렴한 비용으로 정형, 비정형 또는 반정형 등 모든 형식의 데이터를 저장할 수 있습니다. 

웨어하우스와 마찬가지로 데이터 레이크하우스는 빠른 쿼리와 최적화된 분석을 지원합니다.

데이터 레이크하우스 아키텍처

데이터 레이크하우스는 이전에는 서로 달랐던 기술과 도구를 종합적인 솔루션으로 결합합니다. 일반적인 레이크하우스 아키텍처에는 다음과 같은 계층이 포함됩니다.

수집 계층

수집 계층은 다양한 소스에서 배치 및 실시간 스트리밍 데이터를 수집합니다. 레이크하우스는 ETL 프로세스를 사용하여 데이터를 캡처할 수 있지만 대부분은 추출, 로드 및 변환(ELT)을 사용합니다. 레이크하우스는 원시 데이터를 스토리지에 로드하고 나중에 분석에 필요할 때 변환할 수 있습니다.

스토리지 계층

스토리지 계층은 일반적으로 데이터 레이크와 같은 Cloud Object Storage입니다. 

메타데이터 계층

메타데이터 계층은 스토리지 계층의 모든 개체에 대한 메타데이터의 통합 카탈로그를 제공합니다. 이 메타데이터 계층은 레이크하우스가 할 수 없는 많은 일들, 즉 빠른 쿼리를 위한 데이터 인덱싱, 스키마 적용, 거버넌스 및 품질 관리 적용을 도와줍니다.

애플리케이션 프로그래밍 인터페이스(API) 계층

API 계층을 통해 사용자는 고급 분석을 위한 툴을 연결할 수 있습니다.

소비 계층

소비 계층은 BI, ML 및 기타 데이터 과학과 분석 프로젝트를 위한 클라이언트 앱과 툴을 호스팅합니다.

데이터 레이크에서와 마찬가지로 컴퓨팅 리소스와 스토리지 리소스가 분리되어 있어 확장성이 뛰어납니다.

데이터 레이크는 오픈 소스 기술에 크게 의존합니다. 조직은 Apache Parquet 및 Apache Iceberg와 같은 데이터 형식을 통해 환경 간에 워크로드를 자유롭게 이동할 수 있습니다. 오픈 소스 스토리지 계층인 Delta Lake는 사용자가 버전 관리 및 ACID 트랜잭션과 같은 원시 데이터 세트에 대한 분석을 실행하는 데 도움이 되는 기능을 지원합니다. "ACID"는 원자성(atomicity), 일관성(consistency), 격리성(isolation), 내구성(durability)의 약자입니다. 데이터 트랜잭션의 무결성을 보장하는 데 도움이 되는 주요 속성입니다.

조직은 구성 요소 부분에서 자체 레이크하우스를 구축하거나, Databricks, Snowflake 또는 IBM watsonx.data와 같은 사전 구축된 제품을 사용할 수 있습니다.

데이터 레이크하우스 사용 사례

데이터 레이크하우스는 조직이 웨어하우스와 레이크의 한계와 복잡성을 극복하는 데 도움이 될 수 있습니다.  

데이터 웨어하우스와 레이크는 서로 다른 용도로 사용되기 때문에 많은 조직이 데이터 스택에서 두 가지 모두를 구현합니다. 그러나 이는 특히 고급 분석 프로젝트의 경우 사용자가 서로 다른 데이터 시스템에 걸쳐 있어야 한다는 것을 의미합니다. 이로 인해 비효율적인 워크플로, 중복된 데이터, 거버넌스 문제 및 기타 문제가 발생할 수 있습니다.

레이크하우스는 데이터 통합을 지원하여 분석 작업을 간소화하는 데 도움이 될 수 있습니다. 유형에 관계없이 모든 데이터를 동일한 중앙 저장소에 저장할 수 있으므로 중복의 필요성을 줄일 수 있습니다. 모든 종류의 비즈니스 사용자가 BI, 예측 분석, AI 및 ML을 포함한 프로젝트에 레이크하우스를 사용할 수 있습니다.

데이터 레이크하우스는 기존 데이터 아키텍처의 현대화 경로 역할도 할 수 있습니다. 오픈 레이크하우스 아키텍처는 기존 레이크 및 웨어하우스와 함께 쉽게 사용할 수 있기 때문에 조직은 중단 없이 전면 교체하지 않고도 새로운 통합 솔루션으로 전환할 수 있습니다.

데이터 레이크하우스의 과제

레이크하우스는 많은 데이터 워크플로를 간소화할 수 있지만, 이를 시작하고 실행하는 것은 복잡할 수 있습니다. 사용자는 레이크하우스를 사용하는 것이 기존의 웨어하우스 사용과 다를 수 있으므로 학습 곡선을 경험할 수도 있습니다. 레이크하우스는 또한 비교적 새로운 기술이며 프레임워크는 여전히 발전하고 있습니다.

데이터 아키텍처에서 데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스가 함께 작동하는 방식

데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스는 다양한 비즈니스 및 데이터 요구 사항을 충족합니다. 많은 조직에서 데이터 파이프라인을 간소화하고 AI, ML 및 분석을 지원하기 위해 이러한 시스템 중 2개 또는 3개를 모두 사용합니다.   

상업용 주방을 비유로 들어보겠습니다. 이 주방은 매일 트럭으로 배송되는 재료(데이터)를 받습니다(트랜잭션 데이터베이스, 비즈니스 앱 등).  

모든 재료는 종류에 관계없이 하역장(데이터 레이크)에 도착합니다. 재료는 가공되어 냉장고, 식료품 저장실 및 기타 저장 영역(데이터 웨어하우스)으로 분류됩니다. 이곳에서는 셰프가 추가 가공 없이 재료를 바로 사용할 수 있습니다. 

이 프로세스는 상당히 효율적이지만 기존 데이터 레이크 및 데이터 웨어하우스의 몇 가지 문제점을 노출합니다. 하역장에 있는 재료처럼 데이터 레이크의 데이터는 추가 처리 없이는 사용할 수 없습니다. 주방의 재료와 마찬가지로 데이터 웨어하우스의 데이터도 사용하기 전에 적절하게 준비되어 올바른 장소로 전달되어야 합니다.

데이터 레이크하우스는 하역장, 식료품 저장실, 냉장고를 한 곳에 결합하는 것과 비슷합니다. 물론 이 조합은 상업용 주방 영역에서는 비현실적일 수 있습니다. 그러나 엔터프라이즈 데이터 세계에서 조직은 데이터에서 동일한 가치를 얻는 동시에 처리 비용, 중복 및 데이터 사일로를 줄일 수 있습니다.

간략한 비교 및 주요 차이점

데이터 웨어하우스와 데이터 레이크 비교

  • 데이터 웨어하우스는 정제되고 처리된 데이터를 저장하는 반면, 데이터 레이크는 원시 데이터를 기본 형식으로 저장합니다. 

  • 데이터 웨어하우스에는 Analytics Engine과 보고 툴이 내장되어 있는 반면, 데이터 레이크에는 처리를 위한 외부 툴이 필요합니다.

  • 데이터 레이크에는 더 저렴하고 유연하며 확장 가능한 스토리지가 있습니다. 데이터 웨어하우스는 최적화된 쿼리 성능을 제공합니다.

  • 웨어하우스는 비즈니스 사용자의 비즈니스 인텔리전스 및 데이터 분석 작업을 지원하는 데 가장 적합합니다. 데이터 레이크는 인공 지능, 머신러닝 및 데이터 과학과 같은 다양한 데이터 형식의 대량의 데이터가 필요한 운영에 가장 적합합니다. 

  • 웨어하우스는 ACID 트랜잭션을 지원합니다. 데이터 레이크는 그렇지 않습니다.

데이터 웨어하우스와 데이터 레이크하우스 비교

  • 레이크하우스와 웨어하우스는 유사한 분석 및 쿼리 기능을 가지고 있지만, 레이크하우스는 웨어하우스보다 복잡한 AI 및 ML 워크로드를 더 잘 지원할 수 있습니다.

  • 레이크하우스는 모든 유형의 데이터에 대해 더 저렴하고 유연하며 확장 가능한 스토리지를 제공합니다. 웨어하우스는 주로 정형 데이터를 지원합니다.

  • 웨어하우스는 ETL을 사용하고 레이크하우스는 ETL 또는 ELT를 사용할 수 있습니다.

  • 레이크하우스는 배치 및 스트리밍 데이터를 처리할 수 있습니다. 웨어하우스는 배치를 처리합니다.  

데이터 레이크와 데이터 레이크하우스 비교

  • 데이터 레이크와 레이크하우스 모두 대용량 데이터와 다양한 데이터 구조를 지원할 수 있습니다. 둘 다 유사한 데이터 스토리지 시스템을 사용하며 일반적으로 Cloud Object Storage를 사용합니다. 

  • 데이터 레이크는 수집된 데이터에 스키마를 적용하지 않습니다. 데이터 레이크하우스에는 스키마를 적용할 수 있는 옵션이 있습니다.

  • 데이터 레이크와 레이크하우스 모두 AI 및 ML 워크로드를 지원할 수 있지만, 레이크하우스는 데이터 레이크보다 BI 및 데이터 분석 작업을 더 잘 지원합니다.

  • 레이크하우스에는 분석 도구가 내장되어 있거나 분석 프레임워크와 긴밀하게 통합되어 있습니다. 데이터 레이크에는 데이터 처리를 위한 외부 툴이 필요합니다.  

  • 레이크하우스는 데이터 레이크보다 강력한 데이터 거버넌스, 무결성 및 품질 제어 기능을 갖추고 있습니다.  

  • 레이크하우스는 ACID 트랜잭션을 지원하지만 데이터 레이크는 지원하지 않습니다.

  • 데이터 레이크는 배치 처리를 위해 구축되는 경우가 많으며 스트리밍 데이터를 지원하지 않을 수 있습니다. 레이크하우스는 배치 및 스트리밍 데이터를 지원할 수 있습니다.

관련 솔루션
데이터 관리 소프트웨어 및 솔루션

탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선해 주는 데이터 전략을 구축하세요.

데이터 관리 솔루션 살펴보기
IBM watsonx.data™

watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.

watsonx.data 알아보기
데이터 및 분석 컨설팅 서비스

IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.

분석 서비스 알아보기
다음 단계 안내

탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선해 주는 데이터 전략을 구축하세요.

데이터 관리 솔루션 살펴보기 watsonx.data 알아보기