전문가의 인사이트를 바탕으로 한 최신 기술 뉴스
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
과거에는 조직이 데이터 레이크와 데이터 웨어하우스를 함께 사용하는 경우가 많았습니다. 데이터 레이크는 원시 정형, 반정형 및 비정형 데이터를 모두 수집하는 저장소 역할을 했으며, 이후 이러한 데이터는 ETL/ELT 파이프라인을 통해 데이터 웨어하우스로 이동되어 비즈니스 인텔리전스(BI) 및 예측 분석과 같은 다운스트림 사용 사례에 활용되었습니다.
그러나 신뢰할 수 있는 데이터를 제공하기 위해 이러한 시스템을 조정하는 작업은 특히 데이터 분석 및 AI 워크로드에서 시간과 리소스 측면에서 많은 비용이 들 수 있습니다. 데이터 이동은 데이터 노후화와 중복을 초래할 수 있으며, 추가적인 ETL/ELT 계층은 데이터 품질 및 일관성 위험을 발생시킬 수 있습니다.
데이터 레이크하우스는 데이터 레이크에 저장된 데이터에 데이터 웨어하우스 스타일의 데이터 관리 및 분석 기능을 직접 제공함으로써 이러한 문제를 완화합니다. 이러한 구조는 데이터 팀이 데이터 관리를 통합하고, 데이터 처리를 가속화하며, 데이터 품질을 개선하고, 확장 가능한 인공지능(AI) 및 머신 러닝(ML) 워크로드를 지원하는 데 도움이 됩니다.
데이터 레이크와 마찬가지로 데이터 레이크하우스는 저비용 클라우드 오브젝트 스토리지를 사용합니다. 이 접근 방식은 거의 모든 형식(정형, 반정형 및 비정형)으로 데이터를 저장할 수 있게 합니다.
데이터 레이크하우스로 만드는 요소는 해당 스토리지 위에 구축된 데이터 웨어하우스 스타일의 데이터 관리 계층이며, 이는 분석 및 BI 워크로드를 지원하기 위해 데이터 구조와 거버넌스를 추가합니다.
대부분의 데이터 레이크하우스는 일반적으로 다음과 같은 오픈 테이블 형식(OTF)에 의존합니다.
이러한 기술은 Apache Parquet에 저장된 것과 같은 오픈 데이터 파일을 논리적인 데이터베이스 형태의 테이블로 구성하는 메타데이터 계층 역할을 합니다.
이 접근 방식은 조직이 원시 레이크 데이터를 정형 데이터 웨어하우스 데이터처럼 다룰 수 있게 하며, 타임 트래블, 버전 관리, 스키마 진화, 데이터 조작 및 트랜잭션 일관성(ACID)과 같은 핵심 기능을 지원합니다.
(“ACID”는 원자성, 일관성, 격리성 및 지속성을 의미합니다. 이러한 속성은 데이터 트랜잭션의 무결성과 신뢰성을 보장하는 데 도움이 됩니다.)
이러한 추가 계층과 기능을 통해 레이크하우스는 데이터 레이크를 더 신뢰할 수 있고 직관적으로 사용할 수 있게 만듭니다. 또한 사용자는 데이터 레이크에서 직접 구조적 쿼리 언어(SQL) 쿼리, 분석 워크로드 및 기타 고급 사용 사례를 실행할 수 있으며, 이를 통해 BI, AI, ML 및 데이터 인텔리전스(DI)를 간소화할 수 있습니다.
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
데이터 레이크하우스의 아키텍처는 일반적으로 다음과 같은 다섯 계층으로 구성됩니다.
첫 번째 계층은 다양한 내부 및 외부 소스에서 데이터를 수집하고 이를 저장 및 분석할 수 있도록 준비합니다. 수집 계층은 커넥터를 사용해 데이터베이스 관리 시스템, NoSQL 데이터베이스, SaaS 애플리케이션 및 소셜 미디어 피드와 같은 소스와 통합할 수 있습니다. 데이터 수집은 배치 방식 또는 실시간 방식으로 수행될 수 있습니다.
스토리지 계층은 저비용 클라우드 오브젝트 스토리지에 정형, 비정형 및 반정형 데이터 세트를 저장합니다. 일반적으로 사용되는 서비스에는 Amazon Simple Storage Service(Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage 및 IBM® Cloud Object Storage가 포함됩니다.
데이터는 일반적으로 Apache Parquet 또는 ORC(Optimized Row Columnar)와 같이 대규모 분석 워크로드에 최적화된 컬럼형 스토리지 형식으로 저장됩니다. 이 계층은 사실상 모든 데이터 유형을 비용 효율적으로 수용할 수 있다는 데이터 레이크하우스의 주요 장점을 제공합니다.
메타데이터 계층은 레이크 내 데이터를 구성하고 해당 데이터에 대한 정보를 제공하는 통합 카탈로그입니다. 이 계층은 일반적으로 Apache Iceberg, Apache Hudi 또는 Delta Lake와 같은 오픈 테이블 형식을 기반으로 동작합니다.
이 계층의 기능은 ACID 트랜잭션, 타임 트래블 및 스키마 강제를 가능하게 하며, 이를 통해 데이터 거버넌스를 개선할 수 있습니다. 이 계층의 강력한 액세스 제어는 민감한 데이터를 처리하는 조직에 매우 중요하며, 감사 추적을 유지하기 위해 데이터 액세스 및 수정 내역을 추적하는 데에도 유용합니다.1
애플리케이션 프로그래밍 인터페이스(API)는 레이크하우스 데이터 및 메타데이터에 대한 표준화된 액세스를 제공합니다. 구체적으로 이 계층은 데이터 소비자와 개발자가 다양한 분석 엔진 및 TensorFlow와 같은 머신 러닝 프레임워크를 사용해 레이크하우스 데이터에서 직접 고급 분석 및 모델 학습을 수행할 수 있도록 지원합니다.
데이터 레이크하우스 아키텍처의 마지막 계층은 레이크에 저장된 모든 데이터에 액세스할 수 있는 앱과 툴을 호스팅합니다. 이를 통해 조직 전반의 사용자가 데이터에 액세스할 수 있게 되며, 사용자는 레이크하우스를 활용해 비즈니스 인텔리전스 대시보드, 데이터 시각화 및 머신 러닝 작업과 같은 업무를 수행할 수 있습니다.
메달리온 데이터 아키텍처(MDA)는 품질 중심의 다계층 데이터 설계 접근 방식으로, 레이크하우스 데이터가 수집 단계에서 활용 단계로 이동하는 동안 점진적으로 정제되고 검증되어 신뢰할 수 있는 상태를 유지하도록 보장합니다. 이를 통해 조직은 일상적인 비즈니스 보고는 물론 고급 분석 및 머신 러닝 워크로드에도 적합한 확장 가능하고 거버넌스가 적용된 데이터 레이크하우스를 구축할 수 있습니다.
이러한 확장성은 데이터 볼륨이 증가함에 따라 품질을 유지하는 데 매우 중요합니다. 2025년 1월 벤치마크 연구에 따르면 조직의 87.4%가 기존 데이터 품질 프레임워크가 7페타바이트를 초과하는 환경에서는 운영상 지속 가능하지 않다고 응답했습니다.2
이 프레임워크는 데이터 수명 주기 전반에 걸쳐 데이터를 브론즈, 실버 및 골드의 세 가지 계층으로 구성하며, 각 단계에서 데이터 품질을 향상시킵니다.
골드 계층은 AI 준비 상태도 강화합니다. 이 계층은 고품질의 AI 준비 데이터를 ML 파이프라인에 직접 제공하며, 이를 통해 모델 정확도를 높이고 데이터 준비 작업을 줄일 수 있습니다.
이러한 구조화된 데이터 진행 방식은 모든 최종 데이터 파일이 변환 과정을 거쳐 원래 상태까지 역추적될 수 있도록 보장합니다. 또한 각 계층의 목적에 따라 데이터 스토리지 및 컴퓨팅 리소스를 최적화할 수 있으므로 비용을 더 예측 가능하고 종종 더 낮게 유지할 수 있습니다.
데이터 레이크하우스는 다음과 같은 주요 기능을 제공합니다.
Apache Parquet 또는 ORC와 같은 오픈 컬럼형 스토리지 형식(또는 오픈 데이터 형식)은 효율적인 압축, 컬럼 프루닝 및 프레디케이트 푸시다운을 통해 쿼리 성능을 향상시키고 스토리지 비용을 절감합니다. 이러한 형식은 널리 사용되는 분석 엔진과 호환되며, 이를 통해 조직은 동일한 데이터에 동시에 액세스할 수 있습니다. 이 기능은 조직이 공급업체 종속을 피하고 서로 다른 툴 간 상호 운용성을 확보하는 데 도움이 됩니다.
대부분의 데이터 레이크하우스는 ACID 트랜잭션을 제공하기 위해 Apache Iceberg, Apache Hudi 및 Delta Lake와 같은 오픈 테이블 형식을 사용합니다. 삽입, 업데이트 및 삭제와 같은 이러한 트랜잭션은 데이터 작업 중과 이후에도 데이터가 일관되고 신뢰할 수 있도록 보장합니다.
단일 데이터 스토리지 시스템은 모든 비즈니스 데이터 요구를 충족할 수 있는 중앙 집중형 플랫폼을 구축하며, 이를 통해 시스템과 팀 전반의 데이터 사일로 및 중복을 줄일 수 있습니다. 또한 이러한 통합은 다양한 데이터 파이프라인과 시스템 간 데이터 이동을 크게 줄여 엔드투엔드 데이터 관측 가능성을 간소화합니다.
데이터 레이크하우스는 저비용 클라우드 오브젝트 스토리지를 활용하므로 대규모 데이터 볼륨과 워크로드에서 기존 데이터 웨어하우스보다 더 비용 효율적입니다. 데이터 레이크하우스의 하이브리드 아키텍처는 여러 데이터 스토리지 시스템을 유지 관리할 필요를 없애주며, 이를 통해 운영 비용을 줄일 수 있는 경우가 많습니다.
데이터 레이크하우스는 데이터 관리 수명 주기 전반의 다양한 사용 사례를 지원할 수 있습니다. 동일한 데이터를 기반으로 비즈니스 인텔리전스 및 데이터 기반 시각화 워크플로는 물론 머신 러닝 모델 학습이나 실시간 분석과 같은 더 복잡한 데이터 과학 프로젝트도 지원할 수 있습니다.
데이터 레이크하우스는 스토리지와 컴퓨팅을 분리해 데이터 팀이 이를 각각 독립적으로 확장할 수 있도록 지원합니다. 이러한 분리는 서로 다른 애플리케이션에서 서로 다른 컴퓨팅 엔진이나 노드를 사용하면서도 동일한 데이터에 액세스할 수 있는 유연성을 제공합니다.
데이터 레이크하우스는 단순히 데이터 웨어하우스와 데이터 레이크를 결합한 것이 아닙니다. 이는 두 기술의 장점을 하나의 플랫폼에 통합한 통합 아키텍처입니다.
데이터 웨어하우스는 정형 분석을 위해 구축되었습니다. 이들은 기업 데이터를 저장하고 변환함으로써 비즈니스 인텔리전스 애플리케이션 및 보고 작업에서 뛰어난 성능을 제공합니다.
그러나 데이터 웨어하우스는 데이터 레이크만큼의 유연성을 제공하지 못합니다. 데이터 볼륨과 워크로드가 증가함에 따라 비효율성과 비용 문제로 인해 한계가 발생합니다. 데이터 웨어하우징은 엄격한 스키마를 요구하며, 이는 데이터가 데이터 저장소에 수집되기 전에 미리 정의된 모델에 맞아야 함을 의미합니다(schema-on-write). 이러한 제약 때문에 데이터 웨어하우스는 AI 및 ML 사용 사례에 중요한 비정형 또는 반정형 데이터와 잘 맞지 않습니다.
데이터 레이크는 조직이 다양한 소스의 정형, 비정형 및 반정형 데이터를 모두 한곳에 저장할 수 있도록 지원합니다. 데이터 레이크는 schema-on-read 방식을 사용하므로 데이터 모델은 저장 시점이 아니라 데이터 사용 시점에 적용됩니다. 또한 일반적으로 더 확장 가능하고 비용 효율적인 데이터 스토리지(주로 클라우드 오브젝트 스토리지)를 제공합니다.
그러나 데이터 레이크에는 기본 제공 데이터 처리 툴이 없으며 분석 작업을 수행하기 위해 외부 기능에 의존합니다. 또한 데이터 레이크의 규모와 복잡성으로 인해 데이터 과학자 및 데이터 엔지니어와 같은 더 전문적인 사용자의 역량이 필요할 수 있습니다. 또한 데이터 거버넌스가 다운스트림에서 이루어지기 때문에 데이터 레이크는 데이터 사일로에 취약할 수 있으며, 결과적으로 관리 부실로 인해 유용한 데이터에 접근할 수 없는 데이터 스웜프로 전락할 수 있습니다.
데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 문제를 해결하고, 이들의 장점을 하나의 플랫폼에 통합하도록 설계되었습니다. 데이터 레이크하우스는 다양한 데이터 유형을 지원하는 유연하고 저비용의 스토리지를 활용하는 동시에, 단일 아키텍처 내에서 BI, 분석 및 AI/ML 워크로드를 지원하기 위한 데이터 관리 및 고성능 기능도 제공합니다.
IBM® Software의 수석 제품 관리자 Anson Kokkat은 현대 AI 프로그램에서 레이크하우스의 중요성을 다음과 같이 강조합니다.
“AI 모델의 성능은 그 기반이 되는 거버넌스 적용 및 확장 가능한 데이터 플랫폼의 수준만큼만 뛰어납니다. 적절한 데이터 레이크하우스는 원시 기업 데이터를 운영 가능한 AI로 전환하는 기반이 됩니다.” 오픈 아키텍처를 기반으로 구축되면 이는 AI 유연성으로 이어집니다. 즉, 특정 엔진에 종속되지 않고 Presto, Apache Spark, OpenSearch 및 Cassandra와 같은 기존 오픈 소스 툴과 통합할 수 있습니다.”
또 다른 주요 이점은 조직이 기존 데이터 레이크 및 데이터 웨어하우스를 완전히 해체하고 재구축하지 않고도 데이터 레이크하우스를 함께 구현할 수 있다는 점입니다.
오늘날 많은 공급자가 오픈 데이터 레이크하우스를 제공하고 있습니다. 이 아키텍처는 Parquet, Avro 및 Apache ORC와 같은 공급업체 독립적인 형식으로 대규모 데이터를 저장하기 위한 오픈 데이터 및 오픈 형식을 지원합니다. 또한 Apache Iceberg를 활용해 오픈 테이블 형식을 통해 대규모 데이터를 공유할 수도 있습니다.
데이터 레이크하우스의 일반적인 과제로는 복잡한 구현(기존 데이터 플랫폼에서의 마이그레이션 포함), 통합 데이터 액세스와 데이터 거버넌스 및 보안 간의 균형 유지, 그리고 데이터 볼륨 증가 시에도 최적의 쿼리 성능을 보장하는 문제가 있습니다.
예. 데이터 레이크하우스는 강력한 거버넌스를 기반으로 대규모의 다양한 데이터에 대한 통합 액세스를 제공함으로써 AI 및 ML 워크로드를 지원합니다. 또한 공급업체 종속을 방지하고 스토리지 계층과 ML 프레임워크 간 직접 통합을 가능하게 하기 위해 오픈 데이터 및 오픈 테이블 형식을 사용합니다.
데이터 스웜프를 방지하려면 강력한 데이터 거버넌스, 데이터 품질 및 데이터 보안 관행이 필요합니다. 또한 계층형(메달리온) 스토리지 아키텍처는 데이터를 체계적으로 유지하며, ACID 트랜잭션을 지원하는 오픈 테이블 형식은 데이터 무결성, 일관성 및 신뢰성을 보장하는 데 도움이 됩니다.
직관적인 그래픽 인터페이스를 통해 스트리밍 데이터 파이프라인을 생성하여 하이브리드 및 멀티클라우드 환경 전반에서 완벽한 데이터 통합을 촉진합니다.
watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.
1 데이터 레이크하우스 아키텍처: 기업 데이터 관리의 진화, Journal of Computer Science and Technology Studies, 2025년 6월 23일.
2 데이터 레이크하우스 구현: 기존 데이터 웨어하우스에서의 전환 과정, World Journal of Advanced Engineering Technology and Sciences, 2025년 2월 26일.
3 데이터 레이크하우스: 조사 및 실험 연구, Science Direct, 2024년 9월 26일.
4 양자 컴퓨팅을 사용한 실제 환경에서의 사고 대응 시간 최소화, Springer Nature Link, 2023년 5월 26일.