데이터 웨어하우징 시스템은 운영 데이터베이스, 트랜잭션 시스템 및 고객 관계 관리(CRM) 플랫폼을 포함한 광범위한 소스 시스템에서 대량의 데이터를 수집할 수 있습니다. 셀프서비스 분석 툴을 사용하면 비즈니스 사용자가 이 데이터를 탐색하고 분석하여 중요한 인사이트를 얻을 수 있습니다.
데이터 웨어하우스의 개념은 1980년대에 서로 다른 데이터를 분석을 위해 일관된 형식으로 통합하기 위해 등장했습니다. 월드와이드웹, 소셜 미디어, 사물인터넷(IoT)과 같은 새로운 데이터 소스의 수가 급증하면서 더 큰 스토리지 용량과 더 빠른 분석에 대한 요구가 커졌습니다.
데이터 웨어하우스는 데이터 분석에 맞게 구성되고 최적화되어 있기 때문에 일반적으로 구조화되지 않은 대량의 원시 빅데이터를 저장하는 데는 적합하지 않습니다. 웨어하우스의 데이터 양이 증가함에 따라 스토리지 비용과 복잡성도 함께 증가합니다. 지연 시간 및 성능 문제도 발생할 수 있습니다.
이에 따라 클라우드 네이티브 데이터 웨어하우스와 데이터 레이크하우스를 포함하여 보다 유연한 대안이 등장했습니다. (자세한 내용은 '데이터 웨어하우스와 데이터 레이크하우스 비교'를 참조하세요.)
데이터 웨어하우스는 분석을 위해 데이터 변환하도록 설계된 3계층 아키텍처를 사용하는 경우가 많습니다.
데이터는 여러 소스 시스템에서 데이터 웨어하우스 서버로 이동하여 저장됩니다. 전통적으로, 데이터는 추출, 변환, 로드(ETL) 데이터 통합 프로세스를 통해 이동하는데, 이 프로세스는 자동화를 사용하여 데이터를 정리한 후 웨어하우스에 로드합니다.
데이터 웨어하우스는 주로 정형 데이터를 저장하므로, 데이터 변환은 데이터 로드 전에 발생합니다. 일부 현대식 웨어하우스는 추출, 로드, 변환(ELT) 프로세스를 사용합니다. 즉, 데이터를 웨어하우스에 로드한 후에 변환합니다. 이 방법은 표준화된 형식이 필요 없이 비정형 및 반정형 데이터를 저장할 수 있는 데이터 레이크에서 일반적으로 사용됩니다.
이 계층에는 종종 온라인 분석 처리(OLAP) 시스템으로 구동되는 분석 엔진이 포함되어 있습니다. 많은 데이터 웨어하우스를 포함한 기존의 관계형 데이터베이스는 다차원 데이터를 저장할 수 있지만(예: 판매 수치에는 위치, 시간, 제품 등 여러 차원이 있을 수 있음), 다차원 쿼리에는 최적화되어 있지 않습니다.
OLAP 시스템은 대량의 데이터에 대한 고속의 복잡한 쿼리 및 다차원 분석을 위해 설계되었습니다. '큐브'(배열 기반 다차원 데이터 구조)를 사용하여 여러 차원에서 더 빠르고 유연한 분석을 가능하게 합니다. 일반적인 사용 사례에는 데이터 마이닝, 재무 분석, 예산 책정 및 예측 계획이 포함됩니다.
OLAP과 OLTP의 비교: 온라인 트랜잭션 처리(OLTP) 시스템은 많은 사용자로부터 대량의 실시간 트랜잭션을 캡처하고 업데이트합니다. 반면, OLAP 시스템은 이미 캡처된 데이터를 분석합니다.
다음은 데이터 웨어하우스에서 사용할 수 있는 세 가지 유형의 OLAP입니다.
업계 뉴스레터
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
데이터 웨어하우스는 독점적인 온프레미스 시스템에서 유연한 클라우드 및 하이브리드 모델로 전환하면서 크게 발전했습니다.
지금까지 데이터 웨어하우스는 상용 하드웨어를 사용하여 온프레미스로 호스팅되었습니다. 이러한 시스템은 MPP(Massively Parallel Processing) 또는 SMP(Symmetric Multiprocessing) 아키텍처로 구성되었습니다. 또한 독립형 어플라이언스로도 제공되었습니다. 이러한 배포에는 상당한 투자가 필요합니다. 그러나 엄격한 규정 준수, 데이터 보안 또는 데이터 프라이버시 표준을 갖춘 부문의 조직에게는 효과적인 선택이 될 수 있습니다.
오늘날 많은 데이터 웨어하우스는 클라우드에서 실행되도록 구축되며, 페타바이트 규모의 데이터 스토리지, 확장성이 뛰어난 컴퓨팅 및 스토리지, 종량제 요금 등과 같은 클라우드 컴퓨팅의 이점을 제공합니다. 클라우드 기반 데이터 웨어하우스는 일반적으로 완전히 관리되는 서비스형 소프트웨어(SaaS) 오퍼링으로 제공되므로, 하드웨어나 소프트웨어에 대한 초기 투자가 필요하지 않습니다. 또한 이러한 서비스 제공은 인프라 관리에 필요한 리소스를 줄여주므로 조직은 분석과 인사이트에 집중할 수 있습니다.
기업들이 온프레미스 데이터 센터의 공간과 기존 인프라 지출을 줄이고 확장할 수 있는 민첩성을 추구함에 따라 클라우드 기반 데이터 웨어하우스의 인기가 높아지고 있습니다.
일부 조직에서는 온프레미스와 클라우드 데이터 웨어하우스의 장점을 결합한 하이브리드 모델을 채택할 수 있습니다. 이 접근 방식을 사용하면 온프레미스로 유지해야 하는 민감한 워크로드에 대한 제어를 유지하면서 클라우드의 확장성과 유연성을 활용할 수 있습니다.
데이터 웨어하우스에서 스키마는 데이터가 구성되는 방식을 정의합니다. 일반적으로 스키마 구조에는 별 스키마, 눈송이 스키마, 은하계 스키마(별자리 스키마라고도 함)의 세 가지가 있습니다.
이러한 스키마는 OLAP 시스템에서 데이터 검색 속도를 최적화하도록 설계된 전 차원 데이터 모델입니다. 차원 모델은 중복성을 높이기 때문에 보고 및 검색을 위한 정보를 더 쉽게 찾고 성능을 향상시킬 수 있습니다.
이러한 스키마에는 아래에 정의된 팩트 테이블과 차원 테이블이 포함되어 있습니다.
별 스키마는 차원 테이블로 둘러싸인 단일 중앙 팩트 테이블로 구성됩니다. 다이어그램에서 팩트 테이블은 별 패턴의 한가운데에 있는 것처럼 보일 수 있습니다. 별 스키마는 가장 간단하고 일반적인 스키마 유형으로 간주되며, 사용자에게 더 빠른 쿼리 속도를 제공합니다.
눈송이 스키마에는 많은 정규화된 차원 테이블에 연결된 중앙 팩트 테이블이 있으며, 다대일 관계를 통해 다른 차원 테이블에 연결될 수 있습니다. 이러한 복잡한 분기 패턴은 눈송이 모양처럼 보일 수 있습니다. 눈송이 스키마는 데이터 중복성 수준이 낮지만, 쿼리 성능이 느려지는 단점이 있습니다.
우리 은하에 많은 별이 있는 것처럼, 은하계 스키마에는 중복을 피하기 위해 정규화된 차원 테이블을 공유하는 많은 별 스키마가 있습니다. 은하 스키마는 매우 복잡한 데이터 웨어하우스에 가장 적합하지만, 사용자가 성능 저하를 경험할 수 있습니다.
일반적인 데이터 웨어하우스 아키텍처에는 데이터 웨어하우스를 위한 분석을 위한 데이터를 저장, 관리, 처리 및 전달하기 위해 함께 작동하는 여러 구성 요소가 있습니다.
ETL 툴은 소스 시스템에서 데이터를 추출하여 스테이징 영역에서 변환한 후 데이터 웨어하우스에 로드합니다. ELT에서는 데이터가 웨어하우스에 로드된 후 변환됩니다. Apache Spark와 같은 데이터 처리 프레임워크 툴은 데이터 변환을 관리하는 데 도움이 될 수 있습니다.
애플리케이션 프로그래밍 인터페이스(API)를 위한 연결 계층은 웨어하우스가 운영 시스템에서 데이터를 가져오고 운영 시스템과 통합하는 데 도움이 될 수 있습니다. API는 시각화 및 고급 분석 툴에 대한 액세스를 제공할 수도 있습니다.
일부 데이터 웨어하우스는 샌드박스, 즉 프로덕션 데이터 및 관련 분석 툴의 복사본이 포함된 차단된 테스트 환경을 제공합니다. 데이터 분석가와 데이터 과학자는 다른 사용자의 실제 데이터 웨어하우스 운영에 영향을 주지 않고 샌드박스에서 새로운 분석 기법을 실험해 볼 수 있습니다.
데이터 웨어하우스에는 다음과 같은 세 가지 주요 유형이 있습니다.
엔터프라이즈 데이터 웨어하우스(EDW)는 전체 기업에 서비스를 제공하는 데이터 웨어하우스이며, 모든 팀과 주제 영역에 대한 과거 데이터의 중앙 집중식 정보 저장소 역할을 합니다. 엔터프라이즈 데이터 웨어하우징 환경에는 운영 데이터 저장소(ODS) 및 부서별 데이터 마트도 포함될 수 있습니다.
운영 데이터 저장소(ODS)에는 운영 데이터의 최신 스냅샷이 포함되어 있습니다. ODS는 자주 업데이트되므로 실시간에 가까운 데이터에 빠르게 액세스할 수 있습니다. 조직은 일상적인 운영 의사 결정 및 실시간 분석을 위해 ODS를 사용하는 경우가 많습니다. 또한 EDW 또는 기타 데이터 시스템의 데이터 소스가 될 수도 있습니다.
데이터 마트는 기존 데이터 웨어하우스(또는 기타 데이터 소스)의 하위 집합이며, 전체 기업이 아닌 특정 사업 부문이나 부서에 맞게 조정된 데이터를 포함합니다. 예를 들어, 회사에는 마케팅 부서에 맞춘 데이터 마트가 있을 수 있습니다. 이러한 사용자는 더 광범위한 엔터프라이즈 데이터 세트를 살펴보지 않고도 고객 세분화 및 캠페인 성능에 대한 보다 집중적인 인사이트에 액세스할 수 있습니다.
데이터 웨어하우스, 데이터베이스, 데이터 레이크 및 데이터 레이크하우스라는 용어는 때때로 같은 의미로 사용되지만 중요한 차이점이 있습니다.
데이터베이스는 주로 자동화된 데이터 캡처와 빠른 트랜잭션 처리를 위해 구축된 파일 캐비닛과 같습니다. 일반적으로 특정 애플리케이션에 대한 집중 데이터 저장소 역할을 합니다. 데이터 웨어하우스는 조직에 있는 여러 애플리케이션의 데이터를 저장하며 예측 분석 및 기타 고급 분석을 위해 최적화되어 있습니다.
데이터 레이크는 엄청난 양의 원시 데이터를 저장하는 저비용 저장 솔루션이며, 사전 정의된 스키마가 아닌 스키마 온 리드(Schema-on-Read) 방식을 사용합니다. 데이터 레이크는 문서, 동영상, 사물인터넷(IoT) 로그 및 소셜 미디어 게시물과 같은 정형 데이터, 비정형 데이터 및 반정형 데이터를 저장할 수 있습니다.
데이터 레이크는 Apache Hadoop과 같은 빅데이터 플랫폼이나 Amazon Simple Storage Service(Amazon S3)와 같은 클라우드 오브젝트 스토리지 서비스를 기반으로 구축할 수 있습니다. 일반적으로 웨어하우스처럼 분석을 위해 데이터를 정리, 검증 또는 정규화하지 않습니다.
데이터 레이크하우스는 데이터 레이크하우스가 데이터 웨어하우스와 데이터 레이크의 측면, 즉 데이터 레이크의 저비용 유연성과 데이터 웨어하우스의 고성능을 병합합니다. 레이크하우스는 레이크와 웨어하우스의 주요 기능을 하나의 데이터 솔루션에 결합함으로써 대량의 정형, 비정형 및 실시간 데이터 스트림에 대한 데이터 처리를 가속화하여 머신 러닝, 데이터 과학, 인공 지능(AI) 워크로드를 지원할 수 있습니다.
데이터 레이크하우스는 공유 메타데이터, 분산되고 구조화된 쿼리 언어(SQL) 엔진과 같은 기능을 추가할 수도 있습니다.
데이터 웨어하우스는 조직 전체 사용자가 인사이트와 정보를 사용할 수 있도록 하여 다음과 같은 많은 이점을 제공합니다.
데이터 웨어하우스는 ELT 또는 ETL 프로세스를 통해 들어오는 데이터를 웨어하우스에 저장하기 전에 준비합니다. 이러한 준비에는 데이터 정리, 표준화 및 중복 제거와 같은 데이터 품질 방식이 포함됩니다. 강력한 데이터 거버넌스 정책 및 관행은 모든 사용자의 데이터 정확성과 무결성을 보장하는 데도 도움이 됩니다.
고품질 데이터를 단일 저장소로 통합함으로써 조직은 포괄적이고 신뢰할 수 있는 단일 소스를 만들 수 있으며, 이는 데이터 사일로를 제거하는 데 도움이 됩니다. 이 중앙 저장소는 비즈니스 사용자가 조직의 모든 관련 데이터에 자신 있게 액세스하여 비즈니스 의사 결정에 활용할 수 있게 합니다. 엔터프라이즈급 데이터 웨어하우스에는 Apache Iceberg, Parquet 및 CSV와 같은 오픈 소스 형식에 대한 지원도 포함될 수 있으므로 기업 전체에서 데이터 접근 및 공유를 더욱 활성화할 수 있습니다.
최신 데이터 웨어하우스는 깨끗하고 신뢰할 수 있는 데이터를 제공하여 다양한 AI 및 머신 러닝 워크플로를 지원할 수 있습니다. 데이터 과학자는 정제되고 검증된 웨어하우스 데이터를 사용하여 독점적인 생성형 AI 모델을 구축하거나 기존 모델을 미세 조정하여 고유한 비즈니스 요구 사항을 더 잘 충족할 수 있습니다.
AI 지원 데이터 웨어하우스는 데이터를 수집, 정리, 구성 및 구조화할 수 있을 뿐만 아니라, AI 및 머신 러닝 플랫폼으로의 데이터 흐름을 원활하게 할 수 있어야 합니다. 그러나 모든 최신 데이터 웨어하우스가 AI 워크로드에 최적화된 것은 아닙니다. 데이터 레이크하우스는 점점 더 AI 인프라를 위해 선택되는 데이터 플랫폼이 되고 있습니다.
데이터 웨어하우스는 다양한 소스의 데이터를 중앙 집중화하고 정리하여 신뢰할 수 있는 단일 소스를 생성함으로써 조직에 엔터프라이즈 데이터에 대한 포괄적이고 신뢰할 수 있는 보기를 제공합니다. 셀프 서비스 BI 툴을 사용하면 기업 전체의 사용자가 집계된 데이터에 대한 분석 쿼리에 액세스하고 실행할 수 있습니다.
이러한 방식으로 데이터 웨어하우스를 사용하면 기술 수준에 관계없이 모든 비즈니스 사용자가 주제, 트렌드 및 집계를 발견하고 보고할 수 있습니다. 비즈니스 리더는 이러한 인사이트를 활용하여 비즈니스 프로세스부터 재무 관리 및 재고 관리에 이르기까지 조직의 거의 모든 영역에서 확실한 증거를 기반하여 더 나은 정보에 입각한 의사 결정을 내리고 예측을 수행할 수 있습니다.
데이터 웨어하우스는 다음과 같은 산업별 용도를 제공할 수 있습니다.
데이터 웨어하우스의 분석 능력은 정부가 범죄, 인구 통계학적 추세 및 교통 패턴과 같은 복잡한 현상을 더 잘 이해하는 데 도움이 될 수 있습니다.
청구 및 진단 코드, 환자 인구 통계, 약물 및 검사 결과와 같은 서로 다른 데이터를 중앙 집중화하고 분석할 수 있는 기능을 통해 의료 서비스 제공자는 환자 결과, 운영 효율성 등에 대한 인사이트를 얻을 수 있습니다.
조직은 여행 및 숙박 시설 선택과 관련된 과거 데이터를 사용하여 고객에게 보다 정확하게 광고 및 프로모션을 타겟팅할 수 있습니다.
대량의 데이터를 생성하는 대규모 제조 기업은 데이터 웨어하우스 솔루션을 사용하여 각 부서의 요구에 맞는 데이터 마트를 구축할 수 있습니다.
직관적인 그래픽 인터페이스를 통해 스트리밍 데이터 파이프라인을 생성하여 하이브리드 및 멀티클라우드 환경 전반에서 완벽한 데이터 통합을 촉진합니다.
watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.