topics data warehouse 데이터 웨어하우스란?
IBM의 데이터 웨어하우스 솔루션 살펴보기 AI 업데이트 구독
구름의 픽토그램, 파이 차트, 그래프 픽토그램의 콜라주가 있는 그림
데이터 웨어하우스란?

데이터 웨어하우스 또는 엔터프라이즈 데이터 웨어하우스(EDW)는 다양한 소스의 데이터를 일관된 중앙 집중식 단일 데이터 저장소로 집계하여 데이터 분석, 데이터 마이닝, 인공 지능(AI)머신 러닝 을 지원하는 시스템입니다.

 

데이터 웨어하우스 시스템을 사용하면 표준 데이터베이스에서는 불가능한 방식으로 대량의 데이터(페타바이트 및 페타바이트급)에 대해 강력한 분석을 실행할 수 있습니다.

데이터 웨어하우징 시스템은 30년 넘게 비즈니스 인텔리전스(BI) 솔루션의 일부였지만 최근 새로운 데이터 유형 및 데이터 호스팅 방법의 등장으로 발전했습니다. 일반적으로 데이터 웨어하우스는 온-프레미스(주로 메인프레임 컴퓨터)에서 호스팅되었으며 해당 기능은 다른 원본에서 데이터를 추출하고, 데이터를 정리 및 준비하고, 관계형 데이터베이스에서 데이터를 로드 및 유지 관리하는 데 중점을 두었습니다. 최근에는 데이터 웨어하우스가 전용 어플라이언스 또는 클라우드에서 호스팅될 수 있으며, 대부분의 데이터 웨어하우스에는 분석 기능과 데이터 시각화 및 프레젠테이션 툴이 추가되었습니다.

AI 거버넌스로 책임감 있는 AI 워크플로 구축

팀이 책임감 있는 AI를 가속화하는 데 도움이 되는 구성 요소와 모범 사례를 알아보세요.

관련 내용

Presto에서 eBook 등록하기

데이터 웨어하우스 아키텍처

일반적으로 데이터 웨어하우스는 다음과 같이 구성된 3계층 아키텍처를 가지고 있습니다:
 

  • 하위 계층: 하위 계층은 일반적으로 관계형 데이터베이스 시스템인 데이터 웨어하우스 서버로 구성되며, 이 서버는 ETL (Extract, Transform and Load) 이라는 프로세스 또는 ELT (Extract, Load 및 Transform) 라는 프로세스를 통해 여러 데이터 원본에서 데이터를 수집, 정리 및 변환합니다. ETL을 사용하는 대부분의 조직에서 프로세스는 자동화에 의존하며 효율적이고 잘 정의되어 있으며 연속적이고 배치 중심입니다.
     

  • 중간 계층: 중간 계층은 빠른 쿼리 속도를 지원하는 OLAP(온라인 분석 처리) 서버로 구성됩니다. 이 계층에서는 세 가지 유형의 OLAP 모델을 사용할 수 있으며, ROLAP, MOLAP 및 HOLAP으로 알려져 있습니다. 사용되는 OLAP 모델 유형은 존재하는 데이터베이스 시스템 유형에 따라 다릅니다.
     

  • 최상위 계층: 최상위 계층은 일종의 프런트 엔드 사용자 인터페이스 또는 보고 툴로 표시되며, 이를 통해 최종 사용자는 비즈니스 데이터에 대한 임시 데이터 분석을 수행할 수 있습니다.

데이터 웨어하우스 아키텍처의 간략한 역사

대부분의 데이터 웨어하우스는 온프레미스 또는 클라우드에서 데이터가 저장되고 처리되는 관계형 데이터베이스 시스템을 중심으로 구축됩니다. 다른 구성 요소에는 메타데이터 관리 시스템과 API 연결 계층이 포함되어 있어 웨어하우스가 조직 소스에서 데이터를 가져오고 분석 및 시각화 툴에 대한 액세스를 제공할 수 있습니다.

일반적인 데이터 웨어하우스에는 중앙 데이터베이스, ETL 툴, 메타데이터 및 액세스 툴의 네 가지 주요 구성 요소가 있습니다. 이러한 모든 구성 요소는 신속하게 결과를 얻고 데이터를 즉시 분석할 수 있도록 속도를 위해 설계되었습니다.

데이터 웨어하우스는 수십 년 동안 존재해 왔습니다. 1980년대에 탄생한 이 회사는 데이터에 대한 분석을 최적화해야 할 필요성을 해결했습니다. 기업의 비즈니스 애플리케이션이 성장하고 더 많은 데이터를 생성/저장하기 시작함에 따라 데이터를 관리하고 분석할 수 있는 데이터 웨어하우스 시스템이 필요했습니다. 높은 수준에서 데이터베이스 관리자는 운영 체제에서 데이터를 가져와서 데이터 웨어하우스에 로드하기 전에 변환 을 통해 스키마를 추가할 수 있습니다.

데이터 웨어하우스 아키텍처가 발전하고 인기가 높아짐에 따라 회사 내에서 더 많은 사람들이 데이터 웨어하우스를 사용하여 데이터에 액세스하기 시작했으며 데이터 웨어하우스를 통해 구조화된 데이터로 쉽게 액세스할 수 있게 되었습니다. 이때 메타데이터가 중요해졌습니다. 보고 및 대시보드가 주요 사용 사례가 되었으며 SQL(구조화된 쿼리 언어)은 해당 데이터와 상호 작용하는 사실상의 방법이 되었습니다.

데이터 웨어하우스 아키텍처의 구성 요소

각 구성 요소를 자세히 살펴보겠습니다.

ETL

데이터베이스 분석가가 데이터 원본에서 데이터 웨어하우스로 데이터를 이동하려는 경우 이 프로세스를 사용합니다. 간단히 말해서 ETL은 데이터를 사용 가능한 형식으로 변환하여 데이터 웨어하우스에 있으면 분석/쿼리 등을 수행할 수 있습니다. 

메타데이터

메타데이터는 데이터에 대한 데이터입니다. 기본적으로 검색 가능하도록 시스템에 저장된 모든 데이터를 설명합니다. 메타데이터의 몇 가지 예로는 작성자, 기사의 날짜 또는 위치, 파일 생성 날짜, 파일 크기 등이 있습니다. 스프레드시트의 열 제목과 같다고 생각하면 됩니다. 메타데이터를 사용하면 데이터를 사용할 수 있도록 구성할 수 있으므로 데이터를 분석하여 대시보드와 보고서를 만들 수 있습니다.

SQL 쿼리 프로세싱

SQL은 데이터 쿼리를 위한 사실상의 표준 언어입니다. 분석가가 데이터 웨어하우스에 저장된 데이터에서 인사이트를 추출하는 데 사용하는 언어입니다. 일반적으로 데이터 웨어하우스에는 컴퓨팅과 밀접하게 결합된 독점적인 SQL 쿼리 처리 기술이 있습니다. 이를 통해 분석과 관련하여 매우 높은 성능을 얻을 수 있습니다. 그러나 한 가지 주의할 점은 데이터 웨어하우스 비용이 데이터 및 SQL 컴퓨팅 리소스가 많을수록 비싸지기 시작할 수 있다는 것입니다.

데이터 계층

데이터 계층은 사용자가 실제로 데이터에 액세스할 수 있도록 하는 액세스 계층입니다. 이곳은 일반적으로 데이터 마트를 찾을 수 있는 곳입니다. 이 계층은 액세스 권한을 부여하려는 사용자에 따라 데이터 세그먼트를 분할하므로 조직 전체에 대해 매우 세분화할 수 있습니다. 예를 들어, 영업 팀에 HR 팀의 데이터에 대한 액세스 권한을 부여하지 않을 수 있으며 그 반대의 경우도 마찬가지입니다.

거버넌스 및 보안

이는 조직의 모든 데이터에 대해 세분화된 액세스 및 보안 정책을 제공할 수 있어야 한다는 점에서 데이터 계층과 관련이 있습니다. 일반적으로 데이터 웨어하우스에는 매우 우수한 데이터 거버넌스 및 보안 기능이 내장되어 있으므로 이를 포함하기 위해 많은 사용자 지정 데이터 엔지니어링 작업을 수행할 필요가 없습니다. 웨어하우스에 더 많은 데이터를 추가하고 회사가 성장함에 따라 거버넌스 및 보안을 계획하는 것이 중요합니다.

+ 데이터 웨어하우스 액세스 툴

액세스 툴은 데이터 웨어하우스 외부에 있지만 비즈니스 사용자 친화적인 프런트 엔드로 볼 수 있습니다. 여기서는 데이터 분석가와 비즈니스 사용자가 데이터와 상호 작용하고 통찰력을 추출하며 나머지 비즈니스에서 사용할 수 있는 시각화를 생성하는 데 사용하는 보고 및 시각화 툴을 찾을 수 있습니다. 이러한 툴의 예로는 Tableau, Looker 및 Qlik이 있습니다.

데이터 웨어하우스에서의 OLAP 및 OLTP에 대한 이해

OLAP (온라인 분석 처리) 은 데이터 웨어하우스와 같은 통합된 중앙 집중식 데이터 저장소의 대용량 데이터에 대해 고속으로 다차원 분석을 수행하기 위한 소프트웨어입니다. OLTP (온라인 트랜잭션 처리) 를 사용하면 일반적으로 인터넷을 통해 많은 사람이 대량의 데이터베이스 트랜잭션을 실시간으로 실행할 수 있습니다. OLAP와 OLTP의 주요 차이점은 이름에 있습니다. OLAP는 본질적으로 분석적이고 OLTP는 트랜잭션입니다. 

OLAP 툴은 과거 데이터와 트랜잭션 데이터를 모두 포함하는 데이터 웨어하우스의 데이터를 다차원 분석하기 위해 설계되었습니다. OLAP의 일반적인 용도로는 데이터 마이닝 및 기타 비즈니스 인텔리전스 애플리케이션, 복잡한 분석 계산 및 예측 시나리오뿐만 아니라 재무 분석, 예산 책정 및 예측 계획과 같은 비즈니스 보고 기능이 있습니다.

OLTP는 최근 트랜잭션을 가능한 한 빠르고 정확하게 처리하여 트랜잭션 지향 애플리케이션을 지원하도록 설계되었습니다. OLTP의 일반적인 용도로는 ATM, 전자 상거래 소프트웨어, 신용 카드 결제 처리, 온라인 예약, 예약 시스템 및 기록 보관 툴이 있습니다.

이러한 접근 방식의 차이점에 대한 자세한 내용은 'OLAP 및 OLTP 비교: 차이점은 무엇인가요?를 참조하세요. 

데이터 웨어하우스의 스키마

스키마는 데이터베이스 또는 데이터 웨어하우스 내에서 데이터를 구성하는 방법입니다. 스키마 구조에는 별모양 스키마와 눈송이 스키마의 두 가지 주요 유형이 있으며, 이는 데이터 모델의 디자인에 영향을 미칩니다.

스타 스키마: 이 스키마는 여러 비정규화된 차원 테이블에 조인할 수 있는 하나의 팩트 테이블로 구성됩니다. 가장 간단하고 일반적인 유형의 스키마로 간주되며 사용자는 쿼리하는 동안 더 빠른 속도의 이점을 누릴 수 있습니다.

눈송이 스키마: 널리 채택되지는 않았지만 눈송이 스키마는 데이터 웨어하우스의 또 다른 조직 구조입니다. 이 경우 팩트 테이블은 여러 개의 정규화된 차원 테이블에 연결되며 이러한 차원 테이블에는 자식 테이블이 있습니다. Snowflake 스키마 사용자는 낮은 수준의 데이터 중복성의 이점을 누릴 수 있지만 쿼리 성능에 비용이 듭니다. 

데이터 웨어하우스 vs. 데이터베이스, 데이터 레이크, 데이터 마트

데이터 웨어하우스, 데이터베이스, 데이터 레이크 및 데이터 마트는 모두 같은 의미로 사용되는 경향이 있는 용어입니다. 용어는 유사하지만 중요한 차이점이 있습니다.

데이터 웨어하우스와 데이터 레이크
 

데이터 웨어하우스는 데이터 파이프라인 을 사용하여 여러 소스의 원시 데이터를 데이터 분석을 위해 설계된 사전 정의된 스키마를 사용하여 구조화된 중앙 리포지토리로 수집합니다. 데이터 레이크는 사전 정의된 스키마가 없는 데이터 웨어하우스입니다. 결과적으로 데이터 웨어하우스보다 더 많은 유형의 분석을 가능하게 합니다. 데이터 레이크는 일반적으로 Apache Hadoop과 같은 빅데이터 플랫폼을 기반으로 구축됩니다.

데이터 웨어하우스와 데이터 마트
 

데이터 마트는 특정 비즈니스 라인 또는 부서와 관련된 데이터를 포함하는 데이터 웨어하우스의 하위 집합입니다. 데이터 마트에는 더 작은 데이터 하위 집합이 포함되어 있으므로, 부서 또는 비즈니스 라인은 더 광범위한 데이터 웨어하우스 데이터 집합으로 작업할 때 보다 집중적인 인사이트를 가능한 한 빨리 발견할 수 있습니다.

데이터 웨어하우스와 데이터베이스
 

데이터베이스는 주로 분석이 아닌 빠른 쿼리 및 트랜잭션 처리를 위해 구축됩니다. 데이터베이스는 일반적으로 특정 응용 프로그램에 대한 포커스 데이터 저장소 역할을 하는 반면, 데이터 웨어하우스는 조직에 있는 모든 응용 프로그램의 데이터를 저장합니다.

데이터베이스는 실시간 데이터 업데이트에 중점을 두는 반면, 데이터 웨어하우스는 예측 분석, 기계 학습 및 기타 고급 분석을 위해 현재 및 과거 데이터를 캡처하는 범위가 더 넓습니다.

데이터 웨어하우스의 유형

클라우드 데이터 웨어하우스
 

클라우드 데이터 웨어하우스는 클라우드에서 실행되도록 특별히 구축된 데이터 웨어하우스로, 고객에게 매니지드 서비스로 제공됩니다. 클라우드 기반 데이터 웨어하우스는 더 많은 기업이 클라우드 컴퓨팅 서비스를 사용하고 온프레미스 데이터 센터 설치 공간을 줄이려고 함에 따라 지난 5-7년 동안 더욱 인기를 얻었습니다.

클라우드 데이터 웨어하우스를 사용하면 물리적 데이터 웨어하우스 인프라가 클라우드 회사에서 관리되므로 고객은 하드웨어 또는 소프트웨어에 미리 투자할 필요가 없으며 데이터 웨어하우스 솔루션을 관리하거나 유지 관리할 필요가 없습니다.

데이터 웨어하우스 소프트웨어(온프레미스/라이센스)
 

기업은 데이터 웨어하우스 라이선스를 구매한 다음, 자체 온-프레미스 인프라에 데이터 웨어하우스를 배포할 수 있습니다. 이는 일반적으로 클라우드 데이터 웨어하우스 서비스보다 비용이 많이 들지만 데이터에 대한 더 많은 제어를 원하거나 엄격한 보안 또는 데이터 개인 정보 보호 표준 또는 규정을 준수해야 하는 정부 기관, 금융 기관 또는 기타 조직에 더 나은 선택일 수 있습니다.

데이터 웨어하우스 어플라이언스
 

데이터 웨어하우스 어플라이언스는 CPU, 스토리지, 운영 체제, 데이터 웨어하우스 소프트웨어 등 하드웨어와 소프트웨어가 사전 통합된 번들로, 기업에서 네트워크에 연결하여 그대로 사용할 수 있습니다. 데이터 웨어하우스 어플라이언스는 초기 비용, 배포 속도, 확장성 용이성, 데이터 관리 제어 측면에서 클라우드와 온프레미스 구현의 중간 정도에 위치합니다.

데이터 웨어하우스의 이점

데이터 웨어하우스는 다음에 대한 기반을 제공합니다.

  • 더 나은 데이터 품질: 데이터 웨어하우스는 트랜잭션 시스템, 운영 데이터베이스, 플랫 파일과 같은 다양한 데이터 소스의 데이터를 중앙 집중화합니다. 그런 다음 운영 데이터를 정리하고, 중복을 제거하고, 표준화하여 단일 정보 소스를 생성합니다.

  • 더 빠른 비즈니스 통찰력: 서로 다른 출처의 데이터는 의사 결정권자가 자신 있게 비즈니스 전략을 수립할 수 있는 능력을 제한합니다. 데이터 웨어하우스는 데이터 통합을 가능하게 하여 비즈니스 사용자가 회사의 모든 데이터를 각 비즈니스 의사 결정에 활용할 수 있도록 합니다. 데이터 웨어하우스 데이터를 사용하면 엔지니어링 라이프사이클 관리(ELM) 앱에서 수집된 데이터 간의 테마, 추세, 집계 및 기타 관계에 대해 보고할 수 있습니다.

  • 더 스마트한 의사 결정:  데이터 웨어하우스는 데이터 마이닝(데이터에서 보이지 않는 패턴과 관계 찾기), 인공 지능 및 기계 학습과 같은 대규모 BI 기능을 지원하며, 데이터 전문가와 비즈니스 리더는 비즈니스 프로세스에서 재무 관리 및 재고 관리에 이르기까지 조직의 거의 모든 영역에서 더 현명한 결정을 내리기 위한 확실한 증거를 얻는 데 사용할 수 있습니다.

  • 경쟁 우위 획득 및 성장: 위의 모든 사항이 결합되어 조직은 서로 다른 데이터 저장소에서 가능한 것보다 더 빠르게 데이터에서 더 많은 기회를 찾을 수 있습니다.
데이터 웨어하우스 아키텍처의 문제점

기업이 더 많은 데이터를 수용하기 시작하고 고급 분석 및 광범위한 데이터가 필요함에 따라 데이터 웨어하우스는 비용이 많이 들고 유연성이 떨어지기 시작합니다. 비정형 또는 반정형 데이터를 분석하려는 경우 데이터 웨어하우스가 작동하지 않습니다. 더 많은 기업이 데이터 레이크하우스 아키텍처로 전환하고 있으며, 이는 위의 문제를 해결하는 데 도움이 됩니다. 개방형 데이터 레이크하우스를 사용하면 개방적이고 유연한 아키텍처에서 모든 종류의 데이터에 대해 웨어하우스 워크로드를 실행할 수 있습니다. 이 데이터는 비즈니스 통찰력을 얻기 위해 데이터를 연구하는 데이터 과학자 및 엔지니어도 사용할 수 있습니다. 긴밀하게 결합된 시스템 대신 데이터 레이크하우스는 훨씬 더 유연하며 사진, 비디오, IoT 데이터 등과 같은 비정형 및 반정형 데이터도 관리할 수 있습니다.

데이터 레이크하우스는 보고 및 대시보드 워크로드 외에도 데이터 과학, ML 및 AI 워크로드를 지원할 수 있습니다. 데이터 웨어하우스 아키텍처에서 업그레이드하려는 경우 개방형 데이터 레이크하우스를 개발하는 것이 좋습니다.

관련 솔루션
데이터 웨어하우스 솔루션

IBM 데이터 웨어하우스 솔루션은 머신 러닝을 포함한 분석 워크로드에 대해 정형 및 비정형 데이터를 지원할 수 있는 성능과 유연성을 제공합니다.

데이터 웨어하우스 솔루션 살펴보기
Db2 Warehouse on Cloud

고성능 분석 및 AI를 위해 구축된 탄력적인 완전 관리형 클라우드 데이터 웨어하우스의 기능을 살펴보세요.

클라우드의 Db2 웨어하우스 살펴보기
IBM Cloud Pak for Data

IBM Cloud Pak® for Data는 온프레미스 및 클라우드에서 비즈니스 사일로에서 데이터 분석, 구성 및 관리를 위한 통합 소프트웨어 구성요소의 모듈형 세트입니다.

IBM Cloud Pak for Data 알아보기
리소스 데이터 및 AI 과제를 해결하는 데 적합한 엔터프라이즈 데이터 웨어하우스 찾기

AI는 엔터프라이즈 데이터 웨어하우스와 데이터 마트가 극복하는 데 도움이 될 수 있는 여러 가지 문제를 제시할 수 있습니다. 이러한 솔루션이 제공할 수 있는 총 가치를 평가하는 방법을 알아보세요.

AI에 적합한 데이터 웨어하우스를 선택하는 방법

엔터프라이즈 데이터 웨어하우스를 선택하기 위해 기업은 AI의 영향, 주요 웨어하우스 차별화 요소 및 다양한 배포 모델을 고려해야 합니다. 이 전자책은 바로 그 일을 하는 데 도움이 됩니다.

데이터 차별화 요소

데이터 기반 조직을 구축하고 비즈니스 우위를 확보하기 위한 가이드입니다.

다음 단계 안내

오픈 데이터 레이크하우스 아키텍처를 기반으로 특별 제작된 데이터 저장소인 IBM watsonx.data를 통해 어디서나 모든 데이터에 대한 AI 워크로드를 확장할 수 있습니다.

watsonx.data 살펴보기 라이브 데모 예약하기