데이터 웨어하우스란?

2024년 10월 11일

작성자

Matthew Kosinski

Enterprise Technology Writer

데이터 웨어하우스란?

데이터 웨어하우스는 여러 소스의 데이터를 집계하여 단일, 중앙화되고 일관된 데이터 저장소로 구축하는 시스템입니다. 데이터 웨어하우스를 통해 데이터 분석, 비즈니스 인텔리전스(BI), 데이터 마이닝, 머신 러닝(ML)인공 지능(AI) 이니셔티브를 위한 데이터를 준비할 수 있습니다.

엔터프라이즈급의 데이터 웨어하우스 시스템을 사용하면 표준 데이터베이스에서는 불가능한 방식으로 대량의 데이터(페타바이트 이상)에 대해 강력한 분석을 실행할 수 있습니다. 데이터는 정형, 반정형 또는 비정형일 수 있습니다. 고객 관계 관리(CRM), 재고, 판매 시점(POS), 공급망 관리 시스템 등 여러 데이터베이스에서 데이터를 웨어하우스로 가져올 수 있습니다.

엔터프라이즈 데이터 웨어하우스(EDW) 시스템이라고도 하는 데이터 웨어하우징 시스템은 30년 넘게 비즈니스 인텔리전스 작업을 지원해 왔습니다. 이들의 기능은 다른 소스에서 데이터를 추출하고, 데이터를 정리 및 준비하고, 데이터를 로드하고 유지 관리하는 데 중점을 두며, 이러한 작업은 보통 관계형 데이터베이스에서 이루어집니다.

기존에는 데이터 웨어하우스가 온프레미스, 주로 메인프레임 컴퓨터에서 호스팅되었지만, 오늘날 많은 데이터 웨어하우스는 클라우드에서 호스팅되고 클라우드 서비스로 제공됩니다.

.

데이터 웨어하우스의 진화

데이터 웨어하우스는 통합 거래 데이터를 일관된 형식으로 사용할 수 있도록 하여 데이터 분석을 최적화하기 위해 1980년대에 탄생했습니다. 비즈니스 애플리케이션의 성능이 향상되고 World Wide Web, 소셜 미디어 및 사물인터넷(IoT)을 비롯한 새로운 데이터 소스가 폭발적으로 증가함에 따라 더 큰 스토리지와 더 빠른 분석에 대한 필요성이 커졌습니다.

데이터 웨어하우스가 더 많은 용량과 더 세분화된 데이터를 지원하도록 발전함에 따라 조직 내 더 많은 팀이 셀프 서비스 분석 기능을 위해 데이터에 대한 직접 액세스를 요청했습니다.

많은 조직이 기존 데이터 웨어하우스로는 이러한 새로운 대규모 워크로드를 관리할 수 없다는 사실을 깨달았습니다. 또한 많은 데이터 웨어하우스가 정형 데이터만 저장했기 때문에 분석의 다양성이 제한될 수 있습니다. 이에 따라 클라우드 네이티브 데이터 웨어하우스와 데이터 레이크하우스를 포함하여 보다 유연한 대안이 등장했습니다.(자세한 내용은 '데이터 레이크와 데이터 웨어하우스 비교' 참조)

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트

주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

데이터 웨어하우스 아키텍처

데이터를 빠르고 효율적으로 처리하기 위해 데이터 웨어하우스는 대부분 3계층 아키텍처를 사용합니다.

하위 계층

이 계층은 데이터가 서로 다른 데이터 소스에서 데이터 웨어하우스 서버로 흐르고 저장되는 곳입니다. 데이터는 대부분 추출, 변환, 로드(ETL) 라고 알려진 프로세스를 통해 이동하거나 때로는 추출, 로드, 변환(ELT)로 알려진 프로세스를 통해 이동합니다. 이러한 프로세스는 서로 다른 방식으로 실행되지만, 둘 다 자동화를 통해 데이터를 웨어하우스로 이동하고 분석에 사용하기 위해 준비합니다.

중간 계층

이 계층은 전통적으로 분석 엔진을 중심으로 구축되는데, 대부분은 빠른 분석 및 쿼리 속도를 제공하도록 설계된 OLAP(온라인 분석 처리) 시스템입니다. 이 계층에서는 세 가지 유형의 OLAP 모델을 사용할 수 있습니다.

 

  • 관계형 데이터베이스의 다차원 데이터 분석을 가능하게 하는 관계형 온라인 분석 처리(ROLAP)
  • 배열 기반 다차원 저장 엔진을 사용하여 다차원 데이터 뷰를 생성하는 다차원 온라인 분석 처리(MOLAP)입니다.
  • ROLAP 및 MOLAP 기능을 병합하는 하이브리드 온라인 분석 처리(HOLAP)

 

사용되는 OLAP 모델의 유형은 사용 중인 데이터베이스 시스템의 유형에 따라 다릅니다.

최상위 계층

이 계층에는 사용자가 비즈니스 데이터에 대한 임시 데이터 분석을 수행할 수 있는 프런트 엔드 사용자 인터페이스 또는 보고 툴이 포함됩니다. 셀프 서비스 비즈니스 인텔리전스는 과거 데이터를 기반으로 한 보고서 생성, 새로운 기회 식별 또는 프로세스 병목 현상 식별과 같은 다양한 용도로 사용됩니다.

OLAP 및 OLTP 이해

대부분의 데이터 웨어하우스는 OLAP 시스템을 사용하여 분석을 지원합니다. OLAP 소프트웨어는 데이터 웨어하우스와 같은 통합된 중앙 집중식 데이터 저장소의 대용량 데이터에 대해 고속으로 다차원 분석을 수행합니다.

비즈니스 데이터에는 여러 차원이 있는 경우가 많습니다. 예를 들어 판매 수치에는 위치(지역, 국가 및 매장), 시간(연도, 월, 주 및 일) 또는 제품(브랜드, 유형)과 관련된 여러 차원이 포함될 수 있습니다.

기존 관계형 데이터베이스에서 데이터는 행과 열 테이블로 구성되며, 한 번에 두 가지 차원(행에 한 차원, 열에 한 차원)만 나타낼 수 있어 이로 인해 분석이 번거로울 수 있습니다.

그러나 OLAP 시스템을 사용하면 한 번에 여러 차원에 따라 데이터를 분석할 수 있으므로 더 빠른 처리와 더 깊은 인사이트가 담긴 분석이 가능합니다. OLAP의 일반적인 용도로는 데이터 마이닝 및 비즈니스 인텔리전스 앱, 복잡한 분석 계산, 예측 시나리오, 예산 책정 및 예측이 있습니다.

OLAP은 온라인 트랜잭션 처리 또는 OLTP와 다릅니다. OLTP 시스템은 다수의 사용자에 의한 대량의 트랜잭션을 실시간으로 추적합니다. OLTP와 OLAP의 주요 차이점은 OLTP 시스템은 주로 데이터를 캡처하도록 설계된 반면, OLAP 시스템은 이미 캡처된 데이터를 분석한다는 점입니다.

OLTP 시스템은 관계형 데이터베이스를 사용하여 다음과 같은 트랜잭션을 기록하는 경우가 많습니다.

  • 뱅킹 및 ATM 거래
  • 전자 상거래 및 매장 구매
  • 호텔 및 항공편 예약

 

데이터 웨어하우스에는 일반적으로 OLTP 시스템이 포함되지 않지만, OLTP 시스템에 의해 데이터베이스에 기록된 데이터는 일반적으로 OLAP 시스템을 통해 분석을 수행할 수 있는 웨어하우스로 공급됩니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

데이터 웨어하우스의 스키마

데이터베이스 스키마는 데이터베이스 또는 데이터 웨어하우스 내에서 데이터를 구성하는 방법을 정의합니다. 데이터 웨어하우스에서 사용되는 스키마 구조에는 스타 스키마와 눈송이 스키마라는 두 가지 주요 유형이 있습니다.

별형 스키마와 눈송이형 스키마는 모두 데이터 검색 속도를 최적화하도록 설계된 차원 데이터 모델입니다. 차원 모델은 중복성을 높여 보고 및 검색을 위한 정보를 더 쉽게 찾을 수 있도록 합니다. 이 모델링은 일반적으로 OLAP 시스템 전반에서 사용됩니다.

별 스키마

이 스키마는 차원 테이블(즉, 판매 날짜 및 판매 대상 산업과 같이 팩트를 그룹화하고 구성하는 방법을 보여주는 참조 정보)에 조인된 하나의 팩트 테이블(판매된 제품 및 현금 판매액과 같은 측정 가능한 항목 포함)로 구성됩니다.

다이어그램에서 팩트 테이블은 별 패턴의 한가운데에 있는 것처럼 보일 수 있습니다. 별 스키마는 가장 간단하고 일반적인 유형의 스키마로 간주되며 사용자는 쿼리하는 동안 더 빠른 속도의 이점을 누릴 수 있습니다.

스노우플레이크(Snowflake) 스키마

눈송이 스키마는 데이터 웨어하우스에서 사용되는 조직 구조 중 하나이지만, 널리 채택되지는 않았습니다. 이 경우 팩트 테이블은 중앙 팩트 테이블의 팩트에 대한 설명 데이터를 포함하는 여러 정규화된 차원 테이블에 연결됩니다.이러한 차원 테이블에는 하위 테이블도 있습니다.

복잡한 이 브랜칭(branching) 패턴은 스노우플레이크처럼 보일 수 있습니다. 스노우플레이크 스키마 사용자는 낮은 수준의 데이터 중복이라는 이점을 얻을 수 있지만, 이는 쿼리 성능을 느리게 만든다는 단점이 있습니다.

데이터 웨어하우스 아키텍처의 구성 요소

대부분의 데이터 웨어하우스는 온프레미스이거나 클라우드에서 관계형 데이터베이스 시스템 위에 구축되며, 데이터는 저장되고 처리됩니다. 일반적인 데이터 웨어하우스에는 다음과 같은 구성 요소가 있습니다.

  • 데이터 계층(또는 중앙 데이터베이스)
  • 액세스 툴
  • 추출, 변환, 로드(ETL) 툴
  • 메타데이터
  • Sandbox
  • API 계층

 

데이터 계층 (또는 중앙 데이터베이스)

데이터 계층 또는 중앙 데이터베이스는 데이터 웨어하우스의 핵심이며 다른 모든 구성 요소에서 지원됩니다. 데이터는 비즈니스 애플리케이션, 이메일 목록, 웹 사이트 또는 기타 관계형 데이터베이스에서 입력할 수 있습니다. 데이터는 서버 또는 서버 집합에 물리적으로 저장됩니다.

데이터 계층은 사용자가 필요한 데이터에만 액세스할 수 있도록 데이터 세그먼트를 분할할 수 있습니다. 예를 들어, 영업 팀은 일반적으로 HR 팀의 데이터에 액세스할 수 없으며 그 반대의 경우도 마찬가지입니다.

일반적으로 데이터 웨어하우스에는 데이터 거버넌스 및 보안 기능이 내장되어 있으므로 조직은 이러한 기능을 포함하기 위해 많은 사용자 지정 데이터 엔지니어링 작업을 수행할 필요가 없습니다. 조직은 시간이 지남에 따라 다양한 소스의 새로운 데이터가 웨어하우스에 추가되면서 데이터 거버넌스 원칙과 보안 조치를 업데이트해야 할 수 있습니다.

액세스 툴

액세스 툴은 데이터 웨어하우스에 연결하여 비즈니스 사용자에게 친숙한 프런트엔드를 제공합니다. 여기에는 데이터 분석가와 비즈니스 사용자가 데이터와 상호 작용하고 인사이트를 추출할 수 있도록 하는 대시보드, 보고 및 데이터 시각화 툴이 포함될 수 있습니다. 이러한 툴의 예로는 Tableau, Looker 및 Qlik이 있습니다.

추출, 변환, 로드(ETL) 툴

ETL 도구를 활용하여 데이터 소스에서 데이터 웨어하우스로 데이터를 이동할 수 있습니다. 데이터는 먼저 소스에서 "추출"되고, 정리 및 준비(또는 "변환")되는 스테이징 영역으로 이동한 다음 웨어하우스에 "로드"됩니다.

ETL 툴은 데이터를 일관된 형식으로 변환하여 웨어하우스 내부에 있을 때 효율적으로 분석하고 쿼리할 수 있습니다. 예를 들어 여러 고객 데이터베이스에서 데이터를 추출한 다음 공통 형식으로 변환하여 모든 고객 레코드에 동일한 필드를 가질 수 있습니다.

Apache Spark와 같은 데이터 처리 프레임워크 툴은 데이터 변환을 관리하는 데 도움이 될 수 있습니다.

데이터 웨어하우스는 주로 구조화된 데이터를 저장하기 때문에 일반적으로 데이터를 웨어하우스로 옮기기 전에 변환을 거칩니다. 일부 웨어하우스에서는 데이터를 변환하기 전에 데이터를 웨어하우스에 로드하는 ELT(추출, 로드, 변환) 프로세스를 대신 사용할 수 있지만, 이 프로세스는 표준화된 데이터 형식이 필요하지 않은 데이터 레이크에 더 일반적으로 사용됩니다. (자세한 내용은 '데이터 레이크와 데이터 웨어하우스 비교'를 참조)

메타데이터

메타데이터는 데이터에 관한 데이터로서 기본적으로 검색 가능하도록 시스템에 저장된 데이터를 설명합니다. 메타데이터에는 작성자, 문서의 날짜 또는 위치, 작성 날짜 및 파일 크기와 같은 특성이 포함됩니다. 메타데이터 및 해당 관리 시스템을 통해 데이터를 구성하고 분석에 사용할 수 있습니다.

Sandbox

일부 데이터 웨어하우스는 라이브 데이터로부터 차단된 샌드박스를 제공합니다. 이는 생산 데이터의 복사본과 관련 분석 및 시각화 툴을 포함하는 테스트 환경으로 사용할 수 있습니다. 데이터 분석가와 데이터 과학자는 다른 사용자의 데이터 웨어하우스 운영에 영향을 주지 않고 샌드박스에서 새로운 분석 기법을 실험해 볼 수 있습니다.

API 계층

애플리케이션 프로그래밍 인터페이스(API)를 위한 연결 계층은 웨어하우스가 조직 소스에서 데이터를 가져오고 시각화 및 분석 툴에 액세스할 수 있도록 도와줍니다.

데이터 웨어하우스와 다른 유형의 데이터 스토리지 비교

데이터 웨어하우스, 데이터베이스, 데이터 레이크, 데이터 마트, 데이터 레이크하우스라는 용어가 혼용되어 사용되기도 합니다. 이 시스템들은 유사하지만 중요한 차이점이 있습니다.

데이터베이스 vs. 데이터 웨어하우스

데이터베이스는 빠른 쿼리와 거래 처리를 위해 주로 구축된 파일 캐비닛과 같지만, 분석은 아닙니다. 데이터베이스는 일반적으로 특정 애플리케이션에 대한 포커스 데이터 저장소 역할을 하는 반면, 데이터 웨어하우스는 조직의 모든 응용 프로그램에서 데이터를 저장합니다.

.

데이터베이스는 실시간 데이터 캡처에 중점을 두는 반면, 데이터 웨어하우스는 예측 분석, 기계 학습 및 기타 고급 분석을 위해 과거 데이터(때로는 현재 데이터)를 캡처하는 더 넓은 범위를 가지고 있습니다.

데이터 레이크와 데이터 웨어하우스

데이터 레이크는 사전 정의된 스키마가 없는 방대한 양의 원시 데이터를 위한 스토리지 솔루션입니다. 데이터 레이크는 문서, 동영상, IoT 로그 및 소셜미디어 게시물과 같은 비정형 데이터와 반정형 데이터를 포함합니다. 이들은 일반적으로 Apache Hadoop와 같은 빅데이터 플랫폼을 기반으로 구축됩니다.

데이터 레이크는 주로 대량의 데이터를 위한 저비용 스토리지를 제공하기 위해 설계되었습니다. 스토리지 비용을 낮게 유지하기 위해 일반적으로 웨어하우스처럼 데이터를 변환하거나 분석을 위해 최적화하지 않습니다.

데이터 마트와 데이터 웨어하우스

데이터 마트는 전체 기업이 아닌 특정 사업 부문이나 부서에 맞는 데이터를 포함하는 특정 데이터 웨어하우스의 일종입니다.

데이터 마트에는 더 작은 데이터 하위 집합이 포함되어 있으므로, 부서 또는 비즈니스 라인은 더 광범위한 데이터 웨어하우스 데이터 집합으로 작업할 때 보다 더 집중된 인사이트를 더 빨리 발견할 수 있습니다.

예를 들어, 마케팅 팀은 데이터 마트를 사용하여 이상적인 대상 인구 통계를 정의할 수 있고, 제품 팀은 데이터 마트를 사용하여 재고 패턴을 분석할 수 있습니다.

데이터 레이크하우스 vs. 데이터 웨어하우스

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 측면, 즉 레이크의 유연성과 웨어하우스의 고성능을 하나의 데이터 관리 솔루션으로 병합하는 데이터 플랫폼입니다. 데이터 레이크하우스는 공유 메타데이터, 분산 구조화 쿼리 언어(SQL) 엔진, 내장된 거버넌스 및 보안 제어 기능과 같은 기능을 추가할 수도 있습니다.

오픈 소스 기술의 출현과 데이터 중복 및 복잡한 ETL 파이프라인을 줄이려는 열망은 데이터 레이크하우스의 개발로 이어졌습니다. 레이크와 웨어하우스의 주요 기능을 하나의 데이터 솔루션으로 결합함으로써 레이크하우스는 데이터 처리 속도를 높이고 머신 러닝, 데이터 과학 및 AI 워크로드를 지원할 수 있습니다.

데이터 웨어하우스 유형

클라우드 데이터 웨어하우스

클라우드 데이터 웨어하우스

클라우드 기반 데이터 웨어하우스는 클라우드에서 실행되도록 구축되었습니다. 클라우드 회사에서 데이터 웨어하우스 인프라를 관리하는 관리형 데이터 스토리지 서비스로 조직에 제공되는 경우가 많습니다. 조직은 하드웨어나 소프트웨어에 초기 투자를 할 필요가 없으며 자체 시스템을 관리할 필요도 없습니다. 클라우드 서비스는 유연한 가격 책정을 제공하는 경우가 많습니다.

.

클라우드 기반 데이터 웨어하우스는 더 많은 조직이 클라우드 컴퓨팅 서비스를 사용하고 온프레미스 데이터 센터 설치 공간을 줄이려고 함에 따라 더욱 인기를 얻었습니다.

온프레미스 또는 라이선스 데이터 웨어하우스

기업은 데이터 웨어하우스 라이선스를 구매한 다음, 웨어하우스를 자체 온프레미스 인프라로 배포할 수 있습니다. 이 방법은 일반적으로 클라우드 데이터 웨어하우스 서비스보다 비용이 많이 들지만 데이터를 더 많이 제어하거나 엄격한 보안 또는 데이터 개인정보 보호 표준을 준수해야 하는 정부 기관, 금융 기관 또는 기타 조직에 적합한 선택이 될 수 있습니다.

데이터 웨어하우스 어플라이언스 

데이터 웨어하우스 어플라이언스는 일반적으로 중앙 처리 장치(CPU), 스토리지, 운영 체제 및 데이터 웨어하우스 소프트웨어를 포함하는 하드웨어 및 소프트웨어의 사전 통합된 번들로, 기업이 네트워크에 연결하여 있는 그대로 사용할 수 있습니다.

 

초기 비용, 배포 속도, 확장성 및 데이터 관리 제어의 용이성 측면에서 데이터 웨어하우스 어플라이언스는 일반적으로 클라우드와 온프레미스 구현의 중간 정도에 위치합니다.

데이터 웨어하우스 사용 사례

데이터 웨어하우스는 빠른 셀프 서비스를 통해 조직 전체의 팀이 인사이트와 정보를 사용할 수 있도록 하여 다양한 사용 사례를 지원합니다.

  • AI와 머신 러닝
  • 비즈니스 인텔리전스
  • 데이터 통합
  • 산업별 용도

 

AI와 머신 러닝

데이터 웨어하우스는 다양한 AI 및 머신 러닝 애플리케이션을 지원할 수 있습니다. 데이터 과학자는 과거 데이터를 분석하여 예측 알고리즘을 개발할 수 있습니다. 이들은 사기를 나타낼 수 있는 의심스러운 계정 활동과 같은 패턴을 포착하도록 머신 러닝 애플리케이션을 가르칠 수 있습니다. 정제되고 검증된 웨어하우스 데이터를 사용하여 독점적인 생성형 AI 모델을 구축하거나 기존 모델을 미세 조정하여 고유한 비즈니스 요구 사항을 더 잘 충족할 수 있습니다.

.

비즈니스 인텔리전스

엔터프라이즈급 데이터 웨어하우스를 사용하면 수천 명의 사용자가 동시에 분석 툴에 액세스하고 실행할 수 있습니다. 데이터는 운영 데이터베이스와 별도로 더 효율적인 형식으로 저장되므로 사용자는 다른 주요 시스템의 속도를 저하시키지 않고도 셀프 서비스 비즈니스 인텔리전스 쿼리를 실행할 수 있습니다.

데이터 통합

데이터 웨어하우스는 정리 및 통합을 자동화하는 ETL 파이프라인을 통해 사일로화된 데이터를 통합하는 데 도움이 될 수 있습니다. 이로써 쿼리 및 처리 속도가 빨라지고 더 많은 사용자가 데이터에 액세스할 수 있습니다.

엔터프라이즈급 데이터 웨어하우스에는 Apache Iceberg, Parquet 및 CSV와 같은 오픈 소스 형식에 대한 지원도 포함될 수 있으므로 기업 전체에서 데이터를 추가로 공유할 수 있습니다.

산업별 용도

데이터 웨어하우스는 다음과 같은 산업별 용도도 제공할 수 있습니다.

 

  • 정부 기관: 데이터 웨어하우스의 분석 능력은 정부가 범죄, 인구 통계학적 추세 및 교통 패턴과 같은 복잡한 현상을 더 잘 이해하는 데 도움이 될 수 있습니다.

  • 의료: 청구 및 진단 코드, 환자 인구 통계, 약물 및 검사 결과와 같은 서로 다른 데이터를 중앙 집중화하고 분석할 수 있는 기능을 통해 병원은 환자 결과, 운영 효율성 등에 대한 인사이트를 얻을 수 있습니다.

  • 숙박 및 교통: 조직은 여행 및 숙박 시설 선택에 대한 과거 데이터를 사용하여 고객에게 보다 정확하게 광고 및 프로모션을 타기팅할 수 있습니다.

  • 제조: 대규모 제조 기업은 방대한 양의 데이터를 생성합니다. 조직은 데이터 웨어하우스를 사용하여 각 부서의 필요에 맞는 데이터 마트를 구축함으로써 사용자가 자신의 역할과 관련된 데이터에 더 쉽게 액세스할 수 있습니다.

 

데이터 웨어하우스의 이점

데이터 웨어하우스는 서로 다른 데이터 저장소의 데이터 스트림을 결합하여 조직이 이 데이터를 더 쉽게 분석할 수 있게 해줍니다. 그 결과 조직은 가치 있는 인사이트를 발견하고, 성과를 높이고, 운영을 개선하여 궁극적으로 경쟁 우위를 확보할 수 있습니다.

구체적으로,  데이터 웨어하우스의 이점 은 다음과 같습니다:

  • 더 나은 데이터 품질
  • 더 깊은 인사이트
  • 더 나은 비즈니스 의사 결정

 

더 나은 데이터 품질

데이터 웨어하우스는 트랜잭션 시스템, 운영 데이터베이스 및 플랫 파일과 같은 다양한 데이터 소스의 데이터를 중앙 집중화할 수 있습니다.
그런 다음 이 운영 데이터를 정리하고 중복을 제거하며 표준화하여 신뢰할 수 있는 단일 소스를 생성함으로써 조직에 엔터프라이즈 데이터에 대한 포괄적이고 신뢰할 수 있는 보기를 제공합니다.

.

더 깊은 인사이트

데이터가 서로 다른 소스에 잠겨 있으면 의사 결정권자가 자신 있게 인사이트를 도출하고 비즈니스 전략을 수립하는 데 제한이 될 수 있습니다. 하나의 중앙 저장소가 있는 데이터 웨어하우스를 통해 비즈니스 사용자는 조직의 모든 관련 데이터를 비즈니스 의사 결정에 활용할 수 있습니다.

.

기록 데이터에 대한 보고서를 실행함으로써 데이터 웨어하우스는 어떤 시스템과 프로세스가 작동 중이고 어떤 부분을 개선해야 하는지 확인하는 데 도움이 될 수 있습니다.

더 나은 비즈니스 의사 결정

데이터 웨어하우스를 사용하면 테마, 트렌드 및 집계를 발견하고 보고할 수 있습니다. 데이터 전문가와 비즈니스 리더는 이러한 인사이트를 사용하여 비즈니스 프로세스부터 재무 관리 및 재고 관리에 이르기까지 조직의 거의 모든 영역에서 확실한 증거에 기반하여 더 나은 정보에 입각한 의사 결정을 내릴 수 있습니다.

.

데이터 웨어하우스 아키텍처의 문제점

데이터웨어하우스 솔루션을 구현할 때 조직은 높은 성능을 달성하기 위해 특정한 과제에 직면해야 할 수도 있습니다. 여기에는 다음이 포함될 수 있습니다.

  • 대량의 데이터
  • 데이터 품질 및 관리
  • 복잡한 클라우드 인프라
  • AI 래더 지원
  • 스토리지 유연성 부족

 

대량의 데이터

테라바이트 및 페타바이트 규모의 데이터 웨어하우스가 보편화된 오늘날, 고성능 운영을 위해서는 뛰어난 로딩, 효율적인 스토리지, 초효율성에 대한 요구를 충족하는 강력한 데이터베이스 엔진이 필요합니다.

데이터 품질 및 관리

데이터 웨어하우스는 다양한 소스로부터 엄청난 양의 정형 및 비정형 데이터를 관리해야 할 수 있습니다. 이 모든 데이터를 사용하려면 먼저 정리하고 검증해야 합니다. 강력한 데이터 거버넌스 정책과 관행은 모든 사용자가 신뢰할 수 있는 정확한 단일 소스를 확보하는 데 도움이 됩니다.

복잡한 클라우드 인프라

엔터프라이즈 데이터가 규정 또는 비즈니스 요구 사항에 따라 서로 다른 환경에 저장됨으로써 오늘날의 데이터 웨어하우스는 데이터 흐름, 수집 및 분석이 서로 다른 시스템 간에 이동하며 하이브리드 및 멀티클라우드 스토리지가 필요한 경우가 많습니다. 조직에서는 이러한 복잡한 시스템을 구현하고 유지 관리하는 데 도움이 되는 숙련된 IT 담당자가 필요합니다.

AI 래더 지원

AI와 머신 러닝이 비즈니스 전략의 핵심 요소로 자리 잡으면서 조직은 이러한 워크로드를 지원할 수 있는 데이터 웨어하우스가 필요합니다.

.

이상적으로 데이터 웨어하우스는 데이터를 수집, 정리, 구성 및 분석하여 AI를 지원할 수 있어야 할 뿐만 아니라 AI 및 머신 러닝 애플리케이션으로의 데이터 흐름을 원활하게 할 수 있어야 합니다. 하지만 모든 데이터 웨어하우스가 AI용으로 구축된 것은 아니기 때문에 조직의 데이터를 AI 워크로드에 사용하는 것이 어려울 수 있습니다.

스토리지 유연성 부족

데이터 웨어하우스는 데이터 분석에 맞게 구성되고 최적화되어 있기 때문에 일반적으로 대량의 데이터를 저장하는 데는 적합하지 않습니다. 웨어하우스의 데이터 양이 증가함에 따라 스토리지 비용과 복잡성도 함께 증가합니다. 지연 문제도 발생할 수 있습니다.

.

데이터 레이크하우스는 더 저렴하고 유연한 스토리지 및 분석 기능을 모두 제공할 수 있기 때문에 고유한 데이터 아키텍처에 따라 일부 조직에서 옵션이 될 수 있습니다.

관련 솔루션
IBM watsonx.data

watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.

watsonx.data 알아보기
데이터 웨어하우스 솔루션

조직 전반에 걸쳐 관리형 데이터에 대해 상시 가동되는 고성능 분석 및 AI 워크로드를 확장하세요.

데이터 웨어하우스 솔루션 살펴보기
데이터 및 분석 컨설팅 서비스

IBM Consulting으로 엔터프라이즈 데이터의 가치를 극대화해 비즈니스에 이득을 가져다주는 인사이트 중심의 조직을 구축하세요.

분석 서비스 알아보기
다음 단계 안내

IBM watsonx.data를 통해 AI 및 분석을 위한 모든 데이터를 통합하세요. AI 및 분석을 위한 하이브리드 오픈 데이터 레이크하우스를 통해 데이터가 어디에 있든 효과적으로 활용하세요.

watsonx.data 알아보기 데이터 웨어하우스 솔루션 살펴보기