클라우드 데이터 레이크, 데이터 웨어하우스, 데이터 마트 비교

빛이 흐르는 흔적의 추상화

이 게시물에서는 현재 존재하는 세 가지 유형의 클라우드 스토리지 저장소를 알아보고, 차이점과 사용 사례에 가장 적합한 솔루션을 살펴봅니다.

비즈니스 데이터, 특히 빅데이터를 위한 클라우드 기반 데이터 스토리지는 오늘날 일상적인 비즈니스를 수행하든 특정 작업을 수행하든 관계없이 가장 먼저 떠오르는 솔루션입니다.

데이터는 고객과 잠재 고객을 위한 타겟팅 프로그램 생성부터 제조 및 운영 프로세스 최적화, 바이러스 검사 및 백신 접종 개발, 테스트, 배포, 추적에 이르기까지 다양한 비즈니스 기능을 주도합니다. 현대 기업은 필요할 때 필요한 데이터의 가용성에 의존합니다. 그러나 요구 사항에 가장 적합한 옵션을 찾는 것은 쉬운 일이 아니며, 다양한 데이터 카테고리에 따라 여러 가지 유형의 저장소가 필요할 수 있습니다.

기본 사항부터 시작하여 비즈니스 요구 사항을 충족하기 위해 하나의 데이터 리포지토리 또는 여러 유형의 데이터 저장소가 어떻게 필요할 수 있는지에 대한 몇 가지 예를 살펴보겠습니다.

 

세 가지 유형의 클라우드 스토리지 저장소

오늘날 세 가지 유형의 클라우드 스토리지 저장소가 존재하며, 각 유형은 특정 요구 사항을 해결하기 위해 서로 다른 용도로 사용됩니다.

데이터 레이크

데이터 레이크비정형 또는 반정형 원시 데이터의 대규모 저장소입니다. 이 데이터는 다양한 소스에서 집계되며 단순하게 저장되며, 특정 목적에 적합하거나 특정 형식에 맞게 변경되지 않습니다. 분석을 위해 이 데이터를 준비하려면 시간이 많이 걸리는 데이터 준비, 정리 및 균일성을 위한 재포맷 작업이 필요합니다. 데이터 레이크는 정전, 교통, 범죄 또는 인구 통계와 관련된 정보를 저장하는 지방자치단체 또는 기타 조직에 훌륭한 리소스입니다. 이 데이터는 나중에 DPW 또는 응급 서비스 예산 및 리소스를 업데이트하는 데 사용될 수 있습니다.

데이터 웨어하우스

데이터 웨어하우스는 여러 소스의 데이터를 데이터 품질과 형식을 통합하는 단일 중앙 집중식 리포지토리로 집계하여, 데이터 과학자가 데이터 마이닝인공 지능(AI), 머신 러닝과 궁극적으로는 비즈니스 분석 및 비즈니스 인텔리전스에 활용할 수 있게 해줍니다. 데이터 웨어하우징은 대도시에서 과속 딱지, 반려견 면허증, 소비세 납부 및 기타 거래를 포함한 다양한 부서의 전자 거래를 집계하는 데 사용할 수 있습니다. 시에서 이렇게 구조화된 데이터를 분석하여 후속 청구서를 발행하고 인구 조사 데이터 및 경찰 기록을 업데이트합니다. 또한 개발자가 자율 주행 솔루션에 대한 의사 결정 프로세스를 지원하기 위해 자동차 센서에서 생성된 테라바이트 단위의 데이터를 집계하는 데 사용할 수 있습니다.

데이터 마트

데이터 마트는 사업 또는 사업부 내의 특정 사용자 집단에게 도움이 되는 데이터 웨어하우스의 하위 집합입니다. 데이터 마트는 제조 회사의 마케팅 부서에서 마케팅 계획 수립에 도움이 되는 이상적인 대상 인구 통계 또는 페르소나를 결정하는 데 사용할 수 있습니다. 또한 제조 부서에서 성능 및 오류율을 분석하여 지속적으로 개선하는 데 사용할 수 있습니다. 데이터 마트 내의 데이터 세트는 현재 분석 및 실행 가능한 결과를 위해 실시간으로 활용되는 경우가 많습니다.

클라우드 데이터 레이크, 데이터 웨어하우스, 데이터 마트 비교: 주요 차이점

세 가지 유형의 클라우드 데이터 리포지토리 모두 데이터를 보유하지만 이들 사이에는 매우 뚜렷한 차이점이 있습니다. 예를 들어, 데이터 웨어하우스와 데이터 레이크는 모두 대규모 데이터 집합이지만, 데이터 레이크는 대부분 비정형화되어 있어 일반적으로 구현 및 유지 관리에 더 비용 효율적입니다. 

데이터 레이크 아키텍처는 지난 몇 년 동안 더 많은 양의 데이터와 클라우드 기반 컴퓨팅을 지원하도록 발전해 왔습니다. 많은 양의 데이터가 여러 데이터 소스에서 중앙 위치로 수신됩니다. 

데이터 웨어하우스는 다음 세 가지 방법 중 하나로 구성할 수 있습니다.

  1. 클라우드 제공업체가 제공하는 매니지드 서비스.
  2. 사내 제어 및 엄격한 보안 프로토콜을 제공하는 소프트웨어 솔루션 - 규정 준수를 처리할 때 유용할 수 있습니다.
  3. 어플라이언스 - 일반적으로 플러그 앤 플레이 번들 소프트웨어 및 하드웨어 솔루션입니다.

데이터 웨어하우스 내의 데이터는 데이터 레이크 내의 데이터보다 다양한 목적으로 더 쉽게 활용할 수 있습니다. 그 이유는 데이터 웨어하우스가 구조화되어 있어 더 쉽게 마이닝하거나 분석할 수 있기 때문입니다.

반면 데이터 마트는 데이터 레이크와 데이터 웨어하우스에 비해 적은 양의 데이터를 포함하며, 데이터는 특정 용도 또는 특정 인구 통계 또는 사업부별로 분류됩니다. 데이터 마트는 데이터의 논리적 구조에 따라 다양한 형식(스타, 스노우플레이크, 볼트)으로 존재할 수 있으며, 볼트 구조는 다른 형식보다 더 민첩하고 유연하며 확장성이 뛰어납니다.

데이터 마트에는 세 가지 유형이 있습니다.

  1. 엔터프라이즈 데이터 웨어하우스 파티션으로 구성된 종속 데이터 마트 - 웨어하우스에 있는 기본 데이터의 하위 집합입니다.
  2. 독립 데이터 마트 - 비즈니스의 특정 부분에 사일로화된 독립형 시스템입니다.
  3. 하이브리드 데이터 마트 - 웨어하우스의 데이터와 독립 소스로 구성됩니다. 이 유형은 일반적으로 더 빠른 데이터 액세스와 사용자 친화적인 인터페이스를 제공합니다.

선택하는 데이터 저장소의 유형과 구조는 비즈니스의 요구와 필요에 따라 크게 달라집니다. 하이브리드 클라우드 기반 스토리지가 비즈니스에 적합하다면, 유연성, 확장성, 문제 해결 및 의사 결정에 대해 보다 폭넓고 정보에 기반한 접근 방식이라는 이점을 활용하세요.

클라우드 기반 데이터 저장소 솔루션의 업계 사용 사례

제조

대규모 다국적 제조 회사는 다양한 용도로 대량의 데이터를 생성합니다. 일부 데이터는 중요하지만 다른 데이터는 향후에 목적이 있을 수도 있고 없을 수도 있습니다. 이 회사는 다른 스토리지 옵션보다 비용이 저렴한 클라우드 기반 데이터 웨어하우스를 사용하며 대량 데이터를 저장합니다. 그러나 이 회사는 비즈니스의 특정 영역에 대한 종속 데이터 마트를 갖추고 있어, 재무, 제조 및 마케팅과 같은 부서의 비즈니스 사용자에게 가치를 제공합니다. 이러한 각 마트에는 분석하기 쉽도록 형식화되고 특정 용도로 지정된 데이터가 포함되어 있습니다. 예를 들면 다음과 같습니다.

  • 재무 부서는 데이터 마트를 사용하여 고객 계정 명세서를 준비하고 대차대조표를 유지합니다.
  • 제조 부서는 데이터 마트를 사용하여 조립 라인 효율성을 분석하고, 데이터를 처리하여 AI 솔루션에 입력하고, 구매/조달 데이터베이스를 유지 관리합니다.
  • 마케팅 부서는 데이터 마트를 사용하여 설문조사 응답을 분석하고 대조하는 동시에 캠페인 및 커뮤니케이션의 효과를 판단합니다.

대규모 지방자치단체

대규모 지방자치단체에는 저렴하고 어느 정도 사용 가능한 방식으로 데이터를 제공하는 합리적인 가격의 솔루션이 필요합니다. 지방자치단체는 클라우드의 데이터 레이크를 사용하여 교통 데이터를 유지 관리합니다. 현재로서는 해당 데이터를 분석하고 조치를 취할 여유가 없지만, 자금이 확보되면 분석을 준비할 것입니다. 또한 온프레미스 소프트웨어 데이터 웨어하우스를 사용하여 세금 고지서 상태를 추적합니다. 또한 지방자치단체는 하이브리드 데이터 마트를 사용하여 주민들 간의 바이러스 확산을 추적하고, 다양한 병원 및 지방자치단체 보건 서비스의 데이터를 단일 저장소에 집계하여 보건부에서 분석 및 사용합니다.

클라우드 기반 데이터 스토리지에 대한 일반적인 오해

클라우드 기반 데이터 저장소에 대해 많은 오해가 있습니다. 가장 일반적인 오해는 다음과 같습니다.

  • 모든 상황에 맞는 단일 규모 솔루션: 클라우드 데이터 스토리지 솔루션을 고려할 때 절대 그렇지 않습니다. 각 비즈니스에는 서로 다른 예산 제약, 목표, 자원 할당, 선호도가 있습니다. 비즈니스 요구 사항과 예산을 평가하고, 이를 통해 목표 달성에 도움이 되는 솔루션을 선택하는 것이 중요합니다.
  • 데이터 아일랜드로 인해 데이터가 저장소에 고립됨: 이는 틀린 생각입니다. 클라우드 기반 스토리지의 본질은 적절한 권한을 통해 어디서나 데이터에 액세스할 수 있다는 것입니다.
  • 클라우드 기반 솔루션은 보안이 취약함: 실제로 클라우드 제공업체는 정기적인 업데이트와 사용 가능한 최신 프로토콜을 제공하여 더 강력한 보안을 제공할 수 있습니다. 가장 엄격한 보안 솔루션이 데이터를 보호하도록 전담하며 최신 인증을 보유한 보안 전문가 팀이 상주하는 경우가 많습니다. 또한 많은 제공업체에는 솔루션을 최적화하기 위해 규제 준수 기관과 협력하는 팀을 보유하고 있습니다. 그러나 일부 산업(의료, 금융 등)에서는 규정 준수를 위해 인터넷 연결 없이 데이터에 액세스하는 기능이 필요할 수 있으며, 이를 위해서는 온프레미스 장비가 필요합니다.
  • 클라우드 기반 데이터 리포지토리는 비용 많이 듦: 클라우드 기반 스토리지는 대규모 초기 인프라 투자, 냉각 또는 설치 공간 비용, 지속적인 유지보수 비용 또는 사내 전문가 팀이 필요하지 않기 때문에 온프레미스 솔루션보다 저렴할 수 있습니다. 월별 비용은 공급업체 또는 클라우드 제공업체에 따라 다릅니다.

 

비즈니스에 가장 적합한 클라우드 기반 스토리지 솔루션을 결정하는 방법

비즈니스는 각자 다르며, 특정한 리소스, 목표, 과제가 있습니다. 옵션을 신중하게 평가하여 요구 사항에 가장 적합한 솔루션을 결정하세요. 다음 사항을 고려하세요.

  • 비즈니스 및 기술 목표
  • 예산
  • 스토리지가 필요한 데이터의 양
  • 액세스해야 하는 빈도
  • 현재 또는 단기적으로 특정 요구 사항이 있는지 여부

이러한 고려 사항은 목표 달성에 도움이 되는 솔루션 또는 솔루션 조합을 결정하는 데 도움이 됩니다.

클라우드의 IBM 데이터 리포지토리: 솔루션 및 관리

IBM은 스토리지 및 데이터 과학 요구 사항을 지원하는 여러 솔루션을 제공합니다.

  • IBM Db2 Warehouse on Cloud는 스토리지와 컴퓨팅을 독립적으로 확장할 수 있는 탄력적인 데이터 웨어하우스입니다. 소규모 데이터 마트는 고성능 분석을 위해 구축된 탄력적인 데이터 웨어하우스인 Flex One 기능을 사용할 수 있습니다. 이 시스템은 여러 클라우드 제공업체에 배포할 수 있으며, 40GB의 스토리지부터 시작합니다.
  • 고려해볼 만한 또 다른 옵션은 IBM InfoSphere Master Data Management(MDM)입니다. 이 사용자 지정 가능한 시스템은 중요한 엔터프라이즈 데이터의 모든 측면을 관리하여 사용자가 신뢰할 수 있는 단일 보기에서 액세스할 수 있도록 합니다. 사용자는 이 간소화된 대시보드를 통해 상세한 분석을 수행하고, 실행 가능한 인사이트를 얻고, 데이터 거버넌스 및 정책을 준수할 수 있습니다.
  • IBM Netezza 어플라이언스의 다음 버전인 Netezza Performance ServerIBM Cloud Pak for Data System 하이퍼 컨버지드 아키텍처를 기반으로 구축되어, 기업의 가장 복잡한 분석을 위한 클라우드 네이티브 의사 결정 지원 시스템을 제공합니다. 현재 AWS 및 Azure에서도 사용할 수 있습니다.
  • 데이터 과학 및 머신 러닝 제품인 IBM Watson Studio는 조직이 데이터 자산을 활용하고 비즈니스 프로세스 및 최신 애플리케이션에 예측을 적용할 수 있도록 지원합니다.

    작성자

    Tanmay Sinha

    Program Director, Db2 Portfolio