데이터 플랫폼 트리니티: 경쟁적인가 보완적인가?

원탁에 앉아 노트북으로 함께 작업하는 세 명의 여성

작성자

Sandipan Sarkar

Distinguished Engineer

IBM Consulting

데이터 플랫폼 아키텍처에는 흥미로운 역사가 있습니다. 2000년대에 들어서면서 기업들은 보고 및 비즈니스 인텔리전스 워크로드를 위해서는 트랜잭션 애플리케이션이 아닌 새로운 솔루션이 필요하다는 것을 깨닫기 시작했습니다. 여러 애플리케이션의 데이터를 통합할 수 있는 읽기 최적화 플랫폼이 등장했습니다. 바로 데이터웨어하우스였습니다.

10년 후에는 인터넷과 모바일이 예상치 못한 양, 다양성, 속도를 지닌 데이터를 생성하기 시작했습니다. 다른 데이터 플랫폼 솔루션이 필요했습니다. 그래서 엄청난 양의 정형 및 비정형 데이터를 처리하는 데이터 레이크가 등장했습니다.

또 다시 10년이 지났습니다. 그리고 데이터 레이크와 데이터 웨어하우스로는 더 이상 기업의 비즈니스 복잡성과 새로운 워크로드를 처리하기에 충분하지 않다는 것이 분명해졌습니다. 너무 비쌉니다. 데이터 프로젝트의 가치를 실현하기 어렵습니다. 데이터 플랫폼은 변경하기 어렵습니다. 시간은 다시 새로운 솔루션을 요구했습니다.

이게 무엇일까요? 이번에는 데이터 레이크하우스, 데이터 패브릭, 데이터 메시라는 세 가지 이상의 데이터 플랫폼 솔루션이 등장하고 있습니다. 이는 고무적인 현상이지만, 동시에 시장에 혼란을 야기하기도 합니다. 개념과 가치가 겹치는 부분이 있습니다. 누구에게 묻느냐에 따라 때때로 해석이 다르게 나타납니다.

이 글은 그러한 혼란을 해소하고자 노력하고 있습니다. 개념을 설명해 드리며 이어서 이 세 가지 개념이 서로 어떻게 연결되거나 함께 사용될 수 있는지를 보여 주는 프레임워크를 소개하겠습니다.

데이터 레이크하우스: 거의 새로운 플랫폼

데이터 레이크하우스 개념은 Databricks로 대중화되었습니다 Databricks는 이를 다음과 같이 정의했습니다. '데이터 레이크하우스는 데이터 레이크의 유연성, 비용 효율성 및 확장성과 데이터 웨어하우스의 데이터 관리 및 ACID 트랜잭션을 결합한 새로운 오픈 데이터 관리 아키텍처로, 모든 데이터를 대상으로 비즈니스 인텔리전스(BI)와 머신러닝(ML)을 가능하게 합니다.'

기존 데이터 웨어하우스는 추출-변환-로드(ETL) 프로세스를 사용하여 데이터를 수집하는 반면, 데이터 레이크는 추출-로드-변환(ELT) 프로세스를 사용합니다. 여러 소스에서 추출된 데이터는 값싼 BLOB 스토리지에 로드된 다음, 값비싼 블록 스토리지를 사용하는 데이터 웨어하우스로 변환 및 유지됩니다.

이러한 스토리지 아키텍처는 유연성이 떨어지고 비효율적입니다. BLOB과 데이터 웨어하우스 스토리지의 동기화를 유지하기 위해 지속적으로 변환을 수행해야 하므로 비용이 추가됩니다. 그리고 지속적인 혁신에는 여전히 많은 시간이 걸립니다. 데이터를 분석할 준비가 될 때쯤이면, 그 데이터를 통해 얻을 수 있는 인사이트는 트랜잭션 시스템의 현재 상태에 비해 오래된 정보일 수 있습니다.

더욱이 데이터 웨어하우스 스토리지는 모델 학습에 엄청난 양의 데이터가 필요한 인공 지능(AI)이나 머신 러닝(ML)과 같은 워크로드를 지원할 수 없습니다. 이러한 워크로드의 경우, 데이터 레이크 공급 업체는 일반적으로 데이터를 플랫 파일로 추출하여 모델 학습 및 테스트 목적으로만 사용하도록 권장합니다. 이는 추가적인 ETL 단계를 더하게 되어 데이터를 더욱 오래된 상태로 만듭니다.

데이터 레이크하우스는 이러한 문제를 해결하기 위해 만들어졌습니다. 레이크하우스 아키텍처에서는 데이터 웨어하우스 스토리지 계층이 제거되었습니다. 대신, BLOB 스토리지 내에서 지속적인 데이터 변환이 수행됩니다. 다양한 유형의 워크로드가 동일한 스토리지 버킷을 사용할 수 있도록 여러 API가 추가되었습니다. AWS S3나 Azure DLS2가 필요한 스토리지를 제공할 수 있으므로 이는 클라우드에 적합한 아키텍처입니다.

데이터 패브릭: 거의 새로운 아키텍처

데이터 패브릭은 새로운 세대의 데이터 플랫폼 아키텍처를 나타냅니다. 이는 다음과 같이 정의할 수 있습니다. 느슨하게 결합된 분산 서비스 모음으로, 이질적인 트랜잭션 및 분석 성격의 소스에서 올바른 데이터를 올바른 형태로, 올바른 시간과 장소에 제공할 수 있게 하며, 보통 셀프 서비스 방식을 통해 어떠한 클라우드 및 온프레미스 플랫폼에서도 이용 가능하도록 하면서 비용 효율성, 성능, 거버넌스, 보안, 규정 준수 등 비기능적 요구 사항을 충족하는 아키텍처입니다.

데이터 패브릭의 목적은 데이터 이동, 변환 및 통합에 수반되는 기술적 복잡성을 추상화하여, 필요한 곳과 시간에 데이터를 사용할 수 있도록 하는 것입니다. 이를 통해 누구나 데이터를 쉽게 활용할 수 있게 됩니다. 데이터 패브릭의 몇 가지 주요 특징은 다음과 같습니다.

데이터 노드 네트워크

데이터 패브릭은 데이터 노드(예: 데이터 플랫폼 및 데이터베이스)의 네트워크로 구성되며, 모든 노드가 서로 상호 작용하여 더 큰 가치를 제공합니다. 데이터 노드는 기업의 하이브리드 및 멀티클라우드 컴퓨팅 에코시스템 전반에 분산되어 있습니다.

각 노드는 서로 다를 수 있습니다.

데이터 패브릭은 여러 개의 데이터 웨어하우스, 데이터 레이크, IoT/Edge 장치 및 트랜잭션 데이터베이스로 구성될 수 있습니다. 여기에는 Oracle, Teradata, Apache Hadoop부터 Azure의 Snowflake, AWS의 RedShift, 온프레미스 데이터 센터의 MS SQL까지 다양한 기술이 포함될 수 있습니다.

데이터 정보 라이프사이클의 모든 단계

데이터 패브릭은 데이터-정보-인사이트 라이프사이클의 모든 단계를 포괄합니다. 패브릭의 한 노드가 원시 데이터를 다른 노드에 제공하면, 그 노드는 다시 해당 데이터를 분석합니다. 이러한 분석은 패브릭 내에서 REST API로 노출될 수 있으므로, 트랜잭션 기록 시스템에서 의사 결정을 위해 사용할 수 있습니다.

분석 및 트랜잭션 세계의 통합

데이터 패브릭은 분석 세계와 트랜잭션 세계를 하나로 통합하도록 설계되었습니다. 여기에서는 모든 것이 노드이고, 노드들은 다양한 메커니즘을 통해 서로 상호 작용합니다. 이 중 일부는 데이터 이동이 필요하지만, 다른 일부는 이동 없이 데이터에 접근할 수 있습니다. 기본적인 아이디어는 이 아키텍처에서는 결국 데이터 사일로(및 차별화)가 사라질 것이라는 것입니다.

보안 및 거버넌스 전반에 걸쳐 시행

데이터가 데이터 패브릭 전반에서 이동하거나 접근될 때마다 보안 및 거버넌스 정책이 시행됩니다. Istio가 Kubernetes의 컨테이너에 보안 거버넌스를 적용하는 것처럼, 데이터 패브릭은 유사한 원칙에 따라 실시간으로 데이터에 정책을 적용합니다.

데이터 검색 가능성

데이터 패브릭은 데이터 검색 가능성을 높입니다. 여기에서 데이터 자산을 카테고리로 게시하여 전사적인 마켓플레이스를 만들 수 있습니다. 이 마켓플레이스는 메타데이터와 지식 그래프를 활용하여 자산 검색을 가능하게 하는 검색 메커니즘을 제공합니다. 이를 통해 가치 라이프사이클의 모든 단계에서 데이터에 접근할 수 있습니다.

데이터 패브릭의 등장으로 기업 문화와 운영 모델을 혁신할 수 있는 새로운 기회가 열렸습니다. 데이터 패브릭은 분산되어 있으면서도 포괄적이기 때문에, 이를 사용하면 분산되어 있으면서도 통합된 거버넌스를 촉진할 수 있습니다. 이렇게 하면 데이터의 신뢰성과 안정성을 높일 수 있습니다. 마켓플레이스를 통해 사업 전반의 이해관계자가 데이터를 더 쉽게 발견하고 이를 활용해 혁신을 이룰 수 있습니다. 다양한 팀들이 협업하기가 더 쉬워지고, 공동의 목적 의식을 가지고 공유된 데이터 자산을 관리할 수 있게 됩니다.

데이터 패브릭은 일부 새로운 기술(예: 데이터 가상화)이 핵심 역할을 하는 포괄적인 아키텍처입니다. 하지만 이를 통해 기존 데이터베이스와 데이터 플랫폼이 네트워크에 참여할 수 있으며, 데이터 카탈로그나 데이터 마켓플레이스가 새로운 자산을 발견하는 데 도움을 줍니다. 메타데이터는 데이터 자산을 발견하는 데 중요한 역할을 합니다.

데이터 메시: 거의 새로운 문화

Thoughtworks는 데이터 메시라는 개념을 소개했습니다. Thoughtworks는 이를 다음과 같이 정의했습니다. '...분석 데이터 아키텍처 및 운영 모델로, 데이터가 제품으로 취급되고 데이터를 가장 잘 알고 사용하는 팀이 소유합니다.' 이 개념은 도메인 소유권, 제품으로서의 데이터, 셀프 서비스 데이터 플랫폼, 연합 컴퓨팅 거버넌스라는 4가지 원칙을 기반으로 합니다.

데이터 패브릭과 데이터 메시는 개념적으로 겹치는 부분이 있습니다. 예를 들어, 데이터 패브릭과 데이터 메시 모두 데이터웨어하우스, 데이터 레이크, 데이터 레이크하우스와 같은 중앙 집중식 플랫폼과 달리 분산 아키텍처를 권장합니다. 둘 다 마켓플레이스를 통해 제공되는 데이터 제품이라는 아이디어를 실현하고 싶어합니다.

차이점도 존재합니다. 위의 정의에서 알 수 있듯이, 데이터 패브릭과 달리 데이터 메시는 분석 데이터에 관한 것입니다. 데이터 메시가 데이터 패브릭보다 더 좁은 범위를 다루고 있습니다. 둘째, 운영 모델과 문화를 강조하는데, 이는 데이터 패브릭과 같은 단순한 아키텍처를 넘어선다는 의미입니다. 데이터 패브릭에서는 데이터 제품의 특성이 일반적일 수 있는 반면, 데이터 메시에서는 데이터 제품의 도메인 중심 소유권이 명확하게 규정됩니다.

데이터 레이크하우스, 데이터 패브릭, 데이터 메시의 관계

분명히 이 세 가지 개념은 각자 고유한 초점과 강점을 가지고 있습니다. 하지만 겹치는 부분이 분명합니다.

데이터 레이크하우스는 다른 두 개념과 구별됩니다. 이것은 이전 기술들처럼 새로운 기술로, 체계화될 수 있습니다. 시장에는 Databricks, Azure Synapse, Amazon Athena 등 다양한 제품이 있습니다.

데이터 메시에는 새로운 운영 모델과 문화적 변화가 필요합니다. 종종 이러한 문화적 변화는 기업의 집단적 사고방식의 변화를 요구합니다. 결과적으로 데이터 메시는 그 자체로 혁신적일 수 있습니다. 조직의 작은 부분부터 구축한 후 나머지 부분으로 확산할 수 있습니다.

데이터 패브릭에는 데이터 메시와 같은 전제 조건이 없습니다. 이러한 문화적 변화를 기대하지 않습니다. 기업이 수년에 걸쳐 투자한 기존 자산을 활용해 구축할 수 있습니다. 따라서 그 접근 방식은 진화적입니다.

그러면 기업은 이 모든 개념을 어떻게 수용할 수 있을까요?

데이터 레이크하우스를 도입하여 오래된 데이터 플랫폼 문제 해결

자체 데이터 플랫폼 진화 과정의 일환으로 레이크하우스 도입을 수용할 수 있습니다. 예를 들어, 은행은 10년 된 데이터웨어하우스를 없애고 레이크하우스를 구현하여 단일 데이터 플랫폼에서 모든 BI 및 AI 사용 사례를 제공할 수 있습니다.

데이터 패브릭 아키텍처로 데이터 복잡성 해결

기업이 복잡하고 여러 데이터 플랫폼을 보유하고 있거나, 데이터 디스커버리가 어렵거나, 조직의 여러 부분에서 데이터 전달이 어려운 경우, 데이터 패브릭은 좋은 아키텍처가 될 수 있습니다. 기존 데이터 플랫폼 노드와 함께, 하나 이상의 데이터 레이크하우스 노드도 이 네트워크에 참여할 수 있습니다. 트랜잭션 데이터베이스도 데이터 자산을 제공하거나 소비하기 위해 노드로서 패브릭 네트워크에 참여할 수 있습니다.

데이터 메시 여정으로 비즈니스 복잡성 해결

비즈니스 복잡성을 해결하기 위해 기업이 도메인 중심 데이터 소유권을 향한 문화적 전환을 시작하고 데이터 디스커버리 및 전달에서 셀프 서비스를 장려하며 연합 거버넌스를 도입하면, 데이터 메시 여정을 시작한 것입니다. 데이터 패브릭 아키텍처가 이미 구축되어 있는 경우 기업은 이를 데이터 메시 여정의 핵심 요소로 활용할 수 있습니다. 예를 들어, 데이터 패브릭 마켓플레이스는 도메인 중심 데이터 제품(핵심 데이터 메시 결과)을 제공할 수 있습니다. 메타데이터 기반의 검색 기능은 이미 데이터 패브릭을 통해 구현된 역량으로서, 데이터 메시에서 새롭게 등장하는 데이터 제품을 발견하는 데 유용하게 활용될 수 있습니다.

모든 기업은 각자의 비즈니스 목표를 살펴보고 가장 적합한 진입점을 결정할 수 있습니다. 하지만 진입점이나 동기는 다를 수 있지만, 기업은 데이터 중심화를 추구하는 과정에서 이 세 가지 개념을 모두 함께 쉽게 활용할 수 있습니다.

관련 솔루션
데이터 관리 소프트웨어 및 솔루션

탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선하는 데이터 전략을 구축하세요.

데이터 관리 솔루션 살펴보기
IBM watsonx.data™

watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.

watsonx.data 알아보기
데이터 및 분석 컨설팅 서비스

IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.

분석 서비스 알아보기
다음 단계 안내

탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선하는 데이터 전략을 구축하세요.

데이터 관리 솔루션 살펴보기 watsonx.data 알아보기