데이터 메시란 무엇인가요?

2022년 4월 13일

데이터 메시란 무엇인가요?

데이터 메시는 특정 비즈니스 도메인(예: 마케팅, 영업, 고객 서비스 등)별로 데이터를 구성하여 특정 데이터 세트의 생산자에게 더 많은 소유권을 제공하는 분산형 데이터 아키텍처입니다.

생산자가 도메인 데이터를 이해하면 문서화, 품질, 액세스에 중점을 둔 데이터 거버넌스 정책을 설정할 수 있습니다. 이렇게 하면 조직 전체에서 셀프 서비스를 이용할 수 있게 됩니다. 이러한 페더레이션 접근 방식은 중앙 집중식 모놀리식 시스템과 연관된 많은 운영 병목 현상을 제거합니다. 하지만 이는 데이터 레이크데이터 웨어하우스와 같은 기존 스토리지 시스템을 사용할 수 없다는 것을 의미하지는 않습니다. 즉 하나의 중앙 집중식 데이터 플랫폼에서 여러 개의 분산형 데이터 저장소로 사용처가 이동했다는 의미일 뿐입니다.

데이터 메시가 확장을 이루고 데이터 관리 목표를 달성하기 위해 클라우드 네이티브 및 클라우드 플랫폼 기술의 도입을 촉진한다는 점은 주목할 가치가 있습니다. 이러한 개념은 일반적으로 마이크로서비스와 비교되는데, 이는 대상이 이러한 환경 내에서 마이크로서비스의 용도를 이해하는 데 도움이 됩니다. 이 분산 아키텍처는 조직 전반에 걸친 데이터 요구 사항을 확장하는 데 특히 유용하므로, 데이터 메시가 모든 유형의 비즈니스에 적합하지는 않을 수 있습니다. 따라서 소규모 기업은 조직의 데이터가 대규모 조직만큼 복잡하지 않을 수 있으므로 데이터 메시의 이점을 활용하지 못할 수 있습니다.

IT 컨설팅 회사 ThoughtWorks의 기술 이사인 Zhamak Dehghani는 중앙 집중식 모놀리식 데이터 구조의 내재적 문제(예: 데이터 접근성 및 구성)에 대한 해결책으로 데이터 메시 개념을 홍보한 것으로 알려져 있습니다. 코로나19 팬데믹으로 인해 문화적 변화를 주도하고 데이터를 둘러싼 조직의 복잡성을 줄이기 위한 노력의 일환으로 데이터 메시의 도입이 더욱 가속화되었습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트

주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

데이터 메시는 어떻게 작동하나요?

데이터 메시는 기업이 데이터에 대해 생각하는 방식의 문화적 변화를 수반합니다. 데이터가 프로세스의 부산물 역할을 하는 것이 아니라 데이터가 제품이 됩니다. 따라서 생산자가 데이터 제품 소유자 역할을 하게 됩니다. 기존에는 중앙 집중식 인프라 팀이 여러 도메인에 걸쳐 데이터 소유권을 유지했지만, 데이터 메시 모델에서 제품 사고의 초점은 주제별 전문가인 생산자에게로 전환됩니다. 생산자는 주요 데이터 소비자 그리고 이들이 도메인의 운영 데이터와 분석 데이터를 활용하는 방식을 이해하므로, 데이터 소비자의 최대 이익을 염두에 두고 API를 설계할 수 있습니다.

이러한 도메인 중심 설계에서는 데이터 생산자가 시맨틱 정의를 문서화하고, 메타데이터를 카탈로그화하고, 권한 및 사용에 대한 정책을 설정하는 책임을 맡지만, 데이터 전반에 걸쳐 이러한 표준과 절차를 시행하는 중앙 집중식 데이터 거버넌스 팀은 여전히 존재합니다. 또한 도메인 팀이 데이터 메시 아키텍처에서 ETL 데이터 파이프라인을 담당하게 되더라도, 중앙 집중식 데이터 엔지니어링 팀의 필요성은 사라지지 않습니다. 하지만 책임은 저장되는 데이터 제품에 가장 적합한 데이터 인프라 솔루션을 결정하는 데 더욱 집중됩니다.

마이크로서비스 아키텍처가 경량형 서비스를 결합하여 비즈니스 또는 소비자 대상 애플리케이션에 기능을 제공하는 것과 마찬가지로, 데이터 메시는 기능 도메인을 사용하여 데이터에 대한 매개 변수를 설정합니다. 이렇게 하면 조직 전체의 사용자가 액세스할 수 있는 제품으로 취급될 수 있습니다. 이런 방식으로 데이터 메시는 보다 유연한 데이터 통합과 상호 운용이 가능한 기능을 제공하며, 이를 통해 사용자는 여러 도메인의 데이터를 비즈니스 분석, 데이터 분석 실험 등에 즉시 활용할 수 있습니다.

Mixture of Experts | 4월 25일, 에피소드 52

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

데이터 메시와 데이터 레이크 비교

앞서 설명했듯이, 데이터 메시는 조직 전체의 사용자가 더 쉽게 액세스할 수 있도록 도메인별로 데이터를 구성하는 분산 데이터 아키텍처입니다. 데이터 레이크는 일반적으로 비즈니스 분석, 머신 러닝, 기타 광범위한 애플리케이션을 위한 페타바이트 규모의 정형, 반정형 및 비정형 데이터를 포괄하는 저비용 스토리지 환경입니다. 데이터 메시는 데이터에 대한 아키텍처 접근 방식이며, 데이터 레이크가 그 일부가 될 수 있습니다. 하지만 데이터 레이크는 아직 용도가 정의되지 않은 데이터를 수집하는 데 자주 사용되므로, 일반적으로 데이터 덤핑 장소로 사용됩니다. 이로 인해 데이터 레이크는 데이터 늪으로 전락할 수 있습니다. 즉 데이터 레이크가 적절한 데이터 품질과 데이터 거버넌스 관행을 갖추지 못해 인사이트가 풍부한 지식을 제공하지 못합니다.

데이터 메시와 데이터 패브릭 비교

데이터 패브릭은 데이터 공급자와 데이터 소비자 간의 데이터 가치 사슬에서 데이터 통합, 데이터 엔지니어링 및 거버넌스 자동화에 중점을 둔 아키텍처 개념입니다. 데이터 패브릭은 지식 그래프, 시맨틱, 인공 지능/머신 러닝 기술을 사용하여 다양한 유형의 메타데이터(예: 시스템 로그, 소셜 등)에서 패턴을 발견하고 이러한 인사이트를 적용하여 데이터 가치 사슬을 자동화하고 조정하는 '활성 메타데이터' 개념을 기반으로 합니다(예: 데이터 소비자가 데이터 제품을 찾은 후 해당 데이터 제품을 자동으로 프로비저닝할 수 있도록 지원). 데이터 패브릭은 상호 배타적인 것이 아니라 데이터 메시를 보완합니다. 실제로 데이터 패브릭은 데이터 제품을 더 빠르게 생성하고, 글로벌 거버넌스를 적용하고, 여러 데이터 제품의 조합을 더 쉽게 오케스트레이션하는 등 데이터 메시의 핵심 부분을 자동화할 수 있기 때문에 데이터 메시가 더욱 향상됩니다.

데이터 메시의 이점

데이터 민주화: 데이터 메시 아키텍처는 여러 데이터 소스에서 셀프 서비스 애플리케이션을 용이하게 하여, 데이터 접근성을 기술 전문가(예: 데이터 과학자, 데이터 엔지니어, 개발자) 너머로 확대합니다. 또한 도메인 기반 설계를 통해 데이터를 더 쉽게 검색하고 액세스할 수 있으므로, 데이터 사일로와 운영 병목 현상을 줄어듭니다. 따라서 더 빠른 의사 결정이 가능해지며, 기술 사용자는 자신의 기술 세트를 더 잘 활용하는 작업에 높은 우선순위를 둘 수 있습니다.

비용 효율성: 이 분산형 아키텍처는 일괄 데이터 처리에서 벗어나, 클라우드 데이터 플랫폼과 스트리밍 파이프라인을 도입하여 실시간으로 데이터를 수집합니다. 클라우드 스토리지는 데이터 팀이 필요에 따라 대규모 클러스터를 가동하고 지정된 스토리지에 대해서만 비용을 지불할 수 있도록 해줌으로써 추가적인 비용 이점을 제공합니다. 즉, 며칠이 아닌 몇 시간 안에 작업을 실행하기 위해 추가 컴퓨팅 성능이 필요한 경우, 추가 컴퓨팅 노드를 구매하여 클라우드 데이터 플랫폼에서 쉽게 이 작업을 수행할 수 있습니다. 또한 스토리지 비용에 대한 가시성이 개선되므로, 엔지니어링 팀이 예산과 리소스를 보다 효율적으로 할당할 수 있습니다.

기술적 부채 감소: 중앙 집중식 데이터 인프라는 복잡성 그리고 시스템 유지보수에 필요한 협업으로 인해 더 많은 기술적 부채를 유발합니다. 리포지토리 내에 데이터가 누적되면 전체 시스템이 느려지기 시작합니다. 데이터 팀은 도메인 소유권별로 데이터 파이프라인을 분산함으로써 데이터 소비자의 요구를 더 잘 충족하고 스토리지 시스템의 기술적 부담을 줄일 수 있습니다. 또한 접속할 수 있는 API를 제공하여 데이터에 대한 접근성을 높임으로써 개별 요청의 전체 볼륨을 줄일 수도 있습니다.

상호 운용성: 데이터 메시 모델에서 데이터 소유자는 도메인에 구애받지 않는 데이터 필드를 미리 표준화하는 방법에 동의하여 상호 운용성을 높입니다. 이러한 방식으로 도메인 팀은 각각의 데이터 세트를 구조화할 때 관련 규칙을 적용하여 도메인 간에 데이터를 빠르고 쉽게 연결할 수 있습니다. 일반적으로 표준화된 일부 필드에는 필드 유형, 메타데이터, 스키마 플래그 등이 있습니다. 도메인 간 일관성을 통해 데이터 소비자는 API와 보다 쉽게 상호 작용하고 비즈니스 요구 사항을 보다 적절하게 충족하는 애플리케이션을 개발할 수 있습니다.

보안 및 규정 준수: 데이터 메시 아키텍처는 도메인에 구애받지 않는 데이터에 대한 데이터 표준을 시행하고 민감한 데이터에 대한 액세스 제어를 지원하여 보다 강력한 거버넌스 관행을 촉진합니다. 이를 통해 조직은 HIPPA 제한과 같은 정부 규정을 준수하도록 보장합니다. 이러한 데이터 에코시스템의 구조는 데이터 감사 활성화를 통해 규정 준수를 지원합니다. 데이터 메시 아키텍처에서 데이터를 기록하고 추적하면 시스템에 대한 관측 가능성이 확보되므로, 감사자는 어떤 사용자가 특정 데이터에 액세스하는지, 그리고 해당 액세스 빈도는 얼마인지 파악할 수 있습니다.

데이터 메시의 사용 사례

분산형 데이터 메시 아키텍처의 도입이 계속 늘어나면서 팀이 일반적인 빅데이터 사용 사례에 대한 확장성 목표를 달성하는 데 도움이 되고 있습니다. 그 예는 다음과 같습니다.

  • 비즈니스 인텔리전스 대시보드: 새로운 이니셔티브가 발생하면 팀은 일반적으로 이러한 프로젝트의 성과를 파악하기 위한 맞춤형 데이터 뷰를 필요로 합니다. 데이터 메시 아키텍처는 데이터 소비자에게 데이터를 더 많이 제공함으로써 이러한 유연성과 맞춤화에 대한 요구를 충족할 수 있습니다.

  • 자동화된 가상 어시스턴트: 기업은 일반적으로 콜센터와 고객 서비스 팀을 지원하기 위해 챗봇을 사용합니다. 자주 묻는 질문은 다양한 데이터 세트와 관련이 있기 때문에 분산형 데이터 아키텍처를 통해 이러한 가상 에이전트 시스템에 더 많은 데이터 자산을 사용할 수 있습니다.

  • 고객 경험: 고객 데이터를 통해 기업은 사용자를 더 잘 이해할 수 있으며, 이를 통해 더욱 개인화된 경험을 제공할 수 있습니다. 이러한 현상은 마케팅부터 헬스케어에 이르기까지 다양한 산업에서 관찰되고 있습니다.

  • 머신 러닝 프로젝트: 도메인에 구애받지 않는 데이터를 표준화함으로써 데이터 과학자는 다양한 데이터 소스의 데이터를 더 쉽게 연결하여 데이터 처리에 걸리는 시간을 줄일 수 있습니다. 이러한 시간 단축은 프로덕션 환경으로 이동하는 모델의 수를 가속화하므로, 자동화 목표를 달성하는 데 도움이 될 수 있습니다.
관련 솔루션
IBM Data Product Hub

라이프사이클 전반에 걸쳐 데이터를 제품처럼 관리하세요. 버전 관리, 유지 관리, 업데이트를 위한 강력한 시스템을 기반으로 데이터 제품의 온보딩부터 폐기까지 전체 라이프사이클을 체계적으로 운영할 수 있습니다.

데이터 제품 허브 살펴보기
IBM Data Intelligence 솔루션

원시 데이터를 실행 가능한 인사이트로 신속하게 변환하고 데이터 거버넌스, 품질, 리니지 및 공유를 통합하며, 안정적이고 컨텍스트화된 데이터로 데이터 소비자를 지원할 수 있습니다.

데이터 인텔리전스 솔루션 살펴보기
데이터 및 분석 컨설팅 서비스

IBM Consulting을 통해 기업 데이터의 가치를 극대화해 비즈니스에 이득이 되는 인사이트 중심의 조직을 구축하세요.

분석 서비스 살펴보기
다음 단계 안내

기업이 성공하려면 데이터를 활용하여 고객 충성도를 높이고 비즈니스 프로세스를 자동화하며 AI 기반 솔루션으로 혁신을 이루어야 합니다.

분석 솔루션 살펴보기 데이터 제품 허브 알아보기