데이터 메시란 무엇인가요?

작성자

Staff Editor

IBM Think

Staff Writer

IBM Think

데이터 메시란 무엇인가요?

데이터 메시는 마케팅, 영업 또는 고객 서비스와 같은 비즈니스 도메인별로 데이터를 구성하는 분산형 데이터 아키텍처입니다. 도메인 데이터 생산자는 데이터를 제품처럼 다루며, 이를 통해 비즈니스 사용자는 조직 전반의 데이터를 쉽게 찾고 이해하며 활용할 수 있습니다.

이러한 도메인 중심 설계는 중앙 집중형 모놀리식 데이터 시스템에서 발생하는 많은 운영 병목 현상을 해결합니다. 그러나 데이터 메시를 도입한다고 해서 데이터 레이크나 데이터 웨어하우스와 같은 기존 데이터 스토리지 시스템이 불필요해지는 것은 아닙니다. 대신 이들의 역할은 단일 중앙 집중형 데이터 플랫폼에서 여러 분산형 데이터 저장소를 지원하는 방향으로 변화합니다.

데이터 메시 개념은 IT 컨설팅 기업 ThoughtWorks의 신기술 부문 디렉터인 Zhamak Dehghani에 의해 소개되고 대중화되었습니다. 그녀는 제한된 접근성과 조직 내 사일로와 같은 중앙 집중형 데이터 아키텍처의 고유한 문제를 해결하기 위한 방안으로 이 분산형 데이터 아키텍처를 제안했습니다.

데이터 메시는 일반적으로 하나의 애플리케이션이 여러 개의 작고 느슨하게 결합된 서비스로 구성되는 마이크로서비스 아키텍처와 비교되는데, 이는 두 접근 방식 모두 분산화, 자율성 및 확장성을 강조하기 때문입니다.

왜 데이터 메시를 사용하나요?

조직은 매일 방대한 양의 데이터를 생성하고 수집합니다. 각 부서 또는 비즈니스 단위는 데이터 세트를 생성하며, 이러한 데이터는 종종 서로 다른 저장소에 저장되고 일반적으로 중앙 집중형 데이터 팀에 의해 관리됩니다.

이러한 분리는 데이터 공유를 방해하고 데이터 품질을 저하시켜 데이터 기반 의사결정을 약화시키는 데이터 사일로, 즉 분리된 운영 및 분석 데이터 집합을 생성합니다. 데이터 사일로는 또한 빅데이터, 머신 러닝(ML) 및 인공지능(AI) 이니셔티브의 효과를 제한합니다.

실제로 IBM® Data Differentiator에 따르면 기업의 82%가 데이터 사일로가 핵심 워크플로를 방해한다고 답했으며, 기업 데이터의 68%는 여전히 분석되지 않은 상태로 남아 있습니다.

분산형 데이터 메시 아키텍처는 데이터 소유권과 관리를 분산함으로써 이러한 문제를 해결합니다. 중앙 집중형 데이터 팀과 기존 파이프라인에 의존하는 대신 데이터 소유권이 도메인 팀으로 이전됩니다. 이 팀들은 자체 데이터를 관리하고 셀프 서비스 데이터 인프라를 통해 이를 조직 전체에 제품 형태로 제공합니다.

이러한 데이터 제품화 접근 방식은 접근성, 거버넌스 및 활용성을 강조합니다. 이는 데이터 역시 고품질 소비자 제품과 마찬가지로 사용자의 구체적인 데이터 요구를 충족할 수 있도록 관리되고 구성되어야 한다는 원칙에 기반합니다.

데이터 제품이란 무엇인가요?

데이터 제품은 데이터, 메타데이터, 의미 체계 및 템플릿을 포함하는 재사용 가능하고 독립적인 자산입니다. 이 데이터 제품은 특정 사용 사례와 기업 전반의 다양한 사용자를 위해 설계되며, 그렇지 않으면 사일로화될 수 있는 데이터로부터 의미 있는 비즈니스 가치를 도출할 수 있도록 지원합니다.

데이터 제품은 제품 중심적 사고와 전통적인 제품 개발 원칙을 적용하여 개발됩니다. 이 접근 방식은 사용자의 데이터 요구를 이해하고, 가치가 높은 기능의 우선순위를 정하며, 피드백을 기반으로 반복 개선하는 과정을 포함합니다.

효과적인 데이터 제품은 검색 가능하고 이해하기 쉬우며, 상호 운용 가능하고, 공유 가능하며, 안전하고 재사용 가능해야 합니다.

심층 분석: 데이터 제품이란 무엇인가요?

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

데이터 메시는 어떻게 작동하나요?

데이터 메시 패러다임은 단순한 기술 구현 이상의 의미를 가집니다. 이는 조직이 데이터 소유권과 액세스를 바라보는 방식의 문화적 전환을 포함합니다. 전통적으로 조직은 도메인 데이터를 프로세스나 시스템의 부산물로 취급했습니다. 그러나 데이터 메시는 데이터를 제품으로 취급하기 때문에 도메인 팀은 데이터 제품 소유자가 됩니다.

Zhamak Dehghani에 따르면 데이터 메시에는 네 가지 핵심 원칙이 있습니다.¹

도메인 중심의 분산형 데이터 소유권 및 아키텍처
데이터 제품화
플랫폼으로서의 셀프 서비스 데이터 인프라
연합형 컴퓨팅 거버넌스

도메인 중심의 분산형 데이터 소유권 및 아키텍처

전통적으로 중앙 집중형 인프라 또는 데이터 엔지니어링 팀이 여러 도메인에 걸친 데이터 소유권을 관리했습니다. 데이터 메시 모델에서는 이러한 소유권이 분산되며, 데이터와 가장 가까이 있고 데이터 활용 방식을 가장 잘 이해하는 도메인 팀으로 이전됩니다. 이러한 데이터 소유자는 특정 사용 사례에 맞춘 데이터 제품을 만드는 책임을 집니다.

도메인 팀은 또한 데이터 메시 아키텍처 내에서 자체 추출, 변환, 로드(ETL)/추출, 로드, 변환(ELT) 파이프라인을 관리합니다. 그러나 이러한 책임이 중앙 집중형 데이터 엔지니어링 팀의 필요성을 없애는 것은 아닙니다. 대신 이들의 역할은 데이터 제품을 저장하고 제공하기 위한 최적의 데이터 인프라 솔루션을 제공하고 유지 관리하는 방향으로 변화합니다.

데이터 제품화

데이터 제품화(DaaP) 접근 방식은 데이터 세트를 조직 내부 및 외부의 다양한 사용자에게 제공할 수 있는 상품성 있는 제품으로 취급합니다. 도메인 데이터 제품은 애플리케이션 프로그래밍 인터페이스(API) 또는 데이터 공유 플랫폼을 통해 조직 전체 사용자에게 제공됩니다.

이러한 방식으로 데이터 메시 접근 방식은 더 유연한 데이터 통합과 상호 운용 가능한 데이터 제품을 가능하게 합니다. 여러 도메인의 데이터는 데이터 분석, 데이터 과학, 머신 러닝 및 기타 사용 사례에 쉽게 활용될 수 있습니다.

플랫폼으로서의 셀프 서비스 데이터 인프라

셀프 서비스 데이터 플랫폼은 전문적인 제품 구축 지식이 적은 도메인 팀도 새로운 데이터 제품을 생성, 유지 관리 및 공유할 수 있도록 지원하는 툴을 제공합니다. 데이터 플랫폼 팀은 확장 가능한 데이터 스토리지, 데이터 파이프라인 오케스트레이션, 데이터 계보 등과 같은 데이터 서비스를 제공할 수 있습니다.

셀프 서비스 플랫폼은 다양한 사용자를 지원하기 위해 서로 다른 플레인 또는 계층을 가질 수도 있습니다. Dehghani는 데이터 인프라 프로비저닝 플레인, 데이터 제품 개발자 경험 플레인 및 데이터 메시 감독 플레인의 세 가지 예를 제시합니다.

연합형 거버넌스 및 파이프라인 관리

데이터 메시 에코시스템에서 도메인 팀은 문서화, 품질 및 액세스와 관련된 데이터 거버넌스 정책을 정의할 책임을 집니다. 여기에는 의미 정의 유지, 메타데이터 카탈로그화 및 권한과 사용 정책 설정이 포함됩니다.

이러한 표준화는 조직 전반의 셀프 서비스 데이터 액세스를 지원하며, 동시에 중앙 집중형 데이터 거버넌스 팀은 조직 표준을 수립하고 유지 관리합니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

데이터 메시와 데이터 패브릭 비교

데이터 패브릭과 데이터 메시는 상호 보완적인 데이터 아키텍처입니다. 실제로 데이터 패브릭은 데이터 메시의 기능을 강화하고 구현을 가능하게 하는 경우가 많습니다.

데이터 패브릭은 지능형 및 자동화된 시스템을 사용해 사일로를 해소하고, 데이터 자산을 관리하며, 대규모 환경에서 데이터 관리를 최적화합니다. 이는 데이터 수집, 데이터 통합, 데이터 엔지니어링 및 거버넌스의 자동화에 중점을 둡니다. 예를 들어 데이터 패브릭은 데이터 제품 생성 및 수명 주기 관리와 같은 데이터 메시의 핵심 부분을 자동화할 수 있습니다.

데이터 패브릭과 데이터 메시의 차이점 자세히 알아보기

데이터 메시의 이점

데이터 메시 아키텍처를 도입한 조직은 다음과 같은 다양한 이점을 얻을 수 있습니다.

데이터 민주화 및 검색 가능성 향상
비용 효율성 향상
유연한 확장성
기술 부채 감소
상호 운용성 향상
강화된 보안 및 규정 준수

데이터 대중화 및 검색 가능성 향상

데이터 메시 아키텍처는 데이터 세트를 검색 가능하고 활용 가능하게 만들어 셀프 서비스 데이터 액세스를 지원할 수 있습니다. 이러한 대중화는 데이터 액세스를 데이터 과학자, 데이터 엔지니어 및 개발자와 같은 기술 팀을 넘어 더 폭넓게 확장합니다. 적절한 거버넌스가 적용되면 이 접근 방식은 데이터 사일로와 운영 병목 현상을 줄여 더 빠르고 민첩한 의사결정을 가능하게 할 수 있습니다.

비용 효율성

데이터 메시의 분산형 아키텍처는 실시간 데이터 스트리밍을 위한 클라우드 데이터 플랫폼 및 파이프라인 도입을 촉진할 수 있습니다. 이러한 툴은 스토리지 및 처리 비용에 대한 가시성을 향상시켜 엔지니어링 팀이 예산과 리소스를 더 효율적으로 할당할 수 있도록 지원합니다.

유연한 확장성

조직이 클라우드 인프라에서 데이터 메시를 구현하면 데이터 팀은 필요에 따라 스토리지 및 컴퓨팅 리소스를 확장할 수 있습니다. 예를 들어 작업을 며칠이 아닌 몇 시간 내에 완료하기 위해 추가 컴퓨팅 성능이 필요한 경우, 기업은 임시 추가 컴퓨팅 노드를 쉽게 프로비저닝할 수 있습니다.

기술 부채 감소

도메인별로 데이터 파이프라인 책임을 분산하면 중앙 집중형 데이터 시스템 유지에 필요한 복잡성과 협업 부담을 줄일 수 있습니다. 이러한 분산형 접근 방식은 기술적 부담과 기술 부채를 줄이고 데이터 소비자에게 더 빠르게 데이터를 제공할 수 있게 합니다.

상호 운용성 향상

데이터 메시는 도메인 팀이 필드 유형, 메타데이터 및 스키마 플래그와 같은 표준화된 도메인 독립형 데이터 필드 및 형식에 합의하도록 장려합니다. 이러한 공유 규칙은 여러 도메인에 관련 규칙을 빠르고 쉽게 적용할 수 있게 함으로써 통합과 재사용을 촉진합니다.

강화된 보안 및 규정 준수

데이터 메시 아키텍처는 표준화된 규칙과 내장된 관측 가능성을 통해 도메인 수준에서 데이터 규칙과 액세스 제어를 적용하도록 지원합니다. 이러한 강력한 거버넌스 체계는 조직이 미국 건강 보험 양도 및 책임에 관한 법률(HIPAA)과 같은 민감한 데이터 관련 규정을 준수하도록 지원합니다.