데이터 아키텍처는 수집에서 변환, 배포 및 소비에 이르기까지 데이터를 관리하는 방법을 설명합니다. 이는 데이터의 청사진과 데이터가 데이터 스토리지 시스템을 통해 흐르는 방식을 설정합니다. 데이터 처리 작업과 인공 지능(AI) 애플리케이션의 기반이 되기도 합니다.
데이터 아키텍처의 설계는 데이터 아키텍트와 데이터 엔지니어가 각 데이터 모델과 이를 지원하는 기본 데이터 구조를 정의하는 데 사용하는 비즈니스 및 데이터 요구 사항에 따라 이루어져야 합니다. 이러한 설계는 일반적으로 보고 또는 데이터 과학 이니셔티브와 같은 비즈니스 요구 사항 또는 비즈니스 전략을 용이하게 합니다.
사물인터넷(IoT)과 같은 새로운 기술을 통해 새로운 데이터 소스가 등장함에 따라 우수한 데이터 아키텍처는 데이터를 관리하기 쉽고 유용하게 만들어 데이터 라이프사이클 관리를 지원합니다. 보다 구체적으로 말하자면, 중복 데이터 스토리지를 방지하고, 정리 및 중복 제거를 통해 데이터 품질을 개선하고, 생성형 AI와 같은 새로운 애플리케이션을 가능하게 할 수 있습니다.
또한 최신 데이터 아키텍처는 부서 간 또는 지역 간 등 여러 도메인에 걸쳐 데이터를 통합하는 메커니즘을 제공하여 데이터 사일로를 허뭅니다. 따라서 모든 것을 한 곳에 저장하는 데 따르는 엄청난 복잡성도 만들지 않습니다.
최신 데이터 아키텍처는 클라우드 플랫폼을 사용하여 데이터를 관리하고 처리하는 경우가 많습니다. 비용이 더 많이 들 수 있지만 컴퓨팅 확장성을 통해 중요한 데이터 처리 작업을 신속하게 완료할 수 있습니다. 또한 스토리지 확장성은 증가하는 데이터 양에 대처하고 모든 관련 데이터를 사용하여 AI 애플리케이션 교육의 품질을 개선하는 데 도움이 됩니다.
데이터 아키텍처 설명서에는 3가지 유형의 데이터 모델이 포함되어 있습니다.
데이터 아키텍처는 TOGAF, DAMA-DMBOK 2, Zachman Framework for Enterprise Architecture와 같이 널리 사용되는 엔터프라이즈 아키텍처 프레임워크에서 가져올 수 있습니다.
이 엔터프라이즈 아키텍처 방법론은 1995년 IBM이 플래티넘 회원으로 가입되어 있는 The Open Group에서 개발했습니다.
아키텍처에는 4가지 핵심 요소가 있습니다.
TOGAF는 데이터 아키텍처를 포함한 기업의 IT 아키텍처를 설계하고 구현하기 위한 완전한 프레임워크를 제공합니다.
원래 Data Management Association International로 설립된 DAMA International은 데이터 및 정보 관리의 발전에 전념하는 비영리 조직입니다. 데이터 관리 지식 체계인 DAMA-DMBOK 2는 데이터 아키텍처는 물론 거버넌스 및 윤리, 데이터 모델링 및 설계, 저장, 보안, 통합을 다룹니다.
1987년 IBM의 John Zachman이 처음 개발한 이 프레임워크는 문맥에서 세부 사항까지 6개의 계층으로 구성된 매트릭스를 사용하여 왜, 어떻게, 무엇을 등 6개의 질문에 매핑합니다. 데이터를 정리하고 분석하는 공식적인 방법을 제공하지만, 데이터를 분석하는 방법은 포함되어 있지 않습니다.
데이터 아키텍처는 서로 다른 데이터 관리 시스템이 함께 작동하는 방식에 대한 개략적인 관점을 보여줍니다. 여기에는 데이터 레이크, 데이터 웨어하우스, 데이터 마트, 데이터베이스 등 다양한 데이터 플랫폼과 데이터 스토리지 리포지토리가 포함됩니다.
이를 함께 사용하면 데이터 패브릭 및 데이터 메시와 같은 데이터 아키텍처를 만들 수 있으며, 이러한 데이터 아키텍처는 점점 더 인기를 얻고 있습니다. 이러한 아키텍처는 제품으로서의 데이터에 더 중점을 두어 메타데이터에 대한 표준화를 강화하고 애플리케이션 프로그래밍 인터페이스(API)를 통해 조직 전반에서 데이터를 더 민주화합니다.
다음 섹션에서는 각 스토리지 구성 요소와 데이터 아키텍처 유형에 대해 자세히 설명합니다.
데이터 웨어하우스는 기업 전반의 다양한 관계형 데이터 소스의 데이터를 일관된 단일 중앙 리포지토리로 통합합니다. 추출 후 데이터는 미리 정의된 데이터 모델을 충족하기 위해 다양한 데이터 변환을 거치면서 추출, 변환 및 로드(ETL) 데이터 파이프라인을 통해 이동합니다. 데이터 웨어하우징 시스템에 로드되면 데이터는 다양한 비즈니스 인텔리전스(BI) 및 데이터 과학 애플리케이션을 지원하기 위해 유지됩니다.
데이터 마트는 단일 팀 또는 이해관계자 그룹(예: HR 부서)에 중요하고 필요한 데이터의 소규모 하위 집합을 포함하는 데이터 웨어하우스의 집중 버전입니다. 데이터 마트에는 더 작은 데이터 하위 집합이 포함되어 있으므로, 부서 또는 비즈니스 라인은 더 광범위한 데이터 웨어하우스 데이터 집합으로 작업할 때 보다 집중적인 인사이트를 가능한 한 빨리 발견할 수 있습니다.
데이터 마트는 1990년대에 조직이 데이터 웨어하우스를 구축하는 데 어려움을 겪으면서 처음 등장했습니다. 당시에는 조직 전체의 데이터를 통합하기 위해 많은 수작업 코딩이 필요했고 시간이 너무 많이 소요되었습니다. 데이터 마트는 범위가 더 제한되어 있기 때문에 중앙 집중식 데이터 웨어하우스보다 더 빠르고 간단하게 구현할 수 있었습니다.
데이터 웨어하우스는 처리된 데이터를 저장하는 반면, 데이터 레이크는 원시 데이터 (일반적으로 페타바이트) 를 저장합니다. 데이터 레이크는 정형 데이터와 비정형 데이터를 모두 저장할 수 있다는 점에서 다른 데이터 리포지토리와 차별화됩니다. 이러한 스토리지 요구 사항의 유연성은 데이터 분석가, 데이터 과학자, 데이터 엔지니어, 개발자에게 유용하며, 이를 통해 데이터 디스커버리 연습과 머신 러닝(ML) 프로젝트를 위해 데이터에 액세스할 수 있습니다.
데이터 레이크는 데이터 웨어하우스가 증가하는 빅데이터의 양, 속도, 다양성을 처리하지 못하는 것에 대한 대응책으로 만들어졌습니다. 데이터 레이크는 데이터 웨어하우스보다 속도가 느리지만, 수집 전에 데이터를 거의 또는 전혀 준비할 필요가 없기 때문에 비용도 저렴합니다. 오늘날에는 클라우드로의 데이터 마이그레이션 노력의 일환으로 계속 발전하고 있습니다.
데이터 레이크는 데이터 수집 시점에서 데이터의 비즈니스 목표를 정의할 필요가 없으므로 광범위한 사용 사례를 지원합니다. 주요 사용 사례 2가지로는 데이터 과학 탐색과 데이터 백업 및 복구 노력을 들 수 있습니다.
데이터 과학자는 데이터 레이크를 개념 증명에 사용할 수 있습니다. 관계형 데이터베이스 시스템에서는 불가능한 정형 데이터와 비정형 데이터를 같은 위치에 저장할 수 있으므로 머신 러닝 애플리케이션에 이점을 제공할 수 있습니다.
데이터 레이크는 빅데이터 분석 프로젝트를 테스트하고 개발하는 데에도 사용할 수 있습니다. 애플리케이션이 개발되고 유용한 데이터가 식별되면 데이터를 데이터 웨어하우스로 내보내 운영 용도로 사용할 수 있으며, 자동화를 사용하여 애플리케이션 규모를 확장할 수 있습니다.
데이터 레이크는 저렴한 비용으로 확장할 수 있기 때문에 데이터 백업 및 복구에도 사용할 수 있습니다. 또한 동일한 이유로 인해 비즈니스 요구 사항이 아직 정의되지 않은 '만일의 경우를 대비한' 데이터를 저장하는 데도 데이터 레이크가 유용합니다. 데이터를 지금 저장해 두면 나중에 새로운 이니셔티브가 등장할 때 사용할 수 있습니다.
데이터 레이크하우스 는 데이터 웨어하우스와 데이터 레이크의 여러 측면을 하나의 데이터 관리 솔루션으로 병합하는 데이터 플랫폼입니다.
레이크하우스는 저비용 스토리지와 고성능 쿼리 엔진, 지능형 메타데이터 거버넌스를 결합한 솔루션입니다. 이를 통해 조직은 대량의 정형 및 비정형 데이터를 저장하고 해당 데이터를 AI, ML 및 분석 작업에 쉽게 사용할 수 있습니다.
데이터베이스는 데이터를 저장, 관리 및 보호하기 위한 기본 디지털 저장소입니다. 다양한 유형의 데이터베이스는 다양한 방식으로 데이터를 저장합니다. 예를 들어, 관계형 데이터베이스('SQL 데이터베이스'라고도 함)는 행과 열이 있는 정의된 테이블에 데이터를 저장합니다. 비관계형 데이터베이스('NoSQL 데이터베이스'라고도 함)는 키-값 쌍 또는 그래프를 비롯한 다양한 데이터 구조로 데이터를 저장할 수 있습니다.
데이터 패브릭은 데이터 공급자와 데이터 소비자 간의 데이터 가치 사슬에서 데이터 통합, 데이터 엔지니어링 및 거버넌스의 자동화에 중점을 둔 아키텍처입니다.
데이터 패브릭은 데이터 카탈로그, 지식 그래프, 의미론, 데이터 마이닝 및 머신 러닝 기술을 사용하여 다양한 유형의 메타데이터 (예: 시스템 로그, 소셜 등)에서 패턴을 발견하는 '활성 메타데이터'라는 개념을 기반으로 합니다. 그런 다음, 이 인사이트를 적용하여 데이터 가치 사슬을 자동화하고 오케스트레이션합니다.
예를 들어, 데이터 패브릭을 사용하면 데이터 소비자가 데이터 제품을 찾은 다음 해당 데이터 제품을 자동으로 프로비저닝할 수 있습니다. 데이터 제품과 데이터 소비자 간의 데이터 접근이 향상되면 데이터 사일로가 줄어들고 조직의 데이터를 더 잘 파악할 수 있습니다.
데이터 패브릭은 매우 큰 잠재력을 지닌 신기술입니다. 고객 프로파일링, 사기 탐지 및 예방적 유지보수를 개선하는 데 사용할 수 있습니다. Gartner에 따르면 데이터 패브릭은 통합 설계 시간을 30%, 배포 시간을 30%, 유지 관리 시간을 70% 단축한다고 합니다.
데이터 메시는 비즈니스 도메인별로 데이터를 구성하는 분산형 데이터 아키텍처입니다.
데이터 메시를 사용하는 조직은 데이터를 프로세스의 부산물로 생각하는 것이 아니라 그 자체로 완전한 제품이라고 생각해야 합니다. 데이터 생산자는 데이터 제품 소유자 역할을 합니다. 주제별 전문가인 데이터 생산자는 데이터의 주요 소비자에 대한 이해를 바탕으로 API를 설계할 수 있습니다. 이러한 API는 조직의 다른 부분에서도 액세스할 수 있으므로 관리되는 데이터에 대한 광범위한 액세스를 제공합니다.
데이터 레이크 및 데이터 웨어하우스와 같은 보다 전통적인 스토리지 시스템을 여러 분산형 데이터 리포지토리로 사용하여 데이터 메시를 실현할 수 있습니다. 또한 데이터 메시는 데이터 패브릭과 함께 작동할 수 있으며, 데이터 패브릭의 자동화를 통해 새로운 데이터 제품을 더 빠르게 생성하거나 글로벌 거버넌스를 적용할 수 있습니다.
잘 구축된 데이터 아키텍처는 다음과 같은 여러 가지 주요 이점을 제공할 수 있습니다.
서로 다른 소스에 걸쳐 겹치는 데이터 필드가 있을 수 있으며, 이로 인해 불일치, 데이터 부정확성이 발생하거나 데이터 통합 기회를 놓칠 위험이 있습니다. 좋은 데이터 아키텍처는 데이터 저장 방법을 표준화하고 잠재적으로 중복을 줄여 더 나은 품질과 전체적인 분석을 가능하게 할 수 있습니다.
잘 설계된 데이터 아키텍처는 '데이터 늪'이라고도 하는 제대로 관리되지 않는 데이터 레이크의 몇 가지 문제를 해결할 수 있습니다. 데이터 늪에는 통찰력 있는 교훈을 제공하는 데 필요한 데이터 품질 및 데이터 거버넌스 관행을 비롯한 적절한 데이터 표준이 없습니다.
데이터 아키텍처는 데이터 파이프라인의 적절한 감독을 지원하여 데이터 거버넌스 및 데이터 보안 표준 시행에 도움이 됩니다. 데이터 아키텍처를 사용하면 데이터 품질과 거버넌스를 개선하여 데이터를 현재와 미래에 유용하게 사용될 수 있는 방식으로 저장할 수 있습니다.
데이터 스토리지에 대한 기술적 한계와 기업 내 조직적 장벽으로 인해 데이터가 사일로화되는 경우가 많습니다. 오늘날의 데이터 아키텍처는 서로 다른 지역과 사업 부서에서 서로의 데이터에 액세스할 수 있도록 도메인 간 데이터 통합을 촉진하는 것을 목표로 해야 합니다. 이를 통해 비용, 수익 및 관련 동인 등의 일반적인 지표를 더 일관성 있게 파악할 수 있습니다. 또한 고객, 제품 및 지역을 보다 전체적인 시각으로 파악하여 데이터 기반 의사 결정을 내릴 수 있습니다.
최신 데이터 아키텍처는 시간 경과에 따른 데이터 관리 방식을 다룰 수 있습니다. 데이터는 일반적으로 오래될수록 유용성이 떨어지고 액세스 빈도가 낮아집니다. 시간이 지나면 데이터를 더 저렴하고 느린 스토리지 유형으로 마이그레이션하여 고성능 스토리지에 대한 비용 부담 없이 데이터를 유지하며 보고서와 감사에 계속 사용할 수 있습니다.
조직이 AI, 블록체인 및 사물인터넷(IoT) 워크로드 등의 미래 애플리케이션에 대한 로드맵을 구축하려면 데이터 요구 사항을 지원할 수 있는 최신 데이터 아키텍처가 필요합니다.
최신 데이터 아키텍처의 주요 특징은 다음과 같습니다.
IBM 데이터베이스 솔루션을 사용하면 하이브리드 클라우드 전반에서 다양한 워크로드 요구 사항을 충족할 수 있습니다.
IBM Db2에 대해 알아보세요. 고성능과 확장성, 안정성을 제공하여 구조화된 데이터를 저장하고 관리하는 관계형 데이터베이스 IBM Db2는 IBM Cloud에서 SaaS 형태로, 또는 자체 호스팅을 통해 사용할 수 있습니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.