데이터 아키텍처는 수집부터 변환, 분배, 소비에 이르기까지 데이터가 관리되는 방식을 설명합니다. 데이터 아키텍처는 데이터와 데이터 스토리지 시스템을 통해 데이터가 이동하는 방식에 관한 청사진을 제공합니다. 그리고 데이터 처리 작업 및 인공 지능(AI) 애플리케이션을 위한 토대 역할을 수행합니다.
데이터 아키텍처는 비즈니스 요구 사항에 따라 설계되어야 하며, 이러한 요구 사항을 바탕으로 데이터 설계자와 데이터 엔지니어는 해당 데이터 모델과 이러한 데이터 모델을 지원하는 기반 데이터 구조를 정의합니다. 이러한 설계는 일반적으로 보고 또는 데이터 사이언스 이니셔티브와 같은 비즈니스 요구 사항을 지원합니다.
사물 인터넷(IoT)과 같은 새로운 기술을 통해 새로운 데이터 소스가 등장함에 따라 훌륭한 데이터 아키텍처가 있으면 데이터를 관리 가능하고 유용한 상태로 유지하여 데이터 라이프사이클 관리를 지원할 수 있습니다. 더 구체적으로 말하자면, 훌륭한 데이터 아키텍처를 통해 중복 데이터 저장을 방지하고 정리 및 중복 제거를 통해 데이터 품질을 향상하고 새로운 애플리케이션을 지원할 수 있습니다. 또한 현대적인 데이터 아키텍처는 부서 또는 지리적 위치 등 여러 도메인 간의 데이터 통합을 위한 메커니즘을 제공하므로 모든 것을 한 곳에 저장하는 데 따르는 엄청난 복잡성 없이 데이터 사일로를 해소할 수 있습니다.
현대적인 데이터 아키텍처는 데이터 관리와 처리를 위해 클라우드 플랫폼을 활용하는 경우가 많습니다. 이 경우 비용이 더 많이 들 수 있지만 컴퓨팅 확장성 덕분에 중요한 데이터 처리 작업을 신속하게 완료할 수 있습니다. 또한 스토리지 확장성은 데이터 볼륨 증가에 대처하는 데 도움이 되며, AI 애플리케이션 훈련 품질을 향상하기 위해 모든 관련 데이터가 제공되도록 하는 데 도움을 줍니다.
데이터 아키텍처 문서에는 3가지 유형의 데이터 모델이 포함됩니다.
TOGAF, DAMA-DMBOK 2 및 Zachman Framework for Enterprise Architecture와 같은 널리 사용되는 엔터프라이즈 아키텍처 프레임워크를 활용하여 데이터 아키텍처를 만들 수 있습니다.
The Open Group Architecture Framework(TOGAF)
이 엔터프라이즈 아키텍처 방법론은 IBM이 Platinum Member인 The Open Group에 의해 1995년에 개발되었습니다.
이 아키텍처에는 다음과 같은 4가지 영역이 있습니다.
이처럼 TOGAF는 데이터 아키텍처를 포함하여 엔터프라이즈의 IT 아키텍처를 설계 및 구현하기 위한 완벽한 프레임워크를 제공합니다.
DAMA-DMBOK 2
DAMA International은 원래 Data Management Association International로 설립되었으며, 데이터 및 정보 관리 방식의 발전을 위해 일하는 비영리 조직입니다. 이 조직의 DMBoK(Data Management Body of Knowledge)인 DAMA-DMBOK 2는 데이터 아키텍처와 더불어 거버넌스 및 윤리, 데이터 모델링 및 설계, 저장, 보안, 통합을 다룹니다.
Zachman Framework for Enterprise Architecture
원래 1987년에 IBM의 John Zachman이 개발한 이 프레임워크는 컨텍스트 계층부터 세부 계층까지 왜, 어떻게, 무엇과 같은 6개의 질문에 따라 매핑된 6개의 계층으로 구성된 매트릭스를 사용합니다. 이 프레임워크는 데이터를 조직화하고 분석하는 공식적인 방법을 제공하지만 조직화와 분석을 위한 구체적인 방법은 포함하지 않고 있습니다.
데이터 아키텍처는 다양한 데이터 관리 시스템이 어떻게 함께 작동하는지를 개괄적으로 보여줍니다. 여기에는 데이터 레이크, 데이터 웨어하우스, 데이터 마트, 데이터베이스 등과 같은 다양한 다수의 데이터 스토리지 저장소가 포함됩니다. 이들은 함께 점점 더 인기를 얻고 있는 데이터 패브릭 및 데이터 메시와 같은 데이터 아키텍처를 만들 수 있습니다. 이러한 아키텍처는 산물(product)로서의 데이터에 더 중점을 두고, 메타데이터를 중심으로 더 표준화하고 API를 통해 조직 전반에서 데이터를 더 민주화합니다.
다음 섹션에서는 이러한 각 스토리지 구성 요소와 데이터 아키텍처 유형에 대해 더 자세히 살펴봅니다.
데이터 관리 시스템의 유형
데이터 아키텍처 유형
데이터 패브릭: 데이터 패브릭은 데이터 제공자와 데이터 소비자 간의 데이터 가치 사슬에서 데이터 통합, 데이터 엔지니어링 및 거버넌스의 자동화에 중점을 둔 아키텍처입니다. 데이터 패브릭은 다양한 유형의 메타데이터(예: 시스템 로그, 소셜 등)에서 패턴을 발견하기 위해 지식 그래프, 의미론, 데이터 마이닝, 머신 러닝(ML) 기술을 사용하는 "활성 메타데이터(active metadata)"라는 개념을 기반으로 합니다. 그 다음, 데이터 패브릭은 이러한 인사이트를 적용하여 데이터 가치 사슬을 자동화하고 오케스트레이션합니다. 예를 들면, 데이터 패브릭은 데이터 소비자가 데이터 산물을 찾은 다음 이 데이터 산물을 자동으로 프로비저닝하도록 지원할 수 있습니다. 데이터 산물과 데이터 소비자 간의 데이터 액세스 증가 덕분에 데이터 사일로가 감소하고 조직의 데이터를 더욱 완벽하게 이해할 수 있습니다. 데이터 패브릭은 엄청난 잠재력을 지닌 새로운 기술이며, 고객 프로파일링, 사기 탐지, 예방적 유지보수 능력을 향상하는 데 사용할 수 있습니다. Gartner에 따르면 데이터 패브릭을 사용할 경우 통합 설계 시간이 30%, 배치 시간이 30%, 그리고 유지 관리가 70% 줄어드는 것으로 나타났습니다.
데이터 메시: 데이터 메시는 비즈니스 도메인에 따라 데이터를 조직화하는 탈중앙집중식 데이터 아키텍처입니다. 데이터 메시를 사용하는 조직은 데이터를 프로세스의 부산물로 생각하지 말고 그 자체를 산물로 간주해야 합니다. 데이터 생성자는 데이터 산물의 소유자 역할을 수행합니다. 분야별 전문가(SME)로서 데이터 생성자는 데이터의 일차 소비자에 대한 이해를 바탕으로 이들을 위한 API를 설계할 수 있습니다. 이러한 API는 또한 조직의 다른 부문에서도 액세스 가능하므로 관리형 데이터에 대한 폭넓은 액세스가 제공됩니다.
데이터 레이크 및 데이터 웨어하우스와 같은 보다 전통적인 스토리지 시스템은 데이터 메시를 실현하기 위한 여러 탈중앙집중식 데이터 저장소로 사용할 수 있습니다. 데이터 메시는 또한 데이터 패브릭과 함께도 작동됩니다. 데이터 패브릭의 자동화를 통해 새로운 데이터 산물을 더욱 빠르게 생성하거나 글로벌 거버넌스를 수행할 수 있습니다.
잘 구성된 데이터 아키텍처는 기업에 다음과 같은 여러 가지 주요 이점을 제공할 수 있습니다.
AI, 블록체인, 사물 인터넷(IoT) 워크로드와 같은 미래의 애플리케이션을 위한 로드맵을 구축할 경우 조직에는 데이터 요구 사항을 지원할 수 있는 현대적인 데이터 아키텍처가 필요합니다.
현대적인 데이터 아키텍처의 7가지 주요 특징은 다음과 같습니다.
IBM Cloud Pak for Data는 클라우드에서 모든 데이터를 AI 및 분석에 사용할 수 있도록 데이터 패브릭을 제공하는 개방형의 확장 가능한 데이터 플랫폼입니다.
AI 모델을 구축, 실행 및 관리합니다. 오픈 소스 코드 또는 비주얼 모델링을 사용하여 임의의 클라우드에서 데이터를 준비하고 모델을 구축합니다. 결과를 예측하고 최적화합니다.
구성과 운영을 최적화하여 강력한 성능을 제공하는 완전 관리형 SQL 클라우드 데이터베이스인 IBM Db2® on Cloud에 대해 알아봅니다.