홈
topics
데이터 아키텍처
데이터 아키텍처는 수집부터 변환, 배포, 소비에 이르기까지 데이터가 관리되는 방식을 설명합니다. 또한 데이터의 청사진과 데이터가 데이터 스토리지 시스템을 통과하는 방식을 설정하며, 데이터 처리 작업과 인공지능(AI) 애플리케이션의 기반이 되기도 합니다.
데이터 아키텍처의 설계는 데이터 아키텍트와 데이터 엔지니어가 각 데이터 모델과 이를 지원하는 기본 데이터 구조를 정의하는 데 사용하는 비즈니스 요구 사항에 따라 이루어져야 합니다. 이러한 설계는 일반적으로 보고 또는 데이터 과학 이니셔티브와 같은 비즈니스 요구 사항을 용이하게 합니다.
사물인터넷(IoT)과 같은 새로운 기술을 통해 새로운 데이터 소스가 등장함에 따라 우수한 데이터 아키텍처는 데이터를 관리하기 쉽고 유용하게 만들어 데이터 수명 주기 관리를 지원합니다. 보다 구체적으로 말하자면, 중복 데이터 스토리지를 방지하고, 정리 및 중복 제거를 통해 데이터 품질을 개선하고, 새로운 애플리케이션을 가능하게 할 수 있습니다. 또한 최신 데이터 아키텍처는 부서 간 또는 지역 간 등 여러 도메인에 걸쳐 데이터를 통합하는 메커니즘을 제공하여 데이터 사일로를 허물면서, 모든 것을 한 곳에 저장하는 데 따르는 엄청난 복잡성도 만들지 않습니다.
최신 데이터 아키텍처는 클라우드 플랫폼을 활용하여 데이터를 관리하고 처리하는 경우가 많습니다. 비용이 더 많이 들 수 있지만 컴퓨팅 확장성을 통해 중요한 데이터 처리 작업을 신속하게 완료할 수 있습니다. 또한 스토리지 확장성은 증가하는 데이터 양에 대처하고 모든 관련 데이터를 사용하여 AI 애플리케이션 교육의 품질을 개선하는 데 도움이 됩니다.
팀이 책임감 있는 AI를 가속화하는 데 도움이 되는 구성 요소와 모범 사례를 알아보세요.
데이터 아키텍처 설명서에는 세 가지 유형의 데이터 모델이 포함되어 있습니다.
데이터 아키텍처는 TOGAF, DAMA-DMBOK 2, Zachman Framework for Enterprise Architecture와 같이 널리 사용되는 엔터프라이즈 아키텍처 프레임워크에서 가져올 수 있습니다.
The Open Group 아키텍처 프레임워크(TOGAF)
이 엔터프라이즈 아키텍처 방법론은 1995년 IBM이 플래티넘 회원으로 가입되어 있는 The Open Group에서 개발했습니다.
아키텍처에는 네 가지 핵심 요소가 있습니다.
이처럼 TOGAF는 데이터 아키텍처를 포함한 기업의 IT 아키텍처를 설계하고 구현하기 위한 완전한 프레임워크를 제공합니다.
DAMA-DMBOK 2
원래 Data Management Association International로 설립된 DAMA International은 데이터 및 정보 관리의 발전에 전념하는 비영리 조직입니다. 데이터 관리 지식 체계인 DAMA-DMBOK 2는 데이터 아키텍처는 물론 거버넌스 및 윤리, 데이터 모델링 및 설계, 저장, 보안, 통합을 다룹니다.
Zachman Framework for Enterprise Architecture
1987년 IBM의 John Zachman이 처음 개발한 이 프레임워크는 문맥에서 세부 사항까지 6개의 계층으로 구성된 매트릭스를 사용하여 왜, 어떻게, 무엇을 등 6개의 질문에 매핑합니다. 데이터를 정리하고 분석하는 공식적인 방법을 제공하지만, 데이터를 분석하는 방법은 포함되어 있지 않습니다.
데이터 아키텍처는 서로 다른 데이터 관리 시스템이 함께 작동하는 방식에 대한 개략적인 관점을 보여줍니다. 데이터 레이크, 데이터 웨어하우스, 데이터 마트, 데이터베이스 등 다양한 데이터 스토리지 리포지토리가 여기에 포함됩니다. 이를 함께 사용하면 데이터 패브릭 및 데이터 메시와 같은 데이터 아키텍처를 만들 수 있으며, 이러한 데이터 아키텍처는 점점 더 인기를 얻고 있습니다. 이러한 아키텍처는 제품으로서의 데이터에 더 중점을 두어 메타데이터에 대한 표준화를 강화하고 API를 통해 조직 전반에서 데이터를 더 민주화합니다.
다음 섹션에서는 각 스토리지 구성 요소와 데이터 아키텍처 유형에 대해 자세히 설명합니다.
데이터 관리 시스템의 종류
데이터 아키텍처 유형
데이터 패브릭: 데이터 패브릭은 데이터 공급자와 데이터 소비자 간의 데이터 가치 사슬에서 데이터 통합, 데이터 엔지니어링 및 거버넌스 자동화에 중점을 둔 아키텍처입니다. 데이터 패브릭은 지식 그래프, 시맨틱, 데이터 마이닝, 머신 러닝(ML) 기술을 사용하여 다양한 유형의 메타데이터(예: 시스템 로그, 소셜 등)에서 패턴을 발견하는 '활성 메타데이터'라는 개념을 기반으로 합니다. 그런 다음 이 인사이트를 적용하여 데이터 가치 사슬을 자동화하고 오케스트레이션합니다. 예를 들어, 데이터 소비자는 데이터 상품을 찾은 다음 해당 데이터 상품이 자동으로 프로비저닝되도록 할 수 있습니다. 데이터 제품과 데이터 소비자 간의 데이터 접근이 향상되면 데이터 사일로가 줄어들고 조직의 데이터를 더 잘 파악할 수 있습니다. 엄청난 잠재력을 지닌 신기술인 데이터 패브릭은 고객 프로파일링, 사기 탐지, 예방적 유지 관리 강화에 사용할 수 있습니다. Gartner에 따르면 데이터 패브릭은 통합 설계 시간을 30%, 배포 시간을 30%, 유지 관리 시간을 70% 단축한다고 합니다.
데이터 메시: 데이터 메시는 비즈니스 도메인별로 데이터를 구성하는 분산형 데이터 아키텍처입니다. 데이터 메시를 사용하는 조직은 데이터를 프로세스의 부산물로 생각하는 것이 아니라 그 자체로 완전한 제품이라고 생각해야 합니다. 데이터 생산자는 데이터 제품 소유자 역할을 합니다. 주제별 전문가인 데이터 생산자는 데이터의 주요 소비자에 대한 이해를 바탕으로 API를 설계할 수 있습니다. 이러한 API는 조직의 다른 부분에서도 액세스할 수 있으므로 관리되는 데이터에 대한 광범위한 액세스를 제공합니다.
데이터 레이크 및 데이터 웨어하우스와 같은 보다 전통적인 스토리지 시스템을 여러 분산형 데이터 리포지토리로 사용하여 데이터 메시를 실현할 수 있습니다. 또한 데이터 메시는 데이터 패브릭과 함께 작동할 수 있으며, 데이터 패브릭의 자동화를 통해 새로운 데이터 제품을 더 빠르게 생성하거나 글로벌 거버넌스를 적용할 수 있습니다.
잘 구축된 데이터 아키텍처는 다음과 같은 여러 가지 주요 이점을 제공할 수 있습니다.
조직이 AI, 블록체인 및 사물인터넷(IoT) 워크로드 등의 미래 애플리케이션에 대한 로드맵을 구축하려면 데이터 요구 사항을 지원할 수 있는 최신 데이터 아키텍처가 필요합니다.
최신 데이터 아키텍처의 7가지 주요 특징은 다음과 같습니다.
IBM Cloud Pak for Data는 모든 클라우드에서 AI 및 분석에 모든 데이터를 사용할 수 있도록 데이터 패브릭을 제공하는 확장 가능한 개방형 데이터 플랫폼입니다.
AI 모델을 구축하고 실행하며 관리합니다. 오픈 소스 코드 또는 시각적 모델링을 사용하여 모든 클라우드에서 데이터를 준비하고 모델을 구축합니다. 결과를 예측하고 최적화합니다.
강력한 성능을 위해 구성 및 최적화된 완전 관리형 SQL 클라우드 데이터베이스인 Db2 on Cloud를 알아보세요.