topics

데이터 아키텍처

데이터 아키텍처란 무엇인가요?
IBM의 데이터 아키텍처 솔루션 살펴보기 AI 업데이트 신청
구름 픽토그램, 파이 차트, 그래프 픽토그램이 콜라주된 일러스트
데이터 아키텍처란 무엇인가요?

데이터 아키텍처는 수집부터 변환, 배포, 소비에 이르기까지 데이터가 관리되는 방식을 설명합니다. 또한 데이터의 청사진과 데이터가 데이터 스토리지 시스템을 통과하는 방식을 설정하며, 데이터 처리 작업과 인공지능(AI) 애플리케이션의 기반이 되기도 합니다.

데이터 아키텍처의 설계는 데이터 아키텍트와 데이터 엔지니어가 각 데이터 모델과 이를 지원하는 기본 데이터 구조를 정의하는 데 사용하는 비즈니스 요구 사항에 따라 이루어져야 합니다. 이러한 설계는 일반적으로 보고 또는 데이터 과학 이니셔티브와 같은 비즈니스 요구 사항을 용이하게 합니다.

사물인터넷(IoT)과 같은 새로운 기술을 통해 새로운 데이터 소스가 등장함에 따라 우수한 데이터 아키텍처는 데이터를 관리하기 쉽고 유용하게 만들어 데이터 수명 주기 관리를 지원합니다. 보다 구체적으로 말하자면, 중복 데이터 스토리지를 방지하고, 정리 및 중복 제거를 통해 데이터 품질을 개선하고, 새로운 애플리케이션을 가능하게 할 수 있습니다. 또한 최신 데이터 아키텍처는 부서 간 또는 지역 간 등 여러 도메인에 걸쳐 데이터를 통합하는 메커니즘을 제공하여 데이터 사일로를 허물면서, 모든 것을 한 곳에 저장하는 데 따르는 엄청난 복잡성도 만들지 않습니다.

최신 데이터 아키텍처는 클라우드 플랫폼을 활용하여 데이터를 관리하고 처리하는 경우가 많습니다. 비용이 더 많이 들 수 있지만 컴퓨팅 확장성을 통해 중요한 데이터 처리 작업을 신속하게 완료할 수 있습니다. 또한 스토리지 확장성은 증가하는 데이터 양에 대처하고 모든 관련 데이터를 사용하여 AI 애플리케이션 교육의 품질을 개선하는 데 도움이 됩니다.

AI 거버넌스로 책임감 있는 AI 워크플로 구축

팀이 책임감 있는 AI를 가속화하는 데 도움이 되는 구성 요소와 모범 사례를 알아보세요.

관련 내용 생성형 AI에 관한 eBook 등록
개념적 데이터 모델 vs 논리적 데이터 모델 vs 물리적 데이터 모델

데이터 아키텍처 설명서에는 세 가지 유형의 데이터 모델이 포함되어 있습니다.

  • 개념적 데이터 모델: 도메인 모델이라고도 하며, 시스템에 무엇이 포함될지, 어떻게 구성될지, 어떤 비즈니스 규칙이 포함될지 등에 대한 전반적인 관점을 제공합니다. 개념적 모델은 일반적으로 초기 프로젝트 요구 사항을 수집하는 프로세스의 일부로 만들어집니다. 일반적으로 엔티티 클래스(비즈니스에서 데이터 모델에 표현하는 데 중요한 사물의 유형을 정의), 특성 및 제약 조건, 엔티티 클래스와 관련 보안 및 데이터 무결성 요구 사항 간의 관계를 포함합니다.
  •  논리적 데이터 모델: 덜 추상적이며, 고려 중인 도메인의 개념과 관계에 대한 더 자세한 정보를 제공합니다. 여러 공식 데이터 모델링 표기법 시스템 중 하나를 따릅니다. 데이터 유형 및 해당 길이와 같은 데이터 속성을 나타내며 엔티티 간의 관계를 보여줍니다. 논리적 데이터 모델은 기술 시스템 요구 사항을 지정하지 않습니다.
  • 물리적 데이터 모델: 물리적 데이터 모델은 세 가지 모델 중 가장 상세하고 구체적입니다. 테이블 구조, 인덱스, 스토리지 및 성능 고려 사항을 포함해 데이터베이스의 실제 구현을 정의합니다. 이 모델은 데이터를 저장하고 액세스하는 방법의 기술적 측면에 중점을 두며, 데이터베이스 스키마 생성 및 최적화에 사용됩니다.
인기 있는 데이터 아키텍처 프레임워크             

데이터 아키텍처는 TOGAF, DAMA-DMBOK 2, Zachman Framework for Enterprise Architecture와 같이 널리 사용되는 엔터프라이즈 아키텍처 프레임워크에서 가져올 수 있습니다.

The Open Group 아키텍처 프레임워크(TOGAF)

이 엔터프라이즈 아키텍처 방법론은 1995년 IBM이 플래티넘 회원으로 가입되어 있는 The Open Group에서 개발했습니다.

아키텍처에는 네 가지 핵심 요소가 있습니다.

  • 비즈니스 아키텍처는 기업의 조직 구조, 사업 전략 및 프로세스를 정의합니다.
  • 데이터 아키텍처는 개념적, 논리적, 물리적 데이터 자산과 수명 주기 동안 이러한 자산을 저장하고 관리하는 방법을 설명합니다.
  • 애플리케이션 아키텍처는 애플리케이션 시스템과 애플리케이션이 주요 비즈니스 프로세스 및 서로 어떻게 연관되어 있는지를 설명합니다.
  • 기술 아키텍처는 미션 크리티컬 애플리케이션을 지원하는 데 필요한 기술 인프라(하드웨어, 소프트웨어 및 네트워킹)를 설명합니다.

이처럼 TOGAF는 데이터 아키텍처를 포함한 기업의 IT 아키텍처를 설계하고 구현하기 위한 완전한 프레임워크를 제공합니다.

DAMA-DMBOK 2

원래 Data Management Association International로 설립된 DAMA International은 데이터 및 정보 관리의 발전에 전념하는 비영리 조직입니다. 데이터 관리 지식 체계인 DAMA-DMBOK 2는 데이터 아키텍처는 물론 거버넌스 및 윤리, 데이터 모델링 및 설계, 저장, 보안, 통합을 다룹니다.

Zachman Framework for Enterprise Architecture

1987년 IBM의 John Zachman이 처음 개발한 이 프레임워크는 문맥에서 세부 사항까지 6개의 계층으로 구성된 매트릭스를 사용하여 왜, 어떻게, 무엇을 등 6개의 질문에 매핑합니다. 데이터를 정리하고 분석하는 공식적인 방법을 제공하지만, 데이터를 분석하는 방법은 포함되어 있지 않습니다.

 

데이터 아키텍처 및 기본 구성 요소의 유형

데이터 아키텍처는 서로 다른 데이터 관리 시스템이 함께 작동하는 방식에 대한 개략적인 관점을 보여줍니다. 데이터 레이크, 데이터 웨어하우스, 데이터 마트, 데이터베이스 등 다양한 데이터 스토리지 리포지토리가 여기에 포함됩니다. 이를 함께 사용하면 데이터 패브릭 및 데이터 메시와 같은 데이터 아키텍처를 만들 수 있으며, 이러한 데이터 아키텍처는 점점 더 인기를 얻고 있습니다. 이러한 아키텍처는 제품으로서의 데이터에 더 중점을 두어 메타데이터에 대한 표준화를 강화하고 API를 통해 조직 전반에서 데이터를 더 민주화합니다.

다음 섹션에서는 각 스토리지 구성 요소와 데이터 아키텍처 유형에 대해 자세히 설명합니다.

데이터 관리 시스템의 종류

  • 데이터 웨어하우스: 데이터 웨어하우스는 기업 전반의 다양한 관계형 데이터 소스의 데이터를 일관된 단일 중앙 리포지토리로 통합합니다. 추출 후 데이터는 미리 정의된 데이터 모델을 충족하기 위해 다양한 데이터 변환을 거치면서 ETL 데이터 파이프라인을 통해 이동합니다. 데이터 웨어하우스에 로드되면 데이터는 다양한 비즈니스 인텔리전스(BI) 및 데이터 과학 애플리케이션을 지원하기 위해 유지됩니다.
  • 데이터 마트: 데이터 마트는 조직 내의 특정 팀 또는 일부 사용자 그룹(예: 인사 부서)에 중요하고 필요한 데이터의 소규모 하위 집합을 포함하는 데이터 웨어하우스의 집중 버전입니다. 데이터 마트에는 더 작은 데이터 하위 집합이 포함되어 있으므로, 부서 또는 비즈니스 라인은 더 광범위한 데이터 웨어하우스 데이터 집합으로 작업할 때 보다 집중적인 인사이트를 가능한 한 빨리 발견할 수 있습니다. 데이터 마트는 1990년대에 조직이 데이터 웨어하우스를 구축하는 데 어려움을 겪으면서 처음 등장했습니다. 당시에는 조직 전체의 데이터를 통합하기 위해 많은 수작업 코딩이 필요했고 시간이 너무 많이 소요되었습니다. 데이터 마트는 범위가 더 제한되어 있기 때문에 중앙 집중식 데이터 웨어하우스보다 더 쉽고 빠르게 구현할 수 있었습니다.
  • 데이터 레이크: 데이터 웨어하우스는 처리된 데이터를 저장하는 반면, 데이터 레이크는 일반적으로 페타바이트 규모의 원시 데이터를 저장합니다. 데이터 레이크는 정형 데이터와 비정형 데이터를 모두 저장할 수 있다는 점에서 다른 데이터 리포지토리와 차별화됩니다. 이러한 스토리지 요구 사항의 유연성은 데이터 과학자, 데이터 엔지니어, 개발자에게 특히 유용하며, 이를 통해 데이터 디스커버리 연습과 머신 러닝 프로젝트를 위해 데이터에 액세스할 수 있습니다. 데이터 레이크는 데이터 웨어하우스가 증가하는 빅데이터의 양, 속도, 다양성을 처리하지 못하는 것에 대한 대응책으로 만들어졌습니다. 데이터 레이크는 데이터 웨어하우스보다 속도가 느리지만, 수집 전에 데이터를 거의 또는 전혀 준비할 필요가 없기 때문에 비용도 저렴합니다. 오늘날에는 클라우드로의 데이터 마이그레이션 노력의 일환으로 계속 발전하고 있습니다. 데이터 레이크는 데이터 수집 시점에서 데이터의 비즈니스 목표를 정의할 필요가 없으므로 광범위한 사용 사례를 지원합니다. 주요 사용 사례 두 가지로는 데이터 과학 탐색과 데이터 백업 및 복구 노력을 들 수 있습니다. 데이터 과학자는 데이터 레이크를 개념 증명에 사용할 수 있습니다. 관계형 데이터베이스 시스템에서는 불가능한 정형 데이터와 비정형 데이터를 같은 위치에 저장할 수 있으므로 머신 러닝 애플리케이션에 이점을 제공할 수 있습니다. 데이터 레이크는 빅데이터 분석 프로젝트를 테스트하고 개발하는 데에도 사용할 수 있습니다. 애플리케이션이 개발되고 유용한 데이터가 식별되면 데이터를 데이터 웨어하우스로 내보내 운영 용도로 사용할 수 있으며, 자동화를 사용하여 애플리케이션 규모를 확장할 수 있습니다. 데이터 레이크는 저렴한 비용으로 확장할 수 있기 때문에 데이터 백업 및 복구에도 사용할 수 있습니다. 또한 동일한 이유로 인해 비즈니스 요구 사항이 아직 정의되지 않은 '만일의 경우를 대비한' 데이터를 저장하는 데도 데이터 레이크가 유용합니다. 데이터를 지금 저장해 두면 나중에 새로운 이니셔티브가 등장할 때 사용할 수 있습니다.

데이터 아키텍처 유형

데이터 패브릭: 데이터 패브릭은 데이터 공급자와 데이터 소비자 간의 데이터 가치 사슬에서 데이터 통합, 데이터 엔지니어링 및 거버넌스 자동화에 중점을 둔 아키텍처입니다. 데이터 패브릭은 지식 그래프, 시맨틱, 데이터 마이닝, 머신 러닝(ML) 기술을 사용하여 다양한 유형의 메타데이터(예: 시스템 로그, 소셜 등)에서 패턴을 발견하는 '활성 메타데이터'라는 개념을 기반으로 합니다. 그런 다음 이 인사이트를 적용하여 데이터 가치 사슬을 자동화하고 오케스트레이션합니다. 예를 들어, 데이터 소비자는 데이터 상품을 찾은 다음 해당 데이터 상품이 자동으로 프로비저닝되도록 할 수 있습니다. 데이터 제품과 데이터 소비자 간의 데이터 접근이 향상되면 데이터 사일로가 줄어들고 조직의 데이터를 더 잘 파악할 수 있습니다. 엄청난 잠재력을 지닌 신기술인 데이터 패브릭은 고객 프로파일링, 사기 탐지, 예방적 유지 관리 강화에 사용할 수 있습니다.  Gartner에 따르면 데이터 패브릭은 통합 설계 시간을 30%, 배포 시간을 30%, 유지 관리 시간을 70% 단축한다고 합니다.

데이터 메시: 데이터 메시는 비즈니스 도메인별로 데이터를 구성하는 분산형 데이터 아키텍처입니다. 데이터 메시를 사용하는 조직은 데이터를 프로세스의 부산물로 생각하는 것이 아니라 그 자체로 완전한 제품이라고 생각해야 합니다. 데이터 생산자는 데이터 제품 소유자 역할을 합니다. 주제별 전문가인 데이터 생산자는 데이터의 주요 소비자에 대한 이해를 바탕으로 API를 설계할 수 있습니다. 이러한 API는 조직의 다른 부분에서도 액세스할 수 있으므로 관리되는 데이터에 대한 광범위한 액세스를 제공합니다.

데이터 레이크 및 데이터 웨어하우스와 같은 보다 전통적인 스토리지 시스템을 여러 분산형 데이터 리포지토리로 사용하여 데이터 메시를 실현할 수 있습니다. 또한 데이터 메시는 데이터 패브릭과 함께 작동할 수 있으며, 데이터 패브릭의 자동화를 통해 새로운 데이터 제품을 더 빠르게 생성하거나 글로벌 거버넌스를 적용할 수 있습니다.

 

데이터 아키텍처의 이점

잘 구축된 데이터 아키텍처는 다음과 같은 여러 가지 주요 이점을 제공할 수 있습니다.

  • 중복성 감소: 서로 다른 소스에 걸쳐 겹치는 데이터 필드가 있을 수 있으며, 이로 인해 불일치, 데이터 부정확성이 발생하거나 데이터 통합 기회를 놓칠 위험이 있습니다. 좋은 데이터 아키텍처는 데이터 저장 방법을 표준화하고 잠재적으로 중복을 줄여 더 나은 품질과 전체적인 분석을 가능하게 할 수 있습니다.
  • 데이터 품질 개선: 잘 설계된 데이터 아키텍처는 '데이터 늪'이라고도 하는 제대로 관리되지 않는 데이터 레이크의 몇 가지 문제를 해결할 수 있습니다. 데이터 늪은 통찰력 있는 학습을 제공하기 위한 적절한 데이터 품질 및 데이터 거버넌스 관행이 부족하기 때문에 발생합니다. 데이터 아키텍처는 데이터 파이프라인이 의도한 대로 작동하도록 적절히 감독할 수 있게 지원하여 데이터 거버넌스 및 데이터 보안 표준 시행에 도움이 됩니다. 데이터 아키텍처를 사용하면 데이터 품질과 거버넌스를 개선하여 데이터를 현재와 미래에 유용하게 사용될 수 있는 방식으로 저장할 수 있습니다.
  • 통합 지원: 데이터 스토리지에 대한 기술적 한계와 기업 내 조직적 장벽으로 인해 데이터가 사일로화되는 경우가 많았습니다. 오늘날의 데이터 아키텍처는 서로 다른 지역과 사업 부서에서 서로의 데이터에 액세스할 수 있도록 도메인 간 데이터 통합을 촉진하는 것을 목표로 해야 합니다. 이를 통해 비용, 수익 및 관련 동인 등의 일반적인 메트릭을 더 일관성 있게 파악할 수 있습니다. 또한 고객, 제품, 지역에 관해 보다 전체적인 시각을 확보하여 의사 결정에 더 나은 정보를 제공할 수 있습니다.
  • 데이터 수명 주기 관리: 최신 데이터 아키텍처는 오랜 시간에 걸쳐 데이터가 관리되는 방식을 다룰 수 있습니다. 데이터는 일반적으로 오래될수록 유용성이 떨어지고 액세스 빈도가 낮아집니다. 시간이 지나면 데이터를 더 저렴하고 느린 스토리지 유형으로 마이그레이션하여 고성능 스토리지에 대한 비용 부담 없이 데이터를 유지하며 보고서와 감사에 계속 사용할 수 있습니다.
최신 데이터 아키텍처

조직이 AI, 블록체인 및 사물인터넷(IoT) 워크로드 등의 미래 애플리케이션에 대한 로드맵을 구축하려면 데이터 요구 사항을 지원할 수 있는 최신 데이터 아키텍처가 필요합니다.

최신 데이터 아키텍처의 7가지 주요 특징은 다음과 같습니다.

  • 클라우드 네이티브 및 클라우드 지원으로 데이터 아키텍처가 클라우드의 탄력적인 확장성과 고가용성의 이점을 누릴 수 있습니다.
  • 강력하고 확장 가능하며 이식 가능한 데이터 파이프라인은 지능형 워크플로, 인지 분석 및 실시간 통합을 단일 프레임워크에 결합합니다.
  • 표준 API 인터페이스를 사용하여 레거시 애플리케이션에 연결함으로써 원활한 데이터 통합을 실현합니다.
  • 검증, 분류, 관리, 거버넌스를 포함한 실시간 데이터 지원.
  • 분리 및 확장이 가능하여 서비스 간 종속성이 없고 개방형 표준을 통해 상호 운용이 가능합니다.
  • 공통 데이터 도메인, 이벤트 및 마이크로서비스를 기반으로 합니다.
  • 비용과 단순성의 균형을 맞추도록 최적화되었습니다.
IBM 솔루션
IBM Cloud Pak for Data

IBM Cloud Pak for Data는 모든 클라우드에서 AI 및 분석에 모든 데이터를 사용할 수 있도록 데이터 패브릭을 제공하는 확장 가능한 개방형 데이터 플랫폼입니다.

IBM Cloud Pak for Data 살펴보기
IBM Watson Studio

AI 모델을 구축하고 실행하며 관리합니다. 오픈 소스 코드 또는 시각적 모델링을 사용하여 모든 클라우드에서 데이터를 준비하고 모델을 구축합니다. 결과를 예측하고 최적화합니다.

IBM Watson Studio 알아보기
IBM Db2 on Cloud

강력한 성능을 위해 구성 및 최적화된 완전 관리형 SQL 클라우드 데이터베이스인 Db2 on Cloud를 알아보세요.

IBM Db2 on Cloud 살펴보기
리소스 AI를 위한 강력한 데이터 기반 구축

세 가지 주요 데이터 관리 영역인 액세스, 거버넌스, 개인 정보 보호 및 규정 준수에 중점을 두어 AI를 위한 강력한 데이터 기반을 구축하는 방법에 관한 스마트 백서를 읽어보세요.

IBV 보고서 읽기

데이터 패브릭은 AI, 머신 러닝, 사물인터넷 및 엣지 컴퓨팅에 투자하는 기업이 데이터에서 더 많은 가치를 얻을 수 있도록 지원합니다.

다음 단계 안내

오픈 데이터 레이크하우스 아키텍처를 기반으로 특별 제작된 데이터 저장소인 IBM watsonx.data를 통해 어디서나 모든 데이터에 대한 AI 워크로드를 확장할 수 있습니다.

watsonx.data 살펴보기 라이브 데모 예약하기