데이터 아키텍처란?
데이터 아키텍처와 데이터 아키텍처 구현을 위한 구성 요소에 대해 알아보세요.
모두 IBM Security를 사용하고 있는 다양한 사무실 직원을 보여주는 등축 도식
데이터 아키텍처란?

데이터 아키텍처는 수집부터 변환, 분배, 소비에 이르기까지 데이터가 관리되는 방식을 설명합니다. 데이터 아키텍처는 데이터와 데이터 스토리지 시스템을 통해 데이터가 이동하는 방식에 관한 청사진을 제공합니다. 그리고 데이터 처리 작업 및 인공 지능(AI) 애플리케이션을 위한 토대 역할을 수행합니다.

데이터 아키텍처는 비즈니스 요구 사항에 따라 설계되어야 하며, 이러한 요구 사항을 바탕으로 데이터 설계자와 데이터 엔지니어는 해당 데이터 모델과 이러한 데이터 모델을 지원하는 기반 데이터 구조를 정의합니다. 이러한 설계는 일반적으로 보고 또는 데이터 사이언스 이니셔티브와 같은 비즈니스 요구 사항을 지원합니다.

사물 인터넷(IoT)과 같은 새로운 기술을 통해 새로운 데이터 소스가 등장함에 따라 훌륭한 데이터 아키텍처가 있으면 데이터를 관리 가능하고 유용한 상태로 유지하여 데이터 라이프사이클 관리를 지원할 수 있습니다. 더 구체적으로 말하자면, 훌륭한 데이터 아키텍처를 통해 중복 데이터 저장을 방지하고 정리 및 중복 제거를 통해 데이터 품질을 향상하고 새로운 애플리케이션을 지원할 수 있습니다. 또한 현대적인 데이터 아키텍처는 부서 또는 지리적 위치 등 여러 도메인 간의 데이터 통합을 위한 메커니즘을 제공하므로 모든 것을 한 곳에 저장하는 데 따르는 엄청난 복잡성 없이 데이터 사일로를 해소할 수 있습니다.

현대적인 데이터 아키텍처는 데이터 관리와 처리를 위해 클라우드 플랫폼을 활용하는 경우가 많습니다. 이 경우 비용이 더 많이 들 수 있지만 컴퓨팅 확장성 덕분에 중요한 데이터 처리 작업을 신속하게 완료할 수 있습니다. 또한 스토리지 확장성은 데이터 볼륨 증가에 대처하는 데 도움이 되며, AI 애플리케이션 훈련 품질을 향상하기 위해 모든 관련 데이터가 제공되도록 하는 데 도움을 줍니다.

개념적, 논리적, 물리적 데이터 모델 비교

데이터 아키텍처 문서에는 3가지 유형의 데이터 모델이 포함됩니다.

  • 개념적 데이터 모델: 도메인 모델이라고도 하는 이 모델은 시스템에 포함될 요소, 이러한 요소의 조직화 방식, 관련된 비즈니스 규칙에 대한 큰 그림을 제공합니다. 개념적 모델은 일반적으로 초기 프로젝트 요구 사항을 수집하는 과정에서 생성됩니다. 일반적으로, 이 모델에는 엔터티 클래스(비즈니스에 중요하고 데이터 모델에 반영되어야 할 요소들의 유형 정의), 이러한 엔터티 클래스의 특징 및 제약 조건, 이들 간 관계, 그리고 관련 보안 및 데이터 무결성 요구 사항이 포함됩니다.
  •  논리적 데이터 모델: 이 모델은 덜 추상적이며 고려 중인 도메인에서의 개념과 관계에 대한 좀 더 상세한 정보를 제공합니다. 여러 가지 공식적 데이터 모델링 표기 시스템 중 하나를 따릅니다. 이들은 데이터 유형과 길이 등의 데이터 속성을 표시하고 엔터티 간의 관계를 보여줍니다. 논리적 데이터 모델은 기술적 시스템 요구 사항을 명시하지 않습니다.
  • 물리적 데이터 모델: 이 모델은 덜 추상적이며 고려 중인 도메인에서의 개념과 관계에 대한 좀 더 상세한 정보를 제공합니다. 여러 가지 공식적 데이터 모델링 표기 시스템 중 하나를 따릅니다. 이들은 데이터 유형과 길이 등의 데이터 속성을 표시하고 엔터티 간의 관계를 보여줍니다. 논리적 데이터 모델은 기술적 시스템 요구 사항을 명시하지 않습니다.
널리 사용되는 데이터 아키텍처 프레임워크

TOGAF, DAMA-DMBOK 2 및 Zachman Framework for Enterprise Architecture와 같은 널리 사용되는 엔터프라이즈 아키텍처 프레임워크를 활용하여 데이터 아키텍처를 만들 수 있습니다.

The Open Group Architecture Framework(TOGAF)

이 엔터프라이즈 아키텍처 방법론은 IBM이 Platinum Member인 The Open Group에 의해 1995년에 개발되었습니다.

이 아키텍처에는 다음과 같은 4가지 영역이 있습니다.

  • 비즈니스 아키텍처: 엔터프라이즈의 조직 구조, 비즈니스 전략, 프로세스를 정의합니다.
  • 데이터 아키텍처: 개념적, 논리적, 물리적 데이터 자산과 이들이 라이프사이클 전반에 걸쳐 저장되고 관리되는 방식을 설명합니다.
  • 애플리케이션 아키텍처: 애플리케이션 시스템과 이러한 시스템이 주요 비즈니스 프로세스 및 서로 관련되는 방식을 나타냅니다.
  • 기술적 아키텍처: 미션 크리티컬 애플리케이션을 지원하는 데 필요한 기술 인프라(하드웨어, 소프트웨어, 네트워킹)를 설명합니다.

이처럼 TOGAF는 데이터 아키텍처를 포함하여 엔터프라이즈의 IT 아키텍처를 설계 및 구현하기 위한 완벽한 프레임워크를 제공합니다.

DAMA-DMBOK 2

DAMA International은 원래 Data Management Association International로 설립되었으며, 데이터 및 정보 관리 방식의 발전을 위해 일하는 비영리 조직입니다. 이 조직의 DMBoK(Data Management Body of Knowledge)인 DAMA-DMBOK 2는 데이터 아키텍처와 더불어 거버넌스 및 윤리, 데이터 모델링 및 설계, 저장, 보안, 통합을 다룹니다.

Zachman Framework for Enterprise Architecture

원래 1987년에 IBM의 John Zachman이 개발한 이 프레임워크는 컨텍스트 계층부터 세부 계층까지 왜, 어떻게, 무엇과 같은 6개의 질문에 따라 매핑된 6개의 계층으로 구성된 매트릭스를 사용합니다. 이 프레임워크는 데이터를 조직화하고 분석하는 공식적인 방법을 제공하지만 조직화와 분석을 위한 구체적인 방법은 포함하지 않고 있습니다.

 

데이터 아키텍처의 유형 및 기반 구성 요소

데이터 아키텍처는 다양한 데이터 관리 시스템이 어떻게 함께 작동하는지를 개괄적으로 보여줍니다. 여기에는 데이터 레이크, 데이터 웨어하우스, 데이터 마트, 데이터베이스 등과 같은 다양한 다수의 데이터 스토리지 저장소가 포함됩니다. 이들은 함께 점점 더 인기를 얻고 있는 데이터 패브릭 및 데이터 메시와 같은 데이터 아키텍처를 만들 수 있습니다. 이러한 아키텍처는 산물(product)로서의 데이터에 더 중점을 두고, 메타데이터를 중심으로 더 표준화하고 API를 통해 조직 전반에서 데이터를 더 민주화합니다.

다음 섹션에서는 이러한 각 스토리지 구성 요소와 데이터 아키텍처 유형에 대해 더 자세히 살펴봅니다.

데이터 관리 시스템의 유형

  • 데이터 웨어하우스: 데이터 웨어하우스는 엔터프라이즈 전반의 다양한 관계형 데이터 소스의 데이터를 하나의 일관적인 중앙집중식 저장소로 집계합니다 데이터는 추출된 후 ETL 데이터 파이프라인을 통해 이동하며, 사전 정의된 데이터 모델을 충족하기 위해 다양한 데이터 변환 과정을 거치게 됩니다. 데이터는 데이터 웨어하우스에 로드된 후 다양한 비즈니스 인텔리전스(BI) 및 데이터 사이언스 애플리케이션을 지원합니다.
  • 데이터 마트: 데이터 마트는 데이터 웨어하우스의 집중 버전으로, HR 부서와 같이 단일 팀 또는 조직 내의 특정 사용자 그룹에 중요하고 필요한 일부 데이터를 포함합니다. 일부 데이터를 포함하므로 데이터 마트를 사용하면 부서 또는 사업부가 더 광범위한 데이터 웨어하우스 데이터 세트 전체로 작업할 때보다 훨씬 더 빨리 보다 농축된 인사이트를 발견할 수 있습니다. 데이터 마트는 원래 1990년대에 데이터 웨어하우스를 만드는 과정에서 조직이 겪었던 어려움을 해결하기 위해 등장했습니다. 그 당시 조직 전체의 데이터를 통합하려면 많은 수동 코딩 작업이 요구되었기 때문에 이러한 통합은 실용적이지 못하고 시간이 많이 소요되었습니다. 데이터 마트는 제한적 범위만을 다루므로 중앙 집중화된 데이터 웨어하우스보다 더 쉽고 빠르게 실행할 수 있었습니다.
  • 데이터 레이크: 데이터 웨어하우스는 처리된 데이터를 저장하지만, 데이터 레이크는 원시 데이터를 보통 페타바이트 규모로 저장합니다. 데이터 레이크는 정형 데이터와 비정형 데이터를 모두 저장할 수 있으므로 다른 데이터 저장소와 차별화됩니다. 저장 요구 사항이 이처럼 유연하기 때문에 데이터 레이크는 데이터 사이언티스트, 데이터 엔지니어, 개발자에게 특히 유용하며, 데이터 레이크를 통해 이들은 데이터 검색 연습 및 머신 러닝 프로젝트를 위해 데이터에 액세스할 수 있습니다. 데이터 레이크는 원래 빅데이터의 증가하는 볼륨, 속도 및 다양성을 데이터 웨어하우스가 감당하지 못하여 개발되었습니다. 데이터 레이크는 데이터 웨어하우스보다 느리지만 데이터 수집 전에 준비 작업이 거의 또는 전혀 필요하지 않으므로 더 저렴합니다. 오늘날 클라우드로의 마이그레이션 노력이 진행되면서 데이터 레이크는 계속 진화하고 있습니다. 데이터 수집 당시에 데이터의 비즈니스 목표를 정의하지 않아도 되므로 데이터 레이크는 광범위한 적용 사례를 지원할 수 있습니다. 그러나 두 가지 주요 적용사례는 데이터 사이언스 연구와 데이터 백업 및 복구 노력입니다. 데이터 사이언티스트는 개념 증명에 데이터 레이크를 사용할 수 있습니다. 머신 러닝 애플리케이션은 정형 데이터와 비정형 데이터를 같은 장소에 저장할 수 있다는 이점을 활용할 수 있습니다. 이는 관계형 데이터베이스 시스템을 이용한다면 불가능한 일입니다. 또한 데이터 레이크를 사용하여 빅데이터 분석 프로젝트를 테스트하고 개발할 수도 있습니다. 애플리케이션 개발과 유용한 데이터 식별을 완료한 후, 데이터를 운영에 사용할 수 있도록 데이터 웨어하우스로 내보낼 수 있으며 자동화를 사용하여 애플리케이션을 확장할 수 있습니다. 또한 데이터 레이크는 저렴한 비용으로 확장할 수 있으므로 데이터 백업과 복구에도 사용할 수 있습니다. 같은 이유로, 데이터 레이크는 비즈니스 요구 사항이 아직 정의되지 않은 "만약에 대비한" 데이터를 저장하는 데 적합합니다. 지금 데이터를 저장하면 나중에 새로운 이니셔티브가 생길 때 활용할 수 있습니다.

데이터 아키텍처 유형

데이터 패브릭: 데이터 패브릭은 데이터 제공자와 데이터 소비자 간의 데이터 가치 사슬에서 데이터 통합, 데이터 엔지니어링 및 거버넌스의 자동화에 중점을 둔 아키텍처입니다. 데이터 패브릭은 다양한 유형의 메타데이터(예: 시스템 로그, 소셜 등)에서 패턴을 발견하기 위해 지식 그래프, 의미론, 데이터 마이닝, 머신 러닝(ML) 기술을 사용하는 "활성 메타데이터(active metadata)"라는 개념을 기반으로 합니다. 그 다음, 데이터 패브릭은 이러한 인사이트를 적용하여 데이터 가치 사슬을 자동화하고 오케스트레이션합니다. 예를 들면, 데이터 패브릭은 데이터 소비자가 데이터 산물을 찾은 다음 이 데이터 산물을 자동으로 프로비저닝하도록 지원할 수 있습니다. 데이터 산물과 데이터 소비자 간의 데이터 액세스 증가 덕분에 데이터 사일로가 감소하고 조직의 데이터를 더욱 완벽하게 이해할 수 있습니다. 데이터 패브릭은 엄청난 잠재력을 지닌 새로운 기술이며, 고객 프로파일링, 사기 탐지, 예방적 유지보수 능력을 향상하는 데 사용할 수 있습니다.  Gartner에 따르면 데이터 패브릭을 사용할 경우 통합 설계 시간이 30%, 배치 시간이 30%, 그리고 유지 관리가 70% 줄어드는 것으로 나타났습니다.

데이터 메시: 데이터 메시는 비즈니스 도메인에 따라 데이터를 조직화하는 탈중앙집중식 데이터 아키텍처입니다. 데이터 메시를 사용하는 조직은 데이터를 프로세스의 부산물로 생각하지 말고 그 자체를 산물로 간주해야 합니다. 데이터 생성자는 데이터 산물의 소유자 역할을 수행합니다. 분야별 전문가(SME)로서 데이터 생성자는 데이터의 일차 소비자에 대한 이해를 바탕으로 이들을 위한 API를 설계할 수 있습니다. 이러한 API는 또한 조직의 다른 부문에서도 액세스 가능하므로 관리형 데이터에 대한 폭넓은 액세스가 제공됩니다.

데이터 레이크 및 데이터 웨어하우스와 같은 보다 전통적인 스토리지 시스템은 데이터 메시를 실현하기 위한 여러 탈중앙집중식 데이터 저장소로 사용할 수 있습니다. 데이터 메시는 또한 데이터 패브릭과 함께도 작동됩니다. 데이터 패브릭의 자동화를 통해 새로운 데이터 산물을 더욱 빠르게 생성하거나 글로벌 거버넌스를 수행할 수 있습니다.

 

데이터 아키텍처의 이점

잘 구성된 데이터 아키텍처는 기업에 다음과 같은 여러 가지 주요 이점을 제공할 수 있습니다.

  • 중복성 감소: 여러 소스에서 데이터 필드가 겹쳐 비일관성, 데이터 부정확성, 데이터 통합 기회 상실 등의 리스크가 발생할 수 있습니다. 훌륭한 데이터 아키텍처라면 데이터 저장 방식을 표준화하고 잠재적으로 중복성을 줄여 더 나은 품질을 달성하고 전체적 시각에서 분석을 수행할 수 있습니다.
  • 데이터 품질 향상: 잘 설계된 데이터 아키텍처는 "데이터의 늪"이라고도 하는 제대로 잘 관리되지 않는 데이터 레이크의 일부 문제를 해결할 수 있습니다. 데이터의 늪은 적절한 데이터 품질 및 데이터 거버넌스 관행이 부족하여 통찰력 있는 학습을 제공하지 못합니다. 데이터 아키텍처는 데이터 거버넌스 및 데이터 보안 표준을 적용하도록 지원하여 데이터 파이프라인이 의도대로 작동하도록 적절히 감독할 수 있습니다. 데이터 아키텍처는 데이터 품질과 거버넌스를 향상하여 데이터를 저장하고 현재와 미래에 유용하게 활용할 수 있도록 지원할 수 있습니다다.
  • 통합 지원: 데이터는 데이터 저장과 관련된 기술적 한계와 엔터프라이즈 내의 구조적 장벽으로 인해 사일로화되는 경우가 많습니다. 오늘날의 데이터 아키텍처는 다양한 지리적 위치 및 부서에서 서로의 데이터에 액세스할 수 있도록 여러 도메인 간의 데이터 통합을 촉진하는 것을 목표로 삼아야 합니다. 이를 통해 공통 지표(예: 비용, 수익 및 관련 동인)를 더 효과적이고 일관된 방식으로 이해할 수 있습니다. 또한 이를 기반으로 고객, 산물, 지리적 위치를 전체적인 시각에서 파악하여 의사 결정에 필요한 정보를 충분히 확보할 수 있습니다.
  • 데이터 라이프사이클 관리: 현대적인 데이터 아키텍처는 장기간 데이터가 관리되는 방식을 규정할 수 있습니다. 데이터는 노후화되고 액세스 빈도가 줄어들면 유용성이 일반적으로 감소합니다. 시간이 지남에 따라, 데이터는 고성능 스토리지 비용을 지출하지 않고도 보고서와 감사에 사용할 수 있도록 더 저렴하고 느린 스토리지 유형으로 마이그레이션할 수 있습니다.
현대적인 데이터 아키텍처

AI, 블록체인, 사물 인터넷(IoT) 워크로드와 같은 미래의 애플리케이션을 위한 로드맵을 구축할 경우 조직에는 데이터 요구 사항을 지원할 수 있는 현대적인 데이터 아키텍처가 필요합니다.

현대적인 데이터 아키텍처의 7가지 주요 특징은 다음과 같습니다.

  • 데이터 아키텍처가 클라우드의 탄력적 확장성과 고가용성을 유용하게 활용할 수 있도록 클라우드 네이티브 방식으로 클라우드를 지원합니다.
  • 지능적 워크플로우, 코그너티브 분석, 실시간 통합 기능을 하나의 프레임워크로 결합하는 강력하고 확장 및 이식 가능한 파이프라인을 제공합니다.
  • 표준 API 인터페이스를 사용하여 레거시 애플리케이션에 연결되도록 원활한 데이터 통합을 지원합니다.
  • 검증, 분류, 관리, 거버넌스 등을 통해 실시간으로 데이터를 지원합니다.
  • 서비스 간에 의존성이 발생하지 않고 개방형 표준이 상호운용성을 지원하도록 분리되어 있고 확장 가능합니다.
  • 공통 데이터 도메인, 이벤트 및 마이크로서비스를 기반으로 합니다.
  • 비용과 단순성의 균형을 유지하도록 최적화되어 있습니다.
IBM 솔루션
IBM Cloud Pak for Data

IBM Cloud Pak for Data는 클라우드에서 모든 데이터를 AI 및 분석에 사용할 수 있도록 데이터 패브릭을 제공하는 개방형의 확장 가능한 데이터 플랫폼입니다.

IBM Cloud Pak for Data 살펴보기
IBM Watson® Studio

AI 모델을 구축, 실행 및 관리합니다. 오픈 소스 코드 또는 비주얼 모델링을 사용하여 임의의 클라우드에서 데이터를 준비하고 모델을 구축합니다. 결과를 예측하고 최적화합니다.

IBM Watson Studio 살펴보기
IBM® Db2® on Cloud

구성과 운영을 최적화하여 강력한 성능을 제공하는 완전 관리형 SQL 클라우드 데이터베이스인 IBM Db2® on Cloud에 대해 알아봅니다.

IBM Db2 on Cloud 자세히 보기
다음 단계

IBM은 데이터 패브릭 솔루션을 통해 현대적인 데이터 아키텍처의 구현을 지원합니다. IBM의 데이터 패브릭 접근 방식은 데이터 거버넌스 및 개인정보 보호, 멀티클라우드 데이터 통합, MLOps 및 신뢰할 수 있는 AI, 고객 360이라는 고객들이 공통적으로 겪는 4가지 주요 고충을 모두 하이브리드 클라우드 플랫폼인 IBM Cloud Pak for Data를 통해 해결하고 있습니다.

IBM Cloud Pak for Data 자세히 보기