데이터 아키텍처란 무엇인가요?

By Tom Krantz , Alexandra Jonker

데이터 아키텍처란 무엇인가요?

데이터 아키텍처는 데이터가 수집 및 변환부터 배포 및 소비에 이르기까지 어떻게 관리되는지를 설명하며, 조직 전반에서 데이터가 어떻게 흐르는지에 대한 청사진을 제공합니다. 이는 데이터 처리 작업과 인공 지능(AI) 애플리케이션의 기초가 됩니다.

데이터 아키텍처 설계는 일반적으로 비즈니스 요구 사항과 데이터 요구 사항을 기반으로 하며, 데이터 아키텍트와 데이터 엔지니어는 이를 사용해 데이터 모델과 이를 지원하는 기반 데이터 구조를 정의합니다. 이 설계는 일반적으로 보고나 데이터 과학 프로젝트와 같은 비즈니스 전략이나 비즈니스 요구를 지원합니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

데이터 아키텍처가 중요한 이유는 무엇인가요?

조직이 데이터를 확장함에 따라 잘 구조화되고 적응력이 뛰어난 아키텍처가 필요해졌습니다. 그럼에도 불구하고 데이터 리더의 94%는 정의된 데이터 아키텍처의 부재를 가장 큰 과제 중 하나로 꼽았습니다.¹

최신 데이터 아키텍처는 기업 데이터를 통합하고 표준화하는 데 도움이 되며, 비즈니스 도메인 간에 원활한 데이터 공유를 가능하게 합니다. 또한 실시간 데이터 분석 및 생성형 AI와 같은 고급 사용 사례를 위한 확장 가능한 기반을 제공하여 팀이 데이터에서 더 빠르고 안정적으로 가치를 추출할 수 있도록 지원합니다.

사물인터넷(IoT)과 같은 기술이 새로운 데이터 소스를 생성함에 따라, 잘 설계된 아키텍처는 데이터가 수명 주기 전반에 걸쳐 관리 가능하고 통합되어 있으며 유용하게 유지되도록 보장합니다. 기업 전체의 시스템을 연결하여 중복성을 줄이고 데이터 품질을 개선하며 사일로를 제거하는 데 도움이 될 수 있습니다.

제대로 구축되면 데이터 아키텍처는 단순한 기술적 구조가 아니라 원시 데이터를 재사용 가능한 자산으로 전환하는 능력을 발휘합니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

데이터 아키텍처의 주요 용어

데이터 아키텍처는 여러 가지 중복되는 개념을 통합합니다. 아래 항목들은 이 전반적인 구조를 이해하는 데 도움이 될 수 있습니다.

플랫폼: 데이터 시스템을 호스팅하고 실행하는 기본 기술 환경입니다. 여기에는 클라우드기반 또는 온프레미스 툴이 포함됩니다.

데이터 모델: 시스템 내에서 데이터가 구성되는 방식을 자세히 표현합니다. 엔티티, 관계 및 형식을 정의합니다.

프레임워크: 엔터프라이즈 아키텍처를 설계하고 관리하는 데 사용되는 전략적 방법론입니다. 프레임워크는 데이터 시스템을 비즈니스 목표에 맞추기 위한 구조화된 접근 방식을 제공합니다.

구성 요소: 아키텍처 내에서 특정 역할을 수행하는 기능적 요소입니다. 예를 들면 데이터 이동을 위한 파이프라인, 원시 스토리지용 데이터 레이크, 그리고 메타데이터 관리용 카탈로그가 있습니다.

패턴: 일반적인 아키텍처 문제에 대한 반복 가능한 솔루션입니다. 데이터 패브릭이나 데이터 메시와 같은 패턴은 확장성, 거버넌스 또는 접근성을 개선하는 검증된 방법을 설명합니다.

데이터 아키텍처 유형

최신 데이터 아키텍처는 중앙 집중식 또는 분산형의 두 가지 핵심 접근 방식 중 하나를 따르는 경향이 있습니다. 이러한 모델은 기업 데이터를 수집, 저장 및 관리하는 방법을 안내합니다.

중앙 집중식 아키텍처는 데이터를 데이터 레이크나 데이터 웨어하우스와 같은 통합 플랫폼으로 가져와 단일 데이터 거버넌스 모델에 따라 관리합니다. 이는 중복을 줄이고, 데이터 품질을 향상시키며, 구조화된 쿼리 언어(SQL) 및 기타 관계형 데이터베이스를 활용한 데이터 모델링을 체계적으로 지원하는 데 도움이 됩니다.

분산형 아키텍처는 데이터 소유권을 비즈니스 도메인에 분산시킵니다. 팀은 데이터를 로컬에서 관리하며, 종종 NoSQL 데이터베이스라고도 불리는 비관계형 데이터베이스 시스템이나, 자체 스키마, 메타데이터, 접근 제어를 갖춘 이벤트 기반 파이프라인을 사용합니다.이러한 접근 방식은 실시간 데이터 통합 및 처리, 데이터 스트리밍, 머신 러닝(ML) 사용 사례를 지원합니다.

대부분의 조직은 확장성, 데이터 통합, 민첩성의 균형을 맞추기 위해 두 모델을 결합합니다. 이러한 하이브리드 접근 방식은 다양한 데이터 소스를 지원하고, 데이터 사일로를 줄이고, Microsoft Azure나 AWS와 같은 플랫폼에서 클라우드 기반 운영을 구현하는 데 도움이 될 수 있습니다.

조직이 어떤 아키텍처 모델을 채택하든 성공 여부는 기본 데이터가 얼마나 잘 구조화되어 있는지에 달려 있습니다. 이것이 바로 데이터 모델링이 필요한 이유입니다.

세 가지 유형의 데이터 모델이란 무엇인가요?

데이터 아키텍처는 시스템 간에 데이터가 흐르는 방식에 중점을 두는 반면, 데이터 모델링은 해당 시스템 내에서 데이터가 구조화되는 방식에 중점을 둡니다. 데이터 모델은 정보가 아키텍처를 통해 이동할 때 정보의 형태, 관계 및 제약 조건을 정의합니다.

데이터 아키텍처 문서에는 일반적으로 다음과 같은 세 가지 유형의 모델이 포함됩니다.

개념적 데이터 모델
논리적 데이터 모델
물리적 데이터 모델

개념적 데이터 모델

'도메인 모델'이라고도 하는 개념적 데이터 모델은 시스템에 포함될 내용, 시스템 구성 방법 및 적용되는 business rules에 대한 전체적인 보기를 제공합니다. 이러한 모델은 일반적으로 프로젝트 계획의 초기 단계에서 생성되며 엔티티 클래스(데이터 모델에서 추적할 정의된 항목), 특성 및 제약 조건, 클래스 간의 관계, 관련 보안 또는 데이터 무결성 요구 사항을 포함합니다.

논리적 데이터 모델

논리적 데이터 모델은 개념적 모델보다 덜 추상적이며 주어진 도메인 내의 엔티티 및 관계에 대한 자세한 정보를 제공합니다. 공식적인 데이터 모델링 표기법을 따르고 데이터 유형 및 길이와 같은 데이터 속성을 정의하는 동시에 엔티티가 연결되는 방식을 보여줍니다. 중요한 것은 논리적 모델은 기술에 구애받지 않으며 시스템별 요구 사항을 포함하지 않는다는 것입니다.

물리적 데이터 모델

물리적 데이터 모델은 세 가지 데이터 모델 중 가장 상세하며 데이터베이스가 구현되는 방법을 설명합니다. 이들은 테이블 구조, 인덱스, 스토리지 형식 및 성능 고려 사항을 정의합니다. 이러한 모델은 구조화된 데이터가 저장되고 액세스되는 방식의 기술적 측면에 중점을 두고 스키마 생성, 구성 및 최적화를 안내하는 데 사용됩니다.

데이터 모델은 시스템 내 정보의 구조를 형성합니다. 여기에서 더 광범위한 아키텍처 프레임워크가 모델과 그 주변 시스템을 구현하는 방법을 안내합니다.

데이터 아키텍처 구성 요소

데이터 아키텍처는 데이터 이동, 저장, 액세스 및 거버넌스 방식을 관리하는 여러 상호 의존적 구성 요소로 이루어져 있습니다. 이러한 요소는 데이터 시스템의 운영 기반을 형성하며 수집부터 분석까지 모든 과정을 지원합니다.

데이터 아키텍처 구성 요소는 일반적으로 네 가지 광범위한 카테고리로 나뉘며 각 카테고리에는 여러 하위 카테고리가 있습니다.

흐름 및 통합

데이터는 외부 및 내부 소스에서 캡처되어 처리 및 저장을 위해 시스템으로 이동합니다.

데이터 파이프라인

파이프라인은 데이터의 출처에서 처리 및 저장되는 곳까지 데이터를 수집, 변환 및 전송합니다. 이러한 시스템은 추출, 변환, 로드(ETL) 및 추출, 로드, 변환(ELT)과 같은 배치 패턴을 따를 수 있습니다. 또한 거의 실시간으로 데이터를 스트리밍할 수도 있습니다. 최신 파이프라인에는 흐름의 일부로 변환 논리, 품질 검사 및 스키마 유효성 검사가 포함되는 경우가 많습니다.

API 및 커넥터

애플리케이션 프로그래밍 인터페이스(API)와 사전 구축된 커넥터를 통해 데이터 시스템, 애플리케이션 및 분석 툴을 원활하게 통합할 수 있습니다. 이는 다양한 플랫폼에서 데이터 액세스를 간소화하는 표준화된 방법을 제공하며 실시간 데이터 교환의 핵심입니다.

스토리지 시스템

수집된 데이터는 확장 가능한 시스템(정형 및 비정형 시스템)에 저장되어 추가 사용 및 분석에 사용할 수 있습니다.

데이터 웨어하우스

데이터웨어하우스는 기업 전반의 다양한 관계형 데이터 소스에서 데이터를 하나의 중앙의 일관된 저장소로 집계합니다. 추출 후, 데이터는 ETL 파이프라인을 통해 흐르면서 사전 정의된 데이터 모델에 맞게 다양한 변환을 거칩니다. 데이터 웨어하우징 시스템에 로드되면 데이터는 다양한 비즈니스 인텔리전스(BI) 및 데이터 과학 애플리케이션을 지원하는 데 사용할 수 있습니다.

데이터 마트

데이터 마트는 단일 팀 또는 이해 관계자 그룹과 관련된 더 작은 데이터 하위 집합을 포함하는 데이터 웨어하우스의 집중 버전입니다. 범위를 좁히면 데이터 마트는 더 넓은 웨어하우스 데이터 세트로 작업하는 것보다 더 빠르고 더 타겟팅된 통찰력을 제공합니다.

데이터 레이크

데이터 레이크는 정형 형식과 비정형 형식을 포함하여 처리되지 않은 원시 데이터를 대규모로 저장합니다. 데이터 웨어하우스와 달리 데이터 레이크는 사전 데이터 모델링이나 준비가 필요하지 않으므로 빅 데이터 워크로드에 이상적입니다.

데이터 레이크하우스

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 여러 측면을 하나의 데이터 관리 솔루션으로 통합합니다. 레이크하우스는 저비용 스토리지와 고성능 쿼리 엔진, 지능형 메타데이터 거버넌스를 결합한 솔루션입니다.

데이터베이스

데이터베이스는 데이터를 저장, 관리 및 보호하기 위한 기본 디지털 저장소입니다. 다양한 유형의 데이터베이스는 다양한 방식으로 데이터를 저장합니다. 예를 들어, 관계형 데이터베이스("SQL Database"라고도 함)는 행과 열이 정의된 테이블에 데이터를 저장합니다. NoSQL 데이터베이스는 이를 키-값 쌍 또는 그래프를 포함한 다양한 데이터 구조로 저장할 수 있습니다.

액세스 및 소비

데이터는 대시보드 및 쿼리를 통해 액세스되며 이후 분석 및 AI/ML 애플리케이션에 활용됩니다. 분석 정보는 이후 데이터 흐름을 개선하기 위해 다시 아키텍처로 피드백됩니다.

대시보드 및 분석 툴

비즈니스 인텔리전스 플랫폼은 시각화 및 대시보드를 통해 데이터 액세스를 개선할 수 있습니다. 이러한 툴은 기술 지식이 없는 사용자도 트렌드를 해석하고, 핵심 성과 지표(KPI)를 모니터링하며, 데이터 기반 의사 결정을 내리는 데 도움이 됩니다.

쿼리 및 컴퓨팅 엔진

SQL 엔드포인트와 기타 쿼리 인터페이스를 통해 분석가와 데이터 과학자는 데이터를 직접 탐색하고 분석할 수 있습니다. Apache Spark 및 IBM® watsonx.data와 같은 툴은 대규모로 분산된 데이터 세트에서 쿼리를 실행하는 데 필요한 컴퓨팅 계층을 제공합니다.

임베디드 데이터 제품

일부 아키텍처는 애플리케이션, 워크플로 또는 API로 직접 데이터를 전달하는 것을 지원합니다. 이러한 내장형 데이터 제품은 일상 업무에 대한 통찰력을 제공하여 데이터 기반 의사 결정을 가능하게 합니다.

AI 및 ML 교육

아키텍처 전반의 데이터는 AI 및 ML 워크플로우에도 활용될 수 있습니다. 학습 데이터는 종종 데이터 레이크에서 소싱되고 파이프라인을 통해 변환되어 모델 개발 및 재학습에 사용됩니다. 그런 다음 이러한 모델을 제품, 대시보드 또는 비즈니스 프로세스에 배포하여 자동화 및 예측을 강화할 수 있습니다.

거버넌스 및 메타데이터

수집부터 소비까지 모든 단계에서 거버넌스와 메타데이터는 데이터 무결성을 유지하며 라이프사이클 전반에서 데이터를 안전하고 검색 가능하게 유지합니다.

리니지 및 관측 가능성

리니지 툴은 시스템 전반에서 데이터의 여정을 추적하여 데이터가 어떻게 변환되고 어디에서 생성되었는지 보여줍니다. 이러한 가시성은 감사, 문제 해결 및 종속성을 이해하는 데 필수적입니다. 관측 가능성 플랫폼은 성능 및 데이터 품질 지표를 모니터링하여 리니지를 보완할 수 있습니다.

데이터 카탈로그

데이터 카탈로그는 조직의 데이터 자산을 중앙 집중식으로 관리하는 인벤토리입니다. 메타데이터를 사용하여 출처, 구조, 소유권, 사용 내역 및 품질을 포함하여 각 데이터 세트에 대한 컨텍스트를 제공합니다. 데이터 카탈로그는 사용자가 데이터를 찾고 평가하고, 거버넌스 및 규정 준수 노력을 지원하고, 팀 간 협업을 촉진하는 데 도움이 됩니다.

아래 다이어그램은 데이터가 아키텍처의 각 계층을 통해 어떻게 이동하는지를 보여줍니다.

데이터 아키텍처는 어떻게 구현되나요?

데이터 아키텍처를 구현하려면 비즈니스 요구 사항을 데이터 수집, 조직, 보안 및 접근성을 위한 로드맵으로 변환해야 합니다. 모든 구현이 동일하지는 않지만, 대부분은 계획에서 실행으로 이동하는 단계적 접근 방식을 따릅니다.

1단계: 비즈니스 목표에 맞게 조정

이 프로세스는 머신 러닝을 활성화하거나 규정 준수를 지원하는 등 비즈니스가 데이터에서 필요로 하는 것이 무엇인지 설정하는 것으로 시작됩니다. 이를 통해 아키텍처 우선순위, 포함할 데이터 소스 및 통합이 필요한 시스템을 알 수 있습니다.

2단계: 데이터 모델 및 거버넌스 정의

Data Architect 구조와 흐름을 안내하는 개념적, 논리적, 물리적 데이터 모델을 개발합니다. 이러한 모델은 주요 엔티티, 관계, 데이터 요구 사항 및 액세스 제어를 식별하는 데 도움이 됩니다. 동시에 소유권, 액세스 권한 및 데이터 라이프사이클 규칙을 정의하기 위한 거버넌스 정책이 수립됩니다.

3단계: 아키텍처 설계

모델과 정책을 마련한 후 팀은 스토리지, 통합, 메타데이터 관리 및 소비를 위한 기술을 선택하여 아키텍처 자체를 설계합니다. 여기에는 데이터 시스템 간 이동 방식과 스토리지 시스템 전체에서 데이터가 상주할 위치를 정의하는 것이 포함됩니다.

4단계: 구축 및 통합

구현에는 일반적으로 수집 파이프라인 배포, API 설정, 거버넌스 계층 구성, 대시보드 또는 쿼리 엔드포인트와 같은 액세스 포인트 활성화가 포함됩니다. 이 단계에는 데이터를 보호하기 위해 보안 및 규정 준수 요구 사항이 내장되어 있습니다.

5단계: 모니터링, 발전 및 확장

일단 배포한 후에는 데이터 아키텍처를 지속적으로 모니터링하고 개선해야 합니다. 데이터 양은 증가하고, 사용 사례는 진화하며, 규제는 변화합니다. 조직은 특히 클라우드 플랫폼을 도입하고 최신 아키텍처 패턴을 수용하면서 아키텍처를 재검토하고 다시 최적화하는 경우가 많습니다.

현대 데이터 아키텍처의 주요 특징

조직이 확장됨에 따라 유연하고 탄력적인 데이터 아키텍처에 대한 필요성도 커집니다. 최신 데이터 아키텍처는 상호 운용성, 실시간 액세스 및 단순한 자산이 아닌 제품으로서 데이터를 관리하는 기능을 우선시합니다. 또한 API를 통해 보다 광범위한 표준화, 메타데이터 관리 및 민주화가 가능합니다.

최신 데이터 아키텍처의 주요 특징은 다음과 같습니다.

클라우드 기반 디자인으로 탄력적인 확장성과 높은 가용성을 제공합니다.

실시간 통합, 데이터 스트리밍, 인지 분석을 결합한 지능형 데이터 파이프라인입니다.

최신 및 기존 애플리케이션 모두와 원활한 API 기반 통합이 가능합니다 .

검증, 분류 및 거버넌스를 포함한 실시간 데이터 지원이 가능합니다.

분리되고 확장 가능한 서비스로 모듈식 성장과 개방형 상호 운용성을 지원합니다.

이벤트 및 마이크로서비스를 사용하여 비즈니스 구조를 반영하는 도메인 기반 조직입니다.

성능, 비용, 단순성의 균형을 맞춘 최적화 기능이 내장되어 있습니다.

데이터 아키텍처의 이점

잘 구성된 데이터 아키텍처는 다음과 같은 상당한 이점을 기업에 제공할 수 있습니다.

중복성 감소
데이터 품질 개선
통합 지원
데이터 라이프사이클 관리

중복성 감소

서로 다른 소스에서 데이터 필드가 겹치면 불일치, 부정확성 및 데이터 통합 기회를 놓칠 수 있습니다. 좋은 데이터 아키텍처는 데이터 저장 방식을 표준화하고 잠재적으로 중복성을 줄여 더 나은 품질과 전체적인 분석을 가능하게 합니다.

데이터 품질 개선

잘 설계된 데이터 아키텍처는 “데이터 늪지”라고도 불리는, 관리가 부실한 데이터 레이크의 일부 문제를 해결할 수 있습니다. 데이터 늪지는 의미 있는 인사이트를 제공하는 데 필요한 데이터 품질 및 데이터 거버넌스 관행을 포함한 적절한 데이터 표준이 부족합니다. 데이터 아키텍처는 데이터 거버넌스와 데이터 보안 표준을 강화하여 적절한 데이터 파이프라인 감독을 가능하게 합니다.

통합 지원

데이터는 종종 데이터 스토리지의 기술적 한계와 기업 내부의 조직적 장벽 때문에 사일로화됩니다. 오늘날의 데이터 아키텍처는 서로 다른 지역과 비즈니스 기능이 서로의 데이터에 액세스할 수 있도록 도메인 간 데이터 통합을 촉진하는 것을 목표로 합니다. 이는 공통 지표에 대한 더 나은 일관된 이해를 가능하게 하고, 데이터 기반 의사 결정을 지원하기 위해 비즈니스를 더 전체적으로 바라볼 수 있게 합니다.

데이터 라이프사이클 관리

최신 데이터 아키텍처는 시간 경과에 따른 데이터 관리 방식을 다룰 수 있습니다. 데이터는 일반적으로 오래될수록 유용성이 떨어지고 액세스 빈도가 낮아집니다. 시간이 지나면 데이터를 더 저렴하고 느린 스토리지 유형으로 마이그레이션하여 고성능 스토리지에 대한 비용 부담 없이 데이터를 유지하며 보고서와 감사에 계속 사용할 수 있습니다.

Techsplainers | 팟캐스트 | 데이터 아키텍처란 무엇인가요?