업계 뉴스레터
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
조직이 데이터를 확장함에 따라 잘 구조화되고 적응력이 뛰어난 아키텍처가 필요해졌습니다. 그럼에도 불구하고 데이터 리더의 94%는 정의된 데이터 아키텍처의 부재를 가장 큰 과제 중 하나로 꼽았습니다.1
최신 데이터 아키텍처는 기업 데이터를 통합하고 표준화하는 데 도움이 되며, 비즈니스 도메인 간에 원활한 데이터 공유를 가능하게 합니다. 또한 실시간 데이터 분석 및 생성형 AI와 같은 고급 사용 사례를 위한 확장 가능한 기반을 제공하여 팀이 데이터에서 더 빠르고 안정적으로 가치를 추출할 수 있도록 지원합니다.
사물인터넷(IoT)과 같은 기술이 새로운 데이터 소스를 생성함에 따라, 잘 설계된 아키텍처는 데이터가 수명 주기 전반에 걸쳐 관리 가능하고 통합되어 있으며 유용하게 유지되도록 보장합니다. 기업 전체의 시스템을 연결하여 중복성을 줄이고 데이터 품질을 개선하며 사일로를 제거하는 데 도움이 될 수 있습니다.
제대로 구축되면 데이터 아키텍처는 단순한 기술적 구조가 아니라 원시 데이터를 재사용 가능한 자산으로 전환하는 능력을 발휘합니다.
데이터 아키텍처는 여러 가지 중복되는 개념을 통합합니다. 아래 항목들은 이 전반적인 구조를 이해하는 데 도움이 될 수 있습니다.
최신 데이터 아키텍처는 중앙 집중식 또는 분산형의 두 가지 핵심 접근 방식 중 하나를 따르는 경향이 있습니다. 이러한 모델은 기업 데이터를 수집, 저장 및 관리하는 방법을 안내합니다.
중앙 집중식 아키텍처는 데이터를 데이터 레이크나 데이터 웨어하우스와 같은 통합 플랫폼으로 가져와 단일 데이터 거버넌스 모델에 따라 관리합니다. 이는 중복을 줄이고, 데이터 품질을 향상시키며, 구조화된 쿼리 언어(SQL) 및 기타 관계형 데이터베이스를 활용한 데이터 모델링을 체계적으로 지원하는 데 도움이 됩니다.
분산형 아키텍처는 데이터 소유권을 비즈니스 도메인에 분산시킵니다. 팀은 데이터를 로컬에서 관리하며, 종종 NoSQL 데이터베이스라고도 불리는 비관계형 데이터베이스 시스템이나, 자체 스키마, 메타데이터, 접근 제어를 갖춘 이벤트 기반 파이프라인을 사용합니다.이러한 접근 방식은 실시간 데이터 통합 및 처리, 데이터 스트리밍, 머신 러닝(ML) 사용 사례를 지원합니다.
대부분의 조직은 확장성, 데이터 통합, 민첩성의 균형을 맞추기 위해 두 모델을 결합합니다. 이러한 하이브리드 접근 방식은 다양한 데이터 소스를 지원하고, 데이터 사일로를 줄이고, Microsoft Azure나 AWS와 같은 플랫폼에서 클라우드 기반 운영을 구현하는 데 도움이 될 수 있습니다.
조직이 어떤 아키텍처 모델을 채택하든 성공 여부는 기본 데이터가 얼마나 잘 구조화되어 있는지에 달려 있습니다. 이것이 바로 데이터 모델링이 필요한 이유입니다.
데이터 아키텍처는 시스템 간에 데이터가 흐르는 방식에 중점을 두는 반면, 데이터 모델링은 해당 시스템 내에서 데이터가 구조화되는 방식에 중점을 둡니다. 데이터 모델은 정보가 아키텍처를 통해 이동할 때 정보의 형태, 관계 및 제약 조건을 정의합니다.
데이터 아키텍처 문서에는 일반적으로 다음과 같은 세 가지 유형의 모델이 포함됩니다.
논리적 데이터 모델은 개념적 모델보다 덜 추상적이며 주어진 도메인 내의 엔티티 및 관계에 대한 자세한 정보를 제공합니다. 공식적인 데이터 모델링 표기법을 따르고 데이터 유형 및 길이와 같은 데이터 속성을 정의하는 동시에 엔티티가 연결되는 방식을 보여줍니다. 중요한 것은 논리적 모델은 기술에 구애받지 않으며 시스템별 요구 사항을 포함하지 않는다는 것입니다.
물리적 데이터 모델은 세 가지 데이터 모델 중 가장 상세하며 데이터베이스가 구현되는 방법을 설명합니다. 이들은 테이블 구조, 인덱스, 스토리지 형식 및 성능 고려 사항을 정의합니다. 이러한 모델은 구조화된 데이터가 저장되고 액세스되는 방식의 기술적 측면에 중점을 두고 스키마 생성, 구성 및 최적화를 안내하는 데 사용됩니다.
데이터 모델은 시스템 내 정보의 구조를 형성합니다. 여기에서 더 광범위한 아키텍처 프레임워크가 모델과 그 주변 시스템을 구현하는 방법을 안내합니다.
데이터 아키텍처는 TOGAF, DAMA-DMBOK 2, Zachman Framework for Enterprise Architecture와 같이 널리 사용되는 엔터프라이즈 아키텍처 프레임워크에서 가져올 수 있습니다.
이 엔터프라이즈 아키텍처 방법론은 The Open Group에 의해 1995년에 개발되었습니다. 아키텍처는 다음과 같은 네 가지 핵심 요소로 구성됩니다.
TOGAF는 데이터 아키텍처를 포함한 기업의 IT 아키텍처를 설계하고 구현하기 위한 완전한 프레임워크를 제공합니다.
원래 Data Management Association International로 설립된 DAMA International은 데이터 및 정보 관리의 발전에 전념하는 비영리 조직입니다. 데이터 관리 지식 체계인 DAMA-DMBOK 2는 데이터 아키텍처, 거버넌스 및 윤리, 데이터 모델링 및 설계, 스토리지, 보안, 통합을 다룹니다.
1987년 IBM의 John Zachman이 처음 개발한 이 프레임워크는 맥락적 수준부터 세부적 수준까지 6개의 계층과, 무엇(what), 왜(why), 어떻게(how)와 같은 여섯 가지 질문을 매핑한 매트릭스를 사용합니다. 이는 데이터를 조직하고 분석하는 공식적인 방식을 제공하지만, 이를 수행하는 방법 자체는 포함하지 않습니다.
데이터는 외부 및 내부 소스에서 캡처되어 처리 및 저장을 위해 시스템으로 이동합니다.
파이프라인은 데이터의 출처에서 처리 및 저장되는 곳까지 데이터를 수집, 변환 및 전송합니다. 이러한 시스템은 추출, 변환, 로드(ETL) 및 추출, 로드, 변환(ELT)과 같은 배치 패턴을 따를 수 있습니다. 또한 거의 실시간으로 데이터를 스트리밍할 수도 있습니다. 최신 파이프라인에는 흐름의 일부로 변환 논리, 품질 검사 및 스키마 유효성 검사가 포함되는 경우가 많습니다.
애플리케이션 프로그래밍 인터페이스(API)와 사전 구축된 커넥터를 통해 데이터 시스템, 애플리케이션 및 분석 툴을 원활하게 통합할 수 있습니다. 이는 다양한 플랫폼에서 데이터 액세스를 간소화하는 표준화된 방법을 제공하며 실시간 데이터 교환의 핵심입니다.
수집된 데이터는 확장 가능한 시스템(정형 및 비정형 시스템)에 저장되어 추가 사용 및 분석에 사용할 수 있습니다.
데이터웨어하우스는 기업 전반의 다양한 관계형 데이터 소스에서 데이터를 하나의 중앙의 일관된 저장소로 집계합니다. 추출 후, 데이터는 ETL 파이프라인을 통해 흐르면서 사전 정의된 데이터 모델에 맞게 다양한 변환을 거칩니다. 데이터 웨어하우징 시스템에 로드되면 데이터는 다양한 비즈니스 인텔리전스(BI) 및 데이터 과학 애플리케이션을 지원하는 데 사용할 수 있습니다.
데이터 레이크는 정형 형식과 비정형 형식을 포함하여 처리되지 않은 원시 데이터를 대규모로 저장합니다. 데이터 웨어하우스와 달리 데이터 레이크는 사전 데이터 모델링이나 준비가 필요하지 않으므로 빅 데이터 워크로드에 이상적입니다.
데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 여러 측면을 하나의 데이터 관리 솔루션으로 통합합니다. 레이크하우스는 저비용 스토리지와 고성능 쿼리 엔진, 지능형 메타데이터 거버넌스를 결합한 솔루션입니다.
데이터베이스는 데이터를 저장, 관리 및 보호하기 위한 기본 디지털 저장소입니다. 다양한 유형의 데이터베이스는 다양한 방식으로 데이터를 저장합니다. 예를 들어, 관계형 데이터베이스("SQL Database"라고도 함)는 행과 열이 정의된 테이블에 데이터를 저장합니다. NoSQL 데이터베이스는 이를 키-값 쌍 또는 그래프를 포함한 다양한 데이터 구조로 저장할 수 있습니다.
데이터가 흐르고 축적됨에 따라 거버넌스 툴은 라이프사이클 전반에 걸쳐 데이터가 잘 정리되고 안전하며 검색 가능한 상태를 유지하도록 보장합니다.
데이터 카탈로그는 조직의 데이터 자산에 대한 중앙화된 인벤토리입니다. 메타데이터를 사용하여 출처, 구조, 소유권, 사용 내역 및 품질을 포함하여 각 데이터 세트에 대한 컨텍스트를 제공합니다. 데이터 카탈로그는 사용자가 데이터를 찾고 평가하고, 거버넌스 및 규정 준수 노력을 지원하고, 팀 간 협업을 촉진하는 데 도움이 됩니다.
리니지 툴은 시스템 전반에서 데이터의 여정을 추적하여 데이터가 어떻게 변환되고 어디에서 생성되었는지 보여줍니다. 이러한 가시성은 감사, 문제 해결 및 종속성을 이해하는 데 필수적입니다. 관측 가능성 플랫폼은 성능 및 데이터 품질 지표를 모니터링하여 리니지를 보완할 수 있습니다.
마지막으로, 데이터는 대시보드, 쿼리 또는 의사 결정을 유도하는 내장된 툴을 통해 데이터를 사용하는 사람과 시스템에 전달됩니다.
비즈니스 인텔리전스 플랫폼은 시각화 및 대시보드를 통해 데이터 액세스를 개선할 수 있습니다. 이러한 툴은 기술 지식이 없는 사용자도 트렌드를 해석하고, 핵심 성과 지표(KPI)를 모니터링하며, 데이터 기반 의사 결정을 내리는 데 도움이 됩니다.
SQL 엔드포인트와 기타 쿼리 인터페이스를 통해 분석가와 데이터 과학자는 데이터를 직접 탐색하고 분석할 수 있습니다. Apache Spark 및 IBM® watsonx.data와 같은 툴은 대규모로 분산된 데이터 세트에서 쿼리를 실행하는 데 필요한 컴퓨팅 계층을 제공합니다.
일부 아키텍처는 애플리케이션, 워크플로 또는 API로 직접 데이터를 전달하는 것을 지원합니다. 이러한 내장형 데이터 제품은 일상 업무에 대한 통찰력을 제공하여 데이터 기반 의사 결정을 가능하게 합니다.
아키텍처 전반의 데이터는 AI 및 ML 워크플로우에도 활용될 수 있습니다. 학습 데이터는 종종 데이터 레이크에서 소싱되고 파이프라인을 통해 변환되어 모델 개발 및 재학습에 사용됩니다. 그런 다음 이러한 모델을 제품, 대시보드 또는 비즈니스 프로세스에 배포하여 자동화 및 예측을 강화할 수 있습니다.
데이터 아키텍처를 구현하려면 비즈니스 요구 사항을 데이터 수집, 조직, 보안 및 접근성을 위한 로드맵으로 변환해야 합니다. 모든 구현이 동일하지는 않지만, 대부분은 계획에서 실행으로 이동하는 단계적 접근 방식을 따릅니다.
이 프로세스는 머신 러닝을 활성화하거나 규정 준수를 지원하는 등 비즈니스가 데이터에서 필요로 하는 것이 무엇인지 설정하는 것으로 시작됩니다. 이를 통해 아키텍처 우선순위, 포함할 데이터 소스 및 통합이 필요한 시스템을 알 수 있습니다.
Data Architect 구조와 흐름을 안내하는 개념적, 논리적, 물리적 데이터 모델을 개발합니다. 이러한 모델은 주요 엔티티, 관계, 데이터 요구 사항 및 액세스 제어를 식별하는 데 도움이 됩니다. 동시에 소유권, 액세스 권한 및 데이터 라이프사이클 규칙을 정의하기 위한 거버넌스 정책이 수립됩니다.
모델과 정책을 마련한 후 팀은 스토리지, 통합, 메타데이터 관리 및 소비를 위한 기술을 선택하여 아키텍처 자체를 설계합니다. 여기에는 데이터 시스템 간 이동 방식과 스토리지 시스템 전체에서 데이터가 상주할 위치를 정의하는 것이 포함됩니다.
구현에는 일반적으로 수집 파이프라인 배포, API 설정, 거버넌스 계층 구성, 대시보드 또는 쿼리 엔드포인트와 같은 액세스 포인트 활성화가 포함됩니다. 이 단계에는 데이터를 보호하기 위해 보안 및 규정 준수 요구 사항이 내장되어 있습니다.
일단 배포한 후에는 데이터 아키텍처를 지속적으로 모니터링하고 개선해야 합니다. 데이터 양은 증가하고, 사용 사례는 진화하며, 규제는 변화합니다. 조직은 특히 클라우드 플랫폼을 도입하고 최신 아키텍처 패턴을 수용하면서 아키텍처를 재검토하고 다시 최적화하는 경우가 많습니다.
조직이 확장됨에 따라 유연하고 탄력적인 데이터 아키텍처에 대한 필요성도 커집니다. 최신 데이터 아키텍처는 상호 운용성, 실시간 액세스 및 단순한 자산이 아닌 제품으로서 데이터를 관리하는 기능을 우선시합니다. 또한 API를 통해 보다 광범위한 표준화, 메타데이터 관리 및 민주화가 가능합니다.
최신 데이터 아키텍처의 주요 특징은 다음과 같습니다.
잘 구성된 데이터 아키텍처는 다음과 같은 상당한 이점을 기업에 제공할 수 있습니다.
서로 다른 소스에서 데이터 필드가 겹치면 불일치, 부정확성 및 데이터 통합 기회를 놓칠 수 있습니다. 좋은 데이터 아키텍처는 데이터 저장 방식을 표준화하고 잠재적으로 중복성을 줄여 더 나은 품질과 전체적인 분석을 가능하게 합니다.
데이터는 종종 데이터 스토리지의 기술적 한계와 기업 내부의 조직적 장벽 때문에 사일로화됩니다. 오늘날의 데이터 아키텍처는 서로 다른 지역과 비즈니스 기능이 서로의 데이터에 액세스할 수 있도록 도메인 간 데이터 통합을 촉진하는 것을 목표로 합니다. 이는 공통 지표에 대한 더 나은 일관된 이해를 가능하게 하고, 데이터 기반 의사 결정을 지원하기 위해 비즈니스를 더 전체적으로 바라볼 수 있게 합니다.
최신 데이터 아키텍처는 시간 경과에 따른 데이터 관리 방식을 다룰 수 있습니다. 데이터는 일반적으로 오래될수록 유용성이 떨어지고 액세스 빈도가 낮아집니다. 시간이 지나면 데이터를 더 저렴하고 느린 스토리지 유형으로 마이그레이션하여 고성능 스토리지에 대한 비용 부담 없이 데이터를 유지하며 보고서와 감사에 계속 사용할 수 있습니다.
기업이 성공하려면 데이터를 활용하여 고객 충성도를 높이고 비즈니스 프로세스를 자동화하며 AI 기반 솔루션으로 혁신을 이루어야 합니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.
더 나은 의사 결정을 위한 AI 기반 인사이트인 Cognos Analytics 12.0을 소개합니다.