클라우드 데이터 통합이란 무엇인가요?

By Alexandra Jonker , Tom Krantz

Cloud 데이터 통합 정의

클라우드 데이터 통합은 최소 하나의 데이터 소스 또는 플랫폼이 클라우드 기반인 환경에서 여러 시스템 간 데이터를 결합하고 조화롭게 맞추기 위해 사용되는 관행과 기술을 의미합니다.

클라우드 데이터 통합의 목표는 더 넓은 기업 데이터 관리 전략의 일환으로 데이터의 보안, 거버넌스 및 성능을 유지하면서 조직 전반에서 클라우드 데이터 접근성과 전달을 향상시키는 것입니다. 데이터의 양, 속도, 다양성이 폭발적으로 증가하는 상황에서 조직이 AI를 도입하고 고객 경험을 개선하며 실시간 분석을 확장하려 할 때 이러한 기본 역량은 특히 중요합니다.

클라우드 데이터 통합에는 두 가지 하위 유형이 있습니다. 하이브리드 클라우드 데이터 통합과 멀티클라우드 데이터 통합입니다.

하이브리드 클라우드 데이터 통합: 퍼블릭 클라우드, 프라이빗 클라우드 및 온프레미스 인프라에 존재하는 데이터를 통합합니다.
멀티클라우드 데이터 통합: 둘 이상의 클라우드 공급자의 클라우드 서비스에 존재하는 데이터를 통합합니다.

오늘날 대부분의 기업은 여러 공급자의 퍼블릭 및 프라이빗 클라우드 서비스를 아우르는 하이브리드 멀티클라우드 환경에서 운영됩니다. 이 모델에서 클라우드 데이터 통합은 데이터가 어디에 있든 접근 가능하고 신뢰할 수 있으며 활용 가능하도록 유지하기 위한 기반을 제공합니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

Cloud 데이터 통합이 중요한 이유

기업 데이터를 클라우드에 저장하면 분명한 이점이 있으며, 가장 대표적인 것은 저장 용량 제한을 사실상 제거하고 방대한 빅데이터를 쉽게 저장할 수 있다는 점입니다. 그 밖의 일반적인 이점으로는 비용 효율성, 확장성 및 향상된 비즈니스 연속성이 있습니다.

이러한 장점 때문에 조직은 빠른 속도로 데이터를 클라우드로 이전하고 있으며 동시에 성능 또는 규제 요구 사항을 충족하기 위해 일부 데이터는 온프레미스에 유지하고 있습니다. 일부 전망에 따르면 기업의 클라우드 스토리지 지출은 2028년까지 1,280억 달러에 이를 것으로 예상됩니다.¹ 또 다른 추정에 따르면 전 세계에 저장되는 데이터의 양은 2024년부터 2029년 사이 두 배로 증가할 것으로 보입니다.²

현재 기업 클라우드 데이터는 조직의 가장 중요한 자산 중 하나로, 다양한 정형 및 비정형 형식으로 하이브리드 및 멀티클라우드 환경 전반에 점점 더 분산되고 있습니다.

이러한 서로 다른 데이터는 팀, 플랫폼 및 환경 전반에 정보가 사일로 형태로 분산된 단편화된 데이터 환경을 만들어 팀이 데이터를 활용하기 어렵게 합니다. 동시에 앱, 사물인터넷(IoT) 장치 및 거래 데이터에서 생성되는 데이터의 양은 클라우드와 온프레미스 시스템 전반에서 계속 증가하고 있습니다.

클라우드 데이터 통합은 이러한 복잡성을 해결하는 데 큰 도움을 줄 수 있습니다. 이는 클라우드와 온프레미스 환경 전반에서 데이터를 결합하고 조화롭게 맞춥니다. 이러한 통합된 관점은 클라우드 데이터를 분석과 의사 결정에 접근 가능하고 활용 가능하도록 만듭니다. 빠른 혁신과 점점 더 단편화되는 데이터 환경 속에서 이러한 역량은 필수적입니다.

데이터 단편화는 혁신을 저해하고 느리거나 일관되지 않거나 부정확한 의사 결정을 초래하여 조직이 혁신하고 적응하며 운영 효율성을 달성하는 능력을 제한할 수 있습니다. 실제로 IBM 기업가치연구소(IBV)의 데이터에 따르면 설문에 참여한 CEO의 68%는 전사 통합 데이터 아키텍처가 부서 간 협업을 가능하게 하고 혁신을 촉진하는 데 핵심적이라고 말했습니다.³

특히 인공지능(AI) 이니셔티브는 통합되고 신뢰할 수 있으며 일관된 데이터에 의존합니다. 강력한 데이터 통합 전략이 없다면 조직은 AI를 대규모로 운영하는 데 어려움을 겪을 수 있습니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

Cloud 데이터 통합은 어떻게 작동하나요?

클라우드 데이터 통합은 일반적인 데이터 통합 단계와 유사하지만 운영 순서와 기술적 세부 사항에서 차이가 있을 수 있으며 특히 분산된 클라우드 및 하이브리드 환경 전반에서 데이터 이동과 처리를 오케스트레이션하도록 파이프라인을 설계하는 방식에서 차이가 나타납니다.

데이터 소스 식별: 클라우드 데이터 통합에서는 데이터 소스가 클라우드 특유의 특성을 가집니다. 일반적으로 클라우드 데이터 웨어하우스, 서비스형 소프트웨어(SaaS) 및 클라우드 애플리케이션, 클라우드 객체 스토리지 시스템 그리고 온프레미스 레거시 시스템과 클라우드 기반 데이터 저장소를 아우르는 하이브리드 소스 시스템을 포함합니다.
데이터 추출: 데이터는 클라우드 네이티브 툴과 프로세스를 사용하여 클라우드 및 하이브리드 소스에서 추출되며 이러한 툴은 일반적으로 점진적 및 준실시간 데이터 수집을 지원합니다(필요한 경우 기존의 배치 방식도 함께 사용됩니다). 추출 과정에는 일반적으로 관리형 및 기본 제공 방식의 애플리케이션 프로그래밍 인터페이스(API) 또는 커넥터가 사용됩니다.
데이터 매핑: 매핑 스키마는 서로 다른 시스템의 데이터 요소가 서로 어떻게 대응되는지 정의합니다. 이 단계는 통합 과정에서 데이터 정렬을 보장하는 데 도움이 됩니다. 클라우드 데이터 통합에서는 클라우드 및 SaaS 소스에서 흔히 발생하는 스키마 드리프트를 고려하여 매핑 프로세스를 설계해야 합니다.
데이터 적재: 추출, 적재, 변환(ELT)은 클라우드 데이터 통합에서 가장 널리 사용되는 방식으로, 데이터는 변환 전에 대상 시스템(예: 데이터 웨어하우스, 데이터 레이크 또는 데이터 레이크하우스)에 먼저 적재됩니다. 이 단계에서는 확장 가능한 클라우드 스토리지와 클라우드 컴퓨팅을 사용하여 대량의 클라우드 데이터를 효율적으로 이동합니다.
데이터 변환: 데이터 변환은 데이터를 공통 형식으로 변환하고 데이터를 강화하여 정확성과 다운스트림 시스템과의 호환성을 지원합니다. 변환 과정은 일반적으로 클라우드 네이티브 서비스를 사용하며 ELT 방식을 따르고 병렬 처리와 지속적 실행을 활용하여 클라우드 환경에서 온디맨드 데이터 접근을 지원합니다.
데이터 검증 및 품질 보증: 품질 관리 절차는 오류, 불일치 및 데이터 무결성 문제를 확인하여 데이터 정확성과 품질을 보장합니다. 자동화된 검증 검사는 데이터 형식, 코드, 유형 및 범위 전반에서 일관성을 유지하기 위해 대규모로 사용됩니다.

Cloud 데이터 통합의 이점

기존 데이터 통합과 마찬가지로 클라우드 데이터 통합도 다음과 같은 다양한 이점을 제공합니다.

통합 데이터 액세스
데이터 품질 및 일관성
확장성 및 복원력
혁신 가속화

통합 데이터 액세스

클라우드 데이터 통합은 데이터가 존재하는 모든 환경에서 데이터를 하나로 통합합니다. 이러한 통합은 데이터 사용자에게 조직의 지속적으로 확장되는 데이터 에코시스템에 대한 접근을 제공하며 결과적으로 데이터 사일로를 해소합니다.

데이터는 클라우드, 온프레미스, 배치 또는 실시간 환경 등 필요한 시점과 위치에서 제공됩니다. 이러한 데이터 민주화는 일반적으로 풍부한 메타데이터와 데이터 카탈로그에 의해 가능해집니다.

데이터 품질 및 일관성

데이터 품질 문제가 다운스트림 시스템이나 대시보드에 도달하면 이미 피해가 발생한 상태입니다. 데이터 변환과 정제 과정을 통해 클라우드 데이터 통합은 비즈니스 의사 결정, 자동화 또는 AI에 사용되기 전에 오류, 불일치 및 중복이 없는 고품질의 목적 적합 데이터를 보장하도록 지원합니다.

확장성 및 복원력

클라우드 데이터 통합은 종종 객체 스토리지(예: 데이터 레이크 또는 현대 클라우드 데이터 웨어하우스의 스토리지 계층)를 서버리스 및 탄력적 컴퓨팅 서비스와 함께 활용합니다. 이 접근 방식은 데이터 스토리지와 컴퓨팅을 분리하여 확장 가능하고 복원력 있는 처리를 제공합니다. 클라우드 데이터가 저장된 위치에서 처리되는 분산 아키텍처는 서버 또는 데이터 센터 장애 발생 시에도 높은 복원력을 제공합니다.

민첩성과 혁신 가속

통합된 데이터는 클라우드 데이터 접근을 더 빠르고 쉽게 만듭니다. 이러한 연결성은 금융 서비스, 의료 및 소매와 같은 빠르게 변화하는 산업에서 관련성 높은 데이터 기반 의사 결정을 수행하는 데 매우 중요합니다. 또한 AI 모델 학습, 데이터 과학 워크플로를 지원하고 AI의 컨텍스트 이해와 기능을 향상시키는 데에도 핵심적입니다.

Cloud 데이터 통합의 일반적인 고려 사항과 과제

클라우드 데이터 통합을 구현하는 조직은 거버넌스, 성능, 실시간 처리, 배포 모델에 걸친 다양한 기술적 및 운영적 과제에 직면할 수 있습니다.

거버넌스, 보안 및 규정 준수
성능 및 확장성
실시간 데이터 통합
하이브리드 배포

거버넌스, 보안 및 규정 준수

시스템 간 데이터 통합은 잠재적인 공격 벡터의 수를 증가시키며 그에 따라 무단 접근 및 민감한 정보 노출 위험도 커집니다. 데이터 보안 문제 외에도 지역, 관할권 또는 클라우드 환경 간 고객 데이터 전송은 서로 다른 법적 및 데이터 주권 요구 사항의 적용을 받을 수 있습니다. 조직은 데이터 흐름이 GDPR, HIPAA 및 PCI DSS와 같은 관련 규정을 준수하도록 보장해야 합니다.

전송 중 및 저장 중 데이터를 위한 암호화, 강력한 인증, 권한 및 접근 제어를 모든 통합 지점에 적용하면 이러한 위험을 완화하는 데 도움이 됩니다. 강력한 데이터 거버넌스 프레임워크 또한 보안을 강화하는 데 도움이 됩니다. 내장 보안 기능과 규정 준수 인증을 갖춘 데이터 통합 플랫폼은 운영 부담을 줄이는 데 도움이 되며 클라이언트 관리형 또는 로컬 호스팅 플랫폼은 보안 프로토콜, 규정 준수 적용 및 인프라 관리에 대해 더 높은 제어 권한을 제공합니다.

성능 및 확장성

성능, 비용, 복잡한 데이터를 균형 있게 관리하는 것은 클라우드 데이터 통합의 핵심 과제입니다. 데이터 통합 툴이 확장성을 고려해 설계되지 않았다면 대규모 데이터 양을 처리하는 데 어려움을 겪을 수 있습니다. 과부하가 걸린 수집 파이프라인은 데이터 처리를 느리게 하고 비즈니스 프로세스 지연을 초래하며 일관되지 않은 결과를 만들고 비용을 증가시킬 수 있습니다.

조직은 대규모 데이터 세트를 처리하기 위해 고처리량 커넥터, 병렬 처리 및 파티셔닝을 지원하는 솔루션을 우선적으로 고려할 수 있습니다. 내장된 모니터링 및 관측 가능성 기능은 데이터 흐름과 스토리지 리소스 사용에 대한 엔드투엔드 가시성을 제공하여 병목 현상을 방지하고 데이터 양 변동과 관계없이 높은 성능을 유지하도록 합니다. 올바른 통합 접근 방식을 선택하는 것도 중요합니다. 예를 들어 ELT 파이프라인은 데이터를 적재한 후 변환하며 클라우드 플랫폼 또는 데이터 웨어하우스의 탄력적 컴퓨팅 성능을 활용해 대규모 데이터를 처리합니다.

실시간 데이터 통합

실시간 또는 준실시간 데이터 통합은 기업에 점점 더 중요한 요소가 되고 있습니다. 즉각적인 의사 결정, AI 워크로드 및 기타 시간 민감형 작업에는 지속적으로 유입되는 최신 데이터 스트림이 필요합니다. 그러나 실시간 데이터 통합은 기술적으로 어려운 작업이며 특히 낮은 지연 시간 처리가 요구되는 대규모 데이터 환경에서 더욱 복잡해집니다. 분산 클라우드 아키텍처는 추가적인 지연과 네트워크 신뢰성 문제를 발생시킬 수 있습니다.

이벤트 기반 아키텍처(EDA)를 지원하는 클라우드 데이터 통합 솔루션은 시스템이 실시간으로 통신하고 데이터를 교환할 수 있도록 합니다. 클라우드 네이티브 환경에서 EDA 채택이 증가하면서 전통적인 배치 중심 아키텍처에서 벗어나 이벤트(데이터 레코드)가 발생하는 즉시 처리하는 더 동적이고 반응성이 높은 아키텍처로의 큰 전환이 이루어지고 있습니다.

변경 데이터 캡처(CDC)는 많은 솔루션에서 지원하는 또 다른 실시간 통합 방식입니다. 이 방식은 데이터 변경이 발생하는 즉시 이를 캡처하여 여러 대상 시스템으로 전달함으로써 준실시간 데이터 동기화를 가능하게 합니다.

하이브리드 배포

많은 기업은 클라우드 외부에 존재하는 규제 대상 온프레미스 워크로드(예: Oracle Database, IBM® Db2 또는 SQL Server에 저장된 데이터 세트)를 보유하고 있습니다. 이러한 경우 온프레미스 시스템과 클라우드 플랫폼 간에 상호운용성 문제가 발생할 수 있으므로 완전히 클라우드 기반의 데이터 통합 배포는 현실적이지 않을 수 있습니다.

하이브리드 배포는 데이터가 이미 존재하는 위치에서 데이터를 처리하고 동일한 환경(클라우드 또는 온프레미스)에서 파이프라인을 실행함으로써 이러한 문제를 해결하는 데 도움이 됩니다. 이러한 기능은 레거시 시스템과 클라우드 네이티브 시스템을 통합하는 복잡성을 줄이는 데 도움이 됩니다. 또한 비용 효율적일 수 있으며 툴 난립 문제를 줄이는 데도 도움이 됩니다.

하이브리드 데이터 통합 배포는 설계 시점과 실행 시점을 분리하는 클라우드 네이티브 파이프라인 개발 모델인 원격 엔진 실행을 사용합니다. 파이프라인은 중앙에서 설계되고 대상 환경에서 실행됩니다. 여기에는 클라우드 간 워크로드, 클라우드에서 온프레미스로의 워크로드, 온프레미스에서 클라우드로의 워크로드가 포함됩니다. 이러한 유연성은 데이터 이동 감소, 송신 비용 절감, 네트워크 지연 최소화와 같은 복합적인 이점을 제공합니다.

원격 엔진 실행의 강력한 기능에 대해 자세히 알아보세요.

AI와 Cloud 데이터 통합

데이터 통합 프로세스를 가속화하고 간소화하며 최적화하기 위해 AI를 활용할 수 있는 다양한 사용 사례가 있습니다. 예를 들어 머신 러닝 기반 스키마 매핑, 데이터 변환을 위한 자연어 처리(NLP) 인터페이스, 생성형 AI를 활용한 합성 데이터 생성, 그리고 데이터 복제를 개선하기 위한 AI 기반 기법 등이 있습니다.⁴

에이전틱 AI 또한 자연어를 사용하여 데이터 통합 요구 사항을 표현할 수 있도록 하는 새로운 현대적 데이터 통합 기능입니다. 이러한 입력을 기반으로 에이전트는 통합 설계 계획을 자율적으로 제안할 수 있으며 데이터 환경과 비즈니스 요구 사항이 변화함에 따라 시간이 지나면서 워크플로 최적화를 지속적으로 지원할 수 있습니다.

이러한 에이전틱 기능은 데이터 엔지니어가 데이터 파이프라인을 더 빠르게 설계하고 실행하도록 지원하며 수동 데이터 입력이나 데이터 마이그레이션과 같은 시간 소모적인 작업을 줄여 줍니다. 또한 데이터 엔지니어링 팀의 도움 없이 데이터에 접근하기 어려운 비기술 사용자들의 지연을 줄이는 데도 도움이 됩니다.

다른 AI 이니셔티브와 마찬가지로 성공적인 도입을 위해서는 휴먼 인 더 루프를 유지하고 강력한 AI 거버넌스와 지속적인 투명성을 함께 확보하는 것이 중요합니다.

작성자

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think