변경 데이터 캡처란 무엇인가요?

창고에서 노트북으로 작업하는 여성.

작성자

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

변경 데이터 캡처란 무엇인가요?

변경 데이터 캡처(CDC)는 데이터베이스 내의 데이터 변경 사항을 식별하고 기록하는 기술입니다.CDC는 이러한 변경 사항을 다양한 대상 시스템에 실시간으로 전달하여 데이터베이스가 변경된 직후 조직 전체에서 데이터를 동기화할 수 있도록 합니다.

 

변경 데이터 캡처는 실시간 데이터 통합 방법으로, 조직 전체에 사일로화되거나 일관되지 않은 데이터를 결합하고 조화시키는 기능을 합니다. 다른 방법으로는 스트림 데이터 통합, 데이터 가상화 및 애플리케이션 통합이 있습니다.

CDC가 시스템을 실시간으로(그리고 짧은 지연시간으로) 최신 상태로 유지하는 능력은 실시간 데이터 분석, 클라우드 마이그레이션 및 AI 모델의 성공에 결정적인 역할을 합니다. 소매, 금융, 의료 등 여러 산업 분야에서 사기 탐지, 공급망 관리, 규정 준수를 지원하는 다양한 사용 사례가 있습니다.

변경 데이터 캡처에는 여러 가지 접근 방식이 있으며, 로그 기반 CDC, 타임스탬프 기반 CDC, 트리거 기반 CDC가 가장 일반적입니다. 기업은 데이터베이스 내장형 툴, 오픈소스 플랫폼 및 타사 솔루션을 통해 변경 데이터 캡처를 구현할 수 있습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

변경 데이터 캡처의 이점은 무엇인가요?

최신 데이터 관리에서 변경 데이터 캡처는 중요 데이터 엔지니어링 메커니즘으로 부상했습니다. 오늘날의 기업 데이터 환경은 점점 더 대규모화되고 복잡해지고 있습니다. 사물인터넷(IoT) 디바이스, 분산형 데이터베이스, 애플리케이션 및 기타 다양한 소스에서 수집된 데이터가 포함될 수 있습니다. 이처럼 확장되는 데이터 에코시스템 전반에서 일관되고 품질이 높은 데이터를 유지보수하는 일은 지속적인 과제입니다.

동시에 기업에서는 실시간 의사 결정에 활용할 수 있는 최신의 정확한 정보가 필요합니다. 변경 데이터 캡처는 조직이 이러한 요구 사항을 충족하는 데 도움이 되는 여러 방법 중 하나입니다.

변경 데이터 캡처는 다른 데이터 통합 방법보다 더 효율적이고 자원 소모가 적은 방식으로 최신 데이터를 제공하는 저지연 데이터 파이프라인을 구현합니다. 예를 들어 Data Replication는 전체 데이터 세트를 복사해야 합니다. 반면 CDC는 변경된 데이터만 전송함으로써 소스 시스템의 부하, 네트워크 트래픽 및 컴퓨팅 자원 요구량을 줄입니다.

이를 통해 최신의 가장 정확한 정보에 빠르고 효율적으로 액세스할 수 있어 다음과 같은 여러 가지 이점을 얻을 수 있습니다.

실시간 의사 결정

실시간 데이터 변경 스트림을 통해 실시간 데이터 분석 및 비즈니스 인텔리전스가 가능해집니다. 이러한 기능을 통해 기업은 시간에 민감한 오늘날의 연중무휴 24시간 비즈니스 환경의 요구 사항을 지원할 수 있습니다.

성공적인 클라우드 마이그레이션

클라우드 마이그레이션 중에 CDC는 온프레미스에서 발생하는 데이터 변경 사항을 관련 클라우드 기반 데이터 테이블에 신속하게 전달하여 두 환경 간의 일관성을 보장합니다. 이 기능은 마이그레이션 과정에서 시스템 가동 중단 시간을 최소화합니다.

ETL 프로세스 개선

ETL(추출, 변환, 로드) 데이터 파이프라인은 데이터 분석 및 머신 러닝 워크스트림에 필수적입니다. 그러나 ETL 실행은 일괄 처리에 의존하여 속도가 느리고 시스템 자원을 과도하게 소비하는 경향이 있습니다. CDC를 ETL에 통합하면 리소스 사용을 최적화하고 데이터 이동을 가속화할 수 있습니다.

더 나은 인공 지능(AI) 성능

변경 데이터 캡처를 구현하면 모델 소스 데이터를 최신 상태로 유지하여 대규모 언어 모델 (LLM)이 정확하고 시기적절한 아웃풋을 제공할 수 있습니다. 예를 들어 검색 증강 생성 (RAG) 사용 사례에서 AI 모델은 더 관련성 높은 응답을 제공하기 위해 외부 지식 기반과 연결됩니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

변경 데이터 캡처는 어떻게 작동하나요?

변경 데이터 캡처는 다양한 데이터 소스에서 발생하는 변경 이벤트를 식별하고 기록합니다. 이러한 데이터 소스에는 Oracle, PostgreSQL, MySQL, Microsoft의 Azure SQL, Microsoft의 SQL Server와 같은 관계형 데이터베이스뿐만 아니라 Apache Cassandra 및 MongoDB와 같은 비관계형(NoSQL) 데이터베이스도 포함될 수 있습니다.

변경 사항이 식별되면 해당 변경 사항은 소스 데이터베이스에서 실시간 또는 거의 실시간으로 대상 시스템으로 전송됩니다. 데이터 레이크데이터 웨어하우스와 같은 데이터 저장소, Apache Kafka 및 Apache Spark와 같은 실시간 분석 및 스트리밍 데이터 플랫폼, 그리고 ETL(추출, 변환, 로드) 및 ELT(추출, 로드, 변환) 솔루션은 모두 대상 시스템의 예입니다.

변경 데이터 캡처는 대상 시스템(일명 '푸시' 방식) 또는 소스 시스템(일명 '풀' 방식)에서 시작될 수 있습니다. 전자의 경우, 소스 시스템은 대상 시스템에 변경 사항을 '푸시'하거나 전송합니다. 후자의 경우, 대상 시스템은 소스 시스템을 정기적으로 폴링하고 변경 사항이 발견되면 '풀'합니다.

변경 데이터 캡처를 실행하는 일반적인 방법

변경 데이터 캡처를 실행하는 방법에는 여러 가지가 있습니다. 일반적인 CDC 유형은 다음과 같습니다. 

  • 로그 기반 CDC
  • 타임스탬프 기반 CDC
  • 트리거 기반 CDC

로그 기반 CDC

데이터베이스 트랜잭션 로그는 데이터베이스의 표준 기능이며 모든 데이터베이스 트랜잭션을 기록하는 데 사용됩니다. (트랜잭션 로그 파일은 시스템 장애 시 데이터베이스를 복구하는 데 사용할 수 있습니다.)

로그 기반 CDC에서 CDC 애플리케이션은 로그에 기록된 데이터베이스 변경 사항을 처리하고 업데이트를 다른 시스템과 공유합니다. 로그 기반 CDC는 로그를 사용하여 소스 시스템 성능을 저하할 수 있는 쿼리에 의존하지 않는다는 점 덕분에 점점 더 널리 사용되고 있습니다. 그러나 트랜잭션 로그 형식의 차이는 서로 다른 데이터베이스 간 로그 기반 CDC 실행을 복잡하게 만들 수 있습니다.

타임스탬프 기반 CDC

타임스탬프 기반 변경 데이터 캡처(쿼리 기반 CDC라고도 함)를 사용하려면 데이터베이스 테이블 스키마에 기록 변경 날짜와 시간을 나타내는 타임스탬프 열과 같은 열이 있어야 합니다. CDC 툴을 사용하면 소스 테이블의 타임스탬프 열을 통해 변경된 기록을 식별하고 대상 시스템에 업데이트를 제공할 수 있습니다.

타임스탬프 기반 CDC는 구현이 간단할 수 있지만, 타임스탬프 데이터 폴링이 빈번하게 발생하는 경우 시스템에 추가적인 부하를 줄 수 있습니다. 또한 타임스탬프가 행의 나머지 부분과 함께 삭제되면 삭제 작업을 제대로 캡처하지 못합니다.

트리거 기반 CDC

트리거 기반 변경 데이터 캡처에서 데이터베이스 트리거라고 불리는 저장 프로시저 또는 함수는 데이터베이스에서 특정 변경 사항(예: 삽입, 삭제, 업데이트)이 발생할 때마다 실행됩니다. 변경된 데이터는 일반적으로 변경 테이블 또는 그림자 테이블이라고 불리는 테이블에 저장됩니다.

타임스탬프 기반 CDC와 마찬가지로 트리거 기반 CDC도 간단하게 구현할 수 있습니다. 그러나 소스 테이블에서 트랜잭션이 발생할 때마다 트리거가 '실행'되어 소스 시스템에 부담을 줄 수도 있습니다.

변경 데이터 캡처 툴

변경 데이터 캡처를 수행하는 툴은 AWS Database Migration Service와 같은 특정 환경 및 데이터베이스 시스템에서 기본으로 제공되거나 더 광범위하게 구현될 수 있습니다. 내장형이 아닌 변경 데이터 캡처 소프트웨어 솔루션에는 Debezium과 같은 오픈소스 플랫폼과 IBM® Streamsets 및 Oracle GoldenGate와 같은 상업용 플랫폼이 있습니다.

기업에서 어떤 솔루션을 선택할지 고민할 때, 가격, 소스 및 대상 시스템과의 커넥터, 시스템 통합을 위한 애플리케이션 프로그래밍 인터페이스(API) 등 다양한 요소를 고려할 수 있습니다.

변경 데이터 캡처 사용 사례

기업은 다음과 같이 다양한 용도로 변경 데이터 캡처를 배포할 수 있습니다.

사기 탐지

변경 데이터 캡처를 통해 재무 기록의 변경 사항을 지속적으로 추적하면 상당한 손실이 발생하기 전에 사기 행위를 탐지할 수 있습니다.

사물인터넷(IoT) 활성화

CDC는 IoT 디바이스에서 생성된 방대한 양의 실시간 데이터를 효율적으로 통합하여 예측 유지보수 및 실시간 모니터링을 가능하게 합니다.

재고 및 공급망 관리

변경 데이터 캡처를 통해 실시간 판매, 재고 및 공급망 정보에 액세스하면 기업은 재고 부족을 방지하고 수익성 있는 가격 결정을 내릴 수 있습니다.

규정 준수

변경 데이터 캡처는 규제가 엄격한 기업이 GDPR, 사베인스-옥슬리(SOX)법 및 미국 HIPAA와 같은 규정과 법률을 준수하고 보고하는 데 필요한 정확한 기록을 보관하는 데 도움이 될 수 있습니다.

관련 솔루션
IBM StreamSets

직관적인 그래픽 인터페이스를 통해 스트리밍 데이터 파이프라인을 생성하여 하이브리드 및 멀티클라우드 환경 전반에서 완벽한 데이터 통합을 촉진합니다.

StreamSets 살펴보기
IBM Databand

데이터 파이프라인을 위한 관측 가능성 소프트웨어인 IBM Databand에 대해 알아보세요. 메타데이터를 자동으로 수집하여 기록 기준선을 구축하고, 이상 징후를 감지하며, 데이터 품질 문제를 해결하기 위한 워크플로를 생성합니다.

Databand 살펴보기
데이터 통합 솔루션

IBM 데이터 통합 솔루션을 통해 생성형 AI 이니셔티브, 실시간 분석, 웨어하우스 현대화, 운영 요구 사항을 위한 복원력이 뛰어나고 성능이 우수하며 비용 최적화된 데이터 파이프라인을 구축하세요.

데이터 통합 솔루션 둘러보기
다음 단계 안내

데이터 파이프라인을 설계, 개발 및 배포하기 위한 시각적 인터페이스를 제공하는 ETL(추출, 변환, 로드) 툴인 IBM DataStage에 대해 알아보세요. IBM Cloud에서 관리형 SaaS로 자체적으로 호스팅하거나 IBM Cloud Pak for Data의 추가 기능으로 사용할 수도 있습니다.

DataStage 살펴보기 분석 서비스 살펴보기