Page Title IBM global chief data office 데이터 이동 데이터 마이그레이션 속도 대폭 향상
IBM Chief Data Office, IBM DataStage를 활용해 데이터 이동 현대화
컴퓨터로 함께 문제를 해결하는 동료들

이전 사례 연구에서 IBM®의 Global Chief Data Office(GCDO)가 회사 전체에 분산된 데이터라는 너무나도 익숙한 문제에 직면하여 상용 플랫폼이 없는 상황에서 사용자가 엔터프라이즈 데이터를 로드, 변환 및 분석할 수 있는 관리되는 데이터의 중앙 소스로서 CEDP(Cognitive Enterprise Data Platform)를 개발한 방법을 공유했습니다. 이 사용 사례는 IBM® Cloud Pak for Data 솔루션을 활용한 우리의 CEDP 현대화 이야기를 이어갑니다.

이번에는 데이터 이동에 관한 이야기입니다.

문제점은 명확했습니다. 방대한 양의 데이터를 통합 플랫폼으로 수집해야 했으며 이를 완료하려면 몇 달이 걸렸습니다.

초기 데이터 로드(IDL)는 변경 데이터 캡처(CDC)를 사용하여 한 시스템에서 다른 시스템으로 데이터를 복제합니다. CDC는 첫 번째 전송 후 변경된 데이터만 이동하면 되기 때문에 효율성이 높아집니다.

첫 번째 전송인 IDL은 일반적으로 엄청난 양의 데이터이며, GCDO가 로드해야 하는 테이블도 예외는 아니었습니다. 수십 개의 테이블 중 가장 큰 테이블에는 4억 2,600만 개의 레코드가 포함되어 있었고 크기는 186GB에 달했습니다. 데이터 세트를 로드하는 데 몇 주가 걸리는 경우도 있었습니다. 한계점에 가까워지고 본질적으로 진행이 막혀버린 GCDO는 새로운 솔루션이 필요했습니다. 그들은 IBM® DataStage for IBM Cloud Pak for Data 솔루션에서 해결책을 발견했습니다.

더 빠른 데이터 로딩

 

3일에서 3시간으로 단축된 초기 데이터 로드 시간

대규모 데이터 이동

 

단일 작업을 수천 가지 방식으로 확장하기 위한 매개변수 페이지를 포함하여 각각 수십억 개의 행이 있는 수백 개의 데이터 테이블을 오류 없이 안정적으로 데이터 이동

단 며칠간의 매우 성공적인 테스트 끝에 우리는 IBM Cloud Pak for Data에 DataStage를 통합했습니다. 3일이 걸렸던 6천만 개의 레코드 IDL이 단 3시간 만에 완료되었습니다. Inderpal Bhandari 글로벌 최고 데이터 책임자 IBM
데이터 이동 현대화

GCDO가 데이터 및 AI 여정을 시작했을 때만 해도 IBM Cloud Pak for Data 솔루션은 존재하지 않았습니다. CEDP가 상당한 발전을 이끌었지만, IBM Cloud Pak for Data 솔루션의 개발로 GCDO는 자체 플랫폼을 다음 단계로 끌어올리는 데 유리한 고지를 점할 수 있었습니다.

필요에 따라 사용할 수 있는 서비스 및 확장 제품군인 IBM Cloud Pak for Data 솔루션은 GCDO가 단계적으로 현대화하고 가장 필요한 부분부터 시작하는 데 필요한 유연성을 제공했습니다. 채택이나 배포에 대한 규범적인 순서는 없었습니다.

GCDO는 먼저 IBM® Watson Studio 솔루션을 포함한 IBM Cloud Pak for Data 솔루션의 AI 서비스 제품군을 사용하기 시작했습니다. IBM Watson Studio 기술은 온프레미스와 클라우드에서 실행되어 IBM® Db2 Big SQL 솔루션의 데이터를 분석합니다. GCDO 현대화 여정의 이 부분에 대한 자세한 내용은 이 사례 연구에 설명되어 있습니다.

여정의 다음 단계를 위해 GCDO는 DataStage 기술을 선택하여 안정성과 정확성을 바탕으로 방대한 양의 데이터를 수집하는 속도를 획기적으로 높였습니다.

GCDO Master Data의 선임 프로젝트 관리자인 Frank Duffy는 “몇 달 동안 서버를 설정하고, 데이터베이스 연결을 구축하고, 시행착오를 거치며 자체 학습을 한 후에도 6천만 개의 레코드 테이블을 복제하는 데 3일이 걸렸습니다.”라고 말합니다. "이러한 통계를 바탕으로, 약 20개의 대형 테이블이 남아 있었기 때문에 데이터를 마이그레이션하는 데만 60일이 더 걸릴 것으로 예상했습니다."

GCDO의 데이터 이동 팀은 일반적인 데이터 로드 사용 사례를 실행하는 데 있어 DataStage와 Spark 기술의 성능을 테스트했습니다. 75% 이상의 사례에서 Spark 기술보다 DataStage 기술을 사용하여 더 나은 성능을 달성했습니다. 나머지 25%는 결과가 거의 일치했습니다.

성능 외에도 GCDO를 DataStage 솔루션으로 끌어들인 요인은 다음과 같습니다.

 

 

  • 특히 IBM Watson Knowledge Catalog 및 데이터 계보와 관련된 IBM Cloud Pak for Data 에코시스템과의 통합
  • 현재 및 미래 지향적 요구 사항을 충족하는 광범위한 지원 소스, 대상 및 중간 단계
  • 필요에 따라 재사용 가능한 단위로 요구 사항을 캡슐화하는 사용자 지정 단계
  • 패턴 기반 접근 방식을 지원하는 기능

 

IBM Cloud Pak for Data 솔루션은 여러 산업 데이터 소스와 연계되어 있으며, 새로운 기술에 대처할 수 있도록 이러한 소스를 지속적으로 발전시키고 있습니다. DataStage for IBM Cloud Pak for Data 솔루션은 GCDO 사용자가 작업하고자 하는 대부분의 데이터 저장소로 대표되는 방대한 산업 커넥터 재고와 함께 번들로 제공됩니다. 이러한 커넥터는 코드를 작성할 필요 없이 GCDO가 다양한 스토리지 형식 및 시스템에서 작동할 수 있음을 의미했습니다.

커넥터를 아직 사용할 수 없는 경우에는 사용자 지정 커넥터를 개발하고 배포하여 캔버스에 놓을 수 있습니다.

데이터 이동에 대한 패턴 기반 접근 방식이 가능하다는 점에서 GCDO 엔지니어들의 관심을 끌었던 런타임 컬럼 전파 기능도 DataStage for IBM Cloud Pak for Data 솔루션에 포함되어 있습니다. GCDO는 일반적인 데이터 이동 패턴을 작업으로 표현함으로써 인력을 늘리지 않고도 수천 개의 테이블을 지원할 수 있도록 작업을 확장할 수 있었습니다.

데이터 이동 도구 부문 GCDO 기술 책임자인 Rick McCall은 "DataStage for IBM Cloud Pak for Data 패턴 기능을 통해 하나의 작업을 수천 가지 방식으로 실행할 수 있게 되었습니다."라고 말합니다. "어떤 경우에는 단일 패턴에 연결하여 단일 작업으로 실행할 수 있는 8,000개 이상의 작업(여러 페이지로 이루어진 작업)이 있었습니다. 이는 하나의 코드 세트, 최적화된 성능 및 소스 제어가 모두 매우 빠르고 매우 안정적인 하나의 솔루션으로 통합되었음을 의미합니다."

DataStage for IBM Cloud Pak for Data 솔루션의 또 다른 이점은 RedHat OpenShift 와 원활하게 통합된다는 것입니다. 또한 필요한 경우 사용자 지정 워크플로를 구축할 수 있도록 API 지원도 제공합니다.

“DataStage for IBM Cloud Pak for Data는 데이터 수집의 판도를 바꿔 놓았습니다.”라고 고객 마스터 데이터 부문 글로벌 리더인 Peter Herr는 말합니다. “우리 팀은 기존 시스템의 제약 내에서 모든 것을 시도해 보았지만 필요한 방대한 양의 데이터 마이그레이션을 수용 가능한 수준으로 달성하는 데 여전히 어려움을 겪고 있었습니다. Rick과 팀이 DataStage의 속도와 성능을 보여주었고 우리는 몇 달이 아닌 몇 주 만에 생산성을 높일 수 있었습니다.”

DataStage for IBM Cloud Pak for Data는 데이터 수집의 판도를 바꿔 놓았습니다. 팀은 기존 시스템의 제약 내에서 모든 것을 시도해 보았지만 필요한 방대한 양의 데이터 마이그레이션을 수용 가능한 수준으로 달성하는 데 여전히 어려움을 겪고 있었습니다. Rick과 팀이 DataStage의 속도와 성능을 보여주었고 우리는 몇 달이 아닌 몇 주 만에 생산성을 높일 수 있었습니다. Peter Herr 고객 마스터 데이터 글로벌 리더 IBM Global Chief Data Office
플랫폼에서 개인정보 보호까지

GCDO가 DataStage for IBM Cloud Pak for Data 솔루션을 선택하자 긍정적인 결과가 빠르게 뒤따랐습니다. 파일럿 단계에서만 수십억 개의 행이 포함된 거대한 테이블이 며칠이 아닌 몇 시간 만에 로드되었습니다. 더 작은 테이블은 몇 분 안에 마이그레이션되었습니다. 또한 테이블 크기에 관계없이 데이터 수집은 오류 없이 매우 안정적이었습니다.

"말할 필요도 없이, DataStage를 통한 데이터 이동은 우리의 데이터 마이그레이션 노력에 힘을 더해 주어 몇 주 만에 막힌 상태에서 프로덕션 준비 상태로 전환할 수 있도록 도움을 주었습니다."라고 Duffy는 말합니다.

IBM의 글로벌 최고 데이터 책임자인 Inderpal Bhandari는 “IBM Cloud Pak for Data는 CEDP를 지속적으로 발전시키고 있습니다.”라고 말합니다. "DataStage for IBM Cloud Pak for Data는 데이터 이동 전략의 엔진으로서 말 그대로 몇 주를 절약하고 사용자 서비스에 새로운 차원의 효율성과 유연성을 제공했습니다. 다음으로 우리는 IBM Cloud Pak for Data를 활용하여 전사적 개인정보 보호 기능을 구축하는 것을 목표로 하고 있습니다."

GCDO는 IBM 최고 개인정보 보호 책임자와 협력하여 규정 준수 효율성을 획기적으로 향상할 엔드투엔드 하이브리드 클라우드 시스템을 구동하는 엔진을 구축합니다. 개인정보 보호 기능에 대한 현재 로드맵에는 Watson Knowledge Catalog, IBM Knowledge Accelerators, IBM Cloud Pak for Data 솔루션의 IBM OpenPages with Watson이 포함되어 있습니다.

데이터 사일로를 제거하는 데 도움이 되는 솔루션 알아보기

IBM 로고
IBM Global Chief Data Office 소개

IBM GCDO는 거버넌스 및 관리 시스템, 심층 데이터 및 분석 파트너십을 포함하는 데이터 전략 및 플랫폼을 개발합니다. 이 전략은 비즈니스 데이터를 비즈니스 가치로 전환합니다. 이러한 플랫폼은 기업 전반의 비즈니스 분석과 인재 개발 및 확장을 위한 중앙 데이터 소스가 됩니다. 이러한 혁신적인 기능을 함께 사용하면 분석 통찰력을 활용하여 성장과 생산성을 높일 수 있습니다.

다음 단계 안내
기술, 비즈니스, 사고 리더십 관련 최신 소식을 엄선한 뉴스레터를 구독하고 받아보세요. IBM에서 제공하는 유용한 정보를 이메일로 받아보세요. 통합 데이터 및 AI 플랫폼으로 비즈니스 이점 추가 사례 연구
각주

© Copyright IBM Corporation 2022. IBM Corporation, IBM Watson, New Orchard Road, Armonk, NY 10504

2022년 3월 미국에서 제작.

IBM, IBM 로고, ibm.com DataStage, Db2, IBM Cloud Pak, OpenPages 및 IBM Watson은 전 세계 여러 국가에 등록된 International Business Machines Corp.의 상표입니다. 기타 제품 및 서비스 이름은 IBM 또는 다른 회사의 상표일 수 있습니다. 최신 IBM 상표 목록은 '저작권 및 상표 정보' 웹페이지(https://www.ibm.com/kr-ko/legal/copytrade)에서 확인하세요.

Red Hat® 및 OpenShift®는 미국 및 기타 국가에서 사용되는 Red Hat, Inc. 또는 그 자회사의 상표 또는 등록 상표입니다.

이 문서는 최초 발행일 기준 최신 문서로, IBM은 언제든지 해당 내용을 변경할 수 있습니다. IBM이 현재 영업 중인 모든 국가에서 모든 제품이 제공되는 것은 아닙니다.

명시된 성능 데이터 및 고객 사례는 오직 정보 목적으로 제공됩니다. 실제 성능 결과는 특정 구성 및 작동 조건에 따라 다를 수 있습니다. 본 문서의 정보는 상품성, 특정 목적에의 적합성, 비침해성 보증 또는 조건을 포함하여 명시적 또는 묵시적 보증 없이 '있는 그대로' 제공됩니다. 제품 제공 시의 계약 조건에 따라 해당 IBM 제품을 보증합니다.

고객은 관련 법률 및 규정을 준수할 책임이 있습니다. IBM은 법률 자문을 제공하지 않으며, 자사의 서비스 또는 제품이 고객의 법률 또는 규정 준수 여부를 보장함을 나타내거나 보증하지 않습니다.