Kecepatan migrasi data meningkat secara dramatis
IBM Chief Data Office memodernisasi perpindahan data dengan IBM DataStage
Rekan kerja memecahkan masalah di komputer bersama-sama

Dalam studi kasus sebelumnya, kami berbagi cara IBM Global Chief Data Office (GCDO) menghadapi tantangan data yang terlalu akrab yang tersebar di seluruh perusahaan, dan cara - tanpa platform yang tersedia secara komersial - platform ini mengembangkan Cognitive Enterprise Data Platform (CEDP) sebagai sumber utama data yang diatur bagi pengguna untuk memuat, mengubah, dan menganalisis data perusahaan. Kasus penggunaan ini melanjutkan kisah kami tentang modernisasi CEDP yang memanfaatkan solusi IBM Cloud Pak® for Data .

Kali ini semuanya tentang pergerakan data.

Titik masalahnya jelas. Sejumlah besar data perlu diserap ke dalam platform terpadu kami, dan hal ini akan memakan waktu penyelesaian selama berbulan-bulan.

Initial Data Loads (IDL) mereplikasi data dari satu sistem ke sistem lainnya menggunakan Change Data Capture (CDC). CDC meningkatkan efisiensi karena setelah transfer pertama, hanya data yang berubah yang perlu dipindahkan.

Sebagai transfer pertama, IDL biasanya merupakan data yang sangat besar, dan tabel yang perlu dimuat GCDO tidak terkecuali: tabel terbesar dari lusinan tabel berisi 426 juta catatan, dengan berat 186 GB. Dalam beberapa kasus, memuat kumpulan data memerlukan waktu berminggu-minggu. GCDO membutuhkan solusi baru dalam kondisi mendekati titik puncak dan utamanya terhalang untuk berkembang. Solusi baru tersebtu dapat dijumpai dalam solusi IBM DataStage untuk IBM Cloud Pak for Data.

Memuat Data Lebih Cepat

 

Initial Data Load dalam waktu singkat, dari 3 hari hingga 3 jam

Pergerakan Data dalam Skala Besar

 

Pergerakan data yang stabil dan bebas kesalahan dari ratusan tabel data dengan miliaran baris masing-masing, termasuk halaman parameter untuk menskalakan satu pekerjaan dalam ribuan cara

Setelah hanya beberapa hari pengujian yang sangat sukses, kami menggabungkan DataStage for IBM Cloud Pak for Data ... IDL sebanyak 60 juta catatan yang membutuhkan waktu tiga hari dapat diselesaikan hanya dalam waktu sekitar tiga jam. Inderpal Bhandari Global Chief Data Officer IBM
Memodernisasi pergerakan data

Saat GCDO memulai perjalanan data dan AI-nya, solusi IBM Cloud Pak for Data masih belum ada. Sementara CEDP mendorong kemajuan yang signifikan, pengembangan solusi IBM Cloud Pak for Data memberikan GCDO keuntungan di kandang sendiri untuk membawa platformnya sendiri ke tingkat berikutnya.

Sebagai rangkaian layanan dan ekstensi yang bisa digunakan sesuai kebutuhan, solusi IBM Cloud Pak for Data memberikan fleksibilitas yang dibutuhkan GCDO untuk melakukan modernisasi secara bertahap dan memulai dengan kebutuhan yang paling tinggi terlebih dahulu. Tidak ada perintah preskriptif untuk adopsi atau penerapan.

GCDO pertama kali mulai menggunakan rangkaian layanan AI dalam solusi IBM Cloud Pak for Data, termasuk solusi IBM Watson Studio. Teknologi IBM Watson Studio berjalan on premises dan di cloud, dengan menganalisis data dalam solusi IBM Db2 Big SQL. Detail dari bagian perjalanan modernisasi GCDO ini dijelaskan dalam studi kasus ini.

Untuk langkah selanjutnya dalam perjalanan ini, GCDO beralih ke teknologi DataStage untuk secara dramatis meningkatkan kecepatan menyerap data dalam jumlah besar dengan stabilitas dan akurasi.

"Setelah beberapa bulan menyiapkan server, membuat koneksi database, dan konfigurasi coba-coba serta upaya belajar mandiri, 60 juta tabel catatan masih membutuhkan waktu tiga hari untuk direplikasi," ujar Frank Duffy, Manajer Proyek Senior di Data Induk GCDO. "Melihat statistik tersebut, dengan sekitar 20 tabel besar yang masih tersisa, kami membutuhkan waktu 60 hari lagi hanya untuk memigrasikan data."

Tim Data Movement GCDO menguji performa teknologi DataStage dan Spark dalam menjalankan contoh penggunaan beban data yang umum. Pada lebih dari 75% kasus, mereka mencapai kinerja yang lebih baik dengan teknologi DataStage dibandingkan dengan teknologi Spark. Untuk 25% sisanya dengan hasil hampir sama.

Selain kinerja, faktor-faktor yang menarik GCDO ke solusi DataStage meliputi:

 

 

  • Integrasi dengan ekosistem IBM Cloud Pak for Data, khususnya terkait dengan IBM Watson Knowledge Catalog dan silsilah data
  • Luasnya sumber, target, dan tahap peralihan yang didukung yang memenuhi kebutuhan saat ini dan ke depan
  • Tahapan khusus untuk merangkum kebutuhan ke dalam unit yang dapat digunakan kembali bila diperlukan
  • Kemampuan yang mendukung pendekatan berbasis pola

 

Solusi IBM Cloud Pak for Data selaras dengan beberapa sumber data industri dan terus mengembangkan sumber-sumber tersebut untuk memenuhi teknologi baru. Solusi DataStage untuk IBM Cloud Pak for Data hadir dalam bentuk bundel dengan inventaris konektor industri yang besar, yang mewakili sebagian besar penyimpanan data yang ingin digunakan oleh para pengguna GCDO. Konektor ini berarti bahwa GCDO dapat bekerja dengan berbagai format dan sistem penyimpanan yang berbeda tanpa perlu menulis kode apa pun.

Dalam kasus-kasus di mana konektor belum tersedia, konektor khusus dapat dikembangkan, menerapkan, dan dijatuhkan ke kanvas.

Solusi DataStage for IBM Cloud Pak for Data juga menawarkan fungsionalitas Runtime Column Propagation, yang menarik bagi para insinyur GCDO karena memungkinkan pendekatan berbasis pola untuk pergerakan data. Dengan mengekspresikan pola pergerakan data umum sebagai pekerjaan, GCDO meningkatkan operasi untuk mendukung ribuan tabel tanpa perlu menambah staf.

"Kemampuan pola DataStage untuk IBM Cloud Pak for Data memungkinkan kami untuk memiliki satu pekerjaan yang bisa dijalankan dengan ribuan cara," ujar Rick McCall, Pemimpin Teknis GCDO untuk Alat Pergerakan Data. "Dalam beberapa kasus, kami memiliki lebih dari 8.000 pekerjaan - halaman demi halaman - yang dapat dikaitkan dengan satu pola dan dijalankan sebagai satu pekerjaan. Itu berarti satu set kode, kinerja yang dioptimalkan, dan kontrol sumber yang semuanya digabungkan menjadi satu solusi super cepat dan super andal."

Manfaat lain dari solusi DataStage untuk IBM Cloud Pak for Data adalah solusi ini terintegrasi dengan lancar bersama  RedHat OpenShift. Solusi ini juga menawarkan dukungan API sehingga pengguna dapat membangun alur kerja khusus di sekitarnya jika diperlukan.

"DataStage untuk IBM Cloud Pak for Data merupakan sebuah pengubah permainan untuk konsumsi data kami," ujar Peter Herr, Pemimpin Global untuk Data Induk Klien. "Tim kami telah mencoba segalanya dalam batasan sistem yang ada dan masih menemui jalan buntu untuk menyelesaikan migrasi data dalam jumlah besar yang kami perlukan. Ketika Rick dan tim menunjukkan kepada kami kecepatan dan kekuatan DataStage, kami menjadi produktif dalam hitungan minggu, bukan bulan."

DataStage for IBM Cloud Pak for Data adalah pengubah permainan untuk konsumsi data kami. Tim telah mencoba segalanya dalam batasan sistem yang ada dan masih menemui jalan buntu untuk menyelesaikan migrasi data dalam jumlah besar yang kami perlukan. Ketika Rick dan tim menunjukkan kepada kami kecepatan dan kekuatan DataStage, kami menjadi produktif dalam hitungan minggu, bukan bulan. Peter Herr Pemimpin Global untuk Data Induk Klien Global Chief Data Office IBM
Dari platform hingga privasi

Begitu GCDO memilih solusi DataStage untuk IBM Cloud Pak for Data, hasil positif dengan cepat mengikuti. Pada fase uji coba saja, tabel besar dengan miliaran baris dimuat dalam hitungan jam, bukan hari. Tabel yang lebih kecil dimigrasikan dalam hitungan menit. Lebih jauh lagi, terlepas dari ukuran tabel, pemasukan data bebas dari kesalahan dan sangat stabil.

"Tidak perlu diragukan lagi, perpindahan data yang didukung oleh DataStage adalah anugerah yang membantu menyelamatkan upaya migrasi data kami dan memindahkan kami dari kondisi terblokir ke kondisi siap produksi dalam hitungan minggu," kata Duffy.

"IBM Cloud Pak for Data lanjutkan memajukan CEDP," ujar Inderpal Bhandari, Global Chief Data Officer IBM. "DataStage untuk IBM Cloud Pak for Data sebagai mesin untuk strategi pergerakan data kami telah menghemat waktu kami selama berminggu-minggu dan memberikan tingkat efisiensi dan fleksibilitas baru dalam melayani pengguna kami. Selanjutnya, kami memiliki tujuan untuk memanfaatkan IBM Cloud Pak for Data saat kami membangun kemampuan privasi di seluruh perusahaan."

GCDO bermitra dengan IBM Chief Privacy Office untuk membangun mesin untuk menggerakkan sistem hybrid cloud menyeluruh yang secara dramatis akan meningkatkan efisiensi kepatuhan peraturan kami. Peta jalan saat ini untuk kemampuan privasi menampilkan Watson Knowledge Catalog, IBM Knowledge Accelerators, dan IBM OpenPages with Watson dari solusi IBM Cloud Pak for Data.

Temukan solusi untuk membantu Anda menghilangkan silo data

Logo IBM
Tentang IBM Global Chief Data Office

IBM Global Chief Data Office mengembangkan strategi dan platform data yang mencakup sistem tata kelola dan manajemen, data yang mendalam, dan kemitraan analitik. Strategi ini mengubah data bisnis menjadi nilai bisnis. Platform ini menjadi sumber data utama untuk analisis bisnis di seluruh perusahaan dan untuk mengembangkan serta meningkatkan talenta. Bersama-sama, kemampuan inovatif ini menggunakan wawasan analitik untuk memungkinkan pertumbuhan dan produktivitas.

Ambil langkah selanjutnya
Berlangganan buletin pilihan untuk mendapatkan informasi terbaru tentang teknologi, bisnis, dan kepemimpinan pemikiran Dapatkan yang terbaik dari IBM di kotak masuk Anda. Data terpadu dan platform AI menambah manfaat bisnis Studi kasus
Catatan kaki

© Hak Cipta IBM Corporation 2022. IBM Corporation, IBM Watson, New Orchard Road, Armonk, NY 10504

Diproduksi di Amerika Serikat, Maret 2022.

IBM, logo IBM, ibm.com, DataStage, Db2, IBM Cloud Pak, OpenPages, dan IBM Watson merupakan merek dagang dari International Business Machines Corp, yang terdaftar di banyak yurisdiksi di seluruh dunia. Nama produk dan layanan lain mungkin merupakan merek dagang milik IBM atau perusahaan lain. Daftar merek dagang IBM saat ini tersedia di web di “Informasi hak cipta dan merek dagang” di https://www.ibm.com/id-id/legal/copytrade.

Red Hat® dan OpenShift® adalah merek dagang atau merek dagang terdaftar dari Red Hat, Inc. atau anak perusahaannya di Amerika Serikat dan negara lain.

Dokumen ini adalah yang terbaru pada tanggal awal publikasi dan dapat diubah oleh IBM kapan saja. Tidak semua penawaran tersedia di setiap negara tempat IBM beroperasi.

Data kinerja dan contoh klien yang dikutip disajikan hanya untuk tujuan ilustrasi. Hasil kinerja aktual dapat bervariasi, tergantung pada konfigurasi dan kondisi pengoperasian tertentu. INFORMASI DALAM DOKUMEN INI DISEDIAKAN "SEBAGAIMANA ADANYA" TANPA JAMINAN APA PUN, BAIK TERSURAT MAUPUN TERSIRAT, TERMASUK TANPA JAMINAN UNTUK DAPAT DIPERJUALBELIKAN, KESESUAIAN UNTUK TUJUAN TERTENTU, DAN JAMINAN ATAU KETENTUAN APA PUN YANG TIDAK MELANGGAR. Produk IBM dijamin sesuai dengan syarat dan ketentuan perjanjian yang mengatur penyediaan produk tersebut.

Klien bertanggung jawab untuk memastikan kepatuhan terhadap hukum dan peraturan yang berlaku. IBM tidak memberikan nasihat hukum atau menyatakan atau menjamin bahwa layanan atau produknya akan memastikan bahwa klien mematuhi hukum atau peraturan apa pun.