Apa itu penangkapan perubahan data?

Seorang wanita bekerja di laptop di gudang.

Penyusun

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Apa itu penangkapan perubahan data?

Penangkapan perubahan data, atau CDC, adalah teknik untuk mengidentifikasi dan mencatat perubahan data dalam database. CDC menyampaikan perubahan ini secara real-time ke berbagai sistem target, yang memungkinkan sinkronisasi data di seluruh organisasi segera setelah perubahan database terjadi.

 

Pengangkapan perubahan data adalah metode integrasi data real-time, yang berfungsi untuk menggabungkan dan menyelaraskan data yang mungkin tersilo atau tidak konsisten di seluruh organisasi. Metode lain termasuk integrasi data aliran, virtualisasi data dan integrasi aplikasi.

Kemampuan CDC untuk menjaga sistem tetap up to date secara real-time (dan dengan latensi rendah) berperan penting bagi keberhasilan analisis data real-time, migrasi cloud, dan bahkan model AI. Ini memiliki berbagai contoh penggunaan di seluruh sektor, dari retail hingga keuangan hingga perawatan kesehatan, membantu deteksi penipuan, manajemen rantai pasokan, dan kepatuhan terhadap peraturan.

Ada beberapa pendekatan untuk penangkapan perubahan data, dengan CDC berbasis log, CDC berbasis stempel waktu, dan CDC berbasis pemicu sebagai yang paling umum. Perusahaan dapat menerapkan penangkapan perubahan data melalui alat database-native, sumber terbuka, dan solusi pihak ketiga.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Apa manfaat dari penangkapan perubahan data?

Dalam manajemen data modern, penangkapan perubahan data telah muncul sebagai mekanisme rekayasa data yang penting. Lingkungan data perusahaan saat ini semakin besar dan kompleks. Mereka mungkin mengandung data dari perangkat Internet of Things (IoT), basis data terdistribusi, aplikasi, dan sumber-sumber lain yang beragam. Mempertahankan data yang konsisten dan berkualitas di seluruh ekosistem data yang berkembang ini merupakan tantangan berkelanjutan.

Pada saat yang sama, bisnis membutuhkan informasi yang akurat dan terkini yang dapat dimanfaatkan untuk pengambilan keputusan secara waktu-nyata. Penangkapan perubahan data adalah salah satu dari beberapa metode yang membantu organisasi memenuhi permintaan ini.

Penangkapan perubahan data memungkinkan alur data latensi rendah yang memberikan data baru dengan cara yang lebih efisien dan tidak terlalu intensif sumber daya daripada metode integrasi data lainnya. Misalnya, replikasi data memerlukan penyalinan kumpulan data lengkap. Sebaliknya, CDC hanya mengirimkan data yang telah berubah, sehingga mengurangi beban pada sistem sumber, lalu lintas jaringan, dan permintaan daya komputasi.

Hal ini membantu mereka mengakses informasi terbaru dan paling akurat dengan cepat dan efisien, yang menghasilkan berbagai manfaat, termasuk:

Pengambilan keputusan secara real-time

Aliran perubahan data real-time memungkinkan analitik data real-time dan intelijen bisnis. Dengan kemampuan ini, bisnis dapat mendukung tuntutan lingkungan bisnis 24/7 yang sensitif terhadap waktu saat ini.

Migrasi cloud yang sukses

Selama migrasi cloud, CDC dengan cepat mengirimkan perubahan data yang terjadi on premises ke tabel data berbasis cloud yang relevan, memastikan konsistensi antara kedua lingkungan. Kemampuan ini juga meminimalkan waktu henti sistem selama migrasi.

Peningkatan proses ETL

Pipeline dataETL (ekstrak, ubah, muat) merupakan bagian integral dari analitik data dan alur kerja machine learning. Tetapi eksekusi ETL, yang bergantung pada pemrosesan batch, cenderung bergerak lambat dan membebani sumber daya. Mengintegrasikan CDC ke ETL dapat mengoptimalkan penggunaan sumber daya dan mempercepat pergerakan data.

Kinerja kecerdasan buatan (AI) yang lebih baik

Menerapkan penangkapan perubahan data dapat membantu memastikan data sumber model terbaru sehingga model bahasa besar (LLM) dapat memberikan output yang akurat dan tepat waktu. Misalnya, dalam contoh penggunaan generasi dengan dukungan pengambilan data (RAG), model AI terhubung dengan basis pengetahuan eksternal untuk respons yang lebih relevan.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Bagaimana cara kerja penangkapan perubahan data?

Penangkapan perubahan data mengidentifikasi dan mencatat peristiwa perubahan yang terjadi di berbagai sumber data. Sumber-sumber ini dapat mencakup database relasional seperti Oracle, PostgreSQL, MySQL, Microsoft Azure SQL, Microsoft SQL Server, serta basis data non-relasional (NoSQL) seperti Apache Cassandra dan MongoDB.

Setelah perubahan diidentifikasi, perubahan tersebut ditransfer dari database sumber secara real time atau nyaris seketika ke sistem target. Penyimpanan data seperti data lake dan gudang data; analitik real-time dan platform data streaming seperti Apache Kafka dan Apache Spark; dan solusi ETL (ekstrak, ubah, muat) serta ELT (ekstrak, muat, ubah) adalah semua contoh sistem target.

Penangkapan perubahan data dapat dipicu oleh sistem target (yang dikenal sebagai pendekatan “dorong”) atau sistem sumber (pendekatan “tarik”). Untuk yang pertama, sistem sumber “dorong” atau mengirim perubahan ke sistem target. Untuk yang kedua, sistem target secara teratur mensurvei sistem sumber dan “menarik” perubahan jika ditemukan.

Metode umum untuk penangkapan perubahan data

Ada beberapa metode untuk mengeksekusi penangkapan perubahan data. Jenis CDC yang umum meliputi: 

  • CDC berbasis log
  • CDC berbasis stempel waktu
  • CDC berbasis pemicu

CDC berbasis log

Log transaksi database adalah fitur standar database dan digunakan untuk mencatat semua transaksi database. (File log transaksi dapat digunakan untuk memulihkan database jika terjadi kegagalan sistem.)

Dalam CDC berbasis log, aplikasi CDC memproses perubahan database yang tercatat dalam log dan membagikan pembaruan tersebut ke sistem lain. CDC berbasis log semakin populer, sebagian karena ketergantungannya pada log daripada kueri yang mungkin menurunkan kinerja sistem sumber. Namun, variasi dalam format log transaksi dapat mempersulit eksekusi CDC berbasis log di berbagai database.

CDC berbasis stempel waktu

Penangkapan perubahan data berbasis stempel waktu, yang juga dikenal sebagai CDC berbasis kueri, memerlukan skema tabel basis data memiliki kolom-kolom, seperti kolom stempel waktu, yang mencatat tanggal dan waktu perubahan catatan. Alat CDC dapat digunakan untuk mengidentifikasi catatan yang telah diubah melalui kolom stempel waktu dalam tabel sumber, dan kemudian mengirimkan pembaruan ke sistem tujuan.

Meskipun CDC berbasis stempel waktu dapat mudah diimplementasikan, hal ini juga dapat menimbulkan beban tambahan pada sistem ketika proses pengambilan data stempel waktu dilakukan secara berkala. CDC berbasis stempel waktu juga gagal menangkap operasi penghapusan ketika stempel waktu dihapus bersama dengan sisa baris.

CDC berbasis pemicu

Dalam penangkapan perubahan data berbasis pemicu, prosedur penyimpanan atau fungsi yang dikenal sebagai pemicu database dieksekusi sekali ketika perubahan tertentu (seperti penambahan, penghapusan, dan pembaruan) terjadi dalam basis data. Data yang diubah kemudian disimpan dalam apa yang sering disebut tabel perubahan atau tabel bayangan.

Seperti CDC berbasis stempel waktu, CDC berbasis pemicu dapat mudah diterapkan. Namun, hal ini juga dapat membebani sistem sumber karena pemicu akan “dijalankan” setiap kali transaksi terjadi di tabel sumber.

Alat penangkapan perubahan data

Alat yang melakukan penangkapan perubahan data dapat menjadi bagian bawaan dari lingkungan atau sistem database tertentu, seperti AWS Database Migration Service, atau dapat diimplementasikan secara lebih luas. Solusi perangkat lunak penangkapan perubahan data non-native mencakup platform sumber terbuka seperti Debezium dan platform komersial seperti IBM Streamsets dan Oracle GoldenGate.

Ketika perusahaan mempertimbangkan solusi mana yang harus dipilih, mereka dapat mempertimbangkan faktor-faktor seperti harga, konektor ke sistem sumber dan target, dan antarmuka pemrograman aplikasi (API) untuk integrasi sistem.

Contoh penggunaan untuk penangkapan perubahan data

Bisnis dapat menerapkan penangkapan perubahan data untuk berbagai kegunaan, termasuk:

Deteksi penipuan

Terus melacak perubahan dalam catatan keuangan melalui penangkapan perubahan data dapat memungkinkan deteksi aktivitas penipuan sebelum menyebabkan kerugian besar.

Pemberdayaan Internet of Things (IoT)

CDC dapat secara efisien mengintegrasikan sejumlah besar data real-time yang dihasilkan oleh perangkat IoT, memungkinkan pemeliharaan prediktif dan pemantauan real-time.

Manajemen inventaris dan rantai pasokan

Akses ke informasi penjualan, inventaris, dan rantai pasokan secara real-time yang didukung oleh penangkapan perubahan data dapat membantu perusahaan menghindari kehabisan stok dan membuat keputusan penetapan harga yang menguntungkan.

Kepatuhan terhadap peraturan

Penangkapan perubahan data dapat membantu perusahaan yang diatur dengan ketat menyimpan catatan akurat yang diperlukan untuk pelaporan dan kepatuhan terhadap peraturan dan undang-undang seperti GDPR, Undang-Undang Sarbanes-Oxley (SOX), dan HIPAA di AS.

Solusi terkait
IBM StreamSets

Buat dan kelola pipeline data streaming cerdas melalui antarmuka grafis yang intuitif, yang memfasilitasi integrasi data tanpa batas di seluruh lingkungan hybrid dan multicloud.

Jelajahi StreamSets
IBM Databand

Temukan IBM Databand, perangkat lunak observabilitas untuk saluran data. Secara otomatis mengumpulkan metadata untuk membangun garis dasar historis, mendeteksi anomali, dan membuat alur kerja untuk memperbaiki masalah kualitas data.

Jelajahi Databand
Solusi integrasi data

Buat pipeline data yang tangguh, berkinerja tinggi, dan hemat biaya untuk kebutuhan inisiatif AI generatif Anda, analitik real-time, modernisasi gudang, dan operasional dengan solusi integrasi data IBM.

Temukan solusi integrasi data
Ambil langkah selanjutnya

Temukan IBM DataStage, alat ETL (Extract, Transform, Load) yang menawarkan antarmuka visual untuk merancang, mengembangkan, dan menerapkan pipeline data. Alat ini tersedia sebagai SaaS terkelola di IBM Cloud untuk hosting mandiri dan sebagai add-on pada IBM Cloud Pak for Data.

Jelajahi DataStage Jelajahi layanan analitik