Apa itu ETL (ekstrak, ubah, muat)?

Seorang wanita bekerja di laptop, memeriksa email, dan merencanakan tugas di internet sambil duduk sendirian di kantornya

Apa itu ETL?

ETL, ekstrak (extract), ubah (transform), dan muat (load), adalah proses integrasi data yang menggabungkan, membersihkan, dan mengatur data dari berbagai sumber menjadi satu kumpulan data yang konsisten untuk penyimpanan di gudang data, data lake, atau sistem target lainnya.

Alur data ETL menyediakan fondasi untuk analisis data dan alur kerja machine learning. Melalui serangkaian aturan bisnis, ETL membersihkan dan mengatur data untuk memenuhi kebutuhan intelijen bisnis tertentu, seperti pelaporan bulanan—tetapi juga dapat menangani analisis yang lebih canggih, yang dapat meningkatkan proses back-end dan pengalaman pengguna akhir. Alur kerja ETL sering digunakan oleh organisasi untuk:

  • Mengekstrak data dari sistem lama

  • Membersihkan data untuk meningkatkan kualitas data dan membangun konsistensi

  • Memuat data ke basis data target

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Bagaimana ETL berevolusi

Bisnis sudah menghasilkan data sejak zaman sempoa, tetapi analitik modern baru mungkin dengan adanya komputer digital dan penyimpanan data.

Sebuah langkah maju besar tiba pada tahun 1970-an, dengan perpindahan ke basis data terpusat yang lebih besar. ETL diperkenalkan sebagai proses untuk mengintegrasikan dan memuat data demi komputasi dan analisis, yang akhirnya menjadi metode utama dalam memproses data untuk proyek gudang data.

Pada akhir tahun 1980-an, gudang data dan perpindahan dari basis data transaksional ke basis data relasional yang menyimpan informasi dalam format data relasional semakin populer. Basis data transaksional yang lebih lama akan menyimpan informasi transaksi per transaksi, dengan duplikat informasi pelanggan yang disimpan dengan setiap transaksi, sehingga tidak ada cara yang mudah untuk mengakses data pelanggan dengan cara yang terpadu dari waktu ke waktu. Dengan basis data relasional, analitik menjadi fondasi intelijen bisnis (BI) dan alat yang signifikan dalam pengambilan keputusan.

Sebelum hadirnya perangkat lunak ETL yang lebih canggih, sebagian besar proses dilakukan manual oleh tim TI untuk mengekstrak data dari berbagai sistem dan konektor, mengubahnya ke format umum, lalu memuatnya ke tabel yang saling berhubungan. Namun, usaha awal pada ETL tersebut sepadan karena algoritma canggih dan kemunculan neural networks membuka peluang lebih dalam untuk insight analitis.

Era big data dimulai pada 1990-an dengan pesatnya peningkatan kecepatan komputasi dan kapasitas penyimpanan, serta munculnya volume data besar dari sumber baru seperti media sosial dan Internet of Things (IoT). Namun, masih ada kendala yaitu data sering disimpan di gudang data lokal.

Langkah besar berikutnya dalam komputasi dan ETL adalah komputasi cloud, yang menjadi populer pada akhir 1990-an. Dengan menggunakan gudang data seperti Amazon Web Services (AWS), Microsoft Azure, dan Snowflake, data kini dapat diakses dari seluruh dunia dan dengan cepat diskalakan untuk memungkinkan solusi ETL memberikan insight terperinci yang luar biasa dan keunggulan kompetitif yang baru.

Evolusi terbaru adalah solusi ETL yang menggunakan data streaming untuk memberikan insight terkini dari sejumlah besar data.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

ETL versus ELT

Perbedaan yang paling jelas antara ETL dan ELT—ekstrak, beban, transformasi—adalah perbedaan dalam urutan operasi. ELT menyalin atau mengekspor data dari lokasi sumber, tetapi alih-alih memuatnya ke area penahapan untuk transformasi, ELT memuat data mentah langsung ke penyimpanan data target untuk ditransformasikan sesuai kebutuhan.

Meskipun kedua proses tersebut memanfaatkan berbagai repositori data, seperti basis data, gudang data, dan data lake, masing-masing proses memiliki kelebihan dan kekurangan. ELT berguna untuk menyerap kumpulan data tidak terstruktur bervolume tinggi karena pemuatan dapat terjadi langsung dari sumber. ELT bisa lebih ideal untuk manajemen big data karena tidak memerlukan banyak perencanaan di awal untuk ekstraksi dan penyimpanan data.

Proses ETL membutuhkan lebih banyak definisi pada awal. Poin data spesifik perlu diidentifikasi untuk diekstraksi bersama dengan “kunci” potensial untuk diintegrasikan di seluruh sistem sumber yang berbeda. Sumber data input sering dilacak dengan menggunakan metadata. Bahkan setelah pekerjaan itu selesai, aturan bisnis untuk transformasi data perlu dibangun. Pekerjaan ini biasanya memiliki ketergantungan pada kebutuhan data untuk jenis analisis data tertentu, yang akan menentukan tingkat ringkasan yang perlu dimiliki oleh data.

Pipeline ELT semakin populer dengan adopsi cloud databases, namun teknologi ELT masih berkembang sehingga praktik terbaiknya masih dalam proses pembentukan.

Cara kerja ETL

Cara termudah untuk memahami cara kerja ETL adalah memahami apa yang terjadi di setiap langkah proses.

Ekstrak

Selama ekstraksi data, data mentah disalin atau diekspor dari lokasi sumber ke area penahapan. Tim manajemen data dapat mengekstrak data dari berbagai sumber yang berbeda, yang dapat terstruktur atau tidak terstruktur. Jenis data tersebut meliputi, namun tidak terbatas pada:

  • Server SQL atau NoSQL
  • Sistem CRM dan ERP
  • JSON dan XML
  • Database file datar
  • Email
  • Halaman web

Transformasi

Di area penahapan, data mentah mengalami pemrosesan data. Di sini, data diubah dan dikonsolidasikan untuk contoh penggunaan analitis yang dimaksud. Fase proses transformasi ini dapat mencakup:

  • Memfilter, membersihkan, menggabungkan, menghilangkan duplikat, memvalidasi, dan mengotentikasi data.
  • Melakukan perhitungan, terjemahan, atau ringkasan berdasarkan data mentah. Hal ini dapat mencakup mengubah judul baris dan kolom untuk konsistensi, mengonversi mata uang atau unit pengukuran lainnya, mengedit string teks, dan banyak lagi.
  • Melakukan audit untuk memastikan kualitas dan kepatuhan data, dan metrik komputasi.
  • Menghapus, mengenkripsi, atau melindungi data yang diatur oleh industri atau regulator pemerintah.
  • Memformat data ke dalam tabel atau tabel gabungan agar sesuai dengan skema gudang data target.

Muat

Pada langkah terakhir ini, data yang diubah dipindahkan dari area penahapan ke gudang data target. Biasanya, hal ini melibatkan pemuatan awal semua data, diikuti dengan pemuatan perubahan data tambahan secara berkala dan, lebih jarang, penyegaran penuh untuk menghapus dan mengganti data di gudang. Bagi sebagian besar organisasi yang menggunakan ETL, prosesnya bersifat otomatis, terdefinisi dengan baik, berkesinambungan, dan berbasis batch. Biasanya, proses pemuatan ETL berlangsung di luar jam kerja saat lalu lintas pada sistem sumber dan gudang data berada pada titik terendah.

ETL dan metode integrasi data lainnya

ETL dan ELT hanyalah dua metode integrasi data, dan ada pendekatan lain yang juga digunakan untuk memfasilitasi alur kerja integrasi data. Beberapa di antaranya termasuk:

  • Change Data Capture (CDC) mengidentifikasi dan menangkap hanya data sumber yang telah berubah dan memindahkan data tersebut ke sistem target. CDC dapat digunakan untuk mengurangi sumber daya yang diperlukan selama langkah "ekstrak" ETL; CDC juga dapat digunakan secara independen untuk memindahkan data yang telah ditransformasikan ke dalam data lake atau repositori lain secara real time.

  • Data replication menyalin perubahan dalam sumber data secara real-time atau dalam batch ke basis data pusat. Replikasi data sering terdaftar sebagai metode integrasi data. Bahkan, ini paling sering digunakan untuk membuat cadangan untuk pemulihan bencana.

  • Virtualisasi data menggunakan lapisan abstraksi perangkat lunak untuk membuat tampilan data yang terpadu, terintegrasi, dan dapat digunakan sepenuhnya tanpa menyalin, mengubah, atau memuat data sumber secara fisik ke sistem target. Fungsionalitas virtualisasi data memungkinkan organisasi untuk membuat gudang data, data lake, dan pasar data virtual dari sumber data yang sama untuk penyimpanan data tanpa biaya dan kerumitan dalam membangun dan mengelola platform yang terpisah untuk masing-masing. Meskipun virtualisasi data dapat digunakan bersamaan dengan ETL, virtualisasi data semakin dilihat sebagai alternatif untuk ETL dan metode integrasi data fisik lainnya.

  • Stream Data Integration (SDI) sesuai dengan namanya, SDI secara terus menerus mengonsumsi aliran data secara real time, mengubahnya, dan memuatnya ke sistem target untuk dianalisis. Kata kuncinya di sini adalah terus menerus. Alih-alih mengintegrasikan cuplikan data yang diekstrak dari berbagai sumber pada waktu tertentu, SDI mengintegrasikan data secara konstan saat tersedia. SDI memungkinkan penyimpanan data untuk mendukung analisis, machine learning, dan aplikasi real time untuk meningkatkan pengalaman pelanggan, deteksi penipuan, dan banyak lagi.

Manfaat dan tantangan ETL

Solusi ETL meningkatkan kualitas dengan melakukan pembersihan data sebelum memuat data ke repositori yang berbeda. Sebagai operasi batch yang memakan waktu, ETL lebih sering direkomendasikan untuk membuat repositori data target yang lebih kecil yang membutuhkan pembaruan yang lebih jarang, sementara metode integrasi data lainnya, termasuk ELT (ekstrak, muat, ubah), pengambilan data perubahan (CDC), dan virtualisasi data, digunakan untuk mengintegrasikan volume data yang semakin besar yang berubah atau aliran data real time.

Alat ETL

Di masa lalu, organisasi menulis kode ETL mereka sendiri. Sekarang ada banyak alat ETL sumber terbuka dan komersial serta layanan berbasis cloud untuk dipilih. Kemampuan khas produk ini meliputi:

  • Otomatisasi yang komprehensif dan kemudahan penggunaan: Alat ETL terkemuka mengotomatiskan seluruh aliran data, dari sumber data ke gudang data target. Hal ini menyelamatkan para insinyur data dari tugas-tugas membosankan dalam memindahkan dan memformat data—untuk hasil yang lebih cepat dan operasi yang lebih efisien.

  • Antarmuka visual, seret dan lepas: Fungsi ini dapat digunakan untuk menentukan aturan dan aliran data.

  • Dukungan untuk manajemen data yang kompleks: Ini termasuk bantuan dengan kalkulasi yang rumit, integrasi data, dan manipulasi string.

  • Keamanan dan kepatuhan: Alat terbaik mengenkripsi data baik saat bergerak maupun diam dan disertifikasi sesuai dengan peraturan industri atau pemerintah, seperti HIPAA dan GDPR.

Selain itu, banyak alat ETL telah berevolusi untuk memasukkan kemampuan ELT dan untuk mendukung integrasi data real-time dan streaming untuk aplikasi kecerdasan buatan (AI).

Masa depan integrasi: API yang menggunakan EAI

Antarmuka Pemrograman Aplikasi (API) yang menggunakan Enterprise Application Integration (EAI) dapat digunakan sebagai pengganti ETL untuk solusi yang lebih fleksibel dan dapat diskalakan yang mencakup integrasi alur kerja. Meskipun ETL masih menjadi sumber daya integrasi data utama, EAI semakin banyak digunakan dengan API di pengaturan berbasis web.

Solusi terkait
IBM DataStage

Bangun saluran data tepercaya dengan alat ETL modern pada platform wawasan cloud native.

Jelajahi DataStage
Solusi integrasi data

Buat pipeline data yang tangguh, berkinerja tinggi, dan hemat biaya untuk kebutuhan inisiatif AI generatif Anda, analitik real-time, modernisasi gudang, dan operasional dengan solusi integrasi data IBM.

Temukan solusi integrasi data
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Merancang, mengembangkan, dan menjalankan tugas yang memindah dan mengubah data. Nikmati kemampuan integrasi otomatis yang kuat dalam lingkungan hybrid atau multicloud dengan IBM® DataStage, alat integrasi data terkemuka di industri.

Jelajahi IBM DataStage Jelajahi solusi integrasi IBM