ETL, ekstrak (extract), ubah (transform), dan muat (load), adalah proses integrasi data yang menggabungkan, membersihkan, dan mengatur data dari berbagai sumber menjadi satu kumpulan data yang konsisten untuk penyimpanan di gudang data, data lake, atau sistem target lainnya.
Alur data ETL menyediakan fondasi untuk analisis data dan alur kerja machine learning. Melalui serangkaian aturan bisnis, ETL membersihkan dan mengatur data untuk memenuhi kebutuhan intelijen bisnis tertentu, seperti pelaporan bulanan—tetapi juga dapat menangani analisis yang lebih canggih, yang dapat meningkatkan proses back-end dan pengalaman pengguna akhir. Alur kerja ETL sering digunakan oleh organisasi untuk:
Mengekstrak data dari sistem lama
Membersihkan data untuk meningkatkan kualitas data dan membangun konsistensi
Memuat data ke basis data target
Bisnis sudah menghasilkan data sejak zaman sempoa, tetapi analitik modern baru mungkin dengan adanya komputer digital dan penyimpanan data.
Sebuah langkah maju besar tiba pada tahun 1970-an, dengan perpindahan ke basis data terpusat yang lebih besar. ETL diperkenalkan sebagai proses untuk mengintegrasikan dan memuat data demi komputasi dan analisis, yang akhirnya menjadi metode utama dalam memproses data untuk proyek gudang data.
Pada akhir tahun 1980-an, gudang data dan perpindahan dari basis data transaksional ke basis data relasional yang menyimpan informasi dalam format data relasional semakin populer. Basis data transaksional yang lebih lama akan menyimpan informasi transaksi per transaksi, dengan duplikat informasi pelanggan yang disimpan dengan setiap transaksi, sehingga tidak ada cara yang mudah untuk mengakses data pelanggan dengan cara yang terpadu dari waktu ke waktu. Dengan basis data relasional, analitik menjadi fondasi intelijen bisnis (BI) dan alat yang signifikan dalam pengambilan keputusan.
Sebelum hadirnya perangkat lunak ETL yang lebih canggih, sebagian besar proses dilakukan manual oleh tim TI untuk mengekstrak data dari berbagai sistem dan konektor, mengubahnya ke format umum, lalu memuatnya ke tabel yang saling berhubungan. Namun, usaha awal pada ETL tersebut sepadan karena algoritma canggih dan kemunculan neural networks membuka peluang lebih dalam untuk insight analitis.
Era big data dimulai pada 1990-an dengan pesatnya peningkatan kecepatan komputasi dan kapasitas penyimpanan, serta munculnya volume data besar dari sumber baru seperti media sosial dan Internet of Things (IoT). Namun, masih ada kendala yaitu data sering disimpan di gudang data lokal.
Langkah besar berikutnya dalam komputasi dan ETL adalah komputasi cloud, yang menjadi populer pada akhir 1990-an. Dengan menggunakan gudang data seperti Amazon Web Services (AWS), Microsoft Azure, dan Snowflake, data kini dapat diakses dari seluruh dunia dan dengan cepat diskalakan untuk memungkinkan solusi ETL memberikan insight terperinci yang luar biasa dan keunggulan kompetitif yang baru.
Evolusi terbaru adalah solusi ETL yang menggunakan data streaming untuk memberikan insight terkini dari sejumlah besar data.
Perbedaan yang paling jelas antara ETL dan ELT—ekstrak, beban, transformasi—adalah perbedaan dalam urutan operasi. ELT menyalin atau mengekspor data dari lokasi sumber, tetapi alih-alih memuatnya ke area penahapan untuk transformasi, ELT memuat data mentah langsung ke penyimpanan data target untuk ditransformasikan sesuai kebutuhan.
Meskipun kedua proses tersebut memanfaatkan berbagai repositori data, seperti basis data, gudang data, dan data lake, masing-masing proses memiliki kelebihan dan kekurangan. ELT berguna untuk menyerap kumpulan data tidak terstruktur bervolume tinggi karena pemuatan dapat terjadi langsung dari sumber. ELT bisa lebih ideal untuk manajemen big data karena tidak memerlukan banyak perencanaan di awal untuk ekstraksi dan penyimpanan data.
Proses ETL membutuhkan lebih banyak definisi pada awal. Poin data spesifik perlu diidentifikasi untuk diekstraksi bersama dengan “kunci” potensial untuk diintegrasikan di seluruh sistem sumber yang berbeda. Sumber data input sering dilacak dengan menggunakan metadata. Bahkan setelah pekerjaan itu selesai, aturan bisnis untuk transformasi data perlu dibangun. Pekerjaan ini biasanya memiliki ketergantungan pada kebutuhan data untuk jenis analisis data tertentu, yang akan menentukan tingkat ringkasan yang perlu dimiliki oleh data.
Pipeline ELT semakin populer dengan adopsi cloud databases, namun teknologi ELT masih berkembang sehingga praktik terbaiknya masih dalam proses pembentukan.
Cara termudah untuk memahami cara kerja ETL adalah memahami apa yang terjadi di setiap langkah proses.
Selama ekstraksi data, data mentah disalin atau diekspor dari lokasi sumber ke area penahapan. Tim manajemen data dapat mengekstrak data dari berbagai sumber yang berbeda, yang dapat terstruktur atau tidak terstruktur. Jenis data tersebut meliputi, namun tidak terbatas pada:
Di area penahapan, data mentah mengalami pemrosesan data. Di sini, data diubah dan dikonsolidasikan untuk contoh penggunaan analitis yang dimaksud. Fase proses transformasi ini dapat mencakup:
Pada langkah terakhir ini, data yang diubah dipindahkan dari area penahapan ke gudang data target. Biasanya, hal ini melibatkan pemuatan awal semua data, diikuti dengan pemuatan perubahan data tambahan secara berkala dan, lebih jarang, penyegaran penuh untuk menghapus dan mengganti data di gudang. Bagi sebagian besar organisasi yang menggunakan ETL, prosesnya bersifat otomatis, terdefinisi dengan baik, berkesinambungan, dan berbasis batch. Biasanya, proses pemuatan ETL berlangsung di luar jam kerja saat lalu lintas pada sistem sumber dan gudang data berada pada titik terendah.
ETL dan ELT hanyalah dua metode integrasi data, dan ada pendekatan lain yang juga digunakan untuk memfasilitasi alur kerja integrasi data. Beberapa di antaranya termasuk:
Solusi ETL meningkatkan kualitas dengan melakukan pembersihan data sebelum memuat data ke repositori yang berbeda. Sebagai operasi batch yang memakan waktu, ETL lebih sering direkomendasikan untuk membuat repositori data target yang lebih kecil yang membutuhkan pembaruan yang lebih jarang, sementara metode integrasi data lainnya, termasuk ELT (ekstrak, muat, ubah), pengambilan data perubahan (CDC), dan virtualisasi data, digunakan untuk mengintegrasikan volume data yang semakin besar yang berubah atau aliran data real time.
Di masa lalu, organisasi menulis kode ETL mereka sendiri. Sekarang ada banyak alat ETL sumber terbuka dan komersial serta layanan berbasis cloud untuk dipilih. Kemampuan khas produk ini meliputi:
Selain itu, banyak alat ETL telah berevolusi untuk memasukkan kemampuan ELT dan untuk mendukung integrasi data real-time dan streaming untuk aplikasi kecerdasan buatan (AI).
Antarmuka Pemrograman Aplikasi (API) yang menggunakan Enterprise Application Integration (EAI) dapat digunakan sebagai pengganti ETL untuk solusi yang lebih fleksibel dan dapat diskalakan yang mencakup integrasi alur kerja. Meskipun ETL masih menjadi sumber daya integrasi data utama, EAI semakin banyak digunakan dengan API di pengaturan berbasis web.
Bangun saluran data tepercaya dengan alat ETL modern pada platform wawasan cloud native.
Buat pipeline data yang tangguh, berkinerja tinggi, dan hemat biaya untuk kebutuhan inisiatif AI generatif Anda, analitik real-time, modernisasi gudang, dan operasional dengan solusi integrasi data IBM.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.