ETL—yang merupakan singkatan dari extract, transform, load—(ekstrak, ubah, muat) adalah proses integrasi data jangka panjang yang digunakan untuk menggabungkan data dari berbagai sumber menjadi satu kumpulan data yang konsisten untuk dimuat ke dalam gudang data, data lake , atau sistem target lainnya.
Seiring dengan semakin populernya database pada tahun 1970-an, ETL diperkenalkan sebagai proses untuk mengintegrasikan dan memuat data untuk komputasi dan analisis, yang pada akhirnya menjadi metode utama untuk memproses data untuk proyek-proyek pergudangan data.
ETL menyediakan dasar untuk analitik data dan aliran kerja machine learning. Melalui serangkaian aturan bisnis, ETL membersihkan dan mengatur data dengan cara yang memenuhi kebutuhan intelijen bisnis tertentu, seperti pelaporan bulanan, tetapi juga dapat menangani analisis yang lebih canggih, yang dapat meningkatkan proses back-end atau pengalaman pengguna akhir. ETL sering digunakan oleh organisasi untuk:
Jelajahi buku elektronik O'Reilly gratis untuk mempelajari cara memulai Presto, mesin SQL sumber terbuka untuk analisis data.
Mendaftar untuk white paper tentang tata kelola AI
Perbedaan paling jelas antara ETL dan ELT adalah perbedaan dalam urutan operasi. ELT menyalin atau mengekspor data dari lokasi sumber, tetapi alih-alih memuatnya ke area penahapan untuk transformasi, ELT memuat data mentah langsung ke penyimpanan data target untuk ditransformasikan sesuai kebutuhan.
Meskipun kedua proses tersebut memanfaatkan berbagai repositori data, seperti database, gudang data, dan data lake, masing-masing proses memiliki kelebihan dan kekurangan. ELT sangat berguna untuk kumpulan data bervolume tinggi dan tidak terstruktur karena pemuatan dapat terjadi langsung dari sumbernya. ELT bisa lebih ideal untuk manajemen big data karena tidak memerlukan banyak perencanaan di awal untuk ekstraksi dan penyimpanan data.
Proses ETL, di sisi lain, membutuhkan lebih banyak definisi pada awalnya. Poin data spesifik perlu diidentifikasi untuk diekstraksi bersama dengan "kunci" potensial untuk diintegrasikan di seluruh sistem sumber yang berbeda. Bahkan setelah pekerjaan itu selesai, aturan bisnis untuk transformasi data perlu dibangun. Pekerjaan ini biasanya memiliki ketergantungan pada kebutuhan data untuk jenis analisis data tertentu, yang akan menentukan tingkat ringkasan yang perlu dimiliki oleh data.
Meskipun ELT telah menjadi semakin populer dengan adopsi database cloud, ELT memiliki kekurangannya sendiri karena merupakan proses yang lebih baru, yang berarti bahwa praktik terbaik masih dalam tahap pengembangan.
Cara termudah untuk memahami cara kerja ETL adalah memahami apa yang terjadi di setiap langkah proses.
Selama ekstraksi data, data mentah disalin atau diekspor dari lokasi sumber ke area penahapan. Tim manajemen data dapat mengekstrak data dari berbagai sumber data, yang dapat terstruktur maupun tidak terstruktur. Sumber-sumber tersebut termasuk tetapi tidak terbatas pada:
Di area penahapan, data mentah mengalami pemrosesan data. Di sini, data diubah dan dikonsolidasikan untuk contoh penggunaan analitis yang dimaksud. Fase ini dapat melibatkan tugas-tugas berikut:
Pada langkah terakhir ini, data yang diubah dipindahkan dari area penahapan ke gudang data target. Biasanya, hal ini melibatkan pemuatan awal semua data, diikuti dengan pemuatan perubahan data tambahan secara berkala dan, lebih jarang, penyegaran penuh untuk menghapus dan mengganti data di gudang. Bagi sebagian besar organisasi yang menggunakan ETL, prosesnya bersifat otomatis, terdefinisi dengan baik, berkesinambungan, dan berbasis batch. Biasanya, ETL terjadi di luar jam kerja ketika lalu lintas pada sistem sumber dan gudang data berada pada titik terendah.
ETL dan ELT hanyalah dua metode integrasi data, dan ada pendekatan lain yang juga digunakan untuk memfasilitasi alur kerja integrasi data. Beberapa di antaranya termasuk:
Solusi ETL meningkatkan kualitas dengan melakukan pembersihan data sebelum memuat data ke repositori yang berbeda. Sebagai operasi batch yang memakan waktu, ETL lebih sering direkomendasikan untuk membuat repositori data target yang lebih kecil yang membutuhkan pembaruan yang lebih jarang, sementara metode integrasi data lainnya, termasuk ELT (ekstrak, muat, ubah), pengambilan data perubahan (CDC), dan virtualisasi data, digunakan untuk mengintegrasikan volume data yang semakin besar yang berubah atau aliran data real time.
Di masa lalu, organisasi menulis kode ETL mereka sendiri. Sekarang ada banyak alat ETL sumber terbuka dan komersial serta layanan cloud yang dapat dipilih. Kemampuan khas dari produk ini meliputi hal berikut:
Selain itu, banyak alat ETL telah berevolusi untuk memasukkan kemampuan ELT dan untuk mendukung integrasi data real-time dan streaming untuk aplikasi kecerdasan buatan (AI).
Antarmuka Pemrograman Aplikasi (API) yang menggunakan Enterprise Application Integration (EAI) dapat digunakan sebagai pengganti ETL untuk solusi yang lebih fleksibel dan dapat diskalakan yang mencakup integrasi alur kerja. Meskipun ETL masih menjadi sumber daya integrasi data utama, EAI semakin banyak digunakan dengan API di pengaturan berbasis web.
IBM Cloud Pak for Data adalah platform data terbuka dan dapat diperluas yang menyediakan struktur data untuk membuat semua data tersedia untuk AI dan analitik, di cloud mana pun.
AI membuka nilai data dengan cara baru. Atur data Anda agar siap untuk dunia AI dan multicloud dengan solusi DataOps.
Integrasi data memungkinkan Anda untuk mengubah data terstruktur dan tidak terstruktur dan mengirimkannya ke sistem apa pun pada platform big data yang dapat diskalakan.
Pelajari cara mengekstrak, mengubah, dan memuat ATAU mengekstrak, memuat, lalu mengubah saat Anda menemukan cara memproses dan menganalisis kumpulan data besar dengan mudah menggunakan alat ini.
Pelajari persamaan dan perbedaan dalam definisi, manfaat dan contoh penggunaan ELT dan ETL.
Temukan kekuatan alur ETL dengan Node-RED dan pelajari cara merampingkan, menerapkan, dan mengotomatiskan proses penting ini dan membuka potensi penuh data Anda.