Apa itu ETL (ekstrak, ubah, muat)?
Jelajahi solusi ETL IBM Berlangganan pembaruan tentang topik AI
Latar belakang hitam dan biru
Apa itu ETL?

ETL—yang merupakan singkatan dari extract, transform, load—(ekstrak, ubah, muat) adalah proses integrasi data jangka panjang yang digunakan untuk menggabungkan data dari berbagai sumber menjadi satu kumpulan data yang konsisten untuk dimuat ke dalam gudang data, data lake , atau sistem target lainnya.

Seiring dengan semakin populernya database pada tahun 1970-an, ETL diperkenalkan sebagai proses untuk mengintegrasikan dan memuat data untuk komputasi dan analisis, yang pada akhirnya menjadi metode utama untuk memproses data untuk proyek-proyek pergudangan data.

ETL menyediakan dasar untuk analitik data dan aliran kerja machine learning. Melalui serangkaian aturan bisnis, ETL membersihkan dan mengatur data dengan cara yang memenuhi kebutuhan intelijen bisnis tertentu, seperti pelaporan bulanan, tetapi juga dapat menangani analisis yang lebih canggih, yang dapat meningkatkan proses back-end atau pengalaman pengguna akhir. ETL sering digunakan oleh organisasi untuk: 

  • Mengekstrak data dari sistem lama
  • Membersihkan data untuk meningkatkan kualitas data dan membangun konsistensi
  • Memuat data ke database target
Pelajari dan operasikan Presto

Jelajahi buku elektronik O'Reilly gratis untuk mempelajari cara memulai Presto, mesin SQL sumber terbuka untuk analisis data.

Konten terkait

Mendaftar untuk white paper tentang tata kelola AI

ETL vs ELT

Perbedaan paling jelas antara ETL dan ELT adalah perbedaan dalam urutan operasi. ELT menyalin atau mengekspor data dari lokasi sumber, tetapi alih-alih memuatnya ke area penahapan untuk transformasi, ELT memuat data mentah langsung ke penyimpanan data target untuk ditransformasikan sesuai kebutuhan.

Meskipun kedua proses tersebut memanfaatkan berbagai repositori data, seperti database, gudang data, dan data lake, masing-masing proses memiliki kelebihan dan kekurangan. ELT sangat berguna untuk kumpulan data bervolume tinggi dan tidak terstruktur karena pemuatan dapat terjadi langsung dari sumbernya. ELT bisa lebih ideal untuk manajemen big data karena tidak memerlukan banyak perencanaan di awal untuk ekstraksi dan penyimpanan data.

Proses ETL, di sisi lain, membutuhkan lebih banyak definisi pada awalnya. Poin data spesifik perlu diidentifikasi untuk diekstraksi bersama dengan "kunci" potensial untuk diintegrasikan di seluruh sistem sumber yang berbeda. Bahkan setelah pekerjaan itu selesai, aturan bisnis untuk transformasi data perlu dibangun. Pekerjaan ini biasanya memiliki ketergantungan pada kebutuhan data untuk jenis analisis data tertentu, yang akan menentukan tingkat ringkasan yang perlu dimiliki oleh data.

Meskipun ELT telah menjadi semakin populer dengan adopsi database cloud, ELT memiliki kekurangannya sendiri karena merupakan proses yang lebih baru, yang berarti bahwa praktik terbaik masih dalam tahap pengembangan.

Cara kerja ETL

Cara termudah untuk memahami cara kerja ETL adalah memahami apa yang terjadi di setiap langkah proses.

Mengekstrak

Selama ekstraksi data, data mentah disalin atau diekspor dari lokasi sumber ke area penahapan. Tim manajemen data dapat mengekstrak data dari berbagai sumber data, yang dapat terstruktur maupun tidak terstruktur. Sumber-sumber tersebut termasuk tetapi tidak terbatas pada:

  • Server SQL atau NoSQL
  • Sistem CRM dan ERP
  • File datar
  • Email
  • Halaman web

Transformasi

Di area penahapan, data mentah mengalami pemrosesan data. Di sini, data diubah dan dikonsolidasikan untuk contoh penggunaan analitis yang dimaksud. Fase ini dapat melibatkan tugas-tugas berikut:

  • Memfilter, membersihkan, menghilangkan duplikasi, memvalidasi, dan mengautentikasi data.
  • Melakukan perhitungan, terjemahan, atau ringkasan berdasarkan data mentah. Hal ini dapat mencakup mengubah judul baris dan kolom untuk konsistensi, mengonversi mata uang atau unit pengukuran lainnya, mengedit string teks, dan banyak lagi.
  • Melakukan audit untuk memastikan kualitas dan kepatuhan data.
  • Menghapus, mengenkripsi, atau melindungi data yang diatur oleh industri atau regulator pemerintah.
  • Memformat data ke dalam tabel atau tabel gabungan agar sesuai dengan skema gudang data target.

Memuat

Pada langkah terakhir ini, data yang diubah dipindahkan dari area penahapan ke gudang data target. Biasanya, hal ini melibatkan pemuatan awal semua data, diikuti dengan pemuatan perubahan data tambahan secara berkala dan, lebih jarang, penyegaran penuh untuk menghapus dan mengganti data di gudang. Bagi sebagian besar organisasi yang menggunakan ETL, prosesnya bersifat otomatis, terdefinisi dengan baik, berkesinambungan, dan berbasis batch. Biasanya, ETL terjadi di luar jam kerja ketika lalu lintas pada sistem sumber dan gudang data berada pada titik terendah.

ETL dan metode integrasi data lainnya

ETL dan ELT hanyalah dua metode integrasi data, dan ada pendekatan lain yang juga digunakan untuk memfasilitasi alur kerja integrasi data. Beberapa di antaranya termasuk:

  • Change Data Capture (CDC) mengidentifikasi dan menangkap hanya data sumber yang telah berubah dan memindahkan data tersebut ke sistem target. CDC dapat digunakan untuk mengurangi sumber daya yang diperlukan selama langkah "ekstrak" ETL; CDC juga dapat digunakan secara independen untuk memindahkan data yang telah ditransformasikan ke dalam data lake atau repositori lain secara real time.
  • Replikasi data menyalin perubahan dalam sumber data secara real time atau dalam batch ke database pusat. Replikasi data sering terdaftar sebagai metode integrasi data. Bahkan, ini paling sering digunakan untuk membuat cadangan untuk pemulihan bencana.
  • Virtualisasi data menggunakan lapisan abstraksi perangkat lunak untuk membuat tampilan data yang terpadu, terintegrasi, dan dapat digunakan sepenuhnya tanpa menyalin, mengubah, atau memuat data sumber secara fisik ke sistem target. Fungsionalitas virtualisasi data memungkinkan organisasi untuk membuat gudang data, data lake, dan pasar data virtual dari sumber data yang sama untuk penyimpanan data tanpa biaya dan kerumitan dalam membangun dan mengelola platform yang terpisah untuk masing-masing. Meskipun virtualisasi data dapat digunakan bersamaan dengan ETL, virtualisasi data semakin dilihat sebagai alternatif untuk ETL dan metode integrasi data fisik lainnya.
  • Stream Data Integration (SDI) sesuai dengan namanya, SDI secara terus menerus mengonsumsi aliran data secara real time, mengubahnya, dan memuatnya ke sistem target untuk dianalisis. Kata kuncinya di sini adalah terus menerus. Alih-alih mengintegrasikan cuplikan data yang diekstrak dari sumber pada waktu tertentu, SDI mengintegrasikan data secara konstan saat tersedia. SDI memungkinkan penyimpanan data untuk mendukung analisis, machine learning, dan aplikasi real time untuk meningkatkan pengalaman pelanggan, deteksi penipuan, dan banyak lagi. 
Manfaat dan tantangan ETL

Solusi ETL meningkatkan kualitas dengan melakukan pembersihan data sebelum memuat data ke repositori yang berbeda. Sebagai operasi batch yang memakan waktu, ETL lebih sering direkomendasikan untuk membuat repositori data target yang lebih kecil yang membutuhkan pembaruan yang lebih jarang, sementara metode integrasi data lainnya, termasuk ELT (ekstrak, muat, ubah), pengambilan data perubahan (CDC), dan virtualisasi data, digunakan untuk mengintegrasikan volume data yang semakin besar yang berubah atau aliran data real time.

 

Pelajari lebih lanjut tentang integrasi data
Alat ETL

Di masa lalu, organisasi menulis kode ETL mereka sendiri. Sekarang ada banyak alat ETL sumber terbuka dan komersial serta layanan cloud yang dapat dipilih. Kemampuan khas dari produk ini meliputi hal berikut:

  • Otomatisasi yang komprehensif dan kemudahan penggunaan: Alat ETL terkemuka mengotomatiskan seluruh aliran data, dari sumber data ke gudang data target. Banyak alat merekomendasikan aturan untuk mengekstraksi, mengubah, dan memuat data.
  • Antarmuka visual, seret dan lepas: Fungsi ini dapat digunakan untuk menentukan aturan dan aliran data.
  • Dukungan untuk manajemen data yang kompleks: Ini termasuk bantuan dengan kalkulasi yang rumit, integrasi data, dan manipulasi string.
  • Keamanan dan kepatuhan: Alat ETL terbaik mengenkripsi data baik saat bergerak maupun diam dan disertifikasi sesuai dengan peraturan industri atau pemerintah, seperti HIPAA dan GDPR.

Selain itu, banyak alat ETL telah berevolusi untuk memasukkan kemampuan ELT dan untuk mendukung integrasi data real-time dan streaming untuk aplikasi kecerdasan buatan (AI).

Masa depan integrasi - API menggunakan EAI

Antarmuka Pemrograman Aplikasi (API) yang menggunakan Enterprise Application Integration (EAI) dapat digunakan sebagai pengganti ETL untuk solusi yang lebih fleksibel dan dapat diskalakan yang mencakup integrasi alur kerja. Meskipun ETL masih menjadi sumber daya integrasi data utama, EAI semakin banyak digunakan dengan API di pengaturan berbasis web.

Solusi terkait
IBM Cloud Pak for Data

IBM Cloud Pak for Data adalah platform data terbuka dan dapat diperluas yang menyediakan struktur data untuk membuat semua data tersedia untuk AI dan analitik, di cloud mana pun.

Jelajahi IBM Cloud Pak for Data
IBM DataOps

AI membuka nilai data dengan cara baru. Atur data Anda agar siap untuk dunia AI dan multicloud dengan solusi DataOps.

Jelajahi IBM DataOps
Integrasi data

Integrasi data memungkinkan Anda untuk mengubah data terstruktur dan tidak terstruktur dan mengirimkannya ke sistem apa pun pada platform big data yang dapat diskalakan.

Jelajahi integrasi data
Sumber daya Hive sebagai alat untuk ETL atau ELT

Pelajari cara mengekstrak, mengubah, dan memuat ATAU mengekstrak, memuat, lalu mengubah saat Anda menemukan cara memproses dan menganalisis kumpulan data besar dengan mudah menggunakan alat ini.

ELT vs ETL: Apa Perbedaannya?

Pelajari persamaan dan perbedaan dalam definisi, manfaat dan contoh penggunaan ELT dan ETL.

Menerapkan aliran ETL dengan Node-RED

Temukan kekuatan alur ETL dengan Node-RED dan pelajari cara merampingkan, menerapkan, dan mengotomatiskan proses penting ini dan membuka potensi penuh data Anda.