Diterbitkan: 26 Juni 2024
Kontributor: Tim Mucci, Cole Stryker
Penyerapan data adalah proses mengumpulkan dan mengimpor file data dari berbagai sumber ke dalam database untuk disimpan, diproses, dan dianalisis. Tujuan dari penyerapan data adalah untuk membersihkan dan menyimpan data di tempat penyimpanan pusat yang dapat diakses dan konsisten untuk mempersiapkannya agar dapat digunakan di dalam organisasi.
Sumber data mencakup sistem keuangan, penyedia data pihak ketiga, platform media sosial, perangkat IoT, aplikasi SaaS, aplikasi bisnis lokal seperti perencanaan sumber daya perusahaan (ERP) dan manajemen hubungan pelanggan (CRM).
Sumber-sumber ini berisi data terstruktur dan tidak terstruktur. Setelah data diserap, data dapat disimpan di data lake, gudang data, data lakehouse, pasar data, database relasional, dan sistem penyimpanan dokumen. Organisasi menyerap data sehingga dapat digunakan dalam tugas-tugas intelijen bisnis, tetapi juga untuk machine learning, pemodelan prediktif, dan aplikasi kecerdasan buatan.
Banyak alat penyerapan data mengotomatiskan proses ini mengatur data mentah ke dalam format yang sesuai untuk analisis yang efisien oleh perangkat lunak analisis data. Penyerapan data biasanya membutuhkan keahlian dalam ilmu data dan bahasa pemrograman seperti Python. Data disanitasi dan diubah menjadi format yang seragam dengan menggunakan proses ekstrak, transformasi, muat (ETL) atau proses ekstrak, muat, transformasi (ELT), untuk mengelola siklus hidup data secara efektif.
Dengan beragam dan banyak sumber big data, perangkat lunak otomatisasi membantu menyesuaikan proses penyerapan dengan lingkungan dan aplikasi tertentu. Seringkali menyertakan fitur persiapan data untuk analisis segera atau nanti dengan menggunakan program intelijen bisnis dan analitik.
Panduan pemimpin data menggambarkan bagaimana setiap jenis database sesuai dengan kebutuhan bisnis, tergantung pada apakah organisasi memprioritaskan analitik, AI, atau kinerja aplikasi.
Apa itu integrasi data?
Penyerapan data adalah langkah pertama dalam memproses data dan mengekstraksi nilai dari data yang dikumpulkan oleh bisnis dalam jumlah besar saat ini. Proses penyerapan data yang terencana dengan baik akan menjaga keakuratan dan keandalan data yang dimasukkan ke dalam analytics engine, yang sangat penting bagi tim data untuk menjalankan fungsinya secara efektif. Ada tiga alasan utama mengapa penyerapan data sangat penting:
Bisnis modern menggunakan ekosistem data yang beragam. Setiap sumber memiliki format dan struktur yang unik. Proses penyerapan data yang efektif dapat menyerap data dari berbagai sumber yang berbeda, sehingga memungkinkan pandangan yang lebih komprehensif tentang operasi, pelanggan, dan tren pasar. Sumber data baru terus bermunculan dan volume dan kecepatan pembuatan data terus meningkat. Proses penyerapan data yang dirancang dengan baik dapat mengakomodasi perubahan-perubahan ini, memastikan bahwa arsitektur data tetap kuat dan mudah beradaptasi.
Tanpa proses yang kuat untuk menyerap data, bisnis tidak akan mampu mengumpulkan dan menyiapkan kumpulan data besar yang dibutuhkan untuk analisis mendalam. Organisasi menggunakan analisis ini untuk mengatasi masalah bisnis tertentu dan mengubah wawasan yang diperoleh dari data menjadi rekomendasi yang dapat ditindaklanjuti.
Proses pengayaan menggabungkan berbagai validasi dan pemeriksaan untuk menjamin konsistensi dan akurasi data. Ini termasuk pembersihan data, mengidentifikasi dan menghapus titik data yang rusak, tidak akurat, atau tidak relevan. Penyerapan data memfasilitasi transformasi melalui standardisasi, normalisasi dan pengayaan. Standarisasi menyatakan bahwa data mematuhi format yang konsisten, sementara normalisasi menghilangkan redundansi. Pengayaan melibatkan penambahan informasi yang relevan pada kumpulan data yang ada, memberikan lebih banyak konteks dan kedalaman, yang pada akhirnya meningkatkan nilai data untuk analisis.
Penyerapan data adalah proses pengambilan data mentah dari berbagai sumber dan mempersiapkannya untuk dianalisis. Pipeline multilangkah ini memastikan bahwa data dapat diakses, akurat, konsisten, dan dapat digunakan untuk intelijen bisnis. Sangat penting untuk mendukung analitik berbasis SQL dan beban kerja pemrosesan lainnya.
Penemuan data: Fase eksplorasi di mana data yang tersedia di seluruh organisasi diidentifikasi. Memahami lanskap data, struktur, kualitas, dan potensi penggunaan merupakan dasar untuk keberhasilan penyerapan data.
Akuisisi data: Setelah sumber data diidentifikasi, akuisisi data melibatkan pengumpulan data. Ini dapat mencakup pengambilan data dari banyak sumber, dari database terstruktur dan antarmuka pemrograman aplikasi (API) hingga format tidak terstruktur seperti spreadsheet atau dokumen kertas. Kompleksitasnya terletak pada penanganan berbagai format data dan volume yang berpotensi besar dan menjaga integritas data selama proses akuisisi.
Validasi data: Setelah memperoleh data, validasi menjamin keakuratan dan konsistensinya. Data diperiksa untuk kesalahan, inkonsistensi, dan missing values. Data dibersihkan dan dibuat dapat diandalkan dan siap untuk diproses lebih lanjut melalui berbagai pemeriksaan seperti validasi tipe data, validasi rentang, dan validasi keunikan.
Transformasi data: Di sinilah data yang tervalidasi diubah ke dalam format yang sesuai untuk analisis. Ini mungkin melibatkan normalisasi (menghilangkan redundansi), agregasi (meringkas data), dan standardisasi (pemformatan yang konsisten). Tujuannya adalah untuk membuat data lebih mudah dipahami dan dianalisis.
Pemuatan data: Langkah terakhir menempatkan data yang telah ditransformasikan ke lokasi yang telah ditentukan, biasanya gudang data atau data lake, di mana data tersebut tersedia untuk analisis dan pelaporan. Proses pemuatan ini dapat dilakukan secara batch atau secara real-time, tergantung pada kebutuhan spesifik. Pemuatan data menandakan selesainya jalur penyerapan data, di mana data disiapkan dan siap untuk pengambilan keputusan yang tepat dan menghasilkan intelijen bisnis yang berharga.
Saat menyerap data, memastikan kualitasnya adalah yang terpenting.
Tata kelola data membantu menjaga kualitas data selama proses penyerapan dengan menetapkan kebijakan dan standar penanganan data. Ini memastikan bahwa ada akuntabilitas melalui peran dan tanggung jawab yang ditentukan. Menerapkan metrik dan sistem pemantauan untuk melacak dan mengatasi masalah, memfasilitasi kepatuhan terhadap peraturan seperti GDPR atau HIPAA, serta mendorong konsistensi dengan menstandarkan definisi dan format data.
Penyerapan data memecah silo data dan membuat informasi tersedia bagi semua orang dalam organisasi yang membutuhkannya. Dengan mengotomatiskan pengumpulan data dan dengan menggunakan penyimpanan cloud, penyerapan data menjaga keamanan data dan akses ke wawasan yang berharga.
Data ingestion memecah silo data, membuat informasi tersedia di berbagai departemen dan area fungsional. Ini menumbuhkan budaya berbasis data di mana setiap orang dapat menggunakan wawasan yang diperoleh dari ekosistem data perusahaan.
Penyerapan data menyederhanakan tugas yang sering kali rumit dalam mengumpulkan dan membersihkan data dari berbagai sumber dengan format dan struktur yang beragam. Bisnis dapat merampingkan proses manajemen data dengan membawa data ini ke dalam format yang konsisten dalam sistem terpusat.
Saluran penyerapan data latensi rendah yang efektif dapat menangani sejumlah besar data dengan kecepatan tinggi, termasuk penyerapan real time.
Bisnis mengurangi waktu dan sumber daya yang secara tradisional diperlukan untuk proses agregasi data manual dengan mengotomatiskan pengumpulan dan pembersihan data melalui penyerapan data. Selain itu, solusi penyerapan data sebagai layanan dapat menawarkan manfaat biaya lebih lanjut dengan menghilangkan kebutuhan akan investasi infrastruktur di muka.
Proses konsumsi data yang dirancang dengan baik memberdayakan bisnis dari semua ukuran untuk menangani dan menganalisis volume data yang terus bertambah. Skalabilitas sangat penting bagi perusahaan pada lintasan pertumbuhan. Kemampuan untuk mengelola lonjakan data dengan mudah memastikan bahwa bisnis dapat terus menggunakan wawasan yang berharga bahkan ketika lanskap data mereka berkembang.
Dengan menggunakan penyimpanan cloud untuk data mentah, solusi penyerapan data menawarkan akses yang mudah dan aman ke kumpulan informasi yang luas kapan pun dibutuhkan. Hal ini menghilangkan kendala keterbatasan penyimpanan fisik dan memberdayakan bisnis untuk menggunakan data mereka kapan saja, di mana saja.
Penyerapan data, ekstraksi, transformasi, pemuatan (ETL) dan ekstraksi, pemuatan, transformasi (ELT) memiliki tujuan yang sama tetapi berbeda dalam pendekatannya.
Penyerapan data dan integrasi data melayani tujuan yang berbeda dalam pipeline data.
Konsumsi data: Bertindak sebagai titik masuk untuk data dari berbagai sumber, dengan perhatian utama adalah keberhasilan transfer data, dengan transformasi minimal untuk mempertahankan struktur asli data.
Integrasi data: Berfokus pada transformasi dan penyatuan data dari berbagai sumber sebelum dimasukkan ke dalam sistem target, biasanya gudang data atau data lake. Integrasi data dapat melibatkan pembersihan data, standarisasi, dan pengayaan untuk memastikan konsistensi dan akurasi di seluruh kumpulan data.
Penyerapan data mencakup berbagai metode untuk membawa data dari berbagai sumber ke dalam sistem yang ditunjuk.
Metode penyerapan ini melibatkan akumulasi data selama periode tertentu (laporan penjualan harian, laporan keuangan bulanan) sebelum memprosesnya secara keseluruhan. Pemrosesan batch dikenal dengan kesederhanaan, keandalan, dan dampak minimal terhadap kinerja sistem, karena dapat dijadwalkan untuk jam-jam di luar jam sibuk. Namun, ini tidak ideal untuk aplikasi real-time.
Metode ini menawarkan wawasan instan dan pengambilan keputusan yang lebih cepat dengan menyerap data pada saat data tersebut dihasilkan, sehingga memungkinkan analisis dan tindakan di tempat. Metode ini sangat cocok untuk aplikasi yang sensitif terhadap waktu seperti deteksian penipuan atau platform perdagangan saham yang membutuhkan keputusan segera.
Pemrosesan stream sangat mirip dengan pemrosesan real time, kecuali bahwa pemrosesan ini mengambil data yang diserap dan menganalisisnya secara terus menerus saat data tersebut tiba. Baik pemrosesan real-time maupun streaming membutuhkan daya komputasi yang signifikan dan sumber daya bandwidth jaringan.
Metode microbatching mencapai keseimbangan antara pemrosesan batch dan real-time. Aplikasi ini menyerap data dalam jumlah kecil dan sering, memberikan pembaruan yang hampir real-time tanpa kendala sumber daya pemrosesan real time skala penuh. Perencanaan dan manajemen yang cermat diperlukan untuk mengoptimalkan pertukaran antara kesegaran data dan kinerja sistem.
Metode konsumsi ini menggabungkan pemrosesan batch dan real-time, dengan menggunakan kekuatan masing-masing untuk memberikan solusi komprehensif untuk penyerapan data. Arsitektur Lambda memungkinkan pemrosesan data historis dalam jumlah besar sekaligus menangani aliran data real-time.
Alat penyerapan data menawarkan beragam solusi untuk memenuhi berbagai kebutuhan dan keahlian teknis.
Alat sumber terbuka: Alat yang menyediakan akses gratis ke kode sumber perangkat lunak, memberikan pengguna kontrol penuh dan kemampuan untuk menyesuaikan alat tersebut.
Alat berpemilik: Solusi yang dikembangkan dan dilisensikan oleh vendor perangkat lunak, alat ini menawarkan fungsi yang telah dibuat sebelumnya dan beragam pilihan harga, tetapi mungkin disertai dengan vendor lock-in dan biaya lisensi yang berkelanjutan.
Alat berbasis cloud: Alat bantu penyerapan yang ditempatkan dalam lingkungan cloud, menyederhanakan penerapan dan pemeliharaan serta menawarkan skalabilitas tanpa perlu investasi infrastruktur di muka.
Alat lokal: Alat-alat ini dipasang dan dikelola di jaringan cloud lokal atau pribadi, memberikan kontrol yang lebih besar atas keamanan data, namun membutuhkan investasi dalam perangkat keras dan dukungan TI yang berkelanjutan.
Dalam menyeimbangkan kebutuhan dan keahlian, ada beberapa pendekatan untuk membangun saluran penyerapan data:
Saluran dengan kode tangan: Saluran yang dipesan lebih dahulu ini menawarkan kontrol maksimum tetapi membutuhkan keahlian pengembangan yang signifikan.
Konektor siap pakai dan alat transformasi: Pendekatan ini menyediakan antarmuka yang mudah digunakan, tetapi memerlukan pengelolaan beberapa saluran.
Platform integrasi data: Platform ini menawarkan solusi komprehensif untuk semua tahap perjalanan data, namun menuntut keahlian pengembangan untuk pengaturan dan pemeliharaan.
DataOps: Pendekatan ini adalah tentang mempromosikan kolaborasi antara insinyur data dan konsumen data dan mengotomatiskan bagian dari proses penyerapan data untuk membebaskan waktu yang berharga.
Meskipun mendasar untuk saluran data, proses penyerapan data bukannya tanpa kerumitan.
Keamanan data: Peningkatan eksposur meningkatkan risiko pelanggaran keamanan untuk data sensitif. Mengikuti peraturan keamanan data menambah kompleksitas dan biaya.
Skala dan variasi: Hambatan kinerja dapat muncul karena volume, kecepatan, dan variasi data yang terus bertambah.
Fragmentasi data: Ketidakkonsistenan dapat menghambat upaya analisis data dan mempersulit pembuatan tampilan data terpadu. Ketika data sumber berubah tanpa pembaruan di sistem target, hal ini menyebabkan pergeseran skema, yang dapat mengganggu alur kerja.
Jaminan kualitas data: Sifat rumit dari proses penyerapan data dapat membahayakan keandalan data.
Penyerapan data berfungsi sebagai dasar untuk membuka potensi data dalam organisasi.
Solusi penyerapan data memungkinkan bisnis untuk mengumpulkan dan mentransfer berbagai data ke dalam target cloud data lake yang terpusat. Data berkualitas tinggi sangat penting dalam skenario ini, karena kesalahan apa pun dapat membahayakan nilai dan keandalan data untuk analisis hilir dan inisiatif AI/machine learning.
Organisasi yang bermigrasi ke cloud untuk analitik tingkat lanjut dan inisiatif AI sering kali menghadapi tantangan terkait data lama, sumber data yang terkotak-kotak, serta volume, kecepatan, dan kompleksitas data yang meningkat. Solusi penyerapan data modern sering kali menyediakan wizard bebas kode yang merampingkan proses penyerapan data dari database, file, sumber streaming, dan aplikasi.
Solusi penyerapan data dapat mempercepat modernisasi gudang data dengan memfasilitasi migrasi massal database lokal, gudang data, dan konten mainframe ke gudang data berbasis cloud. Menggunakan teknik Change Data Capture (CDC) dengan penyerapan data menjaga gudang data cloud terus diperbarui dengan informasi terkini.
Pemrosesan aliran data secara real-time membuka pintu ke peluang pendapatan baru. Misalnya, perusahaan telekomunikasi dapat menggunakan data pelanggan real-time untuk mengoptimalkan strategi penjualan dan pemasaran. Demikian pula, data yang dikumpulkan dari sensor IoT dapat meningkatkan efisiensi operasional, mengurangi risiko, dan menghasilkan wawasan analitis yang berharga.
Untuk membuka kekuatan analitik real time, alat bantu penyerapan data memungkinkan integrasi data streaming real time tanpa hambatan (data clickstream, data sensor IoT, log mesin, umpan media sosial) ke dalam hub pesan atau target streaming, yang memungkinkan pemrosesan data real time saat peristiwa terjadi.
Temukan IBM watsonx.data, penyimpanan data hybrid yang dapat diskalakan yang dirancang untuk beban kerja AI dan analitik. Menawarkan akses data terbuka, mesin kueri yang sesuai dengan tujuan dan integrasi dengan berbagai lingkungan data, memungkinkan persiapan data yang efisien di seluruh pengaturan cloud atau lokal.
IBM DataStage adalah alat ETL dan ELT canggih yang dirancang untuk menyederhanakan integrasi dan transformasi data di seluruh lingkungan cloud dan lokal. Menawarkan kemampuan integrasi otomatis, fitur manajemen data yang lebih baik, dan dukungan untuk pengaturan hybrid atau multicloud.
IBM Manta Data Lineage adalah platform yang dirancang untuk meningkatkan transparansi dan akurasi pipeline data. Ini mengotomatiskan pemindaian dan pemetaan aliran data, memberikan pandangan komprehensif tentang data dari asal hingga konsumsi. Fitur-fitur utama termasuk perincian pada tingkat kolom, mitigasi risiko, skalabilitas, kolaborasi yang ditingkatkan, dan dukungan untuk lebih dari 50 teknologi.
Jelajahi panduan komprehensif untuk penyerapan data, yang mencakup pentingnya, jenis, dan praktik terbaiknya. Pelajari seluruh proses, termasuk penemuan, akuisisi, validasi, transformasi, dan pemuatan data, untuk mendapatkan wawasan dalam mengelola dan menggunakan beragam sumber data secara efektif.
Strategi penyerapan data yang dirancang dengan baik sangat penting untuk menjaga kualitas data. Panduan ini menekankan pentingnya mengamati dan mengelola data saat memasuki sistem untuk mencegah kesalahan dan meningkatkan efisiensi dalam alur kerja data.
Temukan pentingnya penyerapan dan integrasi data yang kuat untuk AI perusahaan, menyoroti bagaimana jalur data yang akurat sangat penting untuk efektivitas model AI. Pelajari praktik terbaik untuk memastikan kualitas dan keandalan data untuk meningkatkan kinerja AI.