Data wrangling adalah proses pembersihan, penstrukturan, dan pengayaan data mentah untuk digunakan dalam ilmu data, machine learning (ML), dan aplikasi berbasis data lainnya.
Juga dikenal sebagai data munging atau persiapan data, data wrangling adalah cara untuk mengatasi masalah kualitas data seperti nilai yang hilang, duplikat, outlier, dan inkonsistensi format. Data wrangling bertujuan mengubah data mentah, tidak terstruktur, atau bermasalah menjadi kumpulan data bersih yang dapat dianalisis secara efektif. Data wrangling membantu ilmuwan data, analis data, dan pengguna bisnis lainnya mengaplikasikan data dengan cara yang mendukung pengambilan keputusan yang tepat.
Saat ini, organisasi memiliki akses ke banyak sekali data dari berbagai sumber. Namun, data mentah ini bisa berantakan, tidak konsisten, atau tidak cocok untuk digunakan dengan berbagai proses dan alat yang mengubahnya menjadi insight berharga. Tanpa data wrangling yang tepat, hasil analisis data bisa menyesatkan. Bisnis dapat menarik kesimpulan yang tidak akurat dan membuat keputusan bisnis yang keliru.
Data wrangling adalah cara utama untuk mendukung hasil berkualitas tinggi. Metode ini mengubah dan memetakan data melalui serangkaian langkah agar menjadi bersih, konsisten, dapat diandalkan, dan berguna untuk aplikasi yang dimaksudkan. Kumpulan data yang dihasilkan akan digunakan untuk tugas-tugas, seperti membangun model machine learning, melakukan analisis data, membuat visualisasi data, menghasilkan laporan intelijen bisnis, dan mengambil keputusan eksekutif yang tepat.
Seiring kemajuan teknologi berbasis data, termasuk kecerdasan buatan (AI), data wrangling menjadi makin penting. Kualitas model AI bergantung pada data yang digunakan untuk melatihnya.
Proses data wrangling membantu memastikan akurasi informasi yang digunakan untuk mengembangkan dan meningkatkan model. Proses ini meningkatkan kemampuan penafsiran, karena data yang bersih dan terstruktur dengan baik lebih mudah dipahami oleh manusia dan algoritma. Proses ini juga membantu integrasi data, sehingga informasi dari berbagai sumber berbeda dapat lebih mudah digabungkan dan saling berhubungan.
Proses data wrangling biasanya melibatkan langkah-langkah ini:
Tahap awal ini berfokus menilai kualitas kumpulan data lengkap, termasuk sumber data dan format data. Apakah data berasal dari database, antarmuka pemrograman aplikasi (API), file CSV, web scraping, atau sumber lainnya? Bagaimana strukturnya? Bagaimana cara penggunaannya?
Proses penemuan menyoroti dan mengatasi masalah kualitas, seperti data yang hilang, inkonsistensi format, kesalahan, atau bias dan outlier yang mungkin memengaruhi analisis. Temuan tersebut biasanya didokumentasikan dalam laporan kualitas data atau dokumen yang lebih teknis yang dikenal sebagai laporan profil data, yang mencakup statistik, distribusi, dan hasil lainnya.
Langkah penstrukturan data, terkadang disebut transformasi data, berfokus pada penataan data ke dalam format terpadu sehingga cocok untuk analisis. Ini meliputi:
Pembersihan data mencakup penanganan nilai yang hilang, penghapusan duplikat, dan perbaikan kesalahan atau inkonsistensi. Proses ini mungkin juga melibatkan penghalusan data yang “bising” dengan menerapkan teknik yang mengurangi dampak variasi acak atau masalah lain dalam data. Saat melakukan pembersihan, penting untuk menghindari kehilangan data yang tidak perlu atau pembersihan yang berlebihan, yang dapat menghapus informasi berharga atau mendistorsi data.
Pengayaan data melibatkan penambahan informasi baru ke kumpulan data yang sudah ada untuk meningkatkan nilainya. Terkadang disebut augmentasi data, pengayaan data mencakup penilaian informasi tambahan apa yang diperlukan dan dari mana asalnya. Kemudian, informasi tambahan harus digabungkan dengan kumpulan data yang sudah ada dan dibersihkan dengan cara yang sama seperti data asli.
Pengayaan data dapat melibatkan pengambilan data demografis, geografis, perilaku, atau lingkungan yang relevan dengan contoh penggunaan yang dimaksud. Misalnya, jika proyek data wrangling terkait dengan operasi rantai pasokan, memperkaya data pengiriman dengan informasi cuaca dapat membantu memprediksi keterlambatan.
Langkah ini melibatkan verifikasi akurasi dan konsistensi data yang dikumpulkan. Pertama, aturan validasi harus ditetapkan berdasarkan logika bisnis, kendala data, dan masalah lainnya. Kemudian, teknik validasi diterapkan, seperti:
Setelah melakukan validasi menyeluruh, bisnis mungkin mempublikasikan data yang dikumpulkan atau mempersiapkannya untuk digunakan dalam aplikasi. Proses ini mungkin melibatkan pemuatan data ke gudang data, pembuatan visualisasi data, atau ekspor data dalam format tertentu untuk digunakan dengan algoritma machine learning.
Proses data wrangling dapat memakan waktu, terutama jika volume data kompleks terus bertambah. Faktanya, penelitian menunjukkan bahwa menyiapkan data dan berupaya mengubahnya menjadi bentuk yang dapat digunakan akan membutuhkan 45% hingga 80% dari keseluruhan waktu yang dimiliki analis data. 1 2
Data wrangling memerlukan tingkat keahlian teknis tertentu dalam bahasa pemrograman, teknik manipulasi data, dan alat bantu khusus. Namun, pada akhirnya, teknik ini meningkatkan kualitas data dan mendukung analisis data yang lebih efisien dan efektif.
Organisasi menggunakan berbagai alat dan teknologi untuk menghimpun data dari berbagai sumber dan mengintegrasikannya ke pipeline data yang mendukung kebutuhan bisnis secara keseluruhan. Ini termasuk:
Python dan R banyak digunakan untuk tugas-tugas data wrangling, termasuk penambangan, manipulasi, dan analisis data. Bahasa kueri terstruktur (structured query language, SQL) sangat penting untuk menangani database relasional dan manajemen data.
Data wrangler menggunakan alat seperti Microsoft Excel dan Google Sheets untuk pembersihan dan manipulasi data dasar, terutama untuk kumpulan data yang lebih kecil.
Alat data wrangling menyediakan antarmuka visual untuk pembersihan data dan transformasi data, yang membantu merampingkan alur kerja dan mengotomatiskan tugas. Misalnya, alat pengilangan data yang tersedia di platform IBM dapat dengan cepat mengubah data mentah menjadi bentuk yang dapat digunakan untuk analisis data dan tujuan lainnya.
Platform big data membantu menghimpun kumpulan data berskala besar dan kompleks dengan menyediakan alat dan kemampuan penskalaan yang diperlukan untuk menangani volume dan variasi big data. Platform seperti Apache Hadoop dan Apache Spark digunakan untuk menghimpun kumpulan data besar. Platform tersebut menggunakan teknologi big data untuk mengubah informasi menjadi bentuk yang dapat digunakan untuk analisis data berkualitas tinggi dan pengambilan keputusan.
AI mendukung data wrangling melalui otomatisasi dan analisis lanjutan. Model dan algoritma machine learning dapat membantu mengatasi masalah seperti deteksi outlier dan penskalaan. Alat bantu AI lainnya dapat memproses kumpulan data besar dengan cepat, menangani transformasi secara real time, dan mengenali pola untuk memandu upaya pembersihan. Antarmuka pemrosesan bahasa alami (NLP) memungkinkan pengguna berinteraksi dengan data secara intuitif, yang dapat mengurangi hambatan teknis.
Semua tautan berada di luar ibm.com
1 State of Data Science, Anaconda, Juli 2020.
2 Hellerstein et al. Principles of Data Wrangling. O’Reilly Media. Juli 2017.
Gunakan alat dan solusi ilmu data untuk mengungkap pola dan menyusun prediksi dengan menggunakan data, algoritma, machine learning, dan teknik AI.
Memperkenalkan Cognos Analytics 12.0, wawasan yang didukung AI untuk pengambilan keputusan yang lebih baik.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.