Analisis data eksplorasi (EDA) digunakan oleh para ilmuwan data untuk menganalisis dan menyelidiki kumpulan data dan meringkas karakteristik utama mereka, sering menggunakan metode visualisasi data.
EDA membantu menentukan cara terbaik untuk memanipulasi sumber data guna mendapatkan jawaban yang Anda butuhkan, sehingga memudahkan ilmuwan data untuk menemukan pola, menemukan anomali, menguji hipotesis, atau memeriksa asumsi.
EDA terutama digunakan untuk melihat apa yang dapat diungkapkan oleh data di luar pemodelan formal atau tugas pengujian hipotesis dan memberikan pemahaman yang lebih baik tentang variabel kumpulan data dan hubungan di antara mereka. Ini juga dapat membantu menentukan apakah teknik statistik yang Anda pertimbangkan untuk analisis data sesuai. Awalnya dikembangkan oleh ahli matematika Amerika John Tukey pada tahun 1970-an, teknik EDA terus menjadi metode yang banyak digunakan dalam proses penemuan data saat ini.
Tujuan utama EDA adalah untuk membantu melihat data sebelum membuat asumsi apa pun. Hal ini dapat membantu mengidentifikasi kesalahan yang jelas, serta lebih memahami pola dalam data, mendeteksi outlier atau kejadian anomali, menemukan hubungan yang menarik di antara variabel.
Ilmuwan data dapat menggunakan analisis eksploratif untuk memastikan hasil yang mereka hasilkan valid dan dapat diterapkan pada hasil dan tujuan bisnis yang diinginkan. EDA juga membantu pemangku kepentingan dengan mengonfirmasi bahwa mereka mengajukan pertanyaan yang tepat. EDA dapat membantu menjawab pertanyaan tentang standar deviasi, variabel kategoris, dan interval kepercayaan. Setelah EDA selesai dan insight diambil, fitur-fiturnya kemudian dapat digunakan untuk analisis atau pemodelan data yang lebih canggih, termasuk machine learning.
Fungsi dan teknik statistik spesifik yang dapat Anda lakukan dengan alat EDA meliputi:
Ada empat jenis utama EDA:
Ini adalah bentuk analisis data yang paling sederhana, dengan data yang dianalisis hanya terdiri dari satu variabel. Karena ini adalah variabel tunggal, hal tersebut tidak berhubungan dengan penyebab atau hubungan. Tujuan utama analisis univariat adalah untuk menggambarkan data dan menemukan pola yang ada di dalamnya.
Metode non-grafis tidak memberikan gambaran data secara lengkap. Oleh karena itu diperlukan metode grafis. Jenis univariat grafis yang umum meliputi:
Data multivariat muncul dari lebih dari satu variabel. Teknik EDA non-grafis multivariat umumnya menunjukkan hubungan antara dua atau lebih variabel data melalui tabulasi silang atau statistik.
Data multivariat menggunakan grafik untuk menampilkan hubungan antara dua atau lebih set data. Grafik yang paling banyak digunakan adalah diagram batang atau diagram batang yang dikelompokkan dengan masing-masing kelompok mewakili satu tingkat dari salah satu variabel dan setiap batang dalam suatu kelompok mewakili tingkat variabel lainnya.
Jenis grafik multivariasi umum lainnya meliputi:
Beberapa bahasa pemrograman ilmu data yang paling umum digunakan untuk membuat EDA meliputi:
Untuk menyelami lebih dalam perbedaan antara pendekatan ini, lihat "Python vs. R: Apa Perbedaannya?"
Pahami apa yang terjadi serta alasannya, apa yang mungkin terjadi, dan apa yang dapat Anda lakukan untuk menghadapinya. Dengan penjelasan langkah demi langkah yang jelas mengenai alasannya, Project Ripasso memberdayakan setiap pengguna bisnis dengan insight untuk pengambilan keputusan yang percaya diri dengan kecepatan berpikir.
Untuk berkembang, perusahaan harus menggunakan data untuk membangun loyalitas pelanggan, mengotomatiskan proses bisnis, dan berinovasi dengan solusi yang didorong oleh AI.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.