Apa itu analisis data eksplorasi (EDA)?

Pria dewasa melihat tablet digital yang ditunjukkan seorang rekan di tempat kerja

Apa itu EDA?

Analisis data eksplorasi (EDA) digunakan oleh para ilmuwan data untuk menganalisis dan menyelidiki kumpulan data dan meringkas karakteristik utama mereka, sering menggunakan metode visualisasi data.

EDA membantu menentukan cara terbaik untuk memanipulasi sumber data guna mendapatkan jawaban yang Anda butuhkan, sehingga memudahkan ilmuwan data untuk menemukan pola, menemukan anomali, menguji hipotesis, atau memeriksa asumsi.

EDA terutama digunakan untuk melihat apa yang dapat diungkapkan oleh data di luar pemodelan formal atau tugas pengujian hipotesis dan memberikan pemahaman yang lebih baik tentang variabel kumpulan data dan hubungan di antara mereka. Ini juga dapat membantu menentukan apakah teknik statistik yang Anda pertimbangkan untuk analisis data sesuai. Awalnya dikembangkan oleh ahli matematika Amerika John Tukey pada tahun 1970-an, teknik EDA terus menjadi metode yang banyak digunakan dalam proses penemuan data saat ini.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Mengapa EDA penting dalam ilmu data?

Tujuan utama EDA adalah untuk membantu melihat data sebelum membuat asumsi apa pun. Hal ini dapat membantu mengidentifikasi kesalahan yang jelas, serta lebih memahami pola dalam data, mendeteksi outlier atau kejadian anomali, menemukan hubungan yang menarik di antara variabel.

Ilmuwan data dapat menggunakan analisis eksploratif untuk memastikan hasil yang mereka hasilkan valid dan dapat diterapkan pada hasil dan tujuan bisnis yang diinginkan. EDA juga membantu pemangku kepentingan dengan mengonfirmasi bahwa mereka mengajukan pertanyaan yang tepat. EDA dapat membantu menjawab pertanyaan tentang standar deviasi, variabel kategoris, dan interval kepercayaan. Setelah EDA selesai dan insight diambil, fitur-fiturnya kemudian dapat digunakan untuk analisis atau pemodelan data yang lebih canggih, termasuk machine learning.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Alat EDA

Fungsi dan teknik statistik spesifik yang dapat Anda lakukan dengan alat EDA meliputi:

  • Teknik pengelompokan dan pengurangan dimensi, yang membantu membuat tampilan grafis dari data berdimensi tinggi yang berisi banyak variabel.

  • Visualisasi univariat dari setiap bidang dalam kumpulan data mentah, dengan statistik ringkasan.

  • Visualisasi bivariat dan statistik ringkasan yang memungkinkan Anda menilai hubungan antara setiap variabel dalam kumpulan data dan variabel target yang Anda lihat.

  • Visualisasi multivariat, untuk memetakan dan memahami interaksi antara bidang yang berbeda dalam data.

  • K-means clustering, yang merupakan metode pengelompokan dalam pembelajaran tanpa pengawasan, di mana titik data dikelompokkan ke dalam kelompok K, yaitu jumlah klaster, berdasarkan jarak dari sentroid tiap-tiap kelompok. Titik data yang paling dekat dengan sentroid tertentu akan dikelompokkan di bawah kategori yang sama. K-means clustering umumnya digunakan dalam segmentasi pasar, pengenalan pola, dan kompresi gambar.

  • Model prediktif, seperti regresi linier, menggunakan statistik dan data untuk memprediksi hasil.

Jenis EDA

Ada empat jenis utama EDA:

  • Univariat non-grafis
  • Univariat grafis
  • Non-grafis multivariat
  • Grafis multivariasi

Univariat non-grafis

Ini adalah bentuk analisis data yang paling sederhana, dengan data yang dianalisis hanya terdiri dari satu variabel. Karena ini adalah variabel tunggal, hal tersebut tidak berhubungan dengan penyebab atau hubungan. Tujuan utama analisis univariat adalah untuk menggambarkan data dan menemukan pola yang ada di dalamnya.

Univariat grafis

Metode non-grafis tidak memberikan gambaran data secara lengkap. Oleh karena itu diperlukan metode grafis. Jenis univariat grafis yang umum meliputi:

  • Plot batang dan daun, yang menampilkan seluruh nilai data dan bentuk sebarannya.

  • Histogram, plot batang dengan setiap batang mewakili frekuensi (hitungan) atau proporsi (jumlah/jumlah total) kasus untuk rentang nilai.

  • Plot kotak, yang secara grafis menggambarkan ringkasan lima angka dari minimum, kuartil pertama, median, kuartil ketiga, dan maksimum.

Multivariasi nongrafis

Data multivariat muncul dari lebih dari satu variabel. Teknik EDA non-grafis multivariat umumnya menunjukkan hubungan antara dua atau lebih variabel data melalui tabulasi silang atau statistik.

Grafis multivariasi

Data multivariat menggunakan grafik untuk menampilkan hubungan antara dua atau lebih set data. Grafik yang paling banyak digunakan adalah diagram batang atau diagram batang yang dikelompokkan dengan masing-masing kelompok mewakili satu tingkat dari salah satu variabel dan setiap batang dalam suatu kelompok mewakili tingkat variabel lainnya.

Jenis grafik multivariasi umum lainnya meliputi:

  • Scatter plot, yang digunakan untuk menyusun plot titik-titik data pada sumbu horizontal dan vertikal untuk menunjukkan seberapa besar satu variabel dipengaruhi oleh variabel lainnya.

  • Bagan multivariat, yang merupakan representasi grafis dari hubungan antara faktor dan respons.

  • Jalankan bagan, yang merupakan grafik garis data yang diplot dari waktu ke waktu.

  • Diagram gelembung, yang merupakan visualisasi data yang menampilkan beberapa lingkaran (gelembung) dalam plot dua dimensi.

  • Peta panas, yang merupakan representasi grafis dari data di mana nilai-nilai digambarkan oleh warna.

Analisis data eksplorasi bahasa

Beberapa bahasa pemrograman ilmu data yang paling umum digunakan untuk membuat EDA meliputi:

  • Python: Bahasa pemrograman berorientasi objek yang ditafsirkan dengan semantik dinamis. Struktur data bawaan tingkat tinggi, dikombinasikan dengan pengetikan dinamis dan pengikatan dinamis, membuatnya sangat menarik untuk pengembangan aplikasi yang cepat, serta untuk digunakan sebagai bahasa skrip atau lem untuk menghubungkan komponen yang ada bersama-sama. Python dan EDA dapat digunakan bersama untuk mengidentifikasi nilai yang hilang dalam kumpulan data, yang penting agar Anda dapat memutuskan cara menangani nilai yang hilang untuk machine learning.

  • R: Bahasa pemrograman sumber terbuka dan lingkungan perangkat lunak gratis untuk komputasi statistik dan grafik yang didukung oleh R Foundation for Statistical Computing. Bahasa R banyak digunakan di kalangan ahli statistik dalam ilmu data untuk mengembangkan pengamatan statistik dan analisis data.

Untuk menyelami lebih dalam perbedaan antara pendekatan ini, lihat "Python vs. R: Apa Perbedaannya?"

Solusi terkait
IBM Project Ripasso

Pahami apa yang terjadi serta alasannya, apa yang mungkin terjadi, dan apa yang dapat Anda lakukan untuk menghadapinya. Dengan penjelasan langkah demi langkah yang jelas mengenai alasannya, Project Ripasso memberdayakan setiap pengguna bisnis dengan insight untuk pengambilan keputusan yang percaya diri dengan kecepatan berpikir.

Temukan Proyek Ripasso
Alat dan solusi analitik

Untuk berkembang, perusahaan harus menggunakan data untuk membangun loyalitas pelanggan, mengotomatiskan proses bisnis, dan berinovasi dengan solusi yang didorong oleh AI.

Jelajahi solusi analitik
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Untuk berkembang, perusahaan harus menggunakan data untuk membangun loyalitas pelanggan, mengotomatiskan proses bisnis, dan berinovasi dengan solusi yang didorong oleh AI.

Jelajahi solusi analitik Temukan IBM Project Ripasso