Apa itu analisis data eksplorasi (EDA)?
Jelajahi solusi EDA IBM Berlangganan pembaruan AI
Ilustrasi dengan kolase piktogram awan, diagram lingkaran, piktogram grafik
Apa itu EDA?

Analisis data eksplorasi (EDA) digunakan oleh para ilmuwan data untuk menganalisis dan menyelidiki kumpulan data dan meringkas karakteristik utama mereka, sering menggunakan metode visualisasi data.

EDA membantu menentukan cara terbaik untuk memanipulasi sumber data guna mendapatkan jawaban yang Anda butuhkan, sehingga memudahkan ilmuwan data untuk menemukan pola, menemukan anomali, menguji hipotesis, atau memeriksa asumsi.

EDA terutama digunakan untuk melihat apa yang dapat diungkapkan oleh data di luar pemodelan formal atau tugas pengujian hipotesis dan memberikan pemahaman yang lebih baik tentang variabel kumpulan data dan hubungan di antara mereka. Ini juga dapat membantu menentukan apakah teknik statistik yang Anda pertimbangkan untuk analisis data sesuai. Awalnya dikembangkan oleh ahli matematika Amerika John Tukey pada tahun 1970-an, teknik EDA terus menjadi metode yang banyak digunakan dalam proses penemuan data saat ini.

Panduan pemimpin data

Pelajari cara memanfaatkan basis data yang tepat untuk aplikasi, analitik, dan AI generatif.

Konten terkait

Daftar untuk buku elektronik tentang AI generatif

Mengapa analisis data eksplorasi penting dalam ilmu data?

Tujuan utama EDA adalah untuk membantu melihat data sebelum membuat asumsi apa pun. Hal ini dapat membantu mengidentifikasi kesalahan yang jelas, serta lebih memahami pola dalam data, mendeteksi outlier atau kejadian anomali, menemukan hubungan yang menarik di antara variabel.

Ilmuwan data dapat menggunakan analisis eksploratif untuk memastikan hasil yang mereka hasilkan valid dan dapat diterapkan pada hasil dan tujuan bisnis yang diinginkan. EDA juga membantu pemangku kepentingan dengan mengonfirmasi bahwa mereka mengajukan pertanyaan yang tepat. EDA dapat membantu menjawab pertanyaan tentang standar deviasi, variabel kategoris, dan interval kepercayaan. Setelah EDA selesai dan insight diambil, fitur-fiturnya kemudian dapat digunakan untuk analisis atau pemodelan data yang lebih canggih, termasuk machine learning.

Alat analisis data eksplorasi

Fungsi dan teknik statistik spesifik yang dapat Anda lakukan dengan alat EDA meliputi:

  • Teknik pengelompokan dan pengurangan dimensi, yang membantu membuat tampilan grafis dari data berdimensi tinggi yang berisi banyak variabel.
  • Visualisasi univariat dari setiap bidang dalam kumpulan data mentah, dengan statistik ringkasan.
  • Visualisasi bivariat dan statistik ringkasan yang memungkinkan Anda menilai hubungan antara setiap variabel dalam kumpulan data dan variabel target yang Anda lihat.
  • Visualisasi multivariat, untuk memetakan dan memahami interaksi antara bidang yang berbeda dalam data.
  • K-mean Clustering adalah metode pengelompokan dalam pembelajaran tanpa pengawasan yang menetapkan titik data ke dalam kelompok K, yaitu jumlah cluster, berdasarkan jarak dari centroid tiap-tiap kelompok. Titik data yang paling dekat dengan sentroid tertentu akan dikelompokkan di bawah kategori yang sama. K-Means Clustering umumnya digunakan dalam segmentasi pasar, pengenalan pola, dan kompresi gambar.
  • Model prediktif, seperti regresi linier, menggunakan statistik dan data untuk memprediksi hasil.
Jenis analisis data eksplorasi

Ada empat jenis utama EDA:

  • Univariat non-grafis. Ini adalah bentuk analisis data yang paling sederhana, dengan data yang dianalisis hanya terdiri dari satu variabel. Karena ini adalah variabel tunggal, itu tidak berhubungan dengan penyebab atau hubungan. Tujuan utama analisis univariat adalah untuk menggambarkan data dan menemukan pola yang ada di dalamnya.
  • Univariat grafis. Metode non-grafis tidak memberikan gambaran data secara lengkap. Oleh karena itu diperlukan metode grafis. Jenis univariat grafis yang umum meliputi:
    • Plot batang dan daun, yang menampilkan seluruh nilai data dan bentuk sebarannya.
    • Histogram, plot batang dengan setiap batang mewakili frekuensi (hitungan) atau proporsi (jumlah/jumlah total) kasus untuk rentang nilai.
    • Plot kotak, yang secara grafis menggambarkan ringkasan lima angka dari minimum, kuartil pertama, median, kuartil ketiga, dan maksimum.
  • Multivariat tidak berbentuk grafik: Data multivariat muncul dari lebih dari satu variabel. Teknik EDA non-grafis multivariat umumnya menunjukkan hubungan antara dua atau lebih variabel data melalui tabulasi silang atau statistik.
  • Multivariat grafis: Data multivariat menggunakan grafik untuk menampilkan hubungan antara dua atau lebih kumpulan data. Grafik yang paling banyak digunakan adalah diagram batang atau diagram batang yang dikelompokkan dengan masing-masing kelompok mewakili satu tingkat dari salah satu variabel dan setiap batang dalam suatu kelompok mewakili tingkat variabel lainnya.

Jenis grafik multivariasi umum lainnya meliputi:

  • Scatter plot, yang digunakan untuk memplot titik-titik data pada sumbu horizontal dan vertikal untuk menunjukkan seberapa besar satu variabel dipengaruhi oleh variabel lainnya.
  • Bagan multivariat, yang merupakan representasi grafis dari hubungan antara faktor dan respons.
  • Jalankan bagan, yang merupakan grafik garis data yang diplot dari waktu ke waktu.
  • Diagram gelembung, yang merupakan visualisasi data yang menampilkan beberapa lingkaran (gelembung) dalam plot dua dimensi.
  • Peta panas, yang merupakan representasi grafis dari data di mana nilai-nilai digambarkan oleh warna.
Alat Analisis Data Eksplorasi

Beberapa alat ilmu data yang paling umum digunakan untuk membuat EDA meliputi:

  • Python: Bahasa pemrograman berorientasi objek yang ditafsirkan dengan semantik dinamis. Struktur data bawaan tingkat tinggi, dikombinasikan dengan pengetikan dinamis dan pengikatan dinamis, membuatnya sangat menarik untuk pengembangan aplikasi yang cepat, serta untuk digunakan sebagai bahasa skrip atau lem untuk menghubungkan komponen yang ada bersama-sama. Python dan EDA dapat digunakan bersama untuk mengidentifikasi nilai yang hilang dalam kumpulan data, yang penting agar Anda dapat memutuskan cara menangani nilai yang hilang untuk machine learning.
  • R: Bahasa pemrograman sumber terbuka dan lingkungan perangkat lunak gratis untuk komputasi statistik dan grafik yang didukung oleh R Foundation for Statistical Computing. Bahasa R banyak digunakan di kalangan ahli statistik dalam ilmu data untuk mengembangkan pengamatan statistik dan analisis data.

Untuk menyelami lebih dalam perbedaan antara pendekatan ini, lihat "OLAP vs OLTP: Apa Perbedaannya?"

Solusi terkait
IBM® Watson Studio

Gunakan IBM Watson® Studio untuk menentukan apakah teknik statistik yang Anda pertimbangkan untuk analisis data sudah tepat.

Jelajahi IBM Watson Studio hari ini
Sumber daya Kemajuan dalam analisis data eksplorasi, visualisasi, dan kualitas untuk sistem AI yang berpusat pada data

Pelajari pentingnya dan peran EDA dan teknik visualisasi data untuk menemukan masalah kualitas data dan untuk persiapan data, yang relevan dengan membangun alur ML.

Analisis Data Eksplorasi untuk Machine Learning

Pelajari teknik umum untuk mengambil data Anda, membersihkannya, menerapkan rekayasa fitur, dan menyiapkannya untuk analisis awal dan pengujian hipotesis.

Ambil langkah selanjutnya

Melatih, memvalidasi, melakukan tuning, dan menerapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai Pesan demo langsung