IBM SPSS Data Preparation melakukan teknik canggih untuk merampingkan tahap persiapan data, memberikan hasil analisis data yang lebih cepat dan akurat.
Modul ini disertakan dalam SPSS edisi Professional untuk lokal, dan dalam edisi dasar untuk paket berlangganan.
Dialog "validasi data" digunakan untuk memvalidasi data Anda. Tab variabel menampilkan variabel dalam file Anda. Mulailah dengan memilih variabel yang Anda inginkan dan pindahkan ke daftar "analisis variabel".
Anda dapat menentukan pemeriksaan dasar untuk diterapkan pada variabel dan kasus dalam file Anda. Sebagai contoh, Anda dapat memperoleh laporan yang mengidentifikasi variabel dengan persentase nilai yang hilang atau kosong yang tinggi.
Menerapkan aturan pada variabel individual yang mengidentifikasi nilai yang tidak valid, yaitu, nilai di luar rentang yang valid atau nilai yang hilang. Anda juga dapat membuat aturan sendiri, aturan lintas variabel, atau menerapkan aturan yang sudah ditentukan.
Persiapan data otomatis memberikan rekomendasi dan memungkinkan pengguna untuk menelusuri dan memeriksa rekomendasi tersebut.
Persiapan data secara manual adalah proses yang rumit dan memakan waktu. Ketika Anda membutuhkan hasil dengan cepat, prosedur ADP membantu Anda mendeteksi dan mengoreksi kesalahan kualitas dan memperhitungkan nilai yang hilang dalam satu langkah yang efisien. Fitur ADP menyediakan laporan yang mudah dipahami dengan rekomendasi dan visualisasi yang komprehensif untuk membantu Anda menentukan data yang tepat untuk digunakan dalam analisis.
Lakukan pemeriksaan data otomatis dan bantu menghilangkan pemeriksaan manual yang memakan waktu dan membosankan dengan menggunakan prosedur validasi data. Prosedur ini memungkinkan Anda untuk menerapkan aturan untuk melakukan pemeriksaan data berdasarkan tingkat ukuran setiap variabel, baik kategorikal maupun kontinu. Kemudian, tentukan validitas data dan hapus atau perbaiki kasus yang mencurigakan sesuai kebijaksanaan Anda sebelum melakukan analisis.
IBM SPSS Data Preparation mencakup fitur termasuk validasi data, data preparation, binning optimal, dan identifikasi kasus yang tidak biasa.
Dengan prosedur binning yang optimal, Anda dapat menggunakan algoritma yang dirancang untuk atribut nominal dengan lebih akurat, seperti Naive Bayes dan model logit. Binning optimal memungkinkan Anda untuk melakukan binning — atau menetapkan titik potong untuk — variabel skala.
Pilih salah satu dari jenis binning optimal ini untuk data pra-pemrosesan sebelum pembuatan model:
1) Tanpa pengawasan: Buat keranjang dengan jumlah yang sama.
2) Dengan pengawasan: Mempertimbangkan variabel target untuk menentukan titik potong. Metode ini lebih akurat daripada tanpa pengawasan. Namun, ini juga lebih intensif secara komputasi.
3) Pendekatan hybrid: Kombinasikan pendekatan yang tidak diawasi dan yang diawasi. Metode ini berguna jika Anda memiliki sejumlah besar nilai berbeda.