My IBM Masuk Berlangganan

Apa itu regresi logistik?

Apa itu regresi logistik?

Regresi logistik memperkirakan probabilitas suatu peristiwa yang terjadi, seperti memilih atau tidak memilih, berdasarkan serangkaian data variabel independen yang diberikan.

Jenis model statistik ini (juga dikenal sebagai model logit) sering digunakan untuk klasifikasi dan analisis prediktif. Karena hasilnya adalah probabilitas, variabel dependen dibatasi antara 0 dan 1. Dalam regresi logistik, transformasi logit diterapkan pada peluang — yaitu, probabilitas keberhasilan dibagi dengan probabilitas kegagalan. Ini juga dikenal umumnya sebagai peluang log, atau logaritma natural peluang, dan fungsi logistik ini diwakili oleh rumus berikut:

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

Dalam persamaan regresi logistik ini, logit(pi) adalah variabel dependen atau respon dan x adalah variabel independen. Parameter beta, atau koefisien, dalam model ini umumnya diperkirakan melalui estimasi kemungkinan maksimum (MLE). Metode ini menguji nilai beta yang berbeda melalui beberapa iterasi untuk mengoptimalkan kecocokan peluang log terbaik. Semua iterasi ini menghasilkan fungsi log likelihood, dan regresi logistik berusaha memaksimalkan fungsi ini untuk menemukan estimasi parameter terbaik. Setelah koefisien optimal (atau koefisien jika ada lebih dari satu variabel independen) ditemukan, probabilitas bersyarat untuk setiap pengamatan dapat dihitung, dicatat, dan dijumlahkan untuk menghasilkan probabilitas yang diprediksi. Untuk klasifikasi biner, probabilitas kurang dari 0,5 akan memprediksi 0 sementara probabilitas lebih besar dari 0 akan memprediksi 1. Setelah model dihitung, praktik terbaiknya adalah mengevaluasi seberapa baik model tersebut memprediksi variabel dependen, yang disebut dengan kesesuaian model (goodness of fit). Tes Hosmer—Lemeshow adalah metode populer untuk menilai kecocokan model.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Menafsirkan regresi logistik

Peluang log bisa sulit dipahami dalam analisis data regresi logistik. Akibatnya, eksponensial estimasi beta adalah hal yang umum dilakukan untuk mengubah hasil menjadi rasio odds (OR), sehingga memudahkan interpretasi hasil. OR mewakili kemungkinan bahwa suatu hasil akan terjadi mengingat peristiwa tertentu, dibandingkan dengan kemungkinan hasil yang terjadi tanpa adanya peristiwa tersebut. Jika OR lebih besar dari 1, maka peristiwa tersebut dikaitkan dengan peluang yang lebih tinggi untuk mendapatkan hasil tertentu. Sebaliknya, jika OR kurang dari 1, maka peristiwa tersebut dikaitkan dengan kemungkinan yang lebih rendah dari hasil yang terjadi. Berdasarkan persamaan dari atas, interpretasi rasio peluang dapat dilambangkan sebagai berikut: peluang keberhasilan berubah dengan exp (cB_1) kali untuk setiap kenaikan c-unit dalam x. Sebagai contoh, katakanlah kita memperkirakan peluang bertahan hidup di Titanic mengingat bahwa orang tersebut adalah laki-laki, dan rasio peluang untuk laki-laki adalah 0,0810. Kami akan menafsirkan rasio peluang karena peluang kelangsungan hidup laki-laki menurun dengan faktor 0,0810 jika dibandingkan dengan wanita, yang menjaga semua variabel lain konstan.

Mixture of Experts | 25 April, episode 52

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Regresi linier vs regresi logistik

Regresi linier dan logistik adalah salah satu model yang paling populer dalam ilmu data, dan alat bantu sumber terbuka seperti Python dan R membuat komputasi untuk kedua model ini menjadi cepat dan mudah.

Model regresi linier digunakan untuk mengidentifikasi hubungan antara suatu variabel terikat yang berkesinambungan dengan satu atau lebih variabel bebas. Ketika hanya ada satu variabel independen dan satu variabel dependen, ini dikenal sebagai regresi linier sederhana, tetapi ketika jumlah variabel independen meningkat, ini disebut sebagai regresi linier berganda. Untuk setiap jenis regresi linier, ia berupaya untuk memplot garis yang paling sesuai melalui serangkaian titik data, yang biasanya dihitung menggunakan metode kuadrat terkecil.

Layaknya regresi linier, regresi logistik juga digunakan untuk memperkirakan hubungan antara variabel dependen dan satu atau lebih variabel independen, tetapi digunakan untuk membuat prediksi tentang variabel kategori versus variabel kontinu. Variabel kategori bisa benar atau salah, ya atau tidak, 1 atau 0, dan sebagainya. Satuan pengukuran juga berbeda dengan regresi linier karena menghasilkan probabilitas, tetapi fungsi logit mengubah kurva S menjadi garis lurus.

Meskipun kedua model ini digunakan dalam analisis regresi untuk membuat prediksi tentang hasil di masa depan, regresi linier biasanya lebih mudah dipahami. Regresi linier juga tidak membutuhkan jumlah sampel yang besar karena regresi logistik membutuhkan sampel yang memadai untuk mewakili nilai di semua kategori respons. Tanpa sampel yang lebih besar dan representatif, model ini mungkin tidak memiliki kekuatan statistik yang memadai untuk mendeteksi efek yang signifikan.

Jenis regresi logistik

Ada tiga jenis model regresi logistik, yang didefinisikan berdasarkan respons kategoris.

  • Regresi logistik biner: Dalam pendekatan ini, respons atau variabel dependen bersifat dikotomis, yaitu memiliki hanya dua kemungkinan hasil (misalnya 0 atau 1). Beberapa contoh populer dari penggunaannya termasuk memprediksi apakah sebuah email adalah spam atau bukan spam atau apakah suatu tumor ganas atau tidak ganas. Dalam regresi logistik, ini adalah pendekatan yang paling banyak digunakan, dan secara umum, ini adalah salah satu pengklasifikasi yang paling umum untuk klasifikasi biner.
  • Regresi logistik multinomial: Pada jenis model regresi logistik ini, variabel dependen memiliki tiga atau lebih kemungkinan hasil; namun, nilai-nilai ini tidak tersusun dalam urutan tertentu. Sebagai contoh, studio film ingin memprediksi genre film apa yang akan ditonton oleh penonton bioskop agar dapat memasarkan film secara lebih efektif. Model regresi logistik multinomial dapat membantu studio untuk menentukan kekuatan pengaruh usia, jenis kelamin dan status hubungan seseorang terhadap jenis film yang mereka sukai. Studio kemudian dapat mengarahkan kampanye iklan film tertentu ke sekelompok orang yang kemungkinan akan menontonnya.
  • Regresi logistik ordinal: Jenis model regresi logistik ini dimanfaatkan ketika variabel respons memiliki tiga atau lebih kemungkinan hasil, tetapi dalam kasus ini, nilai-nilai ini memiliki urutan yang ditentukan. Contoh respon ordinal meliputi skala penilaian dari A sampai F atau skala peringkat dari 1 hingga 5.

Regresi logistik dan machine learning

Dalam machine learning, regresi logistik termasuk dalam keluarga model machine learning yang diawasi. Model ini juga dianggap sebagai model diskriminatif, yang berarti model ini mencoba membedakan antara kelas (atau kategori). Tidak seperti algoritma generatif, seperti naïve bayes, algoritma ini tidak dapat, seperti namanya, menghasilkan informasi, seperti gambar, dari kelas yang coba diprediksi (misalnya gambar kucing).

Sebelumnya, kami telah menyebutkan bagaimana regresi logistik memaksimalkan fungsi log kemungkinan untuk menentukan koefisien beta dari model. Ini sedikit berubah dalam konteks machine learning. Dalam machine learning, kemungkinan log negatif digunakan sebagai fungsi kerugian, yang menggunakan proses penurunan gradien untuk menemukan jumlah maksimum global. Ini hanyalah cara lain untuk sampai pada perkiraan yang sama yang dibahas di atas.

Regresi logistik juga rentan terhadap overfitting, terutama jika terdapat banyak variabel prediktor dalam model. Regularisasi biasanya digunakan untuk memberikan penalti pada parameter dengan koefisien yang besar ketika model mengalami dimensi yang tinggi.

Scikit-learn (tautan berada di luar ibm.com) menyediakan dokumentasi bermanfaat untuk mempelajari lebih lanjut tentang model machine learning regresi logistik.

Contoh penggunaan regresi logistik

Regresi logistik umumnya digunakan untuk masalah prediksi dan klasifikasi. Beberapa contoh penggunaan ini meliputi:

  • Deteksi penipuan: Model regresi logistik dapat membantu tim mengidentifikasi anomali data, yang merupakan prediksi kecurangan. Perilaku atau karakteristik tertentu mungkin memiliki hubungan yang lebih tinggi dengan aktivitas penipuan, yang sangat bermanfaat bagi sektor perbankan dan lembaga keuangan lainnya dalam melindungi nasabah mereka. Perusahaan berbasis SaaS juga mulai mengadopsi praktik-praktik ini untuk menghilangkan akun pengguna palsu dari kumpulan data mereka ketika melakukan analisis data seputar kinerja bisnis.
  • Prediksi penyakit: Dalam dunia kedokteran, pendekatan analitik ini dapat digunakan untuk memprediksi kemungkinan penyakit atau penyakit pada suatu populasi. Organisasi perawatan kesehatan dapat menetapkan perawatan pencegahan bagi individu yang menunjukkan kecenderungan lebih tinggi terhadap penyakit tertentu.
  • Prediksi churn: Perilaku tertentu dapat menjadi indikasi churn dalam berbagai fungsi organisasi. Misalnya, tim sumber daya manusia dan manajemen mungkin ingin mengetahui apakah ada karyawan berkinerja tinggi di dalam perusahaan yang berisiko meninggalkan organisasi; jenis wawasan ini dapat mendorong percakapan untuk memahami area masalah di dalam perusahaan, seperti budaya atau kompensasi. Atau, organisasi penjualan mungkin ingin mempelajari jenis klien yang berisiko melakukan kecurangan terhadap bisnis. Ini dapat mendorong tim untuk menyiapkan strategi retensi guna menghindari kerugian.
Solusi terkait

Solusi terkait

IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses ke berbagai kemampuan dalam satu alat untuk seluruh siklus pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung