Regresi logistik memperkirakan probabilitas suatu peristiwa yang terjadi, seperti memilih atau tidak memilih, berdasarkan serangkaian data variabel independen yang diberikan.
Jenis model statistik ini (juga dikenal sebagai model logit) sering digunakan untuk klasifikasi dan analisis prediktif. Karena hasilnya adalah probabilitas, variabel dependen dibatasi antara 0 dan 1. Dalam regresi logistik, transformasi logit diterapkan pada peluang — yaitu, probabilitas keberhasilan dibagi dengan probabilitas kegagalan. Ini juga dikenal umumnya sebagai peluang log, atau logaritma natural peluang, dan fungsi logistik ini diwakili oleh rumus berikut:
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
Dalam persamaan regresi logistik ini, logit(pi) adalah variabel dependen atau respon dan x adalah variabel independen. Parameter beta, atau koefisien, dalam model ini umumnya diperkirakan melalui estimasi kemungkinan maksimum (MLE). Metode ini menguji nilai beta yang berbeda melalui beberapa iterasi untuk mengoptimalkan kecocokan peluang log terbaik. Semua iterasi ini menghasilkan fungsi log likelihood, dan regresi logistik berusaha memaksimalkan fungsi ini untuk menemukan estimasi parameter terbaik. Setelah koefisien optimal (atau koefisien jika ada lebih dari satu variabel independen) ditemukan, probabilitas bersyarat untuk setiap pengamatan dapat dihitung, dicatat, dan dijumlahkan untuk menghasilkan probabilitas yang diprediksi. Untuk klasifikasi biner, probabilitas kurang dari 0,5 akan memprediksi 0 sementara probabilitas lebih besar dari 0 akan memprediksi 1. Setelah model dihitung, praktik terbaiknya adalah mengevaluasi seberapa baik model tersebut memprediksi variabel dependen, yang disebut dengan kesesuaian model (goodness of fit). Tes Hosmer—Lemeshow adalah metode populer untuk menilai kecocokan model.
Peluang log bisa sulit dipahami dalam analisis data regresi logistik. Akibatnya, eksponensial estimasi beta adalah hal yang umum dilakukan untuk mengubah hasil menjadi rasio odds (OR), sehingga memudahkan interpretasi hasil. OR mewakili kemungkinan bahwa suatu hasil akan terjadi mengingat peristiwa tertentu, dibandingkan dengan kemungkinan hasil yang terjadi tanpa adanya peristiwa tersebut. Jika OR lebih besar dari 1, maka peristiwa tersebut dikaitkan dengan peluang yang lebih tinggi untuk mendapatkan hasil tertentu. Sebaliknya, jika OR kurang dari 1, maka peristiwa tersebut dikaitkan dengan kemungkinan yang lebih rendah dari hasil yang terjadi. Berdasarkan persamaan dari atas, interpretasi rasio peluang dapat dilambangkan sebagai berikut: peluang keberhasilan berubah dengan exp (cB_1) kali untuk setiap kenaikan c-unit dalam x. Sebagai contoh, katakanlah kita memperkirakan peluang bertahan hidup di Titanic mengingat bahwa orang tersebut adalah laki-laki, dan rasio peluang untuk laki-laki adalah 0,0810. Kami akan menafsirkan rasio peluang karena peluang kelangsungan hidup laki-laki menurun dengan faktor 0,0810 jika dibandingkan dengan wanita, yang menjaga semua variabel lain konstan.
Regresi linier dan logistik adalah salah satu model yang paling populer dalam ilmu data, dan alat bantu sumber terbuka seperti Python dan R membuat komputasi untuk kedua model ini menjadi cepat dan mudah.
Model regresi linier digunakan untuk mengidentifikasi hubungan antara suatu variabel terikat yang berkesinambungan dengan satu atau lebih variabel bebas. Ketika hanya ada satu variabel independen dan satu variabel dependen, ini dikenal sebagai regresi linier sederhana, tetapi ketika jumlah variabel independen meningkat, ini disebut sebagai regresi linier berganda. Untuk setiap jenis regresi linier, ia berupaya untuk memplot garis yang paling sesuai melalui serangkaian titik data, yang biasanya dihitung menggunakan metode kuadrat terkecil.
Layaknya regresi linier, regresi logistik juga digunakan untuk memperkirakan hubungan antara variabel dependen dan satu atau lebih variabel independen, tetapi digunakan untuk membuat prediksi tentang variabel kategori versus variabel kontinu. Variabel kategori bisa benar atau salah, ya atau tidak, 1 atau 0, dan sebagainya. Satuan pengukuran juga berbeda dengan regresi linier karena menghasilkan probabilitas, tetapi fungsi logit mengubah kurva S menjadi garis lurus.
Meskipun kedua model ini digunakan dalam analisis regresi untuk membuat prediksi tentang hasil di masa depan, regresi linier biasanya lebih mudah dipahami. Regresi linier juga tidak membutuhkan jumlah sampel yang besar karena regresi logistik membutuhkan sampel yang memadai untuk mewakili nilai di semua kategori respons. Tanpa sampel yang lebih besar dan representatif, model ini mungkin tidak memiliki kekuatan statistik yang memadai untuk mendeteksi efek yang signifikan.
Ada tiga jenis model regresi logistik, yang didefinisikan berdasarkan respons kategoris.
Dalam machine learning, regresi logistik termasuk dalam keluarga model machine learning yang diawasi. Model ini juga dianggap sebagai model diskriminatif, yang berarti model ini mencoba membedakan antara kelas (atau kategori). Tidak seperti algoritma generatif, seperti naïve bayes, algoritma ini tidak dapat, seperti namanya, menghasilkan informasi, seperti gambar, dari kelas yang coba diprediksi (misalnya gambar kucing).
Sebelumnya, kami telah menyebutkan bagaimana regresi logistik memaksimalkan fungsi log kemungkinan untuk menentukan koefisien beta dari model. Ini sedikit berubah dalam konteks machine learning. Dalam machine learning, kemungkinan log negatif digunakan sebagai fungsi kerugian, yang menggunakan proses penurunan gradien untuk menemukan jumlah maksimum global. Ini hanyalah cara lain untuk sampai pada perkiraan yang sama yang dibahas di atas.
Regresi logistik juga rentan terhadap overfitting, terutama jika terdapat banyak variabel prediktor dalam model. Regularisasi biasanya digunakan untuk memberikan penalti pada parameter dengan koefisien yang besar ketika model mengalami dimensi yang tinggi.
Scikit-learn (tautan berada di luar ibm.com) menyediakan dokumentasi bermanfaat untuk mempelajari lebih lanjut tentang model machine learning regresi logistik.
Regresi logistik umumnya digunakan untuk masalah prediksi dan klasifikasi. Beberapa contoh penggunaan ini meliputi:
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io