Apa itu Regresi Logistik?

Apa itu regresi logistik?

Regresi logistik memperkirakan probabilitas suatu peristiwa yang terjadi, seperti memilih atau tidak memilih, berdasarkan serangkaian data variabel independen yang diberikan.

Jenis model statistik ini (juga dikenal sebagai model logit) sering digunakan untuk klasifikasi dan analisis prediktif. Karena hasilnya adalah probabilitas, variabel dependen dibatasi antara 0 dan 1. Dalam regresi logistik, transformasi logit diterapkan pada peluang — yaitu, probabilitas keberhasilan dibagi dengan probabilitas kegagalan. Ini juga biasa dikenal sebagai peluang log, atau logaritma natural peluang, dan fungsi logistik ini diwakili oleh rumus berikut:

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

Dalam persamaan regresi logistik ini, logit(pi) adalah variabel dependen atau respon dan x adalah variabel independen. Parameter beta, atau koefisien, dalam model ini biasanya diperkirakan melalui estimasi kemungkinan maksimum (MLE). Metode ini menguji nilai beta yang berbeda melalui beberapa iterasi untuk mengoptimalkan kecocokan peluang log terbaik. Semua iterasi ini menghasilkan fungsi log likelihood, dan regresi logistik berusaha memaksimalkan fungsi ini untuk menemukan estimasi parameter terbaik. Setelah koefisien optimal (atau koefisien jika ada lebih dari satu variabel independen) ditemukan, probabilitas bersyarat untuk setiap pengamatan dapat dihitung, dicatat, dan dijumlahkan untuk menghasilkan probabilitas yang diprediksi. Untuk klasifikasi biner, probabilitas kurang dari 0,5 akan memprediksi 0 sementara probabilitas lebih besar dari 0 akan memprediksi 1. Setelah model dihitung, praktik terbaiknya adalah mengevaluasi seberapa baik model tersebut memprediksi variabel dependen, yang disebut dengan kesesuaian model (goodness of fit). Tes Hosmer—Lemeshow adalah metode populer untuk menilai kecocokan model.

Mengapa tata kelola AI merupakan keharusan bisnis untuk meningkatkan AI perusahaan

Pelajari hambatan adopsi AI, terutama kurangnya tata kelola AI dan solusi manajemen risiko.

Konten terkait

Daftar untuk buku elektronik di Presto

Menafsirkan regresi logistik

Peluang log bisa sulit dipahami dalam analisis data regresi logistik. Akibatnya, eksponensial estimasi beta adalah hal yang umum dilakukan untuk mengubah hasil menjadi rasio odds (OR), sehingga memudahkan interpretasi hasil. OR mewakili kemungkinan bahwa suatu hasil akan terjadi mengingat peristiwa tertentu, dibandingkan dengan kemungkinan hasil yang terjadi tanpa adanya peristiwa tersebut. Jika OR lebih besar dari 1, maka peristiwa tersebut dikaitkan dengan peluang yang lebih tinggi untuk mendapatkan hasil tertentu. Sebaliknya, jika OR kurang dari 1, maka peristiwa tersebut dikaitkan dengan kemungkinan yang lebih rendah dari hasil yang terjadi. Berdasarkan persamaan dari atas, interpretasi rasio peluang dapat dilambangkan sebagai berikut: peluang keberhasilan berubah dengan exp (cB_1) kali untuk setiap kenaikan c-unit dalam x. Sebagai contoh, katakanlah kita memperkirakan peluang bertahan hidup di Titanic mengingat bahwa orang tersebut adalah laki-laki, dan rasio peluang untuk laki-laki adalah 0,0810. Kami akan menafsirkan rasio peluang karena peluang kelangsungan hidup laki-laki menurun dengan faktor 0,0810 jika dibandingkan dengan wanita, yang menjaga semua variabel lain konstan.

Baca white paper

Regresi linier vs regresi logistik

Regresi linier dan logistik adalah salah satu model yang paling populer dalam ilmu data, dan alat bantu sumber terbuka, seperti Python dan R, membuat komputasi untuk kedua model ini menjadi cepat dan mudah.

Model regresi linier digunakan untuk mengidentifikasi hubungan antara suatu variabel terikat yang berkesinambungan dengan satu atau lebih variabel bebas. Ketika hanya ada satu variabel independen dan satu variabel dependen, ini dikenal sebagai regresi linier sederhana, tetapi ketika jumlah variabel independen meningkat, ini disebut sebagai regresi linier berganda. Untuk setiap jenis regresi linier, ia berupaya untuk memplot garis yang paling sesuai melalui serangkaian titik data, yang biasanya dihitung menggunakan metode kuadrat terkecil.

Layaknya regresi linier, regresi logistik juga digunakan untuk memperkirakan hubungan antara variabel dependen dan satu atau lebih variabel independen, tetapi digunakan untuk membuat prediksi tentang variabel kategori versus variabel kontinu. Variabel kategori bisa benar atau salah, ya atau tidak, 1 atau 0, dan sebagainya. Satuan pengukuran juga berbeda dengan regresi linier karena menghasilkan probabilitas, tetapi fungsi logit mengubah kurva S menjadi garis lurus.

Meskipun kedua model ini digunakan dalam analisis regresi untuk membuat prediksi tentang hasil di masa depan, regresi linier biasanya lebih mudah dipahami. Regresi linier juga tidak membutuhkan jumlah sampel yang besar karena regresi logistik membutuhkan sampel yang memadai untuk mewakili nilai di semua kategori respons. Tanpa sampel yang lebih besar dan representatif, model ini mungkin tidak memiliki kekuatan statistik yang memadai untuk mendeteksi efek yang signifikan.

Jenis regresi logistik

Ada tiga jenis model regresi logistik, yang didefinisikan berdasarkan respons kategoris.

Regresi logistik biner: Dalam pendekatan ini, respons atau variabel dependen bersifat dikotomis—yaitu hanya memiliki dua kemungkinan hasil (misalnya 0 atau 1). Beberapa contoh populer dari penggunaannya termasuk memprediksi apakah sebuah email adalah spam atau bukan spam atau apakah suatu tumor ganas atau tidak ganas. Dalam regresi logistik, ini adalah pendekatan yang paling banyak digunakan, dan secara umum, ini adalah salah satu pengklasifikasi yang paling umum untuk klasifikasi biner.
Regresi logistik multinomial: Pada jenis model regresi logistik ini, variabel dependen memiliki tiga atau lebih kemungkinan hasil; namun, nilai-nilai ini tidak tersusun dalam urutan tertentu. Sebagai contoh, studio film ingin memprediksi genre film apa yang akan ditonton oleh penonton bioskop agar dapat memasarkan film secara lebih efektif. Model regresi logistik multinomial dapat membantu studio untuk menentukan kekuatan pengaruh usia, jenis kelamin, dan status pacaran seseorang terhadap jenis film yang mereka sukai. Studio kemudian dapat mengarahkan kampanye iklan film tertentu ke sekelompok orang yang kemungkinan akan menontonnya.
Regresi logistik ordinal: Jenis model regresi logistik ini dimanfaatkan ketika variabel respons memiliki tiga atau lebih kemungkinan hasil, tetapi dalam kasus ini, nilai-nilai ini memiliki urutan yang ditentukan. Contoh respons ordinal termasuk skala penilaian dari A ke F atau skala peringkat dari 1 hingga 5.

Sekilas hal yang ada di dalam pikiran seorang ilmuwan data

Regresi logistik dan machine learning

Dalam pembelajaran mesin, regresi logistik termasuk dalam keluarga model machine learning yang diawasi. Model ini juga dianggap sebagai model diskriminatif, yang berarti model ini mencoba membedakan antara kelas (atau kategori). Tidak seperti algoritma generatif, seperti bayes naif, algoritma tidak dapat, seperti namanya, menghasilkan informasi, seperti gambar, dari kelas yang coba diprediksi (misalnya gambar kucing).

Sebelumnya, kami telah menyebutkan bagaimana regresi logistik memaksimalkan fungsi log kemungkinan untuk menentukan koefisien beta dari model. Ini sedikit berubah dalam konteks machine learning. Dalam machine learning, kemungkinan log negatif digunakan sebagai fungsi kerugian, yang menggunakan proses penurunan gradien untuk menemukan jumlah maksimum global. Ini hanyalah cara lain untuk sampai pada perkiraan yang sama yang dibahas di atas.

Regresi logistik juga rentan terhadap overfitting, terutama jika terdapat banyak variabel prediktor dalam model. Regularisasi biasanya digunakan untuk memberikan penalti pada parameter dengan koefisien yang besar ketika model mengalami dimensi yang tinggi.

Scikit-learn (tautan berada di luar ibm.com) menyediakan dokumentasi bermanfaat untuk mempelajari lebih lanjut tentang model machine learning regresi logistik.

Contoh penggunaan regresi logistik

Regresi logistik umumnya digunakan untuk masalah prediksi dan klasifikasi. Beberapa contoh penggunaan ini meliputi:

Deteksi penipuan: Model regresi logistik dapat membantu tim mengidentifikasi anomali data, yang merupakan prediksi kecurangan. Perilaku atau karakteristik tertentu mungkin memiliki hubungan yang lebih tinggi dengan aktivitas penipuan, yang sangat bermanfaat bagi sektor perbankan dan lembaga keuangan lainnya dalam melindungi nasabah mereka. Perusahaan berbasis SaaS juga mulai mengadopsi praktik-praktik ini untuk menghilangkan akun pengguna palsu dari kumpulan data mereka ketika melakukan analisis data seputar kinerja bisnis.
Prediksi penyakit: Dalam dunia kedokteran, pendekatan analitik ini dapat digunakan untuk memprediksi kemungkinan penyakit atau penyakit pada suatu populasi. Organisasi perawatan kesehatan dapat menetapkan perawatan pencegahan bagi individu yang menunjukkan kecenderungan lebih tinggi terhadap penyakit tertentu.
Prediksi churn: Perilaku tertentu dapat menjadi indikasi churn dalam berbagai fungsi organisasi. Misalnya, tim sumber daya manusia dan manajemen mungkin ingin mengetahui apakah ada karyawan berkinerja tinggi di dalam perusahaan yang berisiko meninggalkan organisasi; jenis wawasan ini dapat mendorong percakapan untuk memahami area masalah di dalam perusahaan, seperti budaya atau kompensasi. Atau, organisasi penjualan mungkin ingin mempelajari jenis klien yang berisiko melakukan kecurangan terhadap bisnis. Ini dapat mendorong tim untuk menyiapkan strategi retensi guna menghindari kerugian.

Contoh keberhasilan regresi logistik

Menilai risiko kredit

Regresi logistik biner dapat membantu bankir menilai risiko kredit. Lihat bagaimana Anda dapat menggunakan sampel acak untuk membuat model regresi logistik dan mengklasifikasikan pelanggan sebagai risiko baik atau buruk.

Meningkatkan laba di industri perbankan

First Tennessee Bank meningkatkan profitabilitas dengan menggunakan analisis prediktif dan logistik dengan perangkat lunak IBM SPSS dan mencapai peningkatan hingga 600 persen dalam kampanye penjualan silang. First Tennessee menggunakan teknik analitik prediktif dan analitik logistik dalam solusi analitik untuk mendapatkan insight yang lebih luas tentang semua datanya.

Solusi terkait

watsonx.ai

Ambil langkah selanjutnya untuk mulai mengoperasionalkan dan menskalakan AI generatif dan machine learning untuk bisnis.

Jelajahi watsonx.ai

IBM SPSS Modeler

Dorong laba atas investasi dengan alat ilmu data seret dan lepas (drag-and-drop).

Jelajahi SPSS Modeler

IBM Watson Studio

Bangun dan latih model AI dan machine-learning, siapkan dan analisis data - semuanya dalam lingkungan hybrid cloud yang fleksibel.

Jelajahi Watson Studio

Sumber daya terkait

Menerapkan regresi logistik dari awal di Python

Pelajari cara melatih model regresi biner kustom Anda sendiri. Ketahui cara menghasilkan probabilitas, mengklasifikasikan contoh, dan memahami penurunan gradien.

Lakukan regresi logistik menggunakan TensorFlow

Buat Notebook Jupyter yang berisi kode Python untuk mendefinisikan regresi logistik, lalu gunakan TensorFlow untuk mengimplementasikannya.

Pelatihan homomorfik dari 30.000 model regresi logistik

Para peneliti IBM menunjukkan bahwa penggunaan skema enkripsi homomorfis CKKS dapat melatih sejumlah besar model regresi logistik secara bersamaan.

Ambil langkah selanjutnya

Membangun strategi AI untuk bisnis Anda di satu platform AI dan data kolaboratif yang disebut IBM watsonx—tempat Anda bisa melatih, memvalidasi, melakukan tuning, dan menerapkan model AI untuk membantu Anda meningkatkan dan mempercepat dampak AI dengan data tepercaya di seluruh bisnis Anda.

Jelajahi watsonx

Pesan demo langsung