Koefisien dalam regresi logistik, dan , diestimasi dengan menggunakan estimasi kemungkinan maksimum (MLE). Konsep inti di balik MLE adalah menemukan parameter yang membuat data yang diamati paling "mungkin" di bawah model regresi logistik.
Dalam regresi logistik, kami memodelkan probabilitas bahwa variabel target adalah 1 (misalnya, "disetujui") diberi input dengan menggunakan fungsi logistik (sigmoid):
MLE mencoba berbagai kombinasi dan , dan untuk setiap kombinasi, tanyakan: Seberapa besar kemungkinan kita akan melihat hasil yang sebenarnya pada data kita, dengan semua parameter ini?
Ini didapat dengan menggunakan fungsi kemungkinan, yang mengalikan probabilitas yang diprediksi untuk setiap titik data:
- Jika =1 (“disetujui”), kami ingin probabilitas model yang diprediksi sedekat 1. Bagian mengatasi hal ini. Jika data diamati aktual dari y1 sebenarnya “disetujui” atau 1, bagian ini akan menjadi 1.
- Jika =0, kita ingin probabilitas yang diprediksi mendekati 0. Bagian mengatasi kasus ini. Jika data diamati aktual adalah “tidak disetujui”, atau 0, nilainya akan akan mendekati 0, oleh karena itu akan mendekati 1.
Jadi untuk setiap titik data, kita kalikan ATAU , tergantung pada apakah label aktual adalah 1 atau 0. Hasil perkalian dari semua contoh memberi kita satu angka: kemungkinan melihat seluruh kumpulan data di bawah model saat ini. Seperti yang bisa kita lihat, jika hasil yang diprediksi (menggunakan parameter dan ) sesuai dengan data yang diamati, nilai kemungkinan akan dimaksimalkan. Alasan di balik mengalikan semua probabilitas secara bersamaan adalah karena kami mengasumsikan hasil yang independen satu sama lain. Dengan kata lain, kesempatan satu orang untuk mendapatkan persetujuan seharusnya tidak memengaruhi kesempatan orang lain untuk mendapatkan persetujuan.
Karena hasil perkalian ini bisa menjadi sangat kecil, kami biasanya menggunakan log-likelihood, yang mengubahnya menjadi sebuah jumlah dan lebih mudah untuk dihitung dan dioptimalkan.
Untuk menemukan nilai dari dan yang memaksimalkan log-likelihood, kami menggunakan gradient descent—algoritma pengoptimalan berulang. Pada setiap langkah, kami menghitung bagaimana log-likelihood berubah sehubungan dengan setiap parameter (misalnya, gradiennya), dan kemudian agak memperbarui parameter ke arah yang meningkatkan kemungkinan. Seiring waktu, proses ini menyatu menuju nilai dan yang paling sesuai dengan data.