Pemodelan menggunakan machine learning ada karena ketidakpastian. Jika kita dapat memetakan input ke output dengan sempurna, kita tidak akan membutuhkan model. Tetapi data dunia nyata berantakan, tidak lengkap, dan tidak akurat, jadi kita memodelkan kemungkinan, bukan kepastian. Mempelajari probabilitas merupakan dasar dari segala hal yang menyangkut machine learning dan kecerdasan buatan (AI). Teori dalam probabilitas memungkinkan kita untuk memahami data yang kita gunakan untuk memodelkan dengan cara yang indah dan elegan. Ini memainkan peran penting dalam pemodelan ketidakpastian dalam prediksi model ML. Teori ini membantu kita mengukur kemungkinan, probabilitas, dan kepastian untuk model statistik sehingga kita dapat dengan yakin mengukur model hasil yang kita buat. Menyelami dunia probabilitas dan mempelajari dasar-dasarnya akan membantu memastikan bahwa Anda memahami dasar dari semua model pembelajaran statistik dan bagaimana prediksi mereka dihasilkan. Anda akan belajar bagaimana kita dapat membuat inferensi dan menghasilkan hasil probabilistik.
Untuk mempelajari distribusi populer dan memodelkan data Anda dengan yakin, mari kita bahas dasar-dasarnya dan mengklarifikasi beberapa istilah.
Variabel acak: Representasi numerik dari hasil fenomena acak. Ini adalah variabel yang nilai mungkinnya adalah hasil numerik dari proses acak.
Variabel acak diskret: Variabel acak yang dapat berupa jumlah nilai berbeda yang terbatas atau tak terbatas dapat dihitung. Misalnya, hasil lemparan koin (Kepala = 1, Ekor = 0), atau jumlah email spam yang diterima dalam satu jam.
Variabel acak kontinu: Variabel acak yang dapat berupa nilai apa pun dalam rentang tertentu. Misalnya, ketinggian seseorang, suhu di dalam ruangan, atau jumlah curah hujan.
Peristiwa: Kumpulan satu atau lebih hasil dari proses acak. Misalnya, mendapatkan angka genap saat melemparkan dadu (hasil: 2, 4, 6) atau atrisi pelanggan.
Hasil: Satu kemungkinan hasil dari percobaan acak. Misalnya, membalik koin menghasilkan "Kepala" atau "Ekor."
Kemungkinan : Ukuran numerik dari kemungkinan suatu peristiwa akan terjadi, mulai dari 0 (tidak mungkin) hingga 1 (pasti).
Probabilitas bersyarat : Probabilitas peristiwa terjadi, mengingat peristiwa tersebut telah terjadi. Langkah ini sangat penting dalam ML, karena kita sering ingin memprediksi hasil yang diberikan fitur tertentu.
Probabilitas adalah ukuran seberapa besar kemungkinan suatu peristiwa akan terjadi, dari 0 (tidak mungkin) hingga 1 (pasti).
Dalam machine learning, probabilitas sering berbentuk probabilitas bersyarat
Contoh: Model regresi logistik mungkin menyatakan
> “Mengingat usia = 45, pendapatan = USD 60K, dan riwayat sebelumnya,
> probabilitas churn adalah 0,82.”
Contoh ini tidak berarti bahwa pelanggan akan berhenti—ini adalah keyakinan berdasarkan pola statistik dalam data pelatihan.
Dalam era modern gen AI, model probabilistik seperti regresi logistik memainkan peran sangat besar dalam menentukan hasil dan output dari suatu model. Peran ini sering berupa fungsi aktivasi di lapisan neural networks.