Dalam era modern gen AI, kami melihat para praktisi membangun model machine learning (ML) dari regresi linier sederhana hingga neural networks yang kompleks dan canggih, serta model bahasa besar (LLM) generatif. Kami juga melihat ilmu data di semua bidang dan analisis data dilakukan untuk memprediksi churn pelanggan, sistem rekomendasi, dan contoh penggunaan lainnya. Namun, meskipun model machine learning (ML) mungkin terlihat seperti berjalan pada kumpulan data masif dan algoritma yang efisien, di balik layar mereka sebetulnya pada dasarnya adalah proses statistika.

Machine learning dibangun di atas teknik statistik dan alat matematika—termasuk metode Bayesian, aljabar linier, dan strategi validasi—yang memberikan struktur dan ketelitian pada proses. Baik Anda sedang membangun pengklasifikasi nonlinier, menyetel sistem pemberi rekomendasi, atau mengembangkan model generatif di Python, Anda menerapkan prinsip-prinsip inti machine learning.

Setiap kali melatih model, Anda memperkirakan parameter dari data. Ketika Anda mengujinya, Anda bertanya: apakah pola ini nyata atau hanya ketidakakuratan acak? Bagaimana kita bisa mengukur kesalahan dengan menggunakan metrik evaluasi? Ini adalah pertanyaan statistik. Proses pengujian statistik membantu kita menanamkan keyakinan dalam membangun dan menafsirkan metrik model. Memahami prasyarat ini bukan hanya merupakan dasar, tetapi juga penting untuk membangun sistem AI yang kuat dan dapat ditafsirkan berdasarkan ilmu komputer dan penalaran matematika.

Artikel ini membongkar pilar statistik di balik ML modern, tidak hanya untuk memperjelas unsur matematikanya, tetapi untuk membekali Anda dengan model mental yang diperlukan untuk membangun, melakukan debug, dan menafsirkan sistem machine learning dengan percaya diri.

Kita akan membahas enam konsep yang saling terkait:

1. Statistika: Pada dasarnya, apa itu statistika dan bagaimana ilmu ini digunakan dalam AI modern?

2. Probabilitas: Bagaimana kita mengukur ketidakpastian dalam data?

3. Distribusi: Bagaimana cara memodelkan perilaku data?