Tren AI terbaru, dipersembahkan oleh para pakar
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Dalam era modern gen AI, kami melihat para praktisi membangun model machine learning (ML) dari regresi linier sederhana hingga neural networks yang kompleks dan canggih, serta model bahasa besar (LLM) generatif. Kami juga melihat ilmu data di semua bidang dan analisis data dilakukan untuk memprediksi churn pelanggan, sistem rekomendasi, dan contoh penggunaan lainnya. Namun, meskipun model machine learning (ML) mungkin terlihat seperti berjalan pada kumpulan data masif dan algoritma yang efisien, di balik layar mereka sebetulnya pada dasarnya adalah proses statistika.
Machine learning dibangun di atas teknik statistik dan alat matematika—termasuk metode Bayesian, aljabar linier, dan strategi validasi—yang memberikan struktur dan ketelitian pada proses. Baik Anda sedang membangun pengklasifikasi nonlinier, menyetel sistem pemberi rekomendasi, atau mengembangkan model generatif di Python, Anda menerapkan prinsip-prinsip inti machine learning.
Setiap kali melatih model, Anda memperkirakan parameter dari data. Ketika Anda mengujinya, Anda bertanya: apakah pola ini nyata atau hanya ketidakakuratan acak? Bagaimana kita bisa mengukur kesalahan dengan menggunakan metrik evaluasi? Ini adalah pertanyaan statistik. Proses pengujian statistik membantu kita menanamkan keyakinan dalam membangun dan menafsirkan metrik model. Memahami prasyarat ini bukan hanya merupakan dasar, tetapi juga penting untuk membangun sistem AI yang kuat dan dapat ditafsirkan berdasarkan ilmu komputer dan penalaran matematika.
Artikel ini membongkar pilar statistik di balik ML modern, tidak hanya untuk memperjelas unsur matematikanya, tetapi untuk membekali Anda dengan model mental yang diperlukan untuk membangun, melakukan debug, dan menafsirkan sistem machine learning dengan percaya diri.
Kita akan membahas enam konsep yang saling terkait:
1. Statistika: Pada dasarnya, apa itu statistika dan bagaimana ilmu ini digunakan dalam AI modern?
2. Probabilitas: Bagaimana kita mengukur ketidakpastian dalam data?
3. Distribusi: Bagaimana cara memodelkan perilaku data?
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Statistika adalah ilmu mengekstrak insight dari data. Ilmu ini mengatur, menganalisis, dan menafsirkan informasi untuk mengungkap pola dan membuat keputusan di bawah ketidakpastian. Dalam konteks ilmu data dan algoritma machine learning, statistika memberikan dasar matematika untuk memahami perilaku data, memandu pilihan model, dan mengevaluasi hasil. Ilmu ini mengubah kumpulan data yang berantakan dan tidak akurat menjadi intelijen yang dapat ditindaklanjuti.
Machine learning modern dibangun di atas metode statistika. Baik Anda menerapkan pembelajaran diawasi (misalnya, regresi atau klasifikasi), pembelajaran tanpa pengawasan (misalnya, pengelompokan) atau pembelajaran penguatan, Anda menggunakan alat yang mengakar dalam inferensi statistik. Statistika memungkinkan kita untuk mengukur ketidakpastian, menggeneralisasi dari sampel, dan menarik kesimpulan tentang populasi yang lebih luas—semuanya penting untuk membangun sistem kecerdasan buatan (AI) tepercaya.
Sebelum model pelatihan, kita melakukan analisis data eksplorasi (EDA)—proses yang bergantung pada statistika deskriptif untuk meringkas karakteristik utama data. Ringkasan ini memberi tahu kita tentang kecenderungan tengah dan variabilitas setiap fitur, membantu mengidentifikasi outlier, masalah kualitas data, dan kebutuhan prapemrosesan. Memahami semua sifat ini merupakan prasyarat untuk membangun model yang efektif dan memilih algoritma machine learning yang sesuai.
Rata-rata nilai aritmetika. Umum digunakan dalam mengukur sentralitas dan fungsi kesalahan seperti rata-rata kuadrat kesalahan (MSE).
Contoh: Jika nilai pembelian pelanggan meningkat, rata-rata mendeteksi pergeseran perilaku.
Nilai tengah saat data disortir. Lebih kuat terhadap outlier daripada rata-rata.
Contoh: Dalam data pendapatan, median mencerminkan kasus “umum” lebih baik dengan adanya kekayaan yang miring.
Nilai yang paling sering terjadi. Berguna untuk fitur kategoris atau pemungutan suara mayoritas (seperti dalam beberapa metode ensambel).
Contoh: Menemukan browser yang paling umum digunakan oleh pengunjung situs.
Mengukur sejauh apa nilai tersebar dari rata-rata. SD yang rendah menyiratkan bahwa titik data dikelompokkan di dekat rata-rata, sedangkan SD tinggi menunjukkan variabilitas yang lebih besar.
Contoh: Dalam validasi model, fitur dengan varians yang tinggi mungkin memerlukan normalisasi untuk menghindari mengalahkan fitur lain dalam algoritma berbasis jarak seperti k-nearest neighbor.
Rentang antara persentil ke-75 dan ke-25 (Q3 - Q1). Ini menangkap 50% pertengahan data dan berguna untuk mendeteksi outlier.
Contoh: Dalam tugas segmentasi pelanggan, IQR yang tinggi dalam pengeluaran mungkin menunjukkan perilaku yang tidak konsisten di seluruh subkelompok.
Menunjukkan asimetri suatu distribusi. Kemiringan positif berarti ekor kanan yang lebih panjang, sedangkan kemiringan negatif berarti ekor kiri yang lebih panjang. Fitur miring mungkin melanggar asumsi model linier atau meningkatkan metrik berbasis rata-rata.
Contoh: Distribusi miring ke kanan (seperti pendapatan) mungkin memerlukan transformasi log sebelum menerapkan regresi linier.
Menjelaskan “keruncingan” distribusi, yaitu seberapa besar kemungkinan nilai-nilai ekstrem. Kurtosis tinggi menyiratkan outlier yang lebih sering, sedangkan kurtosis rendah berarti distribusi yang lebih rata.
Contoh: Dalam deteksi penipuan, kurtosis yang tinggi dalam jumlah transaksi mungkin menandakan pola pengeluaran yang tidak normal.
Langkah-langkah ini juga memandu keputusan prapemrosesan seperti normalisasi, standardisasi, atau imputasi, dan memengaruhi cara kita merekayasa berbagai fitur baru.
Selama EDA, statistik deskriptif membantu kita:
Memahami data dengan statistik juga membantu menyiapkan model untuk menangani kumpulan data besar, mengevaluasi metrik model, dan mengurangi risiko seperti overfitting. Misalnya, ringkasan deskriptif mungkin mengungkapkan kelas yang tidak seimbang atau skala fitur yang memerlukan normalisasi—keduanya memengaruhi kinerja dan keadilan model.
Pemodelan menggunakan machine learning ada karena ketidakpastian. Jika kita dapat memetakan input ke output dengan sempurna, kita tidak akan membutuhkan model. Tetapi data dunia nyata berantakan, tidak lengkap, dan tidak akurat, jadi kita memodelkan kemungkinan, bukan kepastian. Mempelajari probabilitas merupakan dasar dari segala hal yang menyangkut machine learning dan kecerdasan buatan (AI). Teori dalam probabilitas memungkinkan kita untuk memahami data yang kita gunakan untuk memodelkan dengan cara yang indah dan elegan. Ini memainkan peran penting dalam pemodelan ketidakpastian dalam prediksi model ML. Teori ini membantu kita mengukur kemungkinan, probabilitas, dan kepastian untuk model statistik sehingga kita dapat dengan yakin mengukur model hasil yang kita buat. Menyelami dunia probabilitas dan mempelajari dasar-dasarnya akan membantu memastikan bahwa Anda memahami dasar dari semua model pembelajaran statistik dan bagaimana prediksi mereka dihasilkan. Anda akan belajar bagaimana kita dapat membuat inferensi dan menghasilkan hasil probabilistik.
Untuk mempelajari distribusi populer dan memodelkan data Anda dengan yakin, mari kita bahas dasar-dasarnya dan mengklarifikasi beberapa istilah.
Variabel acak: Representasi numerik dari hasil fenomena acak. Ini adalah variabel yang nilai mungkinnya adalah hasil numerik dari proses acak.
Variabel acak diskret: Variabel acak yang dapat berupa jumlah nilai berbeda yang terbatas atau tak terbatas dapat dihitung. Misalnya, hasil lemparan koin (Kepala = 1, Ekor = 0), atau jumlah email spam yang diterima dalam satu jam.
Variabel acak kontinu: Variabel acak yang dapat berupa nilai apa pun dalam rentang tertentu. Misalnya, ketinggian seseorang, suhu di dalam ruangan, atau jumlah curah hujan.
Peristiwa: Kumpulan satu atau lebih hasil dari proses acak. Misalnya, mendapatkan angka genap saat melemparkan dadu (hasil: 2, 4, 6) atau atrisi pelanggan.
Hasil: Satu kemungkinan hasil dari percobaan acak. Misalnya, membalik koin menghasilkan "Kepala" atau "Ekor."
Kemungkinan : Ukuran numerik dari kemungkinan suatu peristiwa akan terjadi, mulai dari 0 (tidak mungkin) hingga 1 (pasti).
Probabilitas bersyarat : Probabilitas peristiwa terjadi, mengingat peristiwa tersebut telah terjadi. Langkah ini sangat penting dalam ML, karena kita sering ingin memprediksi hasil yang diberikan fitur tertentu.
Probabilitas adalah ukuran seberapa besar kemungkinan suatu peristiwa akan terjadi, dari 0 (tidak mungkin) hingga 1 (pasti).
Dalam machine learning, probabilitas sering berbentuk probabilitas bersyarat
Contoh: Model regresi logistik mungkin menyatakan
> “Mengingat usia = 45, pendapatan = USD 60K, dan riwayat sebelumnya,
> probabilitas churn adalah 0,82.”
Contoh ini tidak berarti bahwa pelanggan akan berhenti—ini adalah keyakinan berdasarkan pola statistik dalam data pelatihan.
Dalam era modern gen AI, model probabilistik seperti regresi logistik memainkan peran sangat besar dalam menentukan hasil dan output dari suatu model. Peran ini sering berupa fungsi aktivasi di lapisan neural networks.
Distribusi probabilitas adalah fungsi matematika yang menggambarkan nilai dan kemungkinan yang mungkin terjadi pada variabel acak dalam rentang tertentu. Memahami distribusi sangat penting dalam ML karena data jarang sekali tersedia sebagai titik-titik tunggal yang terisolasi; data memiliki struktur dan "bentuk." Beberapa terminologi yang perlu kita tentukan adalah:
Membuat asumsi yang tepat tentang distribusi data Anda sangat penting—banyak algoritma machine learning mengandalkan asumsi ini untuk pemilihan maupun penafsiran model. Asumsi yang salah dapat menyebabkan perkiraan yang bias, fungsi kesalahan yang tidak selaras, dan pada akhirnya generalisasi yang buruk atau kesimpulan yang tidak valid dalam aplikasi dunia nyata.
Distribusi probabilitas mendukung:
Distribusi Bernoulli memodelkan probabilitas keberhasilan atau kegagalan dalam satu percobaan peristiwa acak diskret. Artinya, ia hanya memiliki dua hasil: 1 (keberhasilan) atau 0 (kegagalan). Ini adalah jenis distribusi paling sederhana yang digunakan dalam statistika, namun menjadi dasar dari banyak masalah klasifikasi dalam machine learning. Sebagai contoh, jika Anda melempar koin sebanyak 10 kali dan mendapatkan 7 kepala (sukses) dan 3 ekor (gagal), grafik fungsi massa probabilitas (PMF) adalah:
Lemparan koin adalah uji coba Bernoulli klasik. Mari kita terapkan fungsi massa probabilitas ke contoh lemparan koin
- Jadikan variabel acak yang menunjukkan hasil dari satu lemparan
- Jika kepala dianggap keberhasilan, kita tetapkan untuk kepala dan untuk ekor
- Jika koin adil, probabilitas kepala adalah
Fungsi massa probabilitas (PMF) dari distribusi Bernoulli adalah:
Di mana:
Memahami PMF Bernoulli penting karena membentuk fondasi probabilistik dari banyak model klasifikasi. Khususnya regresi yang tidak hanya menghasilkan label kelas sebagai output, tetapi memperkirakan probabilitas bahwa suatu input tertentu termasuk dalam kelas 1. Prediksi probabilitas ini ditafsirkan sebagai parameter 𝑝 dalam distribusi Bernoulli:
Fungsi logistik (sigmoid) yang digunakan dalam regresi logistik memastikan bahwa nilai prediksi berada dalam kisaran [0,1], menjadikannya probabilitas Bernoulli yang valid. Model ini dilatih untuk memaksimalkan kemungkinan mengamati hasil biner sejati dengan asumsi bahwa setiap nilai target diambil dari distribusi Bernoulli dengan probabilitas 𝑝 yang diprediksi dari fitur 𝑋. Dalam kasus ini, karena ingin meminimalkan kesalahan pelatihan, kita mengadopsi pendekatan estimasi kemungkinan maksimum (MLE) untuk memaksimalkan kemungkinan suatu hasil, mengingat data yang diberikan. Biasanya, untuk distribusi diskret seperti Bernoulli, kita mengubah probabilitas menjadi kemungkinan untuk manipulasi yang lebih mudah. Kemungkinan tidak proporsional, seperti peluang, sehingga kita biasanya menerapkan transformasi log—dikenal sebagai log-kemungkinan, dan fungsi kesalahan sebagai log-kesalahan. Jika bagian ini terdengar agak membingungkan, Anda dapat mengunjungi penjelas regresi logistik yang disebutkan sebelumnya untuk derivasi langkah demi langkah dari fungsi log-kemungkinan menggunakan MLE. Hubungan ini memberikan landasan statistik untuk menafsirkan output sebagai perkiraan probabilistik. Aplikasi lain meliputi:
Distribusi normal menggambarkan variabel acak kontinu yang nilainya cenderung mengelompok di sekitar rata-rata pusat, dengan variabilitas simetris di kedua arah. Pola ini ada di mana-mana dalam statistika karena banyak fenomena alam (tinggi badan, nilai tes, kesalahan pengukuran) mengikuti pola ini, terutama jika digabungkan di seluruh sampel.
Bayangkan Anda mencatat ketinggian 1.000 orang dewasa. Merencanakan data ini akan mengungkapkan kurva berbentuk lonceng: kebanyakan orang mendekati rata-rata dan lebih sedikit orang berada pada titik ekstrem. Bentuk ini ditangkap oleh fungsi kerapatan probabilitas (PDF) dari distribusi normal:
Di mana:
Inti dari setiap sistem machine learning adalah fondasi statistik, sebuah penopang tak terlihat yang mendukung segala hal, mulai dari desain model hingga penafsiran. Kita mulai dengan menjelajahi apa sebenarnya statistika itu: bukan hanya sebuah cabang matematika, tetapi juga sebuah bahasa untuk memahami ketidakpastian dan mengekstrak makna dari data. Statistik deskriptif memberikan lensa pertama yang kita gunakan untuk memeriksa dan meringkas kompleksitas dunia, memberikan kejelasan bahkan sebelum pemodelan dimulai.
Selanjutnya, kita terjun ke probabilitas, kumpulan alat formal untuk penalaran di bawah ketidakpastian. Dalam machine learning, probabilitas membantu kita mengukur seberapa besar kemungkinan suatu hasil, sehingga model dapat mengekspresikan keyakinan, bukan hanya prediksi sulit. Baik kemungkinan pelanggan berhenti atau kemungkinan label dalam klasifikasi, teori probabilitas mengubah data mentah menjadi insight yang dapat ditafsirkan.
Terakhir, kita menjelajahi distribusi, yang menentukan bagaimana data berperilaku di berbagai skenario. Dari hasil biner pemodelan distribusi Bernoulli diskret hingga distribusi Gaussian berkelanjutan, membentuk asumsi kita dalam model regresi dan generatif—memahami distribusi ini sangat penting. Mereka mendukung data yang kami amati dan algoritma yang kita buat, memandu pilihan model, membentuk fungsi kesalahan, dan memungkinkan pembuatan kesimpulan yang berarti.
Dalam algoritma machine learning modern, mulai dari regresi logistik dan naive Bayes hingga metode pembelajaran mendalam dan kernel, semua prinsip statistik ini bukanlah tambahan opsional, mereka adalah mekanisme utama dari machine learning. Mereka membantu kita bernalar tentang ketidakpastian, mengoptimalkan kinerja, dan menggeneralisasi dari pengamatan terbatas ke pengambilan keputusan di dunia nyata. Dengan menguasai dasar-dasar ini, Anda tidak hanya belajar menggunakan machine learning; Anda belajar memahami, membangun, dan menarik kesimpulan darinya.
Bahkan dalam era AI generatif dan model pembelajaran mendalam skala besar, statistika tetap lebih relevan dari sebelumnya. Di balik setiap lapisan transformator dan langkah difusi terdapat fondasi yang dibangun di atas probabilitas, estimasi, dan asumsi distribusi. Memahami konsep seperti kompromi bias-varians dan ketidakpastian tidak hanya bersifat akademis—ini penting untuk menafsirkan model kotak hitam, mendiagnosis mode kegagalan, dan membangun AI yang bertanggung jawab dan dapat dijelaskan. Baik Anda menyempurnakan model dasar, menerapkan teknik Bayesian untuk kuantifikasi ketidakpastian atau mengevaluasi output generatif, penalaran statistik membekali Anda dengan alat untuk mengatasi kompleksitas dengan kejelasan. Ketika gen AI tumbuh lebih kuat, mendasarkan praktik Anda dalam dasar-dasar statistik akan memastikan bahwa model Anda tidak hanya tetap canggih, tetapi juga dibangun berdasarkan prinsip dan dapat dipercaya.
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.