Istilah “algoritma” dan “model” sering digunakan secara bergantian, tetapi mewakili konsep yang berbeda (meskipun terkait). Algoritma adalah istilah umum untuk proses langkah demi langkah, biasanya dijelaskan dalam bahasa matematika atau pseudocode, untuk melakukan beberapa fungsi atau tujuan. Dalam konteks kecerdasan buatan, model AI adalah program apa pun yang menerima data input dan mengeluarkan prediksi atau keputusan tanpa campur tangan manusia lebih lanjut.
Algoritma machine learning adalah serangkaian langkah yang ditetapkan yang digunakan untuk melatih model machine learning sehingga dapat membuat prediksi yang berguna dalam contoh penggunaan di dunia nyata. Ini tidak hanya terdiri dari cara model memetakan titik data input ke output yang sesuai, tetapi juga proses mengoptimalkan prediksi model untuk “menyesuaikan” dengan kumpulan data pelatihan dari contoh yang relevan. Ini adalah algoritma yang memungkinkan mesin untuk belajar dari data.
Secara sederhana, hasil dari penerapan algoritma machine learning ke kumpulan data adalah model yang terlatih. “Pelatihan” dapat dipahami sebagai proses berulang untuk memperbarui parameter model—aspek yang dapat disesuaikan dari logika matematis yang digunakan model untuk membuat prediksi atau keputusan tentang data input—dengan cara yang menghasilkan output yang lebih berguna.
Meskipun ada algoritma machine learning (ML) yang dirancang secara eksplisit untuk model pelatihan untuk melakukan satu tugas tertentu, itu hanyalah pengecualian dan bukan aturan. Secara umum, setiap algoritma ML memiliki kualitas matematis atau praktis tertentu yang berguna untuk jenis tugas tertentu (atau jenis atau jumlah data tertentu). Dalam banyak kasus, teknik machine learning yang sama dapat digunakan untuk melatih model untuk beberapa tugas (meskipun serupa). Sebaliknya, hampir selalu ada beberapa algoritma ML yang cocok untuk melatih model untuk tugas tertentu.
Manfaat utama dari algoritma ML adalah bahwa mereka memungkinkan model AI untuk belajar secara implisit dari pengalaman. Ini berbeda dengan teknik AI “klasik” atau “berbasis aturan”, yang membutuhkan ilmuwan data, pakar ahli, atau insinyur ML untuk memprogram logika pengambilan keputusan model secara manual dan eksplisit. Selama beberapa dekade terakhir, sistem machine learning telah muncul sebagai mode dominan kecerdasan buatan dan analisis data dibandingkan AI berbasis aturan karena, di antara alasan lainnya, machine learning yang berbasis data implisit secara inheren lebih fleksibel, dapat diskalakan, dan dapat diakses.
Karena itu, penting untuk dicatat bahwa menyesuaikan model dengan data pelatihannya hanyalah sarana untuk mencapai tujuan. Premis mendasar machine learning adalah bahwa jika Anda mengoptimalkan kinerja model pada tugas sampel yang cukup menyerupai masalah dunia nyata yang akan digunakan, model terlatih juga akan berkinerja baik pada data baru yang belum dilihatnya dalam pelatihan. Tujuan akhir dari machine learning adalah generalisasi, yaitu menerjemahkan kinerja pada data pelatihan ke data baru yang belum pernah dilihat sebelumnya. Sudut pandang sempit pada pelatihan itu sendiri berisiko overfitting, sebuah fenomena di mana pengetahuan model sangat disesuaikan dengan pola dalam data pelatihannya sehingga model tidak dapat membuat generalisasi, menghasilkan model yang unggul dalam pelatihan tetapi gagal dalam skenario dunia nyata.
Oleh karena itu, melatih model machine learning yang berguna tidak hanya memerlukan pemilihan dan konfigurasi jenis algoritma ML yang sesuai, tetapi juga kurasi data pelatihan yang tepat dan validasi kinerja setelah pelatihan yang penuh pertimbangan.