Pemilihan Model dalam Machine Learning

Penyusun

Staff writer

Staff Editor, AI Models

IBM Think

Apa itu pemilihan model dalam machine learning?

Pemilihan model dalam machine learning adalah proses memilih model machine learning (model ML) yang paling tepat untuk tugas yang dipilih. Model yang dipilih biasanya adalah model yang paling baik dalam generalisasi terhadap data yang belum pernah dilihat sebelumnya sambil memenuhi metrik kinerja model yang relevan dengan paling sukses.

Proses seleksi model ML adalah perbandingan model yang berbeda dari kumpulan kandidat. Spesialis machine learning mengevaluasi kinerja setiap model ML, kemudian memilih model terbaik berdasarkan serangkaian metrik evaluasi.

Inti dari sebagian besar tugas machine learning adalah tantangan untuk mengenali pola dalam data, kemudian membuat prediksi pada data baru berdasarkan pola tersebut. Memilih model prediktif berkinerja terbaik mengarah pada prediksi yang lebih akurat dan aplikasi ML yang lebih andal.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Mengapa pemilihan model itu penting?

Model AI penting karena menentukan seberapa baik machine learning sistem akan bekerja. Model yang berbeda masing-masing memiliki kekuatan dan kelemahan, dan memilih yang tepat secara langsung mempengaruhi keberhasilan proyek. Pemilihan model adalah tahap awal dalam pipeline machine learning yang lebih besar untuk membuat dan menerapkan model ML.

Beberapa tugas membutuhkan model kompleks yang dapat menangkap detail dari kumpulan data, tetapi sulit untuk melakukan generalisasi terhadap data baru. Model ini mungkin juga memerlukan komputasi dan sumber daya yang lebih tinggi. Tugas lain lebih baik untuk model yang lebih kecil dan sederhana yang dirancang untuk satu tujuan tertentu.

Memilih model yang tepat untuk pekerjaan dapat:

Mengoptimalkan efisiensi: Kandidat model yang paling unggul di antara semua kandidat model akan menyeimbangkan kompromi antara kinerja dan kemampuan melakukan generalisasi dengan kompleksitas dan penggunaan sumber daya.
Memaksimalkan kinerja model: Keefektifan sebuah alat bergantung pada kesesuaian penggunaannya. Pengujian dan evaluasi kandidat model mengungkapkan model yang paling optimal untuk tugas tersebut, memberikan aplikasi AI peluang terbaik untuk kebergunaannya di dunia nyata.
Mendorong keberhasilan proyek: Kompleksitas model secara langsung memengaruhi waktu pelatihan dan kebutuhan sumber daya serta hasil. Model prediktif bervariasi dari yang sederhana hingga yang kompleks. Model yang lebih sederhana lebih cepat dan lebih murah untuk dilatih, sedangkan model kompleks membutuhkan lebih banyak data, uang, dan waktu.

Akademi AI

Menjadi pakar AI

Raih pengetahuan demi memprioritaskan investasi AI yang mendorong pertumbuhan bisnis. Mulai dengan Akademi AI gratis kami hari ini dan pimpin masa depan AI di organisasi Anda.

Tonton serialnya

Proses pemilihan model

Proses pemilihan model dirancang untuk menghasilkan model yang sesuai dengan contoh penggunaan target. Spesialis machine learning menguraikan masalah, memilih dari jenis model yang mungkin berkinerja baik dan akhirnya melatih dan menguji model kandidat untuk mengidentifikasi pilihan keseluruhan terbaik.

Tahapan proses pemilihan model biasanya meliputi:

Menetapkan tantangan ML
Memilih kandidat model
Menentukan metrik evaluasi model
Pelatihan dan evaluasi model

Menetapkan tantangan ML

Bergantung pada sifat tugas, beberapa algoritme machine learning adalah pilihan yang lebih baik daripada yang lain. Tantangan ML biasanya terbagi ke dalam tiga kategori:

Tugas masalah regresi melakukan pemodelan dengan mengidentifikasi hubungan antara fitur input dan variabel output berkelanjutan yang dipilih, seperti harga. Contoh masalah regresi meliputi prediksi tolok ukur gaji atau kemungkinan bencana alam berdasarkan kondisi cuaca. Prediksi model didasarkan pada fitur input yang relevan, seperti waktu dalam setahun atau informasi demografis. Perkiraan deret waktu adalah jenis tantangan regresi yang memprediksi nilai suatu variabel dari waktu ke waktu. Model deret waktu adalah kelas model dengan efisiensi komputasi yang khusus menangani tantangan ini.
Masalah klasifikasi menyortir titik data menjadi berbagai kategori berdasarkan sekumpulan variabel input. Contoh masalah klasifikasi termasuk pengenalan objek dan filter spam email. Kumpulan pelatihan dapat mencakup titik data dengan output berlabel sehingga model dapat mempelajari hubungan antara input dan output. Praktik ini dikenal sebagai pembelajaran diawasi.
Masalah pengelompokan menggabungkan titik-titik data berdasarkan kemiripan. Pengelompokan tidak sama persis dengan klasifikasi, karena tujuannya adalah untuk menemukan kelompok-kelompok di dalam titik data, bukan menggabungkan titik data ke dalam kategori yang sudah diketahui. Model harus membedakan kesamaan itu sendiri dalam lingkungan pembelajaran tanpa pengawasan. Segmentasi pasar adalah contoh tantangan pengelompokan.

Menentukan metrik evaluasi model

Proses pengujian membandingkan model kandidat dan menilai kinerja mereka terhadap serangkaian metrik evaluasi yang telah dipilih sebelumnya. Meskipun banyak metrik ada, beberapa lebih baik untuk jenis tantangan ML tertentu daripada yang lain.

Metrik evaluasi model untuk klasifikasi meliputi:

Akurasi: persentase prediksi yang benar dari total prediksi yang dibuat.
Presisi: rasio prediksi positif yang benar di antara semua prediksi positif, mengukur keakuratan prediksi positif.
Recall: rasio prediksi positif yang benar di antara semua contoh positif yang sebenarnya, mengukur kecakapan model dalam mengidentifikasi contoh positif.
Skor F1: menggabungkan presisi dan recall untuk melihat kemampuan model secara keseluruhan dalam mengenali dan mengklasifikasikan contoh positif dengan benar.
Matriks kebingungan: meringkas kinerja model pengklasifikasi dengan menampilkan positif sejati, positif palsu, negatif sejati, dan negatif palsu dalam sebuah tabel.
AUC-ROC: grafik yang memplot tingkat positif asli dan positif palsu sebagai kurva karakteristik operasi penerima (ROC). Area di bawah kurva (AUC) menunjukkan kinerja model.

Metrik evaluasi regresi meliputi:

Rata-rata kuadrat kesalahan (MSE): rata-rata selisih antara kuadrat dari selisih antara nilai prediksi dan nilai aktual. MSE sangat sensitif terhadap outlier dan sangat menghukum kesalahan besar.
Akar rata-rata kuadrat kesalahan (RMSE): akar kuadrat dari MSE, menampilkan tingkat kesalahan dalam unit yang sama dengan variabel dan meningkatkan kemampuan interpretasi metrik. MSE menampilkan kesalahan yang sama dalam satuan kuadrat.
Rata-rata kesalahan absolut (MAE): rata-rata selisih antara nilai aktual dan nilai yang ditampilkan untuk variabel target. MAE kurang sensitif dibandingkan MSE.
Rata-rata kesalahan persentase absolut (MAPE): menyampaikan rata-rata kesalahan absolut dalam bentuk persentase, bukan dalam unit variabel yang diprediksi, sehingga lebih mudah untuk membandingkan model.
R kuadrat: memberikan pengukuran tolok ukur kinerja model antara 0 dan 1. Namun, nilai R kuadrat dapat ditingkatkan secara tidak alami dengan penambahan lebih banyak fitur.
R-kuadrat yang disesuaikan: mencerminkan kontribusi fitur yang meningkatkan kinerja model sambil mengabaikan fitur yang tidak relevan.

Pelatihan dan evaluasi model

Ilmuwan data mempersiapkan pelatihan dan evaluasi model dengan membagi data yang tersedia menjadi beberapa kumpulan. Kumpulan data pelatihan digunakan untuk pelatihan model, di mana kandidat model belajar untuk mengenali pola dan hubungan dalam titik-titik data. Kemudian, kinerja model diperiksa dengan bagian yang berbeda dari kumpulan data.

Bentuk pengujian yang paling sederhana dan cepat adalah pembagian data pelatihan dan pengujian. Ilmuwan data membagi kumpulan data menjadi dua bagian, satu untuk pelatihan dan satu untuk pengujian. Model tersebut tidak diuji pada set data uji hingga setelah proses pelatihan selesai—set data uji berfungsi sebagai pengganti data baru yang belum pernah dilihat yang akan diproses oleh model dalam dunia nyata.

Teknik pemilihan model

Pembuat model memiliki akses ke berbagai teknik pemilihan model. Beberapa berkaitan dengan pengaturan awal dan arsitektur model, pada gilirannya mempengaruhi perilakunya. Yang lain memberikan evaluasi model yang lebih bernuansa dan ketat atau memprediksi bagaimana kinerja model pada kumpulan data tertentu.

Teknik pemilihan model meliputi:

Penyetelan hyperparameter
Validasi silang
Bootstrapping
Kriteria informasi

Penyetelan hiperparameter

Penyetelan hiperparameter adalah proses mengoptimalkan hiperparameter model, yang merupakan pengaturan eksternal yang menentukan struktur dan perilaku model. Model juga memiliki parameter internal yang diperbarui secara real time selama pelatihan. Parameter internal mengatur bagaimana model memproses data. Model yang kompleks, seperti yang digunakan untuk AI generatif (gen AI), dapat memiliki lebih dari satu triliun parameter.

Penyetelan hiperparameter tidak sama dengan fine-tuning yaitu ketika model dilatih lebih lanjut atau disesuaikan setelah tahap pelatihan awal (dikenal sebagai pra-pelatihan).

Beberapa teknik penyetelan hiperparameter yang terkenal adalah:

Pencarian grid: Setiap kombinasi hiperparameter yang mungkin dilatih, diuji, dan dievaluasi. Pencarian grid dengan metode brute-force yang lengkap kemungkinan akan menemukan satu kombinasi hiperparameter terbaik. Namun, ini memakan waktu dan menggunakan banyak sumber daya.
Pencarian acak: Sampel kombinasi hiperparameter dipilih secara acak, dengan setiap sampel dalam subset digunakan untuk melatih dan menguji model. Pencarian acak merupakan alternatif dari pencarian grid ketika pencarian grid tidak memungkinkan.
Optimasi Bayesian: Model probabilistik digunakan untuk memprediksi kombinasi hiperparameter mana yang paling mungkin menghasilkan hasil model teratas. Optimasi Bayesian adalah metode berulang yang meningkat pada setiap putaran pelatihan dan pengujian, dan berfungsi baik pada ruang hiperparameter yang besar.

Validasi silang

Dalam sistem resampling validasi silang k-fold, data dibagi menjadi k set, atau lipatan. Data pelatihan terdiri dari k-1 subset, dan model divalidasi pada set yang tersisa. Proses ini berulang sehingga setiap subset berfungsi sebagai set validasi. Titik data diambil sampelnya tanpa penggantian, artinya setiap titik data muncul sekali per iterasi.

Validasi silang K-fold memberikan gambaran yang lebih komprehensif tentang kinerja suatu model dibandingkan dengan pembagian pelatihan-pengujian tunggal.

Bootstrapping

Bootstrapping adalah teknik pengambilan sampel ulang yang mirip dengan validasi silang, kecuali bahwa titik-titik data diambil sampelnya dengan penggantian. Ini berarti bahwa titik data sampel dapat muncul dalam beberapa lipatan.

Kriteria informasi

Kriteria informasi membandingkan tingkat kompleksitas model dengan peluang overfitting atau underfitting terhadap kumpulan data. Overfitting berarti model beradaptasi terlalu dekat dengan set pelatihan dan tidak dapat menggeneralisasi ke data baru. Underfitting adalah kebalikannya, di mana sebuah model tidak cukup kompleks untuk menangkap hubungan antar-titik data.

Akaike Information Criterion (AIC) dan Bayesian Information Criterion (BIC) keduanya mendorong penggunaan model dengan kompleksitas terendah yang masih mampu menangani kumpulan data dengan baik.

Faktor-faktor yang mempengaruhi pemilihan model

Kinerja model jauh dari menjadi satu-satunya faktor penentu yang membuat suatu model dianggap “terbaik.” Faktor-faktor lain dapat sama pentingnya, bahkan mungkin lebih penting, dalam pengambilan keputusan.

Kompleksitas data: Makin kompleks sebuah kumpulan data, makin kompleks pula model yang diperlukan untuk memprosesnya. Namun, menerapkan model yang terlalu rumit dapat menyebabkan overfitting. Dan model yang terlalu sederhana dapat gagal menangkap pola dalam data secara memadai. Model yang tepat akan memproses data dengan baik dan efisien sambil menghindari overfitting.
Kualitas data: Prapemrosesan data dan pemilihan fitur adalah dua proses ilmu data yang menyiapkan data untuk aplikasi machine learning. Outlier, data yang tidak ada, dan penghambat lainnya lebih memengaruhi beberapa model dibandingkan model lain, tetapi semua itu dapat diatasi dengan data sintetis, regularisasi, dan tindakan pencegahan lainnya.
Interpretabilitas: Interpretabilitas atau kemampuan menjelaskan adalah sejauh mana cara kerja model dapat dipahami oleh pengamat manusia. Model “kotak hitam” memiliki sedikit atau tidak memiliki interpretabilitas—alur kerja pengambilan keputusannya sebagian besar merupakan misteri. Dengan aplikasi bisnis yang sensitif seperti otomatisasi cerdas dan pengambilan keputusan yang didukung AI, interpretabilitas merupakan prioritas bagi organisasi yang mematuhi pedoman penggunaan AI yang bertanggung jawab. Industri tertentu seperti perawatan kesehatan dan keuangan memiliki peraturan privasi data yang ekstensif dan peraturan lainnya, yang semakin menekankan perlunya interpretabilitas yang jelas.
Efisiensi dan penggunaan sumber daya: Batasan praktis seperti ketersediaan komputasi dan keterbatasan keuangan dapat mengeliminasi beberapa model secara keseluruhan. Neural networks mendalam membutuhkan sejumlah besar data—dan uang—untuk dilatih dan dioperasikan. Meskipun menarik, model seperti itu tidak selalu tepat untuk semua pekerjaan. AIC dan BIC dapat membantu pemimpin proyek ML membuat keputusan yang tepat dan mengurangi kompleksitas model.

Seleksi LLM

LLM adalah model kecerdasan buatan inti untuk banyak aplikasi bisnis, seperti agen AI, penjawab pertanyaan yang didukung RAG, atau chatbot layanan pelanggan dengan pembuatan teks otomatis. Pemrosesan bahasa alami (NLP) adalah penggunaan algoritma machine learning untuk memahami dan menghasilkan bahasa manusia, dan LLM adalah jenis model NLP yang spesifik.

LLM yang terkenal termasuk keluarga GPT OpenAI, seperti GPT-4o dan GPT-3.5, beberapa model di balik ChatGPT, serta Claude dari Anthropic, Gemini dari Google, dan Llama 3 dari Meta. Semua LLM mampu menangani tugas-tugas yang kompleks, tetapi kebutuhan spesifik dari proyek machine learning dapat membantu menentukan LLM yang tepat untuk pekerjaan tersebut.

Memilih LLM yang tepat tergantung pada berbagai faktor termasuk:

Contoh penggunaan tertentu: Tantangan machine learning langsung memengaruhi proses pemilihan LLM. Satu model LLM mungkin lebih unggul dalam memahami dan merangkum dokumen yang panjang, sementara model lain mungkin lebih mudah disempurnakan untuk penggunaan spesifik bidang tertentu.
Kinerja: Sama seperti model lainnya, LLM dapat dibandingkan satu sama lain untuk mengevaluasi kinerja. Tolok ukur LLM mencakup metrik untuk penalaran, pengodean, matematika, latensi, pemahaman, dan pengetahuan umum. Membandingkan antara kebutuhan proyek dengan kinerja tolok ukur dapat membantu menentukan LLM terbaik yang sesuai untuk menghasilkan output berkualitas tinggi.
Sumber terbuka versus sumber tertutup: Model sumber terbuka memungkinkan pengamat untuk memantau cara model mencapai keputusannya. LLM yang berbeda dapat rentan terhadap bias dan halusinasi dalam berbagai cara: ketika mereka menghasilkan prediksi yang tidak mencerminkan hasil dunia nyata. Ketika moderasi konten dan pencegahan bias menjadi hal yang terpenting, membatasi pilihan pada penyedia sumber terbuka dapat membantu membentuk proses pemilihan LLM.
Penggunaan sumber daya dan harga: LLM adalah model yang haus sumber daya. Banyak LLM didukung oleh pusat data hyperscale yang diisi dengan ratusan ribu unit pemrosesan grafis (GPU) atau lebih. Penyedia LLM juga mengenakan biaya yang berbeda untuk koneksi API ke model mereka. Skalabilitas model dan sistem Harga secara langsung memengaruhi ruang lingkup proyek.

Ilmu data dan MLOP untuk pemimpin data

Menyelaraskan dengan para pemimpin lain dalam 3 tujuan utama MLOps dan AI yang dapat dipercaya: kepercayaan pada data, kepercayaan pada model, dan kepercayaan pada proses.

Pemilihan model dalam machine learning