Model yang terlatih adalah model machine learning yang sebelumnya telah dilatih pada kumpulan data besar untuk tugas tertentu (biasanya tujuan umum) dan kemudian dapat digunakan kembali atau disesuaikan untuk tugas yang berbeda tetapi terkait. Model yang terlatih menghemat waktu, data, dan sumber daya komputasi tim pengembangan dibandingkan dengan melatih model dari awal.
Membutuhkan sumber daya yang luas, infrastruktur, dan keahlian, model terlatih biasanya dibangun oleh kombinasi perusahaan teknologi besar, lembaga akademis, organisasi nirlaba, dan komunitas sumber terbuka. Dalam domain seperti pembelajaran mendalam, di mana model memerlukan jutaan parameter, model terlatih memberikan titik awal yang memungkinkan praktisi untuk menghindari “mengulang-ulang hal yang sama,” setiap kali mereka membangun aplikasi machine learning.
Pelatihan model “mengajari” model machine learning untuk mengoptimalkan kinerja pada kumpulan data pelatihan dari tugas sampel yang relevan dengan contoh penggunaan akhir. Data pelatihan ini harus menyerupai masalah dunia nyata yang akan dihadapi oleh model, sehingga model dapat mempelajari pola dan hubungan data untuk membuat prediksi yang akurat pada data baru.
Proses pembelajaran ini melibatkan penyesuaian parameter model, bobot dan bias dalam fungsi matematika yang membentuk algoritma machine learning yang mendasarinya. Penyesuaian tersebut dimaksudkan untuk menghasilkan output yang lebih akurat.
Secara matematis, tujuan dari proses ini adalah untuk meminimalkan fungsi kerugian yang mengukur kesalahan output model. Ketika output jatuh di bawah ambang batas tertentu, model dianggap “terlatih.” Dalam pembelajaran penguatan, tujuannya dibalik: parameter model dioptimalkan untuk memaksimalkan fungsi hadiah daripada meminimalkan fungsi kerugian.
Pelatihan model melibatkan siklus pengumpulan dan prapemrosesan data, memasukkan data pelatihan itu ke model, mengukur kerugian, mengoptimalkan parameter, dan menguji kinerja pada data validasi. Alur kerja ini diulang sampai hasil yang memuaskan tercapai. Pelatihan mungkin juga melibatkan penyesuaian hiperparameter—pilihan struktural yang memengaruhi proses pembelajaran tetapi tidak dapat dipelajari sendiri—dalam proses yang disebut penyetelan hiperparameter.
Buletin industri
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.
Manfaat utama dari model terlatih adalah bahwa alih-alih memulai dari awal, pengembang dapat menggunakan model yang telah mempelajari fitur umum—seperti struktur bahasa atau bentuk visual—dan menyempurnakannya dengan kumpulan data khusus domain yang lebih kecil. Fine-tuning atau penyempurnaan adalah salah satu dari beberapa jenis pembelajaran transfer, istilah umum untuk teknik yang mengadaptasi model terlatih untuk penggunaan baru.
Menggunakan model terlatih mempercepat pengembangan dan memungkinkan entitas yang lebih kecil seperti perusahaan rintisan yang mungkin tidak memiliki akses ke komputasi, data, atau infrastruktur yang memadai, untuk bereksperimen dengan model yang canggih. Ini seperti membeli pakaian jadi dan kemudian menyesuaikannya agar sesuai dengan bentuk tubuh pemakainya.
Menggunakan model yang terlatih berarti para praktisi memiliki akses ke arsitektur yang sudah divalidasi, ditolok ukur, dan diuji dalam skenario dunia nyata. Ini menurunkan risiko dan membantu memastikan keandalan. Model terlatih populer dilengkapi dengan dokumentasi ekstensif, tutorial, dan kode yang dapat digunakan untuk mengadaptasi model untuk proyek individu.
Model bahasa besar (LLM) yang terlatih digunakan di banyak organisasi untuk memajukan contoh penggunaan pemrosesan bahasa alami (NLP) seperti menjawab pertanyaan, analisis sentimen, segmentasi semantik, AI generatif, dan banyak lagi. Daftar panjang LLM ini mencakup banyak opsi paling populer. Model AI lainnya berspesialisasi dalam visi komputer, seperti deteksi objek dan model klasifikasi gambar.
Salah satu sumber daya paling awal dan paling berpengaruh untuk model berbasis gambar adalah ImageNet, kumpulan data besar yang menjadi tolok ukur industri untuk visi komputer. Arsitektur seperti ResNet dan Inception, dilatih di ImageNet, adalah dasar dalam alur kerja visi komputer. Model-model ini unggul dalam ekstraksi fitur, mengidentifikasi edge, tekstur dan bentuk yang berguna untuk mengklasifikasikan gambar baru.
Terdapat sejumlah pusat model dan pustaka tempat organisasi menyimpan model yang terlatih. Berikut adalah beberapa yang paling umum:
PyTorch Hub adalah repositori model terlatih yang dirancang untuk memfasilitasi reproduksi penelitian dan menyederhanakan penggunaan model terlatih dalam ekosistem Python PyTorch.
TensorFlow Hub adalah tempat penyimpanan model terlatih yang siap untuk disempurnakan dan dapat digunakan di mana saja. Model BERT dan Faster R-CNN (convolutional neural networks) dapat digunakan kembali hanya dengan beberapa baris kode.
Hugging Face Model berfokus pada model NLP dan visi, menyediakan akses ke model canggih seperti BERT, GPT, dan lainnya, bersama dengan alat dan tutorial untuk inferensi dan pelatihan. Keluarga model terlatih IBM Granite semuanya dapat ditemukan di Hugging Face. Model-model ini terbuka, berperforma, dan tepercaya, serta dioptimalkan untuk contoh penggunaan bisnis. Granite mencakup model untuk bahasa, visi, ucapan dan deret waktu, di antara aplikasi lainnya.
Kaggle adalah platform untuk ilmu data dan machine learning, yang menawarkan ruang untuk kompetisi, kumpulan data, dan komunitas untuk kolaborasi dan pembelajaran.
GitHub adalah platform pengembang eksklusif yang memungkinkan pengembang untuk membuat, toko, mengelola, dan membagikan kode mereka. Banyak peneliti dan perusahaan merilis model terlatih sebelumnya di repositori di sini dengan kode, bobot, dan dokumentasi.
Katalog NVIDIA NGC menawarkan model terlatih yang dioptimalkan untuk akselerasi GPU, termasuk visi komputer, pencitraan medis, dan AI ucapan.
Model-model OpenAI menyediakan model transformer terlatih generatif, juga dikenal sebagai GPT, seperti chatbot ChatGPT, Codex, dan DALL-E, melalui API. Akses dilakukan melalui platform berbasis cloud, bukan unduhan langsung, melalui platform seperti OpenAI API atau Azure OpenAI.
KerasHub adalah pustaka model terlatih yang bertujuan untuk menjadi sederhana, fleksibel, dan cepat, menyediakan implementasi Keras 3 dari arsitektur populer.
Jelajahi perpustakaan model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.