Apa itu AutoML?

Penyusun

Staff writer

Staff Editor, AI Models

IBM Think

Apa itu AutoML?

Machine learning otomatis (AutoML) adalah proses otomatisasi seluruh pengembangan model machine learning (ML), mulai dari tahap awal hingga implementasi. AutoML memungkinkan non-pakar untuk membuat dan mengimplementasikan sistem kecerdasan buatan (AI) sekaligus merampingkan alur kerja untuk ilmuwan data dan pengembang.

Alat AutoML menyederhanakan proses pembuatan model ML. Pengguna dapat memanfaatkan antarmuka intuitif untuk membuat, melatih, memvalidasi, dan menerapkan model AI generatif serta sistem pembelajaran mendalam lainnya. AutoML mendukung penerapan AI di industri yang diatur dengan memastikan hasil yang transparan, dapat dijelaskan, dan dapat direproduksi.

Tanpa AutoML, setiap tahap dalam alur kerja machine learning (ML)—mulai dari persiapan dan prapemrosesan data hingga rekayasa fitur dan pengoptimalan hyperparameter—harus dilakukan secara manual. AutoML mendemokratisasi machine learning dengan membuat teknologi ini lebih mudah diakses oleh siapa saja yang ingin mengeksplorasi potensinya. Sementara itu, tim MLOps dan profesional ilmu data yang berpengalaman dapat mengotomatiskan tugas-tugas rutin dalam alur kerja machine learning, sehingga mereka dapat lebih fokus pada tantangan pembelajaran yang lebih kompleks.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Bagaimana cara kerja AutoML?

Solusi AutoML berfungsi dengan membuat berbagai pipeline machine learning untuk menyelesaikan tugas tertentu, lalu memilih solusi yang memberikan hasil terbaik. Evaluasi dan pemilihan model diotomatisasi sebagai bagian dari proses iteratif untuk menentukan model yang paling sesuai dengan tugas yang diberikan. Alat visualisasi data membawa lebih banyak kemudahan penggunaan ke proses AutoML.

Perbedaan utama antara AutoML dan machine learning tradisional adalah bahwa AutoML mengotomatiskan hampir semua tahap dalam pipeline machine learning. Alur kerja tradisional memakan waktu, memerlukan banyak sumber daya, dan rentan terhadap kesalahan manusia. Sebagai perbandingan, kemajuan dalam AutoML telah meningkatkan efisiensi dan menghasilkan hasil yang lebih baik.

Pipeline machine learning yang khas terdiri dari langkah-langkah berikut:

Persiapan dan prapemrosesan data

Persiapan data adalah proses mengumpulkan data mentah dan mengolahnya hingga siap digunakan sebagai bagian dari kumpulan data pelatihan. Persiapan data memastikan bahwa data pelatihan bebas dari bias, sehingga memungkinkan model bekerja secara optimal. Data yang akurat mengarah pada prediksi dan insight yang akurat. Ketika perusahaan mengintegrasikan sistem AI dengan penyimpanan data internalnya, seperti melalui generasi dengan dukungan pengambilan data (RAG), persiapan data penting untuk memastikan implementasi AI yang andal dan akurat.

Pengguna menghubungkan platform AutoML dengan sumber data pelatihan—idealnya berupa kumpulan data besar yang telah dipersiapkan dan siap digunakan untuk proses pelatihan. Fase persiapan data terjadi sebelum solusi AutoML diterapkan.

Solusi AutoML masuk untuk melakukan pra-proses lebih lanjut dan membersihkan data. Prapemrosesan data yang lebih mendalam dan menyeluruh dapat meningkatkan kinerja model AI secara signifikan.

Saat membangun model secara manual untuk tugas pembelajaran yang diawasi dan pembelajaran semi-pengawasan, data pelatihan perlu diberi label secara manual. Fitur dan hasil harus dipilih berdasarkan contoh penggunaan model. Solusi AutoML dapat secara otomatis melakukan rekayasa fitur dengan memilih fitur data yang paling relevan untuk meningkatkan kinerja model.

Rekayasa fitur

Fitur atau variabel data adalah atribut dalam kumpulan data yang digunakan oleh model machine learning untuk membuat keputusan dan prediksi. Sebagai contoh, untuk model visi komputer yang dirancang untuk mengidentifikasi spesies tanaman, fitur data dapat meliputi bentuk dan warna daun.

Rekayasa fitur adalah proses di mana ilmuwan data mengidentifikasi, mengekstrak, dan menciptakan fitur baru dari data mentah, lalu memprosesnya agar siap digunakan secara optimal dalam model machine learning.Rekayasa dan pemilihan fitur yang tepat dapat menjadi faktor penentu antara model dengan kinerja yang biasa-biasa saja dan model yang memiliki kualitas tinggi.

Rekayasa fitur otomatis mempermudah eksplorasi ruang fitur, menangani data yang hilang, dan memilih fitur relevan yang siap digunakan. Membangun satu fitur secara manual bisa memakan waktu berjam-jam. Sementara itu, mencapai akurasi minimum—apalagi standar akurasi yang layak untuk produksi—sering kali membutuhkan ratusan fitur yang dikembangkan. Rekayasa fitur otomatis mengurangi fase ini dari hari menjadi menit.

Selain meningkatkan efisiensi, otomatisasi dalam pemilihan fitur juga memperkuat penjelasan AI—yang sangat krusial untuk industri yang tunduk pada regulasi ketat, seperti perawatan kesehatan dan keuangan. Kejelasan fitur yang lebih besar membuat model lebih menarik dan dapat ditindaklanjuti dengan menemukan KPI organisasi baru.

Pemilihan model, penyetelan hyperparameter, dan pelatihan model

Jenis model apa yang terbaik untuk contoh penggunaan yang dimaksud? Dalam machine learning tradisional, pemilihan model memerlukan keahlian mendalam tentang model AI, termasuk pemahaman terhadap kemampuan dan keterbatasan masing-masing model.

Alat AutoML meningkatkan proses tradisional dengan secara otomatis membangun dan melatih beberapa model secara bersamaan dengan berbagai algoritme dan konfigurasi hyperparameter. Banyak solusi AutoML mengintegrasikan berbagai model ke dalam satu proses, yang dikenal sebagai pembelajaran ensemble.

Pencarian arsitektur neural (NAS)

Salah satu tugas yang paling rumit, rawan kesalahan, dan memakan waktu ketika membangun neural networks adalah pembuatan arsitektur neural. Tugas Advanced memerlukan jaringan berlapis-lapis dengan konfigurasi hyperparameter yang kompleks.

Pencarian arsitektur saraf (NAS) mengotomatiskan proses ini, sehingga menghemat waktu dan mengurangi risiko terjadinya kesalahan. Dengan memanfaatkan algoritme canggih, NAS secara otomatis mengidentifikasi arsitektur terbaik yang sesuai dengan konteks dan kumpulan data yang digunakan. Kemajuan terkini dalam NAS difokuskan pada pengembangan teknik yang lebih efisien untuk menekan biaya komputasi yang diperlukan.

Optimalisasi hyperparameter

Hyperparameter adalah aturan yang mengatur proses pembelajaran model. Berbeda dengan parameter internal yang diperbarui secara otomatis oleh model selama pelatihan, hyperparameter adalah variabel eksternal yang dikonfigurasi secara manual oleh ilmuwan data. Struktur Neural Networks juga didefinisikan oleh hyperparameter.

Dalam pemodelan data skala kecil, hyperparameter dapat dikonfigurasi secara manual dan dioptimalkan melalui proses uji coba. Namun, dalam aplikasi pembelajaran mendalam, jumlah hyperparameter meningkat secara eksponensial. Optimalisasi hyperparameter memungkinkan tim untuk menguji dan menyempurnakan berbagai fitur dan model guna menemukan kombinasi hyperparameter terbaik.

Penyetelan hyperparameter otomatis melalui algoritma canggih seperti optimasi Bayesian. Penyetelan hyperparameter otomatis memungkinkan ilmuwan data untuk lebih fokus pada mengapa model dibuat, daripada harus memikirkan bagaimana proses teknisnya selama machine learning. Tim analitik dapat lebih fokus pada pengoptimalan model untuk contoh penggunaan tertentu—seperti mengurangi hasil negatif palsu dalam pengujian medis.

Validasi dan pengujian

Ilmuwan data perlu memvalidasi perkembangan algoritma machine learning sepanjang proses pelatihan. Setelah pelatihan, model diuji menggunakan data baru untuk menilai kinerjanya sebelum diterapkan dalam situasi nyata. Kinerja model dievaluasi menggunakan berbagai metrik, seperti matriks kebingungan, skor F1, kurva ROC, dan lainnya.

Setelah pelatihan selesai, alat AutoML menguji setiap model untuk menilai kinerjanya pada kumpulan data pelatihan dan pengujian, kemudian secara otomatis memilih model dengan kinerja terbaik untuk diterapkan.

Penerapan model

Pembuatan model hanyalah langkah pertama dalam timeline produk. Model yang telah selesai harus tersedia untuk pengguna, dipantau kinerjanya, dan dipelihara secara berkala untuk memastikan keandalan dan akurasi tetap terjaga. Tanpa otomatisasi, tim pengembangan harus menulis skrip dan membangun sistem untuk mengintegrasikan model ke dalam operasi mereka serta mendistribusikannya ke pengguna.

Banyak solusi AutoML dilengkapi dengan alat bantu penerapan untuk memastikan integrasi yang lancar ke dalam lingkungan dunia nyata. Model dapat diterapkan sebagai layanan yang dapat diakses melalui situs web, aplikasi, atau koneksi API. Platform AutoML dapat mengotomatiskan penerapan model ke dalam produk yang sudah ada, mengelola penskalaan, pembaruan, dan pembuatan versi, serta meningkatkan kemampuan penjelasan melalui visualisasi data.

Akademi AI

Menjadi pakar AI

Raih pengetahuan demi memprioritaskan investasi AI yang mendorong pertumbuhan bisnis. Mulai dengan Akademi AI gratis kami hari ini dan pimpin masa depan AI di organisasi Anda.

Tonton serialnya

Contoh penggunaan AutoML

Beragamnya alat AutoML memungkinkan teknik ini diterapkan pada berbagai tugas machine learning, seperti:

Klasifikasi

Regression

Visi komputer

Pemrosesan bahasa alami

Klasifikasi

Klasifikasi adalah tugas machine learning yang bertujuan untuk mengelompokkan input ke dalam kategori tertentu. Model prediktif menggunakan fitur dari data input untuk meramalkan label atau hasil yang diinginkan. Sistem AutoML dapat membangun dan menguji berbagai algoritme, seperti hutan acak dan mesin vektor pendukung (SVM), untuk memproses data berbentuk tabel.

Alat AutoML secara otomatis mendeteksi pola dalam kumpulan data berlabel dan dapat merancang model untuk tugas klasifikasi umum, seperti deteksi penipuan dan pemfilteran email spam.

Regresi

Regresi dalam machine learning adalah proses menggunakan data historis untuk memprediksi nilai yang akan datang di masa depan. Regresi linier digunakan untuk memprediksi nilai variabel dependen berdasarkan satu atau lebih variabel independen, seperti yang dilakukan dalam analisis risiko atau peramalan pasar. Regresi logistik digunakan untuk memprediksi probabilitas terjadinya peristiwa di masa depan, seperti kemungkinan seorang pasien tertular penyakit, alih-alih memprediksi nilai diskrit.

AutoML menyederhanakan proses membangun hubungan antara variabel input dan variabel target, terutama dalam tugas multivariat yang kompleks.

Visi komputer

Penglihatan komputer adalah teknologi yang memungkinkan komputer untuk menganalisis dan memproses data visual, seperti gambar dan video. Sistem AutoML dapat menghasilkan model untuk tugas klasifikasi berbasis penglihatan, seperti deteksi objek, klasifikasi gambar, dan pengenalan karakter optik yang cerdas. Contoh penggunaan AutoML meliputi moderasi dan pemfilteran konten, penandaan gambar, serta tugas-tugas terkait lainnya.

Sistem AutoML juga dapat melakukan fine-tuning pada model untuk diterapkan dalam konteks visi komputer yang lebih kompleks, seperti pada mobil otonom.

Pemrosesan bahasa alami (NLP)

Pemrosesan bahasa alami (NLP) memungkinkan sistem AI untuk memahami input teks, seperti prompt pengguna atau dokumen hukum. Pembuatan chatbot, klasifikasi teks multi-kelas dan multi-label, analisis sentimen pelanggan, named entity recognition, serta terjemahan bahasa adalah contoh tugas kompleks dalam NLP yang dapat dengan mudah diselesaikan menggunakan AutoML.

Ilmuwan data dapat membuat model kustom menggunakan AutoML yang secara otomatis dioptimalkan untuk mencapai kinerja terbaik pada contoh penggunaan tertentu. Sebaliknya, jika membangun model NLP secara manual, ilmuwan data harus memulai dari nol atau menggunakan model yang sudah ada, yang mungkin tidak seefektif model yang dibuat secara otomatis dan disesuaikan.

Keterbatasan AutoML

Meskipun AutoML memberikan banyak manfaat bagi pengembang AI, teknologi ini tidak dapat menggantikan pengetahuan, pengalaman, keterampilan, dan kreativitas manusia secara keseluruhan. Batasan AutoML meliputi:

Biaya tinggi: Semakin kompleks tugas yang dihadapi, semakin canggih model yang diperlukan, yang pada gilirannya meningkatkan biaya. Biaya AutoML dapat meningkat pesat ketika digunakan untuk mengembangkan model yang besar dan kompleks.

Kurangnya interpretasi: Model yang dihasilkan oleh AutoML terkadang dapat menjadi "AI kotak hitam", di mana proses dan mekanisme internal model sulit untuk dipahami. Pengembang dapat membangun model yang dirancang dengan prinsip-prinsip AI yang dapat dijelaskan, namun hal ini tidak selalu terjamin dalam solusi AutoML.

Risiko overfitting: Overfitting, yang terjadi ketika model terlalu terlatih pada data pelatihan sehingga gagal diterapkan pada data dunia nyata, dapat diminimalkan dengan campur tangan manusia dan pemantauan yang cermat selama proses pelatihan.

Kontrol terbatas: Pengembang mengorbankan kontrol untuk efisiensi dengan otomatisasi. Dalam situasi tertentu, ketika diperlukan model yang sangat spesifik, solusi AutoML mungkin kesulitan menghasilkan model yang tepat.

Ketergantungan data: Model AI sekuat data pelatihannya. Baik model buatan manusia maupun buatan Automl tidak dapat bekerja dengan baik jika tidak dilengkapi dengan data berkualitas tinggi.

Alat AutoML

Pembangun model AI memiliki berbagai alat AutoML yang dapat diakses dengan mudah. Opsi meliputi:

AutoKeras: Alat bantu sumber terbuka yang dibangun di atas pustaka Keras dan TensorFlow.

Auto-PyTorch: Solusi AutoML yang dirancang untuk mengotomatiskan proyek machine learning yang dibuat dengan PyTorch.

Google Cloud AutoML: Solusi AutoML Google yang tersedia di platform Cloud untuk machine learning.

Lale¹: Pustaka Python sumber terbuka yang semi-otomatis dan terintegrasi dengan lancar ke dalam pipeline scikit-learn.

Microsoft Azure AutoML: Pengembang yang menggunakan Microsoft Azure dapat memanfaatkan fitur AutoML yang tersedia di platform tersebut.

Auto-Sklearn: Platform AutoML sumber terbuka berdasarkan pustaka scikit-learn.

Ilmu data dan MLOP untuk pemimpin data

Menyelaraskan dengan para pemimpin lain dalam 3 tujuan utama MLOps dan AI yang dapat dipercaya: kepercayaan pada data, kepercayaan pada model, dan kepercayaan pada proses.

Catatan kaki

1. Perpustakaan untuk Ilmu Data Semi-Otomatis, Hirzel dkk, IBM®/lale, 28 Agustus 2024

Apa itu AutoML?

Apa itu AutoML?

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Bagaimana cara kerja AutoML?

Persiapan dan prapemrosesan data

Rekayasa fitur

Pemilihan model, penyetelan hyperparameter, dan pelatihan model

Pencarian arsitektur neural (NAS)

Optimalisasi hyperparameter

Validasi dan pengujian

Penerapan model

Menjadi pakar AI

Contoh penggunaan AutoML

Klasifikasi

Regresi

Visi komputer

Pemrosesan bahasa alami (NLP)

Keterbatasan AutoML

Alat AutoML

Sumber daya

Catatan kaki