Apa itu Siklus Hidup AI?

By Dave Bergmann

Siklus hidup AI, dijelaskan

Siklus hidup AI adalah proses perencanaan, pelatihan, menerapkan, dan pemeliharaan sistem AI yang terstruktur dan berulang. Ini tidak hanya mencakup pelatihan model machine learning, tetapi juga pengumpulan dan persiapan data pelatihan, sistem untuk mengevaluasi dan meningkatkan kinerja model, dan integrasi model terlatih ke dalam aplikasi AI dunia nyata.

Siklus hidup AI terdiri atas segalanya mulai dari keputusan awal untuk memecahkan masalah tertentu dengan kecerdasan buatan, melalui penggunaan aktif model terlatih dalam alur kerja dunia nyata. Gagasan siklus hidup AI terkait erat dengan disiplin operasi machine learning (MLOps) dan sistem manajemen AI (AIMS), yang keduanya memerlukan pendekatan sistematis untuk pengembangan, tata kelola dan pemeliharaan AI.

Inti dari konsep siklus hidup pengembangan AI adalah kenyataan bahwa solusi AI tidak dirancang atau diterapkan dalam ruang hampa: mereka adalah sistem dinamis yang kemanjuran berkelanjutan bergantung pada perencanaan yang cermat dan pemantauan yang rajin. Ada ketergantungan penting antara setiap langkah proses pengembangan dan implementasi AI, dan memahami dependensi ini sangat penting untuk membangun solusi yang didukung AI yang berhasil, dapat diskalakan, dan berkelanjutan.

Artikel ini akan menguraikan setiap langkah penting dalam siklus hidup AI.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Definisi masalah

Fase pertama dan bisa dibilang paling penting dari manajemen siklus hidup AI adalah fase perencanaan, di mana Anda mengidentifikasi contoh penggunaan untuk aplikasi AI Anda: masalah yang Anda gunakan AI untuk membantu menyelesaikannya dan tugas spesifik yang dapat dilakukan AI untuk membantu menyelesaikannya. Semua keputusan selanjutnya harus merujuk kembali ke keputusan yang dibuat selama proses perencanaan.

Sangat penting untuk teliti dan memperhitungkan setiap dan semua kemungkinan. Melewatkan pertimbangan tertentu tidak menghemat pekerjaan: itu hanya menunda dan memperburuk pekerjaan itu. Semua pemangku kepentingan yang relevan harus dimasukkan dan dikonsultasikan dalam fase perencanaan, baik untuk mendapatkan manfaat dari keahlian atau perspektif khusus mereka dan untuk memastikan konsensus tentang bagaimana hal-hal akan dilanjutkan dari sini.

Tentukan ruang lingkup proyek AI Anda. Aspek masalah apa yang akan dilakukan atau dibantu oleh solusi AI Anda? Aspek mana yang di luar batas?

Tentukan kebutuhan Anda. Dalam area masalah di mana Anda akan mendaftarkan AI, apa sebenarnya yang perlu Anda lakukan? Penting untuk memahami apa yang layak dan apa yang tidak, baik dalam hal kemampuan AI yang ada maupun sumber daya yang tersedia untuk mengejar proyek ini.

Definisikan kesuksesan. Baik secara kualitatif maupun (terutama) kuantitatif, apa yang memenuhi syarat sebagai hasil yang sukses? Membangun metrik keberhasilan sejak dini memungkinkan mereka untuk memandu keputusan desain dan mengatur pengembangan serta optimalisasi sistem AI Anda.

Menilai risiko. Identifikasi cara apa pun solusi AI Anda, sebagaimana tercantum sejauh ini, dapat mempengaruhi organisasi atau pengguna Anda. Risiko etika, risiko reputasi, dan risiko keuangan harus ditandai dan diatasi sebelum beralih ke fase pengumpulan data—terutama mengingat bahwa manajemen data yang tidak memadai sering menjadi sumber risiko tersebut.

Pengumpulan data dan data preparation

Pada tingkat teknis, kualitas dan kuantitas data pelatihan Anda adalah satu-satunya faktor terpenting dalam kekuatan model AI Anda.

Pengumpulan data

Pertimbangkan bahwa semua machine learning bergantung pada pengenalan pola terapan. Model machine learning yang terlatih menggunakan pola yang telah “dipelajari” dari data pelatihannya untuk menyimpulkan output optimal untuk input yang diberikan. Kualitas data yang memadai diperlukan untuk memastikan bahwa pola yang dipelajari sesuai dengan pola data baru yang akan digunakan untuk membuat kesimpulan dalam aplikasi dunia nyata. Volume data yang cukup diperlukan untuk memastikan bahwa model telah mempelajari semua pola yang perlu diambil, serta untuk menghindari overfitting.

Mengevaluasi sumber data yang relevan yang tersedia untuk Anda, mulai dari kumpulan data sumber terbuka yang tersedia melalui platform seperti Hugging Face atau Kaggle hingga penggalian web untuk memanfaatkan data milik organisasi Anda sendiri. Ketika data berkualitas tinggi sangat langka atau mahal, data sintetis terkadang dapat mengisi kekosongan. terkadang bisa mengisi kekosongan.

Persiapan data

Data mentah jarang siap untuk machine learning: biasanya memerlukan beberapa tingkat pra-pemrosesan sebelum digunakan dalam saluran pelatihan model. Rekayasa fitur adalah bagian penting dari proses ini.

Supervised learning membutuhkan pelabelan data, yang sering kali membutuhkan setidaknya beberapa tingkat intervensi manual yang memakan waktu (meskipun otomatisasi sering kali dapat merampingkan prosesnya). Pelabelan di beberapa domain data khusus akan membutuhkan input pakar. Bahkan kumpulan data yang berisi data pra-label harus diperiksa untuk memastikan keakuratan dan relevansi label dengan contoh penggunaan spesifik Anda.

Data yang diambil dari sumber data yang berbeda perlu dinormalisasi dan dibuat seragam dalam hal unit dan format: misalnya, melatih model data cuaca yang disajikan dalam Celcius dan Fahrenheit pasti akan menyebabkan kegagalan.

Tata kelola data

Data tidak boleh dibuang begitu saja setelah pelatihan model. Ini harus disimpan dan dipelihara jika Anda perlu meng audit sistem Anda, jelajahi masalah kinerja, mereplikasi model Anda, atau mematuhi persyaratan peraturan GDPR atau kerangka kerja serupa.

Tata kelola data yang tepat adalah komponen penting dari penjelasan AI, privasi data, dan kepatuhan terhadap peraturan, terutama dalam industri dan contoh penggunaan yang melibatkan data yang mengandung informasi sensitif. Ini juga merupakan komponen penting dalam membangun jalur pipa data untuk merampingkan sumber data yang dapat diskalakan, terutama ketika alur kerja AI Anda menggunakan data kepemilikan yang terus diperbarui.

Pemilihan model

Berikutnya adalah pemilihan model: memilih arsitektur model yang paling sesuai dengan contoh penggunaan Anda, data pelatihan, dan sumber daya. Ada banyak sekali algoritma machine learning, mulai dari model regresi yang kecil dan sederhana hingga neural networks yang masif dan canggih. Model terbesar dan paling fantastis tidak selalu merupakan pilihan paling bijaksana: ada tugas-tugas di mana model pembelajaran mendalam yang besar berlebihan, dan bahkan tugas-tugas di mana model machine learning konvensional mengungguli rekan-rekan pembelajaran mendalam mereka.

Ketika datang ke AI generatif, melatih LLM dan jenis model generatif lainnya dari awal membutuhkan investasi besar dalam waktu, data, perangkat keras, dan energi. Dalam banyak kasus, kebutuhan akan model generatif yang disesuaikan lebih baik dipenuhi dengan menyempurnakan model yang sudah terlatih. Tetapi bahkan dalam dunia model siap pakai, ada spektrum yang sangat besar dalam hal ukuran model, arsitektur, dan kemampuan.

Evaluasi tolok ukur merupakan panduan yang berguna untuk menentukan model mana yang unggul dalam hal apa, tetapi evaluasi tersebut tidak boleh dianggap sebagai kebenaran mutlak. Jika masalah Anda terdefinisi dengan baik, ada baiknya jelajahi kelayakan mengembangkan tolok ukur yang secara langsung mencerminkan kinerja pada tugas-tugas spesifik yang akan Anda perlukan model untuk dilakukan. Ini juga akan berguna untuk fase evaluasi model nanti.

Pelatihan model

Selain AI generatif, sebagian besar solusi AI akan memerlukan pelatihan model Anda sendiri. Penjelas pelatihan model kami memberikan informasi lebih lanjut tentang proses pengembangan model, dari berbagai jenis machine learning hingga memilih fungsi kerugian (atau, dalam pembelajaran penguatan, fungsi hadiah) hingga mengoptimalkan parameter model (dan hiperparameter). Beberapa tingkat eksperimen biasanya diperlukan sebelum sampai pada arsitektur dan skema pembelajaran yang ideal.

Pada akhirnya, tujuan pelatihan model adalah untuk menyesuaikan parameter model sampai kinerja model pada contoh dalam kumpulan data pelatihannya mencapai beberapa ambang akurasi yang dapat diterima.

Pelatihan model adalah proses berulang, dan tidak selalu berjalan dengan cara yang stabil dan linier. Penting untuk secara berkala menyimpan “pos pemeriksaan” bobot model selama proses pelatihan. Dengan tidak adanya kontrol versi seperti itu, pembaruan model tunggal bisa menjadi bencana dan memaksa Anda untuk memulai lagi. Kontrol versi juga merupakan praktik yang diperlukan untuk debugging, reproduktifitas, dan kolaborasi antar tim.

Evaluasi model

Mengoptimalkan kinerja model pada data pelatihan bukanlah, dengan sendirinya, tujuan mendasar dari pelatihan model. Tujuan sebenarnya dari pelatihan model adalah mengembangkan model yang menggeneralisasi dengan baik ke data baru yang belum dilihatnya. Perlu berhati-hati untuk menghindari overfitting, yang dapat dipahami sebagai machine learning yang lebih mirip hafalan daripada “pengetahuan“yang sebenarnya.

Evaluasi pasca-pelatihan sangat penting untuk memastikan bahwa model menggeneralisasi dengan baik ke data yang tidak terlihat. Proses validasi ini menguji kualitas output model pada kumpulan data terpisah dari input baru yang menyerupai tugas dunia nyata. Validasi dapat menggunakan variasi metrik kinerja yang jauh lebih luas daripada yang cocok untuk fungsi kerugian yang mengukur akurasi model selama pelatihan.

Evaluasi model dan pelatihan model biasanya merupakan dua bagian dari satu siklus berulang:

Pertama, model dilatih sampai kerugian atau hadiah memenuhi beberapa ambang batas yang dapat diterima.

Kemudian, kinerja model divalidasi pada serangkaian tugas baru, sering menggunakan metrik kinerja yang berbeda.

Jika hasil evaluasi model tidak memuaskan, model menjalani pelatihan lebih lanjut—biasanya, dengan tweak strategis yang dimaksudkan untuk mengatasi kekurangan apa pun yang diidentifikasi dalam fase validasi.

Akademi AI

Menjadi pakar AI

Raih pengetahuan demi memprioritaskan investasi AI yang mendorong pertumbuhan bisnis. Mulai dengan Akademi AI gratis kami hari ini dan pimpin masa depan AI di organisasi Anda.

Tonton serialnya

Penerapan model

Setelah model dilatih dan berhasil divalidasi, ia beralih ke fase penerapan, di mana Anda mengoperasionalkan model dalam lingkungan produksi aktual dan mengintegrasikannya dengan sistem dan API yang ada. Idealnya, fase evaluasi model telah memvalidasi kinerja model pada tugas-tugas yang menggunakan atau setidaknya memperkirakan alur kerja dunia nyata ini.

Ada banyak konfigurasi yang perlu dipertimbangkan dalam penerapan model, tetapi mungkin keputusan yang paling penting adalah jenis lingkungan penerapan di mana ia akan beroperasi.

Lingkungan penerapan

Penerapan lokal: Model dijalankan pada perangkat keras fisik — biasanya akselerator AI—yang Anda (atau organisasi Anda) miliki dan pelihara. Cara ini memberikan kontrol paling banyak, tetapi juga membutuhkan investasi paling awal.

Penerapan cloud: Model ini dijalankan pada perangkat keras yang dimiliki dan dioperasikan oleh penyedia cloud, secara fisik terletak di tempat lain di pusat data. Penerapan cloud umumnya merupakan rute tercepat menuju skalabilitas.

Penerapan tepi: Model ini diterapkan di jaringan lokal terdistribusi dari “perangkat tepi”, seperti sensor atau perangkat internet of things (IoT).

Penerapan di perangkat: Model dijalankan langsung di perangkat pengguna akhir, seperti laptop atau smartphone.

Pemantauan model

Model yang digunakan jarang dianggap sebagai produk lembam dan “jadi“. Tata kelola AI yang tepat memerlukan pemantauan terus-menerus terhadap metrik kinerja model dan masukan pengguna.

Hampir tak terhindarkan bahwa dalam aplikasi dunia nyata, masalah yang tidak terduga dan kasus tepi akan muncul, tidak peduli seberapa teliti Anda merencanakan, menguji, dan memberlakukan red team sebelumnya. Selain itu, bahkan model yang terlatih secara optimal mungkin, seiring waktu, mengalami penurunan kinerja karena masalah seperti penyimpangan model.

Oleh karena itu, model yang diterapkan biasanya memerlukan pelatihan ulang berkala untuk mempertahankan kinerja yang memadai dan menyesuaikan dengan keadaan yang berubah. Sekali lagi, skema pembuatan versi yang bijaksana penting untuk debugging, akuntabilitas, dan membuat pembaruan dengan aman ke sistem kritis.

Penulis

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Ilmu data dan MLOP untuk pemimpin data

Menyelaraskan dengan para pemimpin lain dalam 3 tujuan utama MLOps dan AI yang dapat dipercaya: kepercayaan pada data, kepercayaan pada model, dan kepercayaan pada proses.

Apa itu siklus hidup AI?