Apa itu Pipeline Pembelajaran Mesin?

Penyusun

Staff writer

Staff Editor, AI Models

IBM Think

Apa itu saluran ML?

Saluran machine learning (saluran ML) adalah proses sistematis dalam merancang, mengembangkan, dan menerapkan model machine learning. Saluran pipa ML atau alur kerja ML mengikuti serangkaian langkah yang memandu para pengembang dan pemimpin bisnis menuju pengembangan model yang lebih efisien.

Seluruh saluran machine learning terdiri dari tiga tahap:

Pemrosesan data: Ilmuwan data mengumpulkan dan menyiapkan data yang akan digunakan untuk melatih model ML. Fase dalam tahap ini meliputi pengumpulan data, prapemrosesan, pembersihan, dan eksplorasi.
Pengembangan model: Praktisi data memilih atau membuat algoritma machine learning yang sesuai dengan kebutuhan proyek. Algoritma dilatih pada data dari langkah sebelumnya dan model yang dihasilkan diuji dan divalidasi hingga siap digunakan.
Penerapan model: Pengembang dan insinyur perangkat lunak menerapkan model untuk penggunaan dunia nyata, mengintegrasikannya ke dalam lingkungan produksi dan memantau kinerjanya.

Alur kerja machine learning adalah fondasi inti untuk disiplin operasi machine learning (MLOps) yang lebih besar. Sebagian besar prosesnya bisa diotomatiskan melalui berbagai teknik machine learning otomatis (AutoML) yang mengelola ketergantungan antara tahapan dan titik akhir.

Apa perbedaan antara saluran data dan saluran ML?

Saluran data adalah arsitektur yang dirancang dan dibangun oleh ilmuwan data yang mengumpulkan data dari berbagai sumber, kemudian menyimpan dan mengaturnya dalam repositori data terpusat, seperti gudang data. Saluran machine learning adalah alur kerja untuk merancang, membangun, dan menerapkan sistem AI.

Kedua frasa tersebut menggunakan istilah saluran, tetapi saluran data lebih merupakan sistem yang nyata, sedangkan saluran ML adalah serangkaian langkah teoretis. Saluran ETL adalah contoh saluran data yang mengekstrak data dari berbagai sumber, mengubahnya menjadi format terpadu, dan memuatnya ke dalam sistem tujuan. Dalam machine learning, saluran ETL akan mengumpulkan data dan memformatnya menjadi pelatihan kumpulan data.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Tahap 0: Permulaan proyek

Sebelum mengawali alur kerja ML, para pemimpin bisnis, pengembang, dan pemangku kepentingan lainnya menyetujui tujuan proyek machine learning. Memahami mengapa AI dibutuhkan dan apa yang dimaksudkan untuk dicapai membuat harapan tetap realistis dan menyelaraskan pemangku kepentingan di sekitar tujuan bersama.

Apa tujuannya?

Ketika memutuskan apakah akan memasukkan AI ke dalam alur kerja atau produk, pemangku kepentingan harus terlebih dahulu mengidentifikasi tujuan bisnis yang dimaksudkan untuk diselesaikan oleh model ML, kemudian menunjukkan bagaimana AI dapat memenuhinya. Beberapa perusahaan mendekati AI dengan logika terbalik: “Kami ingin menggunakan AI. Apa yang harus kita lakukan dengan tujuan itu?”

Memaksimalkan ROI AI mengharuskan para pemimpin memahami contoh penggunaan, kemudian bekerja menuju solusi ML yang disesuaikan dengan tujuan tersebut.

Bagaimana kesuksesan itu terlihat?

Metrik yang jelas untuk keberhasilan, seperti KPI yang terdokumentasi (indikator kinerja utama), memberi tahu pemangku kepentingan apakah proyek ML memenuhi tujuannya. KPI ini harus mencerminkan tujuan yang ditetapkan pada tahap sebelumnya. Misalnya, model ML yang digunakan untuk meningkatkan efisiensi mungkin terlihat memprioritaskan ROI.

Apa yang menghalangi?

Mengetahui lingkungan risiko dan hambatan potensial membantu tim menavigasi proyek secara efektif. Langkah ini termasuk menetapkan persyaratan data dan mengevaluasi peraturan yang relevan, jika ada, untuk pengumpulan dan penyimpanan data. Hal yang sama berlaku untuk batasan apa pun yang mungkin memengaruhi pemilihan model, seperti persyaratan komputasi atau memori.

Gabungan Para Pakar | 28 Agustus, episode 70

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Simak episode terbaru podcast

Tahap 1: Pemrosesan data

Setelah menentukan masalah yang akan diselesaikan oleh model ML, langkah pertama dalam alur kerja ML adalah mengumpulkan, menyiapkan, dan menganalisis data. Praktisi harus mengidentifikasi sumber data yang relevan, mengumpulkan dan mengintegrasikan data dari sumber tersebut, menyiapkan dan membersihkan data, dengan menggunakan teknik ilmu data termasuk rekayasa fitur untuk sampai pada kumpulan data yang telah disiapkan.

Tahap pemrosesan data biasanya yang paling memakan waktu. Namun, kinerja model ML bergantung pada data yang baik. Setiap kesalahan dan kekeliruan dalam fase rekayasa data berdampak negatif pada kinerja model di seluruh siklus hidupnya. Strategi otomatisasi data dapat mengurangi waktu dan upaya manusia yang diperlukan untuk menghasilkan kumpulan data pelatihan yang kuat.

Pemrosesan data meliputi:

Penyerapan data

Prapemrosesan data

Eksplorasi data

Rekayasa fitur

Pemisahan data

Penyerapan data

Penyerapan data adalah pengumpulan dan pengimporan data dari sumber data yang berbeda ke dalam repositori data terpusat melalui pipa data. Ilmuwan data harus mengidentifikasi sumber data yang tepat, seperti data perusahaan eksklusif yang disimpan secara internal—laporan penjualan, demografi pelanggan, dan pengetahuan organisasi lainnya.

Terkadang data eksternal juga diperlukan. Sumber data eksternal dapat mencakup koneksi API ke penyedia data, data yang diambil dari internet, atau data sintetis. Karena data baru selalu dibuat, penyerapan data sering kali merupakan proses yang berkelanjutan.

Prapemrosesan data

Prapemrosesan data, atau persiapan data, mengubah data mentah dari langkah sebelumnya menjadi data bersih yang siap dianalisis. Setelah mendapatkan pemahaman tentang data pelatihan melalui analisis data eksplorasi (EDA), ilmuwan data memilih strategi prapemrosesan data. Langkah-langkah prapemrosesan data meliputi:

Pengubahan data (transformasi data): Mengubah data menjadi format yang sesuai

Mengidentifikasi missing values dan menangani outlier

Pembersihan data: mengoreksi kesalahan dalam kumpulan data

Normalisasi data: standardisasi kumpulan data

Menghilangkan ketidakakuratan: menghilangkan kesalahan acak dan gangguan sinyal

Integrasi data: menggabungkan data ke dalam kumpulan data terpadu

Eksplorasi data

Eksplorasi data adalah proses mengevaluasi data untuk memahami informasi yang dikandungnya. EDA bertujuan untuk mempelajari karakteristik data, menemukan pola dan hubungan, serta mengidentifikasi insight dengan bantuan alat visualisasi data.

Temuan EDA menginformasikan pilihan pada pemilihan model yang terjadi selanjutnya.

Rekayasa fitur

Pemilihan fitur adalah langkah prapemrosesan data yang penting dan melibatkan identifikasi fitur yang paling relevan, atau karakteristik, dari titik-titik data. Fitur data diekstraksi dan dipilih yang memberikan model kesempatan terbaik untuk memecahkan tantangan dunia nyata.

Berfokus pada fitur yang salah dapat menghasilkan model yang tidak berfungsi sebagaimana dimaksud. Setelah mengaplikasikan teknik ekstraksi fitur untuk merampingkan data, para ilmuwan data memilih berbagai fitur yang akan menghasilkan prediksi model terkuat.

Tahap 2: Pengembangan model

Setelah data pelatihan disiapkan, langkah selanjutnya dalam alur kerja ML adalah membangun model machine learning. Proses menciptakan sebuah pembelajaran mendalam melibatkan pemilihan algoritma machine learning yang sesuai dan memaparkannya ke kumpulan data pelatihan. Hasil dari proses ini adalah terciptanya sebuah model AI yang siap digunakan di dunia nyata dengan data yang tidak terlihat.

Proses pengembangan model melibatkan:

Pemilihan model

Penyetelan hiperparameter

Pelatihan model

Evaluasi model

Pemilihan model

Pemilihan model adalah proses memilih jenis model yang paling mungkin memberikan kinerja terbaik dalam contoh penggunaan. Tahapan perencanaan awal proyek telah memberikan pemahaman yang jelas kepada semua pemangku kepentingan dan peserta tentang kebutuhan bisnis, batasan, dan tujuan proyek. Praktisi ML mendasarkan pilihan mereka pada semua faktor ini, menyeimbangkan pengoptimalan dengan kelayakan.

Pilihannya termasuk regresi linier dan regresi logistik, random forest dan struktur keputusan, neural networks dan model bahasa besar (LLM), support vector machine (SVM), model ensambel, sistem agen, dan banyak lagi yang lainnya.

Bergantung pada sifat tantangan machine learning, jenis algoritma tertentu merupakan kandidat yang lebih cocok.

Sebagai contoh, neural networks dapat menangani AI generatif kompleks tetapi memiliki biaya komputasi yang tinggi dan lebih rentan terhadap overfitting. Model regresi hemat komputasi tetapi memiliki contoh penggunaan yang terbatas.

Penyetelan hiperparameter

Model hiperparameter adalah variabel eksternal yang mengontrol perilaku model selama pelatihan. Hiperparameter juga mengatur bentuk model yang dibangun oleh algoritma, seperti jumlah neuron dan lapisan dalam neural networks.

Penyetelan hiperparameter adalah proses mengoptimalkan hiperparameter sehingga proses pelatihan menghasilkan model yang berkinerja terbaik. Ilmuwan data dapat mengatur hiperparameter secara manual, namun biasanya mengotomatiskan prosesnya melalui berbagai algoritma dan teknik lainnya.

Pelatihan model

Pelatihan model adalah proses mengoptimalkan kinerja model dengan kumpulan data pelatihan yang serupa dengan data input yang diproses model setelah diterapkan. Saluran pelatihan machine learning adalah sistem ekstensif yang dapat berbentuk berbeda-beda, tergantung pada algoritma dan tugas yang menjadi tujuan pengembangan model.

Banyak metode pelatihan berkisar pada meminimalkan fungsi kerugian yang mengukur kesalahan model: kesenjangan antara output model dan nilai data dunia nyata. Dengan setiap putaran pelatihan, model baru memperbarui parameternya karena lebih cocok dengan data pelatihan. Setiap pembaruan mengulangi hasil sebelumnya.

Metode pelatihan model meliputi:

Pembelajaran diawasi: Model dilatih pada kumpulan data terstruktur. Input diberi label dengan output yang sesuai, mengajarkan model cara menghubungkan fitur input dengan nilai output yang benar.

Pembelajaran tanpa pengawasan: Model ini dilatih pada data yang tidak terstruktur dan harus membedakan sendiri pola dan hubungan antara titik data dan fitur.

Pembelajaran agak diawasi: Model ini dilatih dengan metode campuran yang memadukan pembelajaran diawasi dan tanpa pengawasan.

Pembelajaran diawasi mandiri: Model ini dilatih dengan data tanpa label untuk tugas-tugas yang biasanya membutuhkan pembelajaran diawasi.

Pembelajaran penguatan: Model dilatih untuk mengambil tindakan yang menghasilkan imbalan sebesar mungkin alih-alih meminimalkan kesalahan.

Pembelajaran berkelanjutan: Model dilatih pada aliran data input real-time, sebagai lawan dari kumpulan data pelatihan yang telah disusun sebelumnya.

Evaluasi model

Setelah model dianggap terlatih, seperti ketika fungsi kesalahannya telah diminimalkan secara memadai, kinerja model dievaluasi sebelum penerapan. Evaluasi LLM menggunakan kumpulan data pengujian dan validasi yang telah disiapkan selama fase pemisahan data.

Validasi

Validasi memperkirakan kesalahan prediksi model: seberapa baik model dalam membuat prediksi yang benar? Selama pelatihan, algoritma machine learning sering kali menghasilkan beberapa model dengan berbagai konfigurasi hiperparameter. Validasi mengidentifikasi model dengan konfigurasi hiperparameter optimal.

Pengujian

Pengujian menyimulasikan nilai dunia nyata untuk mengevaluasi kesalahan generalisasi model dengan kinerja terbaik: seberapa baik model beradaptasi dengan data baru yang tidak terlihat? Data uji tidak bergantung pada data pelatihan dan tolok ukur kinerja model setelah pelatihan selesai. Pengujian mengungkapkan apakah model akan bekerja sebagaimana dimaksudkan setelah diterapkan.

Tahap 3: Penerapan model

Setelah mengembangkan model yang sesuai dengan kinerja yang kuat, saatnya untuk menerapkan model. Penerapan model menyajikan model pada pengguna di lingkungan produksi yang dituju. Ini bisa berupa apa saja, mulai dari aplikasi mobile atau koneksi API ke fasilitas pengembangan farmasi atau fasilitas penelitian robotika.

Model tidak mulai berfungsi sampai diterapkan secara aktif. Mencapai hasil yang kuat dari proyek machine learning berarti bahwa model harus diterapkan dengan cara yang membuatnya mudah digunakan, apakah itu oleh konsumen, pemimpin bisnis atau sistem komputer lainnya.

Penerapan model meliputi:

Serialisasi model

Integrasi

Arsitektur

Pemantauan

Pembaruan

Kepatuhan

Serialisasi model

Serialisasi adalah metode penerapan umum yang melibatkan konversi model menjadi format yang dapat disimpan dan dikirimkan, kemudian deserialisasi di lingkungan produksi. Ini seperti mengemasi barang-barang ke dalam sebuah kotak, memindahkan kotak tersebut ke rumah baru, lalu membongkarnya untuk mengatur ruangan baru.

Misalnya, Python, bahasa pengodean yang populer dengan pengembangan ML, merekomendasikan kerangka kerja untuk penerapan.

Integrasi

Integrasi menggabungkan model ke dalam lingkungan produksinya, seperti mobile aplikasi. Model dapat disajikan melalui penyedia komputasi awan seperti AWS atau Azure, atau dihosting di lokasi. Atau, mungkin lebih baik menggunakan solusi kontainer seperti Kubernetes dan Docker.

Bergantung pada bagaimana model akan disajikan, pengembang perlu membuat model dapat diakses dengan pustaka dan kerangka kerja machine learning yang sesuai, seperti PyTorch atau TensorFlow Serving.

Arsitektur

Portabilitas dan skalabilitas adalah dua masalah utama yang perlu dipertimbangkan selama penerapan ML.

Portabilitas adalah kemudahan model untuk ditransfer di berbagai sistem.

Skalabilitas adalah kemampuan model untuk menangani beban kerja yang terus bertambah, seperti basis pengguna yang meningkat, tanpa perlu didesain ulang.

Lingkungan produksi model harus dapat mendukung proyeksi pertumbuhan proyek machine learning. Alat penskalaan otomatis dan orkestrasi dapat membantu meningkatkan permintaan lapangan dari waktu ke waktu.

Pemantauan

Alur kerja ML belum selesai setelah model diterapkan. Kinerja model harus dipantau selama siklus proses AI untuk menghindari penyimpangan pada model: yaitu ketika kinerja menurun karena perubahan distribusi data. Banyak metrik lain berkaitan dengan kemampuan model untuk menghasilkan dan memproses token: satu unit input atau output. Beberapa metrik ini meliputi:

Waktu per token output (TPOT) / latensi antara token (ITL): Jumlah waktu yang dibutuhkan model untuk menghasilkan token.

Waktu ke token pertama (TTFT): Jumlah waktu yang dibutuhkan model untuk menghasilkan token pertama dari responsnya.

Throughput: Ukuran kapasitas pembuatan token model secara keseluruhan, diukur dalam token per detik (TPS).

Latensi: Jumlah waktu yang diperlukan model untuk menghasilkan output lengkap setelah menerima input pengguna.

Pembaruan

Kecuali model sedang dilatih dengan pembelajaran berkelanjutan, kumpulan data pelatihannya terbatas. Pembatasan pengetahuan model mengacu pada tanggal terakhir di mana basis pengetahuannya diperbarui dengan data baru. Seiring waktu, model menjadi kurang relevan karena informasi dalam basis pengetahuan semakin tua.

Model harus diperbarui secara berkala untuk mengurangi penyimpangan model dan menjaga tingkat kesalahan seminimal mungkin. Data baru, fitur baru, dan pembaruan algoritmik keduanya dapat mengoptimalkan kinerja model. Pelatihan ulang juga dapat membantu model tetap terkini.

Kepatuhan

Di mana pun pengumpulan data dilakukan, operator model harus mempertimbangkan semua peraturan dan persyaratan hukum yang relevan seputar privasi, kekayaan intelektual, hak cipta, dan masalah lainnya. Sebagai contoh, HIPAA melindungi data medis di AS, sementara GDPR memberikan perlindungan data khusus untuk orang di Uni Eropa.

Model yang dibuat untuk digunakan dalam industri yang diatur seperti farmasi dan keuangan mungkin juga tunduk pada kontrol operasi yang lebih ketat. Model apa pun yang digunakan dalam lingkungan perusahaan kemungkinan besar memproses data internal yang sensitif, sehingga membutuhkan langkah-langkah keamanan siber yang kuat.

Operator model berkewajiban untuk melindungi data pengguna dan mencegah model mereka digunakan untuk tujuan jahat, seperti penipuan dan informasi yang salah. Salah satu keuntungan dari model sumber terbuka adalah siapa pun dapat mengevaluasi model tersebut untuk melihat bagaimana cara kerjanya dan apakah model tersebut mematuhi semua peraturan yang relevan.

Manfaat alur kerja machine learning

Saluran machine learning menawarkan banyak manfaat, seperti:

Modularisasi

Kemudahan diproduksi ulang

Efisiensi

Skalabilitas

Eksperimen

Penerapan

Kolaborasi

Kontrol versi dan dokumentasi

Modularisasi

Alur memecah proses machine learning menjadi langkah-langkah modular yang terdefinisi dengan baik. Setiap langkah dapat dikembangkan, diuji, dan dioptimalkan secara mandiri, sehingga memudahkan untuk mengelola dan memelihara alur kerja.

Reproduktivitas

Saluran machine learning membuat lebih mudah untuk mereproduksi eksperimen. Menentukan urutan langkah dan parameternya dalam alur membantu memastikan hasil yang konsisten. Jika suatu langkah gagal atau kinerja model memburuk, saluran dapat dikonfigurasikan untuk memunculkan peringatan atau mengambil tindakan korektif.

Efisiensi

Alur mengotomatiskan banyak tugas rutin, seperti prapemrosesan data, rekayasa fitur, dan evaluasi model. Efisiensi ini dapat menghemat waktu dan mengurangi kesalahan.

Skalabilitas

Saluran dapat diskalakan untuk menangani kumpulan data besar atau alur kerja yang kompleks. Seiring bertambahnya kompleksitas data dan model, Anda dapat menyesuaikan saluran tanpa harus mengonfigurasi ulang semuanya dari awal.

Eksperimen

Memodifikasi setiap langkah dalam Saluran membuka pintu untuk bereksperimen dengan berbagai teknik prapemrosesan data, pemilihan fitur, dan model. Fleksibilitas ini memungkinkan iterasi dan pengoptimalan yang sangat cepat.

Penerapan

Saluran memfasilitasi penerapan model machine learning ke dalam produksi. Saluran yang ditetapkan dengan baik untuk pelatihan dan evaluasi model membuat penerapan lebih mudah ke dalam aplikasi atau sistem.

Kolaborasi

Saluran memungkinkan tim ilmuwan dan insinyur data untuk berkolaborasi. Karena alur kerja terstruktur dan terdokumentasi, anggota tim lebih mudah memahami dan berkontribusi pada proyek.

Kontrol versi dan dokumentasi

Sistem kontrol versi melacak perubahan dalam kode saluran dan konfigurasi, sehingga memungkinkan untuk kembali ke versi sebelumnya. Saluran yang terstruktur dengan baik mendorong dokumentasi yang lebih baik dari setiap langkah.

Sejarah saluran machine learning

Sejarah saluran machine learning terkait erat dengan evolusi pembelajaran mesin dan ilmu data sebagai bidang. Sementara konsep alur kerja pemrosesan data mendahului machine learning, formalisasi dan meluasnya penggunaan saluran machine learning berkembang baru-baru ini.

Sejarah saluran machine learning mencakup perkembangan berikut:

Alur kerja pemrosesan data awal (sebelum 2000-an)

Munculnya machine learning (2000-an)

Bangkitnya ilmu data (akhir 2000-an hingga awal 2010-an)

Pengembangan pustaka dan alat machine learning (2010-an)

Bangkitnya AutoML (2010-an)

Integrasi dengan DevOps (2010-an)

Alur kerja pemrosesan data awal (sebelum 2000-an)

Sebelum adopsi luas machine learning, alur kerja pemrosesan data digunakan untuk tugas-tugas seperti pembersihan data, transformasi, dan analisis. Alur kerja ini biasanya manual dan melibatkan skrip atau alat seperti perangkat lunak spreadsheet. Namun, pembelajaran mesin bukanlah bagian utama dari proses ini selama periode ini.

Kemunculan machine learning (2000-an)

Machine learning menjadi terkenal di awal 2000-an dengan kemajuan dalam algoritma, kekuatan komputasi dan ketersediaan kumpulan data besar. Para peneliti dan ilmuwan data mulai menerapkan machine learning ke berbagai domain, yang mengarah pada kebutuhan yang semakin meningkat akan alur kerja yang sistematis dan otomatis.

Bangkitnya ilmu data (akhir 2000-an hingga awal 2010-an)

Istilah ilmu data menjadi populer sebagai bidang multidisiplin yang menggabungkan statistik, analisis data, dan machine learning. Era ini menyaksikan formalisasi alur kerja ilmu data, termasuk prapemrosesan data, pemilihan model, dan evaluasi, yang sekarang menjadi bagian integral dari jalur machine learning.

Pengembangan pustaka dan alat machine learning (2010-an)

Tahun 2010-an membawa pengembangan perpustakaan dan alat machine learning yang memfasilitasi pembuatan alur. Pustaka seperti scikit-learn (untuk Python) dan caret (untuk R) menyediakan API standar untuk membangun dan mengevaluasi model machine learning, sehingga lebih mudah untuk membangun saluran.

Bangkitnya AutoML (2010-an)

Alat dan platform machine learning otomatis (AutoML) muncul untuk mengotomatiskan proses membangun saluran machine learning. Alat-alat ini biasanya mengotomatiskan tugas seperti penyetelan hiperparameter, pemilihan fitur, dan pemilihan model, membuat machine learning lebih mudah diakses oleh bukan pakar dengan visualisasi dan tutorial.

Integrasi dengan DevOps (2010-an)

Praktik DevOps mulai menggabungkan saluran machine learning untuk memungkinkan integrasi dan penerapan berkelanjutan (CI/CD) dari model machine learning. Integrasi ini yang dikenal sebagai operasi machine learning (MLOps) menekankan perlunya kemampuan reproduksi, kontrol versi, dan pemantauan dalam saluran ML.

MLOps membantu tim ilmu data untuk mengatasi orkestrasi AI yang kompleks secara efektif. Dalam penerapan real-time, saluran membalas permintaan dalam milidetik.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

apa itu pipeline pembelajaran mesin