Penyimpangan model mengacu pada degradasi kinerja model machine learning karena perubahan data atau hubungan antara variabel input dan hasil. Penyimpangan model, yang juga sering disebut keusangan model, dapat mengganggu kinerja model, yang berakibat pada pengambilan keputusan yang salah dan prediksi buruk.
Untuk mendeteksi dan mengatasi penyimpangan, organisasi dapat memantau dan mengelola kinerja pada platform data dan kecerdasan buatan (AI) mereka. Jika tidak dipantau dengan benar dari waktu ke waktu, bahkan model AI yang paling terlatih dan tidak memihak pun dapat “melayang” dari parameter aslinya dan menghasilkan hasil yang tidak diinginkan saat menerapkan. Deteksi penyimpangan adalah komponen inti dari tata kelola AI yang kuat.
Model yang dibangun dengan data historis dapat dengan cepat menjadi stagnan. Biasanya, titik data baru selalu muncul, yang berarti variasi baru, pola baru, tren baru, yang tidak dapat ditangkap oleh data historis lama. Jika pelatihan model AI tidak selaras dengan data yang masuk, model tersebut tidak dapat menafsirkan data secara akurat atau menggunakan data langsung tersebut untuk membuat prediksi yang akurat.
Jika tidak terdeteksi dan dikurangi dini, penyimpangan dapat bertambah parah, meningkatkan dampak buruk terhadap operasi. Deteksi penyimpangan memberdayakan organisasi untuk terus menerima hasil akurat dari model mereka.
Dunia terus berubah, begitu juga dengan data yang terus berubah, maka model yang digunakan untuk memahami dunia harus terus ditinjau dan diperbarui. Berikut adalah 3 jenis penyimpangan model drift yang perlu ditangani, masing-masing dengan penyebab yang berbeda.
Penyimpangan konsep terjadi ketika ada perbedaan antara variabel input dan variabel target, di mana algoritma mulai memberikan jawaban yang salah karena definisi tidak lagi valid. Penyimpangan variabel independen dapat berlaku selama berbagai periode yaitu:
Penyimpangan konsep berulang dan surut secara teratur, seperti untuk musiman perilaku membeli sebagai respons terhadap perubahan cuaca. Di iklim musim dingin, penjualan sekop salju dan peniup salju biasanya akan meningkat di akhir musim gugur dan awal musim dingin. Penyesuaian geografis juga harus dilakukan untuk perkiraan hujan salju.
Perkembangan yang tidak terduga dapat mendorong pola pembelian baru. Contohnya adalah publisitas yang tiba-tiba muncul di sekitar ChatGPT yang menciptakan peningkatan permintaan untuk produk perangkat keras dan perangkat lunak AI, dan meningkatkan nilai saham perusahaan yang terkait dengan AI. Model peramalan yang dilatih sebelum berita itu diterbitkan mungkin tidak dapat memprediksi hasil selanjutnya.
Contoh lain adalah datangnya pandemi Covid-19, yang juga menciptakan perubahan perilaku secara tiba-tiba: penjualan permainan dan peralatan olahraga melonjak, sementara restoran dan hotel melihat pengunjung yang jauh lebih sedikit.
Beberapa penyimpangan terjadi secara bertahap, atau pada kecepatan yang diharapkan. Misalnya, pengirim spam dan peretas telah menggunakan berbagai alat dan trik selama bertahun-tahun. Seiring dengan meningkatnya perangkat lunak perlindungan dan filter spam, pelaku kejahatan pun ikut berkembang. Setiap AI yang dirancang untuk melindungi interaksi digital perlu mengikuti perkembangan; model statis akan segera tidak berguna.
Penyimpangan data, juga dikenal sebagai pergeseran kovariat, terjadi ketika distribusi data yang mendasari data input telah berubah. Di retail, penjualan suatu produk mungkin dipengaruhi oleh diperkenalkannya produk baru lainnya atau penghentian produk pesaing. Atau jika sebuah situs web pertama kali diadopsi oleh generasi muda, namun kemudian diterima oleh generasi yang lebih tua, model awal yang didasarkan pada pola penggunaan pengguna yang lebih muda mungkin tidak akan berfungsi dengan baik pada basis pengguna yang lebih tua.
Perubahan data hulu terjadi ketika ada perubahan dalam pipeline data. Sebagai contoh, data hulu mungkin diubah ke mata uang yang berbeda, seperti USD versus EUR atau pengukuran dalam mil, bukan kilometer, atau suhu dalam Fahrenheit, bukan Celcius. Perubahan seperti itu akan membuang model yang tidak dibangun untuk memperhitungkan perubahan dalam cara data diberi label.
Bisnis dan ilmuwan data dapat menggunakan berbagai metode deteksi penyimpangan data untuk terus memantau penyimpangan model machine learning dan memperbaikinya sebelum model mereka menjadi usang.
Banyak dari metode yang paling populer adalah metode berbasis distribusi waktu yang mengukur potensi penyimpangan antara dua distribusi probabilitas. Jika hasil sangat berbeda, maka sifat statistik dari input kemungkinan besar telah berubah, yang mengakibatkan penyimpangan data.
Deteksi penyimpangan data adalah aspek inti dari observabilitas data, yang merupakan praktik pemantauan berkelanjutan kualitas dan keandalan data yang mengalir dalam organisasi. Bahasa pengodean Python sangat populer dalam ilmu data untuk digunakan dalam pembuatan pendeteksi penyimpangan sumber terbuka.
Uji Kolmogorov-Smirnov (K-S) mengukur apakah dua kumpulan data berasal dari distribusi yang sama. Dalam bidang ilmu data, uji K-S bersifat nonparametrik, yang berarti bahwa uji ini tidak mengharuskan distribusi memenuhi asumsi atau kriteria yang telah ditetapkan sebelumnya.
Ilmuwan data menggunakan tes Kolmogorov-Smirnov karena dua alasan utama:
Untuk menentukan apakah sampel data berasal dari populasi tertentu.
Untuk membandingkan dua sampel data dan melihat apakah mereka berasal dari populasi yang sama.
Jika hasil uji K-S menunjukkan bahwa dua set data tampak berasal dari populasi yang berbeda, maka kemungkinan besar telah terjadi penyimpangan data, sehingga uji K-S merupakan pendeteksi penyimpangan yang andal.
Jarak Wasserstein, yang dinamai dari ahli matematika Leonid Vaserstein, menggunakan metafora sederhana sebagai visualisasi tingkat keparahan penyimpangan data. Ini membayangkan dua tumpukan kecil tanah, dengan penyimpangan data sebagai jumlah pekerjaan yang diperlukan untuk membuat satu tumpukan dari tanah yang diambil dari tumpukan lainnya. Karena alasan ini, jarak Wasserstein juga dikenal dalam ilmu komputer dan ilmu data sebagai jarak penggerak bumi (EMD).
Sebagai metode deteksi penyimpangan, jarak Wasserstein membandingkan data pelatihan dengan data input baru yang dimasukkan ke dalam model machine learning. Ini unggul dalam mengidentifikasi hubungan kompleks antara fitur dan dapat menavigasi outlier untuk hasil yang konsisten.
Indeks stabilitas populasi (PSI) membandingkan distribusi fitur kategorikal di dua set data untuk menentukan sejauh mana distribusi tersebut telah berubah dari waktu ke waktu.
Divergensi yang lebih besar dalam distribusi, diwakili oleh nilai PSI yang lebih tinggi, menunjukkan adanya penyimpangan model. PSI dapat mengevaluasi fitur independen dan dependen; yang berubah berdasarkan variabel lain.
Jika distribusi satu atau beberapa fitur kategorikal menghasilkan PSI yang tinggi, model mesin kemungkinan besar membutuhkan kalibrasi ulang atau bahkan pembangunan ulang.
Bisnis dapat mengelola deteksi penyimpangan data dan remediasi dengan lebih baik dengan mengikuti praktik terbaik berikut:
Keakuratan model AI dapat menurun dalam beberapa hari setelah penerapan, karena data produksi berbeda dengan data pelatihan model. Hal ini dapat menyebabkan prediksi yang salah dan eksposur risiko yang signifikan.
Untuk melindungi dari penyimpangan dan bias model, organisasi harus menggunakan detektor penyimpangan AI dan alat pemantauan yang secara otomatis mendeteksi ketika akurasi model menurun (atau menyimpang) di bawah ambang batas yang telah ditetapkan.
Program untuk mendeteksi penyimpangan model ini juga harus melacak transaksi mana yang menyebabkan penyimpangan, sehingga memungkinkan mereka untuk dilabel ulang dan digunakan untuk melatih ulang model, memulihkan kekuatan prediktifnya selama waktu proses.
Deteksi penyimpangan statistik menggunakan metrik statistik untuk membandingkan dan menganalisis sampel data. Ini seringkali lebih mudah diterapkan karena sebagian besar metrik sudah digunakan dalam perusahaan. Deteksi penyimpangan berbasis model mengukur kesamaan antara titik atau kelompok titik versus garis dasar referensi.
Organisasi harus menguji model AI mereka, terutama model AI generatif, secara berkala sepanjang siklus hidup model. Pengujian ini idealnya meliputi:
Menurut studi Forrester Total Economic Impact, “Dengan membangun, menjalankan, dan mengelola model dalam data terpadu dan lingkungan AI, [organisasi] dapat memastikan bahwa model AI tetap adil, dapat dijelaskan, dan patuh di mana pun. Pendekatan AI menyeluruh ini secara unik memungkinkan organisasi untuk mendeteksi dan membantu memperbaiki penyimpangan dan bias model, serta mengelola risiko model saat model AI sedang diproduksi.”
Praktik terbaik adalah mengelola semua model dari dasbor pusat. Pendekatan terintegrasi dapat membantu organisasi melacak metrik secara terus menerus dan memperingatkan tim tentang penyimpangan dalam akurasi dan konsistensi data selama pengembangan, validasi, dan penerapan. Pandangan yang terpusat dan menyeluruh dapat membantu organisasi memecah silo dan memberikan lebih banyak transparansi di seluruh silsilah data.
Deteksi skenario dan ukuran penyimpangan melalui model AI yang membandingkan data produksi dan data pelatihan serta prediksi model secara real time. Dengan cara ini, penyimpangan dapat ditemukan dengan cepat dan pelatihan ulang dapat segera dimulai. Deteksi ini berulang, sama seperti sifat operasi machine learning (MLOps) yang berulang.
Analisis berbasis waktu membantu melihat bagaimana penyimpangan berkembang dan kapan itu terjadi. Misalnya, jika pemeriksaan dijalankan setiap minggu, itu akan menunjukkan bagaimana penyimpangan berkembang setiap hari.
Menganalisis garis waktu juga dapat membantu untuk menentukan apakah penyimpangan itu bertahap atau tiba-tiba. Pendekatan AI yang dapat dijelaskan menerapkan transparansi ini pada penggunaan AI dan membantu organisasi memantau bagaimana dan mengapa model mereka memberikan hasil tertentu.
Gunakan kumpulan data pelatihan baru yang memiliki sampel yang lebih baru dan relevan di dalamnya. Tujuannya adalah untuk mengembalikan model bahasa besar Anda (LLM) ke produksi dengan cepat dan benar. Jika pelatihan ulang model tidak menyelesaikan masalah, mungkin diperlukan model baru. Teknik operasi model bahasa besar (LLMOps) dapat membantu organisasi dalam memantau dan melatih ulang LLM mereka.
Alih-alih melatih model dengan data batch, organisasi dapat mempraktikkan “pembelajaran online” dengan memperbarui model machine learning (ML) menggunakan data dunia nyata terbaru jika tersedia.
Sebuah model dapat terlihat menyimpang karena data yang digunakan untuk melatihnya berbeda dengan data produksi aktual yang akan digunakan. Dalam contoh penggunaan medis, jika pemindaian resolusi tinggi digunakan dalam pelatihan, tetapi hanya pemindaian resolusi rendah yang tersedia di lapangan, maka hasilnya salah.
Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.
IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
Akses katalog lengkap kami yang terdiri dari lebih dari 100 kursus online dengan membeli langganan individu atau multi-pengguna hari ini, memungkinkan Anda untuk memperluas keterampilan Anda di berbagai produk kami dengan satu harga murah.
Dipandu oleh pemimpin terkemuka IBM, kurikulumnya dirancang untuk membantu pemimpin bisnis dalam mendapatkan pengetahuan yang diperlukan untuk memprioritaskan investasi AI yang dapat mendorong pertumbuhan.
Ingin mendapatkan laba yang lebih baik atas investasi AI Anda? Pelajari bagaimana meningkatkan AI gen di berbagai bidang utama mendorong perubahan dengan membantu para pemikir terbaik Anda membangun dan memberikan solusi baru yang inovatif.
Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.
Selami 3 elemen penting dari strategi AI yang kuat: menciptakan keunggulan kompetitif, meningkatkan skala AI di seluruh bisnis, dan memajukan AI yang dapat dipercaya.