Apa itu Pembelajaran Gabungan?

Penyusun

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

Apa yang dimaksud dengan pembelajaran gabungan?

Pembelajaran gabungan adalah pendekatan terdesentralisasi untuk melatih model machine learning (ML). Setiap node di seluruh jaringan terdistribusi melatih model global menggunakan data lokalnya, dengan server pusat yang menggabungkan pembaruan node untuk meningkatkan model global.

Model kecerdasan buatan (AI) membutuhkan volume data yang sangat besar. Kumpulan data ini biasanya dipusatkan di satu lokasi untuk pelatihan model, membuka peluang bagi informasi identifikasi pribadi (PII) apa pun yang terkandung dalam kumpulan data untuk diekspos selama transmisi atau penyimpanan.

Pembelajaran gabungan membantu mengatasi masalah ini karena informasi sensitif tetap ada di node, menjaga privasi data. Ini juga memungkinkan pembelajaran kolaboratif, dengan berbagai perangkat atau server yang berkontribusi pada penyempurnaan model AI.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Cara kerja pembelajaran gabungan

Pembelajaran gabungan melibatkan 4 tahap utama:

Inisialisasi
Pelatihan lokal
Agregasi global
Iterasi

Inisialisasi

Pembelajaran gabungan dimulai dengan menginisialisasi model machine learning global di server pusat. Model ini adalah dasar dari mana proses pembelajaran federasi dimulai.

Server pusat mendistribusikan model global ke node klien yang terhubung, yang dapat berupa server lain atau perangkat edge seperti smartphone dan perangkat Internet of Things (IoT). Ini juga menyampaikan informasi yang relevan, termasuk variabel konfigurasi seperti hiperparameter dan jumlah zaman atau lintasan lengkap melalui data pelatihan.

Pelatihan lokal

Setelah menerima model global dan semua detail yang diperlukan, setiap node klien melanjutkan pelatihan. Proses pelatihan mirip dengan jaringan neural apa pun, dengan node melatih model hanya menggunakan data di perangkat atau lokal mereka.

Ketika mereka telah menyelesaikan jumlah zaman, node klien mengirimkan parameter model atau gradien yang diperbarui ke server pusat—tidak ada model lokal yang terlatih sepenuhnya atau data mentah yang dikirim kembali.

Agregasi global

Server pusat mengumpulkan semua pembaruan node klien. Ada berbagai bentuk agregasi, tetapi metode yang umum digunakan adalah rata-rata gabungan, yang menghitung rata-rata tertimbang dari semua pembaruan. Pembaruan gabungan ini kemudian dimasukkan ke dalam model global.

Iterasi

Server pusat kembali mendistribusikan model global yang baru ke node-node klien yang terhubung, dan proses pembelajaran federasi berulang hingga model mencapai konvergensi penuh atau terlatih sepenuhnya.

Akademi AI

Menjadi pakar AI

Raih pengetahuan demi memprioritaskan investasi AI yang mendorong pertumbuhan bisnis. Mulai dengan Akademi AI gratis kami hari ini dan pimpin masa depan AI di organisasi Anda.

Tonton serialnya

Jenis pembelajaran gabungan

Pembelajaran terfederasi dapat bervariasi berdasarkan pada struktur kumpulan data atau sifat node. Biasanya diklasifikasikan ke dalam categories:

Lintas perangkat
Lintas silo
Horizontal
Vertikal

Lintas perangkat

Pembelajaran gabungan lintas perangkat menggunakan perangkat dengan konektivitas yang mudah menguap dan sumber daya komputasi yang terbatas, seperti mobile dan perangkat IoT. Jenis pembelajaran gabungan ini perlu memperhitungkan koneksi jaringan yang tidak dapat diandalkan, dan karena node klien hanya dapat menangani kumpulan data kecil, banyak perangkat biasanya diperlukan untuk pelatihan lokal.¹

Perusahaan e-commerce, misalnya, dapat melatih mesin rekomendasi berdasarkan data pengguna di berbagai perangkat untuk memberikan rekomendasi produk yang lebih personal.¹

Lintas silo

Tidak seperti pendekatan gabungan lintas perangkat, lintas silo memerlukan sejumlah server atau pusat data terbatas dengan konektivitas stabil dan sumber daya komputasi yang cukup kuat untuk menyimpan dan memproses volume data yang sangat besar. Node klien diperlakukan sebagai silo yang menyimpan data pribadi, dan data ini tidak boleh meninggalkan sistem atau dibagikan secara eksternal karena masalah privasi.¹

Pembelajaran gabungan lintas silo dapat bermanfaat dalam industri seperti keuangan dan layanan kesehatan. Sebagai contoh, konsorsium rumah sakit dapat melatih model bersama pada data pasien mereka sendiri untuk meningkatkan diagnosis atau prediksi penyakit tertentu. Demikian pula, sebuah koalisi bank dapat melatih algoritma machine learning yang sama dengan menggunakan catatan transaksi mereka sendiri untuk meningkatkan deteksi penipuan.¹

Horisontal

Dalam pembelajaran gabungan horizontal, kumpulan data node klien berbagi fitur yang sama tetapi memiliki sampel yang berbeda. Sebagai contoh, klinik dapat melatih model analitik bersama karena masing-masing memiliki variabel yang sama untuk data uji klinis mereka tetapi nilai yang berbeda untuk pasien yang terlibat dalam uji coba.

Vertikal

Sebaliknya, pembelajaran gabungan vertikal melibatkan kumpulan data node klien yang berbagi sampel yang sama tetapi memiliki struktur atau fitur yang berbeda. Sebagai contoh, peritel dan bank dapat menjalin kemitraan untuk penawaran yang lebih personal kepada pelanggan, dan mereka dapat melatih mesin rekomendasi umum karena mereka mungkin memiliki data pelanggan yang sama namun memiliki informasi pembelian dan keuangan yang bervariasi.

Manfaat pembelajaran gabungan

Sifat terdesentralisasi pembelajaran gabungan menawarkan keuntungan utama ini:

Efisiensi
Privasi data yang ditingkatkan
Peningkatan kepatuhan

Efisiensi

Pembelajaran gabungan menghilangkan kebutuhan untuk mengakses atau mentransfer kumpulan data besar. Hal ini menyebabkan penurunan latensi dan pengurangan bandwidth yang diperlukan untuk melatih model machine learning.

Privasi data yang ditingkatkan

Arsitektur pelestarian privasi dari sistem pembelajaran gabungan berarti bahwa data sensitif tidak pernah meninggalkan perangkat. Ini membantu meminimalkan risiko serangan siber atau pelanggaran data.

Sebagian besar sistem pembelajaran gabungan juga menerapkan teknik kriptografi termasuk privasi diferensial dan komputasi multi-partai yang aman (SMPC) untuk meningkatkan privasi data.

Privasi diferensial menambahkan noise pada pembaruan model sebelum mengirimkannya ke server pusat, sementara SMPC memungkinkan server pusat melakukan komputasi agregasi yang aman pada pembaruan model yang dienkripsi. Metode ini membuat sulit untuk merekayasa balik atau membedakan node klien mana yang berkontribusi pada pembaruan, memperkuat keamanan data.

Peningkatan kepatuhan

Karena data disimpan dan diproses secara lokal, pembelajaran federasi dapat membantu perusahaan mematuhi peraturan perlindungan data. Kepatuhan sangat penting untuk sektor-sektor seperti keuangan dan perawatan kesehatan, yang menangani data pribadi.

Tantangan pembelajaran gabungan

Pembelajaran gabungan menandakan perubahan transformatif dalam melatih model AI, tetapi juga dilengkapi dengan keterbatasan. Berikut adalah beberapa tantangan yang terkait dengan pembelajaran gabungan:

Serangan jahat
Overhead komunikasi
Heterogenitas

Serangan adversial

Pembelajaran gabungan rentan terhadap serangan keracunan data , di mana aktor ancaman menyuntikkan data berbahaya selama pelatihan lokal atau mengubah pembaruan model untuk transmisi guna membahayakan atau merusak model pusat.

Deteksi anomali, pelatihan adversarial, kontrol akses yang ketat, dan tindakan keamanan lainnya dapat membantu melindungi dari serangan ini.

Overhead Komunikasi

Pertukaran reguler antara node klien dan server pusat dapat mengakibatkan hambatan besar. Untuk efisiensi komunikasi yang lebih baik, pertimbangkan strategi seperti mengompresi pembaruan model sebelum transmisi, kuantisasi dan sparsifikasi untuk menyampaikan subset pembaruan atau hanya pembaruan penting. Strategi ini harus seimbang dengan penurunan akurasi yang menyertainya.

Heterogenitas

Desain desentralisasi pembelajaran gabungan dapat meningkatkan keberagaman data yang dapat membantu mengurangi bias. Namun, ini juga berarti bahwa data tidak terdistribusi secara identik dan dapat menjadi tidak seimbang. Beberapa perangkat mungkin memiliki lebih banyak data dibanding perangkat lain, yang membuat model global condong ke arah node-node yang banyak datanya.

Beberapa cara untuk mengatasi heterogenitas statistik ini termasuk metodologi atau teknik pengambilan sampel yang memperhitungkan variasi distribusi, klaster node dengan distribusi data yang serupa selama pelatihan model dan algoritma optimasi seperti FedProx, yang ditargetkan untuk jaringan yang heterogen.

Heterogenitas sistem juga menjadi masalah, dengan perangkat yang memiliki kemampuan komputasi yang berbeda. Pelatihan lokal adaptif dapat diterapkan untuk menyesuaikan pelatihan model sesuai dengan apa yang dapat ditangani node.

Contoh penggunaan pembelajaran gabungan

Pembelajaran gabungan menjanjikan untuk membantu memecahkan masalah di dunia nyata, dengan bergabungnya berbagai organisasi bahkan melintasi batas negara dan wilayah geografis. Berikut adalah beberapa industri yang mendapatkan manfaat dari pembelajaran gabungan:

Keuangan
Perawatan kesehatan
Retail dan manufaktur
Manajemen perkotaan

Keuangan

Lembaga keuangan dapat bekerja sama untuk mendiversifikasi data untuk model penilaian risiko kredit, sehingga memungkinkan akses kredit yang lebih baik bagi kelompok yang kurang terlayani. Mereka juga dapat menggunakan pembelajaran federasi untuk memberikan saran perbankan dan investasi yang lebih dipersonalisasi, sehingga meningkatkan pengalaman pengguna.

Layanan Kesehatan

Rumah sakit dan lembaga penelitian dapat melatih model pembelajaran mendalam bersama yang membantu penemuan obat untuk penyakit langka. Sistem pembelajaran gabungan juga dapat membantu dalam menemukan strategi pengobatan yang lebih baik dan meningkatkan hasil pengobatan bagi masyarakat yang kurang terwakili.

Retail dan manufaktur

Peritel dapat menggunakan federated learning untuk melacak penjualan dan inventaris di berbagai lokasi tanpa mengungkapkan data pelanggan apa pun, sehingga mereka dapat memaksimalkan tingkat stok dan mengurangi pemborosan. Sementara itu, produsen dapat mengumpulkan data dari berbagai bagian rantai pasokan untuk mengoptimalkan logistik.

Manajemen perkotaan

Kota pintar dapat memanfaatkan pembelajaran gabungan untuk mengumpulkan insight dari segudang perangkat dan sensor yang tersebar di sekitar daerah perkotaan sambil menjaga kerahasiaan data penduduk. Insight ini dapat digunakan untuk mengarahkan lalu lintas dengan lebih baik, misalnya, atau untuk memantau kondisi lingkungan seperti polusi udara dan air.

Kerangka kerja pembelajaran gabungan

Menerapkan pembelajaran gabungan untuk aplikasi dunia nyata bisa rumit, tetapi ada beberapa kerangka kerja untuk melatih model pada data terdesentralisasi dan merampingkan alur kerja server dan klien. Berikut adalah beberapa kerangka kerja pembelajaran gabungan yang populer:

Bunga
Pembelajaran Gabungan IBM
NVIDIA FLARE
OpenFL
TensorFlow Federated

Flower

Flower adalah kerangka kerja sumber terbuka untuk AI kolaboratif dan ilmu data. Ini dapat digunakan untuk membuat sistem AI gabungan dengan banyak klien yang terhubung. Ini kompatibel dengan sebagian besar kerangka kerja machine learning dan dapat dioperasikan dengan berbagai platform perangkat keras dan sistem operasi.

IBM Federated Learning

IBM Federated Learning adalah kerangka kerja untuk pembelajaran gabungan di lingkungan perusahaan. Ia bekerja dengan berbagai algoritma machine learning, termasuk decision trees, pengklasifikasi Naïve Bayes, jaringan neural, dan pembelajaran penguatan.

IBM Federated Learning juga dilengkapi dengan perpustakaan metode fusi yang kaya untuk menggabungkan pembaruan model dan mendukung berbagai teknik keadilan untuk membantu memerangi bias AI.

NVIDIA FLARE

NVIDIA FLARE (Lingkungan Runtime Aplikasi Pembelajaran Terfederasi) adalah perangkat pengembangan perangkat lunak sumber terbuka dan agnostik domain untuk pembelajaran gabungan.

Memiliki alur kerja pelatihan dan evaluasi bawaan, algoritma yang menjaga privasi, dan algoritma pembelajaran untuk rata-rata gabungan dan FedProx. NVIDIA FLARE juga memiliki alat manajemen untuk orkestrasi dan pemantauan.

OpenFL

OpenFL adalah sebuah kerangka kerja pembelajaran gabungan sumber terbuka berbasis Python yang awalnya dibuat oleh Intel dan sekarang berada di bawah naungan Linux® Foundation. OpenFL bekerja dengan kerangka kerja pembelajaran mendalam seperti PyTorch dan perpustakaan machine learning termasuk TensorFlow. Fitur keamanannya mencakup privasi diferensial dan dukungan untuk lingkungan eksekusi tepercaya berbasis perangkat keras.

TensorFlow Federated

TensorFlow Federated (TFF) adalah kerangka kerja sumber terbuka yang dikembangkan oleh Google untuk machine learning pada data yang terdesentralisasi. Antarmuka pemrograman aplikasi (API) TFF dibagi menjadi 2 lapisan:

API Pembelajaran Gabungan adalah lapisan tingkat tinggi yang memfasilitasi penerapan tugas pembelajaran gabungan seperti pelatihan atau evaluasi menggunakan model machine learning yang ada.
API Inti Gabungan adalah lapisan tingkat rendah untuk membangun algoritma pembelajaran gabungan baru.

Ilmu data dan MLOP untuk pemimpin data

Menyelaraskan dengan para pemimpin lain dalam 3 tujuan utama MLOps dan AI yang dapat dipercaya: kepercayaan pada data, kepercayaan pada model, dan kepercayaan pada proses.

Catatan kaki

Semua tautan berada di luar ibm.com

¹ Federated learning lintas silo dan lintas perangkat di Google Cloud, Google Cloud, 3 Juni 2024.

Apa itu pembelajaran gabungan?

Penyusun

Apa yang dimaksud dengan pembelajaran gabungan?

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Cara kerja pembelajaran gabungan

Inisialisasi

Pelatihan lokal

Agregasi global

Iterasi

Menjadi pakar AI

Jenis pembelajaran gabungan

Lintas perangkat

Lintas silo

Horisontal

Vertikal

Manfaat pembelajaran gabungan

Efisiensi

Privasi data yang ditingkatkan

Peningkatan kepatuhan

Tantangan pembelajaran gabungan

Serangan adversial

Overhead Komunikasi

Heterogenitas

Contoh penggunaan pembelajaran gabungan

Keuangan

Layanan Kesehatan

Retail dan manufaktur

Manajemen perkotaan

Kerangka kerja pembelajaran gabungan

Flower

IBM Federated Learning

NVIDIA FLARE

OpenFL

TensorFlow Federated

Sumber daya

Catatan kaki

Apa itu pembelajaran gabungan?

Penyusun

Apa yang dimaksud dengan pembelajaran gabungan?

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Cara kerja pembelajaran gabungan

Inisialisasi

Pelatihan lokal

Agregasi global

Iterasi

Menjadi pakar AI

Jenis pembelajaran gabungan

Lintas perangkat

Lintas silo

Horisontal

Vertikal

Manfaat pembelajaran gabungan

Efisiensi

Privasi data yang ditingkatkan

Peningkatan kepatuhan

Tantangan pembelajaran gabungan

Serangan adversial

Overhead Komunikasi

Heterogenitas

Contoh penggunaan pembelajaran gabungan

Keuangan

Layanan Kesehatan

Retail dan manufaktur

Manajemen perkotaan

Kerangka kerja pembelajaran gabungan

Flower

IBM Federated Learning

NVIDIA FLARE

OpenFL

TensorFlow Federated

Share

Sumber daya

Catatan kaki