Komponen sumber terbuka memainkan peran penting dalam rantai pasokan AI. Hanya perusahaan terbesar yang memiliki akses ke data dalam jumlah besar untuk melatih model dari awal, sehingga mereka sangat bergantung pada kumpulan data sumber terbuka seperti LAION 5B atau Common Corpus. Ukuran dataset yang besar juga membuat kualitas data serta kepatuhan terhadap undang-undang hak cipta dan privasi sulit dijaga. Sebaliknya, banyak model AI generatif arus utama seperti ChatGPT bersifat kotak hitam karena menggunakan kumpulan data terkurasi. Ini datang membawa tantangan keamanan tersendiri.

Model vertikal dan eksklusif dapat menyempurnakan model dasar sumber terbuka dengan pelatihan tambahan menggunakan kumpulan data mereka sendiri. Misalnya, perusahaan yang mengembangkan chatbot layanan pelanggan generasi berikutnya dapat menggunakan catatan komunikasi pelanggan sebelumnya untuk membuat model yang disesuaikan dengan kebutuhan khusus mereka. Data seperti ini sudah lama menjadi target penjahat siber, tetapi lonjakan pesat AI generatif membuatnya semakin menarik bagi aktor jahat.

Dengan menargetkan kumpulan data ini, penjahat siber dapat meracuninya dengan informasi yang salah atau kode dan data berbahaya. Setelah data yang dikompromikan masuk ke proses pelatihan model AI, efeknya menyebar ke seluruh siklus hidup perangkat lunak AI. Diperlukan waktu ribuan jam dan daya komputasi yang sangat besar untuk melatih sebuah Model Bahasa Besar (LLM). Ini adalah upaya yang mahal secara finansial maupun lingkungan. Namun, jika kumpulan data pelatihan telah dikompromikan, seluruh proses kemungkinan harus diulang dari awal.