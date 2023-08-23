Model bahasa besar dapat dilatih pada data eksklusif untuk memenuhi contoh penggunaan perusahaan tertentu. Misalnya, perusahaan dapat mengambil ChatGPT dan membuat model pribadi yang dilatih pada data penjualan CRM perusahaan. Model ini dapat digunakan sebagai chatbot Slack untuk membantu tim penjualan menemukan jawaban atas pertanyaan seperti “Berapa banyak peluang yang dimenangkan produk X dalam setahun terakhir?” atau “Berikan informasi terbaru tentang peluang produk Z dengan perusahaan Y”.

Anda dapat dengan mudah membayangkan LLM ini disetel untuk sejumlah contoh penggunaan layanan pelanggan, SDM atau pemasaran. Kita bahkan mungkin melihat saran hukum dan medis yang menambah ini, mengubah LLM menjadi alat diagnostik lini pertama yang digunakan oleh penyedia layanan kesehatan. Masalahnya adalah bahwa contoh penggunaan ini memerlukan pelatihan LLM tentang data kepemilikan yang sensitif. Ini secara inheren berisiko. Beberapa risiko di antaranya termasuk:

1. Risiko privasi dan identifikasi ulang

Model AI belajar dari data pelatihan, tetapi bagaimana jika data itu pribadi atau sensitif? Sejumlah besar data dapat secara langsung atau tidak langsung digunakan untuk mengidentifikasi individu tertentu. Jadi, jika kita melatih LLM tentang data kepemilikan tentang pelanggan perusahaan, kita dapat mengalami situasi di mana konsumsi model itu dapat digunakan untuk membocorkan informasi sensitif.

2. Data pembelajaran dalam model

Model AI sederhana biasanya dilatih terlebih dahulu, lalu digunakan dalam fase penerapan saat pelatihan sudah berhenti. LLM sedikit berbeda. LLM mengambil konteks percakapan Anda dengannya, belajar dari konteks tersebut, dan kemudian merespons sesuai dengan konteksnya.

Hal ini membuat pekerjaan mengatur data input model jauh lebih kompleks karena kita tidak hanya perlu khawatir tentang data pelatihan awal. Kami juga cemas setiap kali model itu menerima permintaan atau dijalankan. Bagaimana jika kita memberikan informasi sensitif kepada model selama percakapan? Bisakah kita mengidentifikasi sensitivitas dan mencegah model menggunakan ini dalam konteks lain?

3. Keamanan dan risiko akses

Sampai batas tertentu, sensitivitas data pelatihan menentukan sensitivitas model. Meskipun kami memiliki mekanisme yang mapan untuk mengontrol akses ke data, memantau siapa yang mengakses data apa dan kemudian secara dinamis menutupi data berdasarkan situasi, keamanan penerapan AI masih berkembang. Meskipun ada solusi yang muncul di ruang ini, kami masih tidak dapat sepenuhnya mengontrol sensitivitas output model berdasarkan peran orang yang menggunakan model (misalnya, model yang mengidentifikasi bahwa output tertentu dapat sensitif dan kemudian secara andal mengubah output berdasarkan siapa yang menanyakan LLM). Karena itu, model ini dapat dengan mudah menjadi kebocoran untuk semua jenis informasi sensitif yang terlibat dalam pelatihan model.

4. Risiko Kekayaan Intelektual

Apa yang terjadi ketika kita melatih sebuah model dengan semua lagu Drake, lalu model tersebut mulai menghasilkan tiruan lagu-lagu Drake? Apakah model tersebut melanggar hak cipta Drake? Bisakah Anda membuktikan bahwa model tersebut menyalin karya Anda dengan cara tertentu?

Masalah ini masih dipikirkan oleh para regulator, tetapi dapat dengan mudah menjadi masalah besar bagi segala bentuk AI generatif yang belajar dari kekayaan intelektual artistik. Kami berharap ini akan mengarah ke tuntutan hukum besar di masa depan, dan itu harus dikurangi dengan cukup memantau IP dari data apa pun yang digunakan dalam pelatihan.

5. Persetujuan dan risiko DSAR

Salah satu gagasan utama di balik regulasi privasi data modern adalah persetujuan. Pelanggan harus menyetujui penggunaan data mereka dan mereka harus dapat meminta agar data mereka dihapus. Ini menimbulkan masalah unik untuk penggunaan AI.

Jika Anda melatih model AI pada data pelanggan yang sensitif, model itu kemudian menjadi sumber paparan yang mungkin untuk data sensitif itu. Jika pelanggan mencabut penggunaan data perusahaan mereka (persyaratan untuk GDPR) dan jika perusahaan itu telah melatih model pada data, model pada dasarnya perlu dinonaktifkan dan dilatih ulang tanpa akses ke data yang dicabut.

Pemanfaatan LLM sebagai perangkat lunak perusahaan menuntut adanya tata kelola pada data pelatihan, sehingga aspek keamanan data dapat terjamin dan tersedia jejak audit yang jelas terkait konsumsi data oleh LLM.