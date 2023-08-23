Keberhasilan model bahasa besar yang berbasis kecerdasan buatan baru-baru ini telah mendorong pasar untuk Think lebih ambisius tentang bagaimana AI dapat mengubah banyak proses perusahaan. Namun, konsumen dan regulator juga menjadi semakin peduli dengan keamanan data mereka dan model AI itu sendiri. Adopsi AI yang aman dan luas akan mengharuskan kami untuk merangkul Tata Kelola AI di seluruh siklus hidup data untuk memberikan kepercayaan kepada konsumen, perusahaan, dan regulator. Tapi seperti apa ini?
Untuk sebagian besar, model kecerdasan buatan cukup sederhana, mereka mengambil data dan kemudian mempelajari pola dari data ini untuk menghasilkan output. Model bahasa besar yang kompleks (LLM) seperti ChatGPT dan Google Bard tidak berbeda. Karena itu, ketika kita ingin mengelola dan mengatur penerapan model AI, pertama-tama kita harus fokus pada mengatur data yang dilatih oleh model AI. Tata kelola data ini mengharuskan kami untuk memahami asal, sensitivitas, dan siklus hidup semua data yang kami gunakan. Ini adalah dasar untuk setiap praktik Tata Kelola AI dan sangat penting dalam mengurangi sejumlah risiko perusahaan.
Model bahasa besar dapat dilatih pada data eksklusif untuk memenuhi contoh penggunaan perusahaan tertentu. Misalnya, perusahaan dapat mengambil ChatGPT dan membuat model pribadi yang dilatih pada data penjualan CRM perusahaan. Model ini dapat digunakan sebagai chatbot Slack untuk membantu tim penjualan menemukan jawaban atas pertanyaan seperti “Berapa banyak peluang yang dimenangkan produk X dalam setahun terakhir?” atau “Berikan informasi terbaru tentang peluang produk Z dengan perusahaan Y”.
Anda dapat dengan mudah membayangkan LLM ini disetel untuk sejumlah contoh penggunaan layanan pelanggan, SDM atau pemasaran. Kita bahkan mungkin melihat saran hukum dan medis yang menambah ini, mengubah LLM menjadi alat diagnostik lini pertama yang digunakan oleh penyedia layanan kesehatan. Masalahnya adalah bahwa contoh penggunaan ini memerlukan pelatihan LLM tentang data kepemilikan yang sensitif. Ini secara inheren berisiko. Beberapa risiko di antaranya termasuk:
Model AI belajar dari data pelatihan, tetapi bagaimana jika data itu pribadi atau sensitif? Sejumlah besar data dapat secara langsung atau tidak langsung digunakan untuk mengidentifikasi individu tertentu. Jadi, jika kita melatih LLM tentang data kepemilikan tentang pelanggan perusahaan, kita dapat mengalami situasi di mana konsumsi model itu dapat digunakan untuk membocorkan informasi sensitif.
Model AI sederhana biasanya dilatih terlebih dahulu, lalu digunakan dalam fase penerapan saat pelatihan sudah berhenti. LLM sedikit berbeda. LLM mengambil konteks percakapan Anda dengannya, belajar dari konteks tersebut, dan kemudian merespons sesuai dengan konteksnya.
Hal ini membuat pekerjaan mengatur data input model jauh lebih kompleks karena kita tidak hanya perlu khawatir tentang data pelatihan awal. Kami juga cemas setiap kali model itu menerima permintaan atau dijalankan. Bagaimana jika kita memberikan informasi sensitif kepada model selama percakapan? Bisakah kita mengidentifikasi sensitivitas dan mencegah model menggunakan ini dalam konteks lain?
Sampai batas tertentu, sensitivitas data pelatihan menentukan sensitivitas model. Meskipun kami memiliki mekanisme yang mapan untuk mengontrol akses ke data, memantau siapa yang mengakses data apa dan kemudian secara dinamis menutupi data berdasarkan situasi, keamanan penerapan AI masih berkembang. Meskipun ada solusi yang muncul di ruang ini, kami masih tidak dapat sepenuhnya mengontrol sensitivitas output model berdasarkan peran orang yang menggunakan model (misalnya, model yang mengidentifikasi bahwa output tertentu dapat sensitif dan kemudian secara andal mengubah output berdasarkan siapa yang menanyakan LLM). Karena itu, model ini dapat dengan mudah menjadi kebocoran untuk semua jenis informasi sensitif yang terlibat dalam pelatihan model.
Apa yang terjadi ketika kita melatih sebuah model dengan semua lagu Drake, lalu model tersebut mulai menghasilkan tiruan lagu-lagu Drake? Apakah model tersebut melanggar hak cipta Drake? Bisakah Anda membuktikan bahwa model tersebut menyalin karya Anda dengan cara tertentu?
Masalah ini masih dipikirkan oleh para regulator, tetapi dapat dengan mudah menjadi masalah besar bagi segala bentuk AI generatif yang belajar dari kekayaan intelektual artistik. Kami berharap ini akan mengarah ke tuntutan hukum besar di masa depan, dan itu harus dikurangi dengan cukup memantau IP dari data apa pun yang digunakan dalam pelatihan.
Salah satu gagasan utama di balik regulasi privasi data modern adalah persetujuan. Pelanggan harus menyetujui penggunaan data mereka dan mereka harus dapat meminta agar data mereka dihapus. Ini menimbulkan masalah unik untuk penggunaan AI.
Jika Anda melatih model AI pada data pelanggan yang sensitif, model itu kemudian menjadi sumber paparan yang mungkin untuk data sensitif itu. Jika pelanggan mencabut penggunaan data perusahaan mereka (persyaratan untuk GDPR) dan jika perusahaan itu telah melatih model pada data, model pada dasarnya perlu dinonaktifkan dan dilatih ulang tanpa akses ke data yang dicabut.
Pemanfaatan LLM sebagai perangkat lunak perusahaan menuntut adanya tata kelola pada data pelatihan, sehingga aspek keamanan data dapat terjamin dan tersedia jejak audit yang jelas terkait konsumsi data oleh LLM.
Perincian terbaik dari arsitektur LLM yang pernah saya lihat berasal dari artikel ini oleh a16z. Ini dilakukan dengan sangat baik, tetapi sebagai seseorang yang menghabiskan seluruh waktu saya bekerja pada tata kelola data dan privasi, bagian kiri atas dari "data kontekstual → pipeline data" kehilangan sesuatu: tata kelola data.
Jika Anda menambahkan solusi tata kelola data IBM®, bagian kiri atas akan terlihat seperti ini:
Solusi tata kelola data yang didukung oleh IBM® Knowledge Catalog menawarkan beberapa kemampuan untuk membantu memfasilitasi penemuan data tingkat lanjut, kualitas data otomatis, dan perlindungan data. Anda dapat:
Langkah terakhir di atas adalah salah satu yang sering diabaikan: penerapan Teknik Peningkatan Privasi. Bagaimana cara kita menghapus hal-hal yang sensitif sebelum memberikannya ke AI? Anda dapat memecahnya menjadi tiga langkah:
Dengan IBM® watsonx, IBM® telah membuat kemajuan pesat untuk menempatkan kekuatan AI generatif di tangan para 'pembangun AI'. IBM® watsonx.ai adalah studio siap perusahaan, menyatukan machine learning (ML) dan kemampuan AI generatif baru yang didukung oleh model dasar. Watsonx juga menyertakan watsonx.data, sebuah penyimpanan data yang sesuai dengan kebutuhan yang dibangun di atas arsitektur lakehouse terbuka. Ini didukung oleh kueri, tata kelola, dan format data terbuka untuk mengakses dan berbagi data di hybrid cloud.
Landasan data yang kuat sangat penting untuk keberhasilan implementasi AI. Dengan stuktur data IBM®, klien dapat membangun infrastruktur data yang tepat untuk AI menggunakan Integrasi data dan kemampuan tata kelola data untuk memperoleh, menyiapkan, dan mengatur data sebelum dapat dengan mudah diakses oleh pembangun AI menggunakan watsonx.ai dan watsonx.data.
IBM® menawarkan solusi stuktur data yang dapat disusun sebagai bagian dari portofolio produk AI yang terbuka dan dapat dikembangkan yang dapat diterapkan pada cloud pihak ketiga. Solusi ini mencakup tata kelola data, integrasi data, observabilitas data, silsilah data, kualitas data, resolusi entitas, dan kemampuan manajemen privasi data.
Model AI, khususnya LLM, akan menjadi salah satu teknologi paling transformatif pada dekade berikutnya. Karena peraturan AI baru memberlakukan pedoman seputar penggunaan AI, sangat penting untuk tidak hanya mengelola dan mengatur model AI tetapi, yang sama pentingnya, untuk mengatur data yang dimasukkan ke dalam AI.
