AI generatif telah mengubah industri teknologi dengan menyebabkan risiko data baru, seperti kebocoran data sensitif melalui model bahasa besar (LLM) dan mendorong peningkatan persyaratan dari badan pembuat regulasi dan pemerintah. Untuk mengatasi lingkungan ini dengan sukses, penting bagi organisasi untuk melihat semua prinsip inti manajemen data. Dan memastikan bahwa mereka menggunakan pendekatan yang baik untuk menambahkan data perusahaan/nonpublik pada model bahasa besar.

Tempat yang baik untuk memulai adalah menyegarkan cara organisasi mengatur data, terutama yang berkaitan dengan penggunaannya dalam solusi AI generatif. Sebagai contoh:

Memvalidasi dan menciptakan kemampuan perlindungan data: Platform data harus dipersiapkan untuk tingkat perlindungan dan pemantauan yang lebih tinggi. Ini membutuhkan kemampuan seperti enkripsi, anonimisasi, dan tokenisasi, serta penciptaan kemampuan untuk secara otomatis mengklasifikasikan data (sensitivitas, penyelarasan taksonomi) dengan menggunakan machine learning. Alat bantu penemuan data dan pengelompokan dapat membantu, namun harus ditingkatkan untuk membuat klasifikasi yang spesifik sesuai dengan pemahaman organisasi terhadap datanya sendiri. Hal ini memungkinkan organisasi untuk secara efektif menerapkan kebijakan baru dan menjembatani kesenjangan antara pemahaman konseptual tentang data dan realitas bagaimana solusi data telah diimplementasikan.

Meningkatkan kontrol, kemampuan audit, dan pengawasan: Akses data, penggunaan, dan keterlibatan pihak ketiga dengan data perusahaan membutuhkan desain baru dengan solusi yang sudah ada. Misalnya, tangkap sebagian dari persyaratan yang diperlukan untuk memastikan penggunaan data yang sah. Tetapi perusahaan membutuhkan jalur audit lengkap dan sistem pemantauan. Ini untuk melacak bagaimana data digunakan, kapan data dimodifikasi, dan apakah data dibagikan melalui interaksi pihak ketiga untuk solusi gen AI dan bukan gen AI. Mengontrol data dengan membatasi akses ke data tidak lagi memadai dan kita juga harus melacak contoh penggunaan data yang diakses dan diterapkan dalam solusi analitik dan operasional. Peringatan otomatis dan pelaporan akses dan penggunaan yang tidak tepat (diukur dengan analisis kueri, eksfiltrasi data, dan pergerakan jaringan) harus dikembangkan oleh tim infrastruktur dan tata kelola data dan ditinjau secara teratur untuk memastikan kepatuhan secara proaktif.

Mempersiapkan data untuk gen AI: Ada penyimpangan dari pola dan keterampilan manajemen data tradisional yang membutuhkan disiplin baru untuk memastikan kualitas, akurasi, dan relevansi data untuk pelatihan dan penambahan model bahasa untuk penggunaan AI. Mengingat basis data vektor kini menjadi hal biasa di domain gen AI, tata kelola data harus ditingkatkan untuk memperhitungkan platform manajemen data nontradisional. Ini untuk memastikan bahwa praktik tata kelola yang sama diterapkan pada komponen arsitektur baru ini. Silsilah data menjadi semakin penting karena adanya kebutuhan untuk menyediakan "Kemampuan Menjelaskan" dalam model diwajibkan oleh badan pembuat regulasi.

Data perusahaan sering kali kompleks, beragam, dan tersebar di berbagai repositori, sehingga sulit untuk diintegrasikan ke dalam gen AI. Kompleksitas ini diperparah oleh kebutuhan untuk memastikan kepatuhan terhadap peraturan, mengurangi risiko, dan mengatasi kesenjangan keterampilan dalam integrasi data dan pola retrieval-augmented generation (RAG). Selain itu, data sering kali menjadi bahan renungan dalam desain dan penerapan solusi gen AI, yang menyebabkan inefisiensi dan inkonsistensi.