Mengevaluasi ulang manajemen data di era AI generatif

Empat rekan duduk dan berdiri di sekitar meja di kantor dengan jendela tinggi

Penulis

Geoff Baird

Associate Partner

Data & Technology Transformation

AI generatif telah mengubah industri teknologi dengan menyebabkan risiko data baru, seperti kebocoran data sensitif melalui model bahasa besar (LLM) dan mendorong peningkatan persyaratan dari badan pembuat regulasi dan pemerintah. Untuk mengatasi lingkungan ini dengan sukses, penting bagi organisasi untuk melihat semua prinsip inti manajemen data. Dan memastikan bahwa mereka menggunakan pendekatan yang baik untuk menambahkan data perusahaan/nonpublik pada model bahasa besar.

Tempat yang baik untuk memulai adalah menyegarkan cara organisasi mengatur data, terutama yang berkaitan dengan penggunaannya dalam solusi AI generatif. Sebagai contoh:

  • Memvalidasi dan menciptakan kemampuan perlindungan data: Platform data harus dipersiapkan untuk tingkat perlindungan dan pemantauan yang lebih tinggi. Ini membutuhkan kemampuan seperti enkripsi, anonimisasi, dan tokenisasi, serta penciptaan kemampuan untuk secara otomatis mengklasifikasikan data (sensitivitas, penyelarasan taksonomi) dengan menggunakan machine learning. Alat bantu penemuan data dan pengelompokan dapat membantu, namun harus ditingkatkan untuk membuat klasifikasi yang spesifik sesuai dengan pemahaman organisasi terhadap datanya sendiri. Hal ini memungkinkan organisasi untuk secara efektif menerapkan kebijakan baru dan menjembatani kesenjangan antara pemahaman konseptual tentang data dan realitas bagaimana solusi data telah diimplementasikan.
  • Meningkatkan kontrol, kemampuan audit, dan pengawasan: Akses data, penggunaan, dan keterlibatan pihak ketiga dengan data perusahaan membutuhkan desain baru dengan solusi yang sudah ada. Misalnya, tangkap sebagian dari persyaratan yang diperlukan untuk memastikan penggunaan data yang sah. Tetapi perusahaan membutuhkan jalur audit lengkap dan sistem pemantauan. Ini untuk melacak bagaimana data digunakan, kapan data dimodifikasi, dan apakah data dibagikan melalui interaksi pihak ketiga untuk solusi gen AI dan bukan gen AI. Mengontrol data dengan membatasi akses ke data tidak lagi memadai dan kita juga harus melacak contoh penggunaan data yang diakses dan diterapkan dalam solusi analitik dan operasional. Peringatan otomatis dan pelaporan akses dan penggunaan yang tidak tepat (diukur dengan analisis kueri, eksfiltrasi data, dan pergerakan jaringan) harus dikembangkan oleh tim infrastruktur dan tata kelola data dan ditinjau secara teratur untuk memastikan kepatuhan secara proaktif.
  • Mempersiapkan data untuk gen AI: Ada penyimpangan dari pola dan keterampilan manajemen data tradisional yang membutuhkan disiplin baru untuk memastikan kualitas, akurasi, dan relevansi data untuk pelatihan dan penambahan model bahasa untuk penggunaan AI. Mengingat basis data vektor kini menjadi hal biasa di domain gen AI, tata kelola data harus ditingkatkan untuk memperhitungkan platform manajemen data nontradisional. Ini untuk memastikan bahwa praktik tata kelola yang sama diterapkan pada komponen arsitektur baru ini. Silsilah data menjadi semakin penting karena adanya kebutuhan untuk menyediakan "Kemampuan Menjelaskan" dalam model diwajibkan oleh badan pembuat regulasi.

Data perusahaan sering kali kompleks, beragam, dan tersebar di berbagai repositori, sehingga sulit untuk diintegrasikan ke dalam gen AI. Kompleksitas ini diperparah oleh kebutuhan untuk memastikan kepatuhan terhadap peraturan, mengurangi risiko, dan mengatasi kesenjangan keterampilan dalam integrasi data dan pola retrieval-augmented generation (RAG). Selain itu, data sering kali menjadi bahan renungan dalam desain dan penerapan solusi gen AI, yang menyebabkan inefisiensi dan inkonsistensi.

Membuka potensi penuh data perusahaan untuk AI generatif

Di IBM, kami telah mengembangkan pendekatan untuk memecahkan tantangan data ini. Pabrik penyerapan data IBM gen AI, layanan terkelola yang dirancang untuk mengatasi masalah data AI dan membuka potensi penuh data perusahaan untuk gen AI. Arsitektur dan cetak biru kode kami yang telah ditentukan sebelumnya yang dapat diterapkan sebagai layanan terkelola menyederhanakan dan mempercepat proses mengintegrasikan data perusahaan ke dalam solusi gen AI. Kami mendekati masalah ini dengan mempertimbangkan manajemen data, menyiapkan data untuk tata kelola, risiko, dan kepatuhan sejak awal. 

Kemampuan inti kami meliputi:

  • Penyerapan data yang dapat diskalakan: Layanan yang dapat digunakan kembali untuk menskalakan penyerapan data dan RAG di seluruh contoh penggunaan gen AI dan solusi, dengan pola pemotongan dan penanaman yang dioptimalkan.
  • Peraturan dan kepatuhan: Data disiapkan untuk penggunaan gen AI yang memenuhi peraturan saat ini dan masa depan, membantu perusahaan memenuhi persyaratan kepatuhan dengan peraturan pasar yang berfokus pada AI generatif.
  • Manajemen privasi data: Teks berbentuk panjang dapat dianonimkan saat ditemukan, sehingga mengurangi risiko dan memastikan privasi data.

Layanan ini bersifat agnostik, memungkinkan penerapan di mana saja, dan menawarkan penyesuaian dengan lingkungan dan contoh penggunaan klien. Dengan menggunakan pabrik penyerapan data IBM gen AI, perusahaan dapat mencapai beberapa hasil utama, termasuk:

  • Mengurangi waktu yang dihabiskan untuk integrasi data: Layanan terkelola yang mengurangi waktu dan upaya yang diperlukan untuk menyelesaikan "masalah data" AI. Misalnya, menggunakan proses yang dapat diulang untuk “memotong” dan “menanamkan” data sehingga tidak memerlukan upaya pengembangan untuk setiap contoh penggunaan gen AI baru.
  • Penggunaan data yang sesuai: Membantu mematuhi peraturan penggunaan data yang difokuskan pada aplikasi gen AI yang diterapkan oleh perusahaan. Misalnya, memastikan data diambil dalam pola RAG disetujui untuk penggunaan perusahaan dalam solusi gen AI.
  • Mengurangi risiko: Mengurangi risiko yang terkait dengan data yang digunakan dalam solusi gen AI. Misalnya, memberikan hasil transparan tentang sumber apa yang disediakan untuk menghasilkan output dari model akan mengurangi risiko model dan waktu yang dihabiskan untuk membuktikan kepada pembuat regulasi bagaimana sumber informasi disediakan.
  • Hasil yang konsisten dan dapat direproduksi: Memberikan hasil yang konsisten dan dapat direproduksi dari solusi LLM dan gen AI. Misalnya, menangkap silsilah dan membandingkan output (yaitu, data yang dihasilkan) dari waktu ke waktu untuk melaporkan konsistensi melalui metrik standar seperti ROUGE dan BLEU.

Mengatasi kompleksitas risiko data membutuhkan keahlian lintas fungsi. Tim kami yang terdiri dari mantan pembuat regulasi, pemimpin industri, dan pakar teknologi di IBM Consulting memiliki posisi unik untuk mengatasi hal ini dengan layanan konsultasi dan solusi kami. 

 
Ambil langkah selanjutnya

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data Temukan watsonx.data