Data yang siap untuk AI adalah informasi berkualitas tinggi, dapat diakses, dan tepercaya yang dapat digunakan organisasi dengan percaya diri untuk pelatihan kecerdasan buatan (AI) dan inisiatif.
Data yang disiapkan dan dikelola dengan benar sangat penting untuk keberhasilan AI—seperti pepatah, “sampah masuk, sampah keluar.” Data yang akurat, lengkap, dan konsisten mendorong peningkatan kinerja dan produktivitas yang lebih baik dari AI perusahaan. Sementara itu, strategi data untuk data yang diatur dan dilindungi dengan baik membantu memastikan kepatuhan terhadap peraturan dan menjaga privasi pengguna.
Karena keputusan yang didukung AI semakin menjadi keunggulan kompetitif, banyak organisasi menyadari bahwa praktik manajemen data tradisional mungkin tidak cukup untuk menghasilkan data siap untuk AI. Menurut survei tahun 2024 dari IBM Institute for Business Value, hanya 29% pemimpin teknologi yang sangat setuju bahwa data perusahaan mereka memenuhi standar kualitas, aksesibilitas, dan keamanan yang diperlukan untuk skala AI generatif (gen AI) secara efisien.1
Untuk mencapai dan mempertahankan kesiapan data untuk adopsi AI, organisasi dapat fokus pada beberapa praktik data yang penting: Akses, tata kelola, keamanan, dan dukungan terpadu. Dengan menerapkan elemen-elemen dasar ini, organisasi dapat memastikan data mereka benar-benar siap untuk AI-dan dengan demikian, mengubah AI dari eksperimen yang mahal menjadi mesin yang kuat untuk nilai perusahaan.
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Tanpa data yang tepercaya, berkualitas tinggi, dan dikelola dengan baik, hasil dari tools AI bisa mengecewakan—atau bahkan menjadi tidak akurat, bias, maupun menimbulkan risiko privasi.
Data yang siap untuk AI membantu memastikan bahwa teknologi AI memberikan nilai bisnis nyata dan insight yang dapat ditindaklanjuti dengan memungkinkan:
Kumpulan data yang siap untuk AI hadir dilengkapi dengan kebijakan privasi data dan kontrol kualitas data, yang membantu memastikan bahwa proses tata kelola tertanam ke dalam pipeline data dari hari pertama.
Data yang bersih, konsisten, dan diberi label dengan baik membantu model menghindari kesalahan dan bias, meningkatkan akurasi dan kinerja secara keseluruhan.
Proses data yang siap untuk AI yang mapan merampingkan pengembangan solusi AI dengan mengurangi waktu yang dihabiskan untuk mengakses, memahami, dan menyiapkan data AI.
Data siap untuk AI yang disiapkan dan dikelola dengan benar adalah aset yang dapat dioperasikan dan dapat digunakan kembali yang dapat tim memanfaatkan berulang kali untuk proyek AI baru dan paralel.
Organisasi yang berjuang untuk mewujudkan ROI dari inisiatif AI mereka sering menghadapi hambatan terkait data yang signifikan terhadap kesiapan AI sejati, termasuk:
Silo data adalah wabah pada ekosistem data modern. Penyebaran mereka didorong oleh beberapa faktor, mulai dari struktur organisasi dan budaya hingga kompleksitas TI dan kendala peraturan. Fragmentasi data ini menciptakan hambatan untuk operasi sehari-hari dan inisiatif strategis, seperti AI.
Data yang terputus secara inheren tidak efisien dan seringkali tidak terstruktur, membutuhkan langkah-langkah tambahan untuk Data Preparation yang efektif. Data ini tidak konsisten di seluruh organisasi dan lebih sulit untuk dikelola untuk persyaratan peraturan dan kebijakan privasi. Masalah-masalah ini secara signifikan memperlambat akses dan persiapan data Siap untuk AI, berpotensi meningkatkan biaya dan kompleksitas program AI.
Kualitas data yang buruk berasal dari berbagai sumber. Meskipun silo dan fragmentasi data adalah salah satu contohnya, penyebab umum lainnya termasuk praktik manajemen kualitas data yang tidak konsisten, sistem dan arsitektur yang sudah ketinggalan zaman, dan tantangan integrasi. Seringkali, ini adalah kombinasi dari beberapa faktor ini.
Bahkan model AI paling canggih pun dipengaruhi oleh data berkualitas buruk, yang mengarah ke output yang tidak dapat diandalkan, tidak akurat, dan berpotensi bias. Konsekuensinya bisa parah: kerugian finansial dari proyek AI yang gagal, kerusakan reputasi dari keputusan yang bias atau penurunan kepercayaan pada nilai AI secara keseluruhan.
Keahlian manusia tetap penting untuk implementasi AI. Namun, kemajuan pesat AI dan teknologi baru menggeser peran dan memperluas kesenjangan keterampilan AI. Banyak organisasi yang tertinggal dalam pelatihan dan peningkatan keterampilan karyawan, sering kali karena format pembelajaran yang tidak efektif, keterbatasan anggaran atau akses yang tidak memadai ke alat dan data yang tepat.
Tanpa talenta teknologi yang memadai, tim data yang ada mungkin menemukan diri mereka kurus. Mereka mengelola lingkungan data yang kompleks dan tertutup sementara secara bersamaan berada di bawah tekanan untuk mengirimkan data yang siap untuk AI dengan cepat untuk proyek-proyek penting.
Bangun keterampilan data inti dengan IBM® SkillsBuild: Mulai belajar secara gratis.
Dengan fragmentasi dan kompleksitas data muncul kenyataan bahwa data sensitif dan terlindungi sering tersebar di seluruh unit bisnis, platform data, dan repositori. Penyebaran data yang luas ini menimbulkan kekhawatiran terkait kepatuhan, kontrol akses, dan kepercayaan.
Menambah skala AI perusahaan tanpa keamanan dan tata kelola yang tepat akan meningkatkan paparan risiko dan kompleksitas peraturan. Organisasi yang menyadari hambatan ini tetapi berjuang untuk perbaikan mungkin melihat proyek AI mereka terhenti. Bagi mereka yang tidak sadar, risiko semakin meningkat saat mereka pindah dan menskalakan AI mereka.
AI modern (terutama AI generatif) bergantung pada volume data yang besar untuk memberikan nilai nyata. Untungnya, pembuatan data tidak terbatas pada perusahaan besar. Organisasi dari semua ukuran menghasilkan volume data yang besar setiap tahun melalui situs web mereka, media sosial, sistem internal, dan interaksi pelanggan.
Namun sebagian besar organisasi kurang memanfaatkan data mereka. Perkiraan menunjukkan bahwa hanya sekitar 1% dari data perusahaan yang dimanfaatkan dalam model bahasa besar tradisional (LLM).2
Mengapa membiarkan bahan bakar AI yang berharga seperti itu sia-sia? Karena sebagian besar data perusahaan tidak terstruktur. Data ini tidak memiliki format yang telah ditentukan dan berasal dari beragam sumber data seperti PDF, posting media sosial, gambar, pesan instan dan email. Kurang dari 1% dari data tidak terstruktur ini dalam format yang cocok untuk konsumsi AI langsung.3 Dengan kata lain, sebagian besar data perusahaan tidak siap untuk AI.
Sementara data terstruktur tetap sangat berharga, gagal memanfaatkan potensi data tidak terstruktur—beragam, fleksibel, dan kaya insight—merupakan salah langkah strategis dan penghalang signifikan untuk meningkatkan skala AI perusahaan.
Tantangan ini tercermin dalam hasil AI yang suram: Menurut IBM® Institute for Business Value's (IBV) 2025 CEO Study, hanya 16% inisiatif AI yang telah mencapai skala perusahaan.
Sekarang adalah momen penting bagi bisnis. Keberhasilan atau kegagalan inisiatif AI tergantung pada seberapa efektif organisasi mengelola dan menyiapkan data berkualitas tinggi—baik terstruktur maupun tidak terstruktur—untuk AI.
Data yang mewujudkan karakteristik berikut dapat mendukung contoh penggunaan AI yang tepercaya, andal, dan berharga:
AI tidak dapat bertindak atas apa yang tidak dapat diaksesnya. Langkah pertama yang penting menuju kesiapan AI adalah membangun akses terpadu ke data perusahaan. Ini berarti memecah silo dan menciptakan satu tampilan tunggal yang dapat dikelola atas informasi yang tersebar di seluruh basis data data lake, aplikasi, dan repositori dokumen.
Semakin luas akses, semakin besar insight berbasis data dan nilai yang dapat diberikan oleh AI. AI dapat lebih dari sekadar memberikan jawaban internal dan mulai meningkatkan pengalaman pelanggan atau efisiensi operasional.
Akses data terpadu juga mengubah data terisolasi menjadi aset yang dapat digunakan kembali yang lebih mudah dan lebih hemat biaya untuk dikerjakan. Ini mendukung banyak beban kerja dan memungkinkan skala ekonomi, mengubah data menjadi sumber daya strategis.
Teknologi seperti Integrasi dan arsitektur data fabric memungkinkan akses terpadu:
Integrasi data mengubah dan menyelaraskan data dari lingkungan hibrida dan multicloud menjadi format terpadu dan koheren yang siap untuk contoh penggunaan AI. Integrasi data waktu nyata secara khusus mendukung contoh penggunaan AI dan otomatisasi.
Data fabric menciptakan tampilan virtual dan terpadu dari semua data perusahaan tanpa memindahkannya secara fisik. Mereka menggabungkan kemampuan seperti katalog data, metadata federasi, integrasi data, virtualisasi, dan machine learning untuk membantu pengguna menemukan, mengakses, dan menggunakan data siap AI dengan cepat.
Tata kelola data yang efektif membantu memastikan integritas, keamanan, kualitas , dan akses data melalui kebijakan, proses, dan standar yang jelas. Landasan tata kelola yang kuat mengubah data perusahaan menjadi aset berkualitas tinggi dan dapat dipercaya yang siap untuk AI—yang penting untuk AI yang bertanggung jawab.
Undang-undang privasi data dan peraturan terkait AI berkembang dengan cepat, dan sering kali membutuhkan dokumentasi model yang terperinci. Ini termasuk informasi tentang asal-usul data, silsilah, dan kesesuaian dengan tujuan—didukung oleh hukuman yang berat untuk ketidakpatuhan. Misalnya, di bawah UU AI Uni Eropa, hukuman dapat mencapai EUR 35 juta atau 7% dari omzet tahunan perusahaan di seluruh dunia, tergantung pada pelanggarannya.
Bias dan akurasi juga menjadi kekhawatiran yang terus meningkat, dengan hampir setengah dari CEO yang disurvei mengkhawatirkan risiko-risiko ini. Di sektor-sektor berisiko tinggi seperti perawatan kesehatan dan keuangan, di mana AI dapat memengaruhi keputusan-keputusan penting, tata kelola data yang kuat sangat penting untuk menjaga keadilan dan kepercayaan.
Kerangka kerja tata kelola yang kuat mengurangi risiko ini dan mendukung data berkualitas tinggi melalui langkah-langkah seperti:
Meskipun keamanan data sering dianggap sebagai bagian dari tata kelola yang lebih luas, keamanan data memerlukan fokus khusus ketika menyangkut data siap untuk AI. AI generatif menghadirkan serangkaian tantangan keamanan data baru, seperti kebocoran data dan serangan injeksi prompt, yang menuntut proaktif.
Satu pelanggaran saja dapat menghancurkan keuntungan suatu organisasi. Menurut Laporan Biaya Pelanggaran Data 2025 dari IBM®, biaya rata-rata global untuk pelanggaran data mencapai 4,4 juta USD.
Untuk menjaga keamanan data di seluruh siklus hidup AI (mulai dari pengumpulan dan persiapan hingga pelatihan dan pembuangan), organisasi harus mempertimbangkan tiga prinsip utama keamanan data: penemuan, perlindungan, dan pemantauan.
Anda tidak dapat mengamankan apa yang tidak Anda ketahui. Proses penemuan dan klasifikasi membantu organisasi mengidentifikasi data sensitif dan menandainya dengan tepat berdasarkan jenis, sensitivitas, dan tingkat risiko. Visibilitas ini mendukung penggunaan data yang bertanggung jawab dan kepatuhan terhadap peraturan privasi data.
Langkah-langkah perlindungan yang kuat melindungi data dan membantu memastikan ketersediaannya. Praktik-praktik ini mencakup firewall, enkripsi, keamanan titik akhir, cadangan data, rencana keberlangsungan bisnis dan pemulihan bencana (BCDR) plans, dan layanan seperti pemulihan bencana sebagai layanan (DRaaS).
Pemantauan berkelanjutan berbasis AI memberikan pandangan komprehensif tentang aktivitas data perusahaan. Dengan menganalisis aktivitas, platform pemantauan dapat membantu deteksi dan menandai perilaku atau pola yang tidak biasa sejak dini dan membantu mencegah penyalahgunaan data.
Data siap untuk AI tidak berharga dalam ruang hampa. Ini hanya memberikan dampak nyata ketika didukung oleh keterampilan manusia dan infrastruktur data yang sesuai.
Agar berhasil mengadopsi dan menskalakan sistem AI, tim di seluruh fungsi akan membutuhkan berbagai tingkat pelatihan dan keterampilan ulang. Karyawan harus mengembangkan pemahaman dasar tentang konsep AI, alur kerja, pengambilan keputusan, dan penggunaan yang bertanggung jawab.
Meskipun tidak semua orang perlu menjadi ilmuwan data, budaya literasi data dan demokratisasi data dapat memberdayakan orang untuk dengan percaya diri menggunakan aplikasi AI dan mengambil keputusan berdasarkan data. Selain itu, etika AI dan pelatihan identifikasi bias dapat memperkuat tata kelola untuk AI yang dapat dipercaya.
Organisasi juga harus mempertimbangkan apakah infrastruktur penyimpanan data mereka siap untuk memenuhi permintaan kinerja dan kapasitas beban kerja AI. LLM, khususnya, membutuhkan sumber daya penyimpanan yang signifikan di berbagai lingkungan. Untuk memenuhi kebutuhan ini, banyak organisasi saat ini mengadopsi solusi penyimpanan seperti cloud object storage, penyimpanan flash, dan data lake, gudang, serta lakehouse.
Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.
watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.
Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.
1 6 titik buta yang harus diungkapkan oleh para pemimpin teknologi, IBM® Institute for Business Value, 18 Agustus 2024.
2 Masa depan AI terbuka, IBM®, 23 Mei 2024.
3 Nilai yang Belum Dimanfaatkan: Apa Yang Perlu Diketahui Setiap Eksekutif Tentang Data Tidak Terstruktur, IDC, Agustus 2023.