Mengapa kualitas data AI adalah kunci keberhasilan AI

By Alexandra Jonker , Judith Aquino

Definisi kualitas data AI

Kualitas data kecerdasan buatan (AI) adalah sejauh mana data akurat, lengkap, andal, dan cocok untuk digunakan di seluruh siklus hidup AI, termasuk pelatihan, validasi, dan penerapan.

Dalam sistem AI, kualitas data juga mencakup berbagai faktor yang kurang ditekankan dalam dimensi kualitas data tradisional—seperti keterwakilan, bias, akurasi label, dan variasi yang tidak relevan (noise)—yang dapat memengaruhi perilaku model.

Pentingnya kualitas data dalam AI tidak dapat dilebih-lebihkan: kualitas data yang buruk adalah salah satu alasan paling umum gagalnya inisiatif AI. Model AI yang dilatih pada data yang cacat, bias, atau tidak lengkap akan menghasilkan output yang tidak dapat diandalkan, terlepas dari arsitektur yang canggih. Seperti kata pepatah: sampah masuk, sampah keluar.

Sebaliknya, data berkualitas tinggi membentuk fondasi AI yang tepercaya dan efektif. Ketika sistem AI menjadi lebih kompleks dan dapat diskalakan, manajemen kualitas data yang berkelanjutan dan kuat akan menentukan apakah sistem tersebut dapat bekerja dengan andal, beradaptasi dengan lingkungan yang berubah, dan memungkinkan keputusan yang tepat.

Alat kualitas data canggih dapat membantu merampingkan manajemen kualitas data AI dengan menanamkan pemantauan dan validasi berkelanjutan langsung ke saluran data dan model. Selain otomatisasi berbasis aturan, AI dapat digunakan untuk meningkatkan kualitas data AI dengan mendeteksi anomali yang tidak kentara, memprioritaskan masalah berdasarkan dampak model hilir, dan masih banyak lagi. Dengan mengotomatiskan pemeriksaan untuk akurasi, konsistensi, kelengkapan, dan dimensi kualitas data lainnya, semua alat ini membantu tim mendeteksi masalah lebih awal dan menjaga kualitas data tetap selaras seiring perkembangan sistem AI.

AI bergantung pada data

Organisasi di seluruh dunia terus berinvestasi besar-besaran dalam AI. Menurut Gartner, pengeluaran AI di seluruh dunia diperkirakan akan melampaui USD 2 triliun pada tahun 2026, menunjukkan pertumbuhan 37% dibandingkan tahun lalu.¹ Namun ekspansi yang cepat ini menutupi fakta bahwa banyak inisiatif AI kesulitan dalam memberikan nilai jangka panjang.

Studi CEO 2025 yang dilakukan IBM Institute for Business Value menemukan bahwa hanya 16% dari inisiatif AI yang berhasil diskalakan di seluruh perusahaan², sementara studi NANDA dari MIT³ melaporkan bahwa hingga 95% dari proyek uji coba AI generatif gagal beralih melewati tahap eksperimen.

Riset menunjukkan bahwa kualitas data AI dan tata kelola data adalah pembeda utama dalam ekosistem AI. Sebuah studi IBV terpisah menemukan bahwa 68% organisasi yang mengutamakan AI melaporkan kerangka kerja data dan tata kelola yang matang dan mapan, dibandingkan dengan 32% organisasi lainnya.⁴

Seperti yang dicatat oleh penulis penelitian, “Meskipun kurang mencolok daripada algoritma mutakhir atau contoh penggunaan yang ambisius, fondasi data terstruktur, dapat diakses, dan berkualitas tinggi ini menggambarkan prasyarat penting untuk kesuksesan AI yang berkelanjutan.”

Dasar itu penting karena model machine learning—bagian inti dari banyak sistem AI— “belajar” langsung dari kumpulan data yang diberikan kepada mereka. Ketika data tersebut salah menggambarkan realitas karena kesalahan, kesenjangan, informasi yang ketinggalan zaman, silo, atau bias sistematis, model tidak hanya mewarisi semua kelemahan tersebut, tetapi juga dapat memperburuk masalah data dalam skala besar.

Misalnya, dalam sistem AI generatif, seperti model bahasa besar (LLM) yang digunakan untuk pemrosesan bahasa alami, masalah kualitas data dapat muncul sebagai teks dengan ketidakakuratan faktual atau output gambar yang bias. Kualitas data yang buruk juga dapat menyebabkan kinerja yang tidak merata, terutama dalam kasus edge seperti input yang tidak biasa dan skenario yang kurang terwakili.

Bahkan persentase kecil dari data berkualitas rendah dapat memiliki efek yang sangat besar. Hanya beberapa hasil yang buruk dapat merusak pengambilan keputusan dan kepercayaan pada teknologi secara keseluruhan, membuat para eksekutif menyimpulkan bahwa alat AI rusak ketika akar masalah sebetulnya terletak pada kualitas data yang menginformasikannya.

Di luar hasil teknis, kualitas data AI yang rendah membawa implikasi hukum dan etika, termasuk risiko yang terkait dengan privasi data dan penggunaan data yang bertanggung jawab. Model yang dilatih pada data yang diatur dengan buruk dapat melanggengkan diskriminasi di berbagai bidang seperti perekrutan, pinjaman, perawatan kesehatan, dan layanan publik. Pada saat yang sama, peraturan termasuk Undang-Undang Kecerdasan Buatan UE dan semakin banyak undang-undang AI tingkat negara bagian AS semakin meminta pertanggungjawaban organisasi atas privasi data, serta kualitas, keterwakilan, dan asal data pelatihan.

Berita teknologi terbaru, didukung oleh insight dari pakar

Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.

Bagaimana kualitas data AI berbeda dari kualitas data tradisional?

Mengukur kualitas data AI bergantung pada banyak dimensi kualitas data yang sama dengan yang dilacak melalui metrik kualitas data tradisional. Perbedaannya terletak pada bagaimana dimensi kualitas data dibingkai ulang dalam skenario AI: Dampak dimensi tersebut dievaluasi terhadap pelatihan model, generalisasi model, keadilan, risiko operasional— terutama saat model dikembangkan dan diterapkan di lingkungan data yang berbeda.

Ketika diterapkan pada sistem AI, kualitas data dievaluasi dengan menggunakan versi yang telah diadaptasi dari dimensi kualitas data berikut ini:

Akurasi data
Kelengkapan
Integritas data
Konsistensi
Ketepatan waktu
Relevansi

Akurasi data

Dalam pengaturan tradisional, akurasi berfokus pada apakah nilai data mewakili entitas atau peristiwa dunia nyata dengan benar, yang sering kali diverifikasi melalui pemeriksaan dasar dan ambang batas yang telah ditentukan. Dalam sistem AI, akurasi juga bergantung pada proses validasi data yang kuat yang menilai bagaimana ketidakakuratan label (contoh pelatihan diberi label yang salah atau ambigu), kesalahan pengukuran, dan variabel proksi memengaruhi pelatihan model.

Pelajari lebih lanjut tentang akurasi AI

Kelengkapan

Selain memeriksa apakah bidang atau catatan yang diperlukan tidak ada dari segi kelengkapan, untuk kualitas data AI hal ini meluas ke apakah data dengan memadai mencakup berbagai kasus yang diharapkan dihadapi model, seperti kasus edge, peristiwa langka, dan populasi minoritas. Kesenjangan dalam cakupan dapat mengakibatkan model rapuh yang rata-rata berkinerja baik tetapi gagal dalam skenario yang kurang terwakili, meningkatkan risiko keadilan dan operasional.

Integritas data

Sebelumnya integritas data berarti memastikan data mengikuti aturan dasar seperti mengikuti skema yang tepat dan terhubung dengan benar di seluruh sistem. Untuk AI, integritas data juga berarti mengetahui dengan tepat dari mana data berasal dan mampu menciptakan kembali bagaimana data disiapkan dan digunakan di seluruh saluran data.

Tim harus dapat melacak data kembali ke sumber aslinya dan menyimpan catatan yang jelas tentang setiap perubahan yang dilakukan padanya. Aset data penting, termasuk data pelatihan dan input model, harus dilindungi sehingga masalah seperti kerusakan yang tidak disengaja, duplikasi, atau perubahan yang tidak sah dapat dideteksi dan diselidiki.

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Buka episode

Konsistensi

Selain format dan definisi yang konsisten, mengukur kualitas data AI berarti memeriksa apakah data dikumpulkan, diproses, dan ditambah dengan cara yang konsisten di seluruh data historis dan baru. Pemeriksaan ini membantu memastikan bahwa perubahan pada saluran atau sumber tidak menimbulkan distorsi, bias, atau risiko model hilir secara tidak disengaja.

Ketepatan waktu

Ketepatan waktu klasik berfokus pada bagaimana data saat ini berada pada titik pengumpulan. Dalam sistem AI, ketepatan waktu juga memerlukan pemantauan bagaimana data baru atau data real-time berbeda dari data pelatihan, karena penyimpangan data atau konsep dapat menurunkan kinerja model.

Relevansi

Alih-alih menanyakan apakah data berguna secara luas atau terkait dengan domain masalah, menilai relevansi data dalam kasus penggunaan AI berarti menentukan apakah setiap fitur dan contoh memberikan informasi yang mendukung fungsi yang dimaksudkan untuk sistem. Metrik ini mencakup pemeriksaan apakah data meningkatkan kinerja prediktif, mendukung ketangguhan di berbagai kondisi, mengurangi sensitivitas terhadap ketidakakuratan atau korelasi palsu dan memfasilitasi interpretabilitas atau diagnostik hilir.

Cara mencapai data AI berkualitas tinggi

Mengukur kualitas data AI akan menetapkan garis dasar awal, tetapi mempertahankannya membutuhkan pemantauan kualitas data yang berkelanjutan seiring dengan perkembangan data, pola penggunaan, dan kondisi operasi. Empat praktik dasar untuk meningkatkan dan mempertahankan kualitas data AI meliputi:

Pembuatan profil dan eksplorasi data di awal siklus hidup
Observabilitas data sebagai fondasinya
Pemeriksaan kualitas data menggunakan AI
Menutup siklus dengan remediasi dan masukan

Pembuatan profil dan eksplorasi data di awal siklus hidup

Pembuatan profil membantu tim memahami sumber data yang mendasarinya, bagaimana data dikumpulkan, disusun, dan ditransformasikan, serta bagaimana data mengalir melalui saluran lewat silsilah data. Proses ini termasuk mengidentifikasi outlier, memeriksa missing values, dan menganalisis hubungan di seluruh data terstruktur dan tidak terstruktur seperti teks atau gambar.

Semua praktik ini membangun fondasi yang kuat dari data akurat untuk pelatihan model. Semua ini harus dilakukan sebelum pengembangan model dan disematkan ke dalam alur kerja persiapan data awal yang memanfaatkan data mentah dan metadata terkait.

Observabilitas data sebagai fondasinya

Observabilitas data memberikan visibilitas yang diperlukan untuk memungkinkan pemantauan dan pemeriksaan berkelanjutan yang efektif dalam skala besar di seluruh alur kerja pembuatan. Dengan memantau saluran data, observabilitas membantu memungkinkan tim untuk melihat bagaimana data berubah dari waktu ke waktu, melacak masalah kualitas kembali ke sumbernya, dan menghubungkan perubahan data dengan hasil model hilir.

Visibilitas menyeluruh ini penting untuk menjaga kualitas data karena sistem AI tumbuh dalam kompleksitas, volume, dan skalabilitas.

Pemeriksaan kualitas data menggunakan AI

AI sendiri dapat digunakan untuk meningkatkan kualitas, keandalan, dan tata kelola data yang menjadi bahan baku modelnya. Solusi kualitas data didukung AI dengan otomatisasi bawaan dan agen AI dapat terus membuat profil kumpulan data baru, besar, dan kompleks saat mereka bergerak melalui saluran data.

Selain itu, mereka dapat melakukan deteksi anomali untuk mengidentifikasi inkonsistensi, titik data di luar jangkauan dan pergeseran distribusi, serta menerapkan penghapusan duplikasi untuk mendeteksi dan menghilangkan duplikat catatan dan masalah kualitas data terkait.

Menutup siklus dengan remediasi dan masukan

Mempertahankan kualitas data AI juga membutuhkan siklus masukan yang menghubungkan sinyal pemantauan ke tindakan. Insight dari pemantauan kualitas data dan observabilitas menginformasikan langkah-langkah remediasi seperti model pelatihan ulang, memperbarui pedoman pelabelan, menyesuaikan logika prapemrosesan, atau mengumpulkan data tambahan di area yang kurang terwakili.

Seiring waktu, masukan berkelanjutan ini memungkinkan tim untuk mengoptimalkan praktik kualitas data dan kinerja model mereka saat sistem AI berkembang.

Penyusun

Alexandra Jonker

Staff Editor

IBM Think

Judith Aquino

Staff Writer

IBM Think

Render 3D dari spiral beberapa ikon yang berbaris seperti kamera, kenop volume, dan clipboard

Baca panduan Pemimpin Data untuk mempelajari cara Anda dapat membuat data organisasi Anda yang siap untuk AI.

Sumber daya

Render 3D dari beberapa ikon berjajar seperti mikrofon dan kamera

Agen AI berjalan pada data. Apakah data Anda siap?

Data Anda adalah keunggulan kompetitif Anda. Pelajari cara memanfaatkan dengan aman dan mendorong ROI terukur dari AI di webinar singkat ini.

Penjelasan tentang manajemen data

Techsplainers oleh IBM menjelaskan dasar-dasar data untuk AI, dari konsep kunci ke contoh penggunaan dunia nyata. Episode yang jelas dan singkat membantu Anda mempelajari dasar-dasarnya dengan cepat.

Rendering 3D dari beberapa ikon berjajar, seperti tombol volume dan clipboard

Satukan dan akses data Anda untuk membantu meningkatkan skala AI Anda

Pelajari mengapa jalur menuju data yang siap untuk AI sering dimulai dengan akses efektif ke data terstruktur dan tidak terstruktur dan tantangan yang dapat menghambat para pemimpin data.

Biaya hukum berubah menjadi insight strategis

Pelajari bagaimana agen hukum yang didukung AI membantu mempercepat pengambilan keputusan, mengurangi pekerjaan manual, dan meningkatkan kepatuhan.

Akademi AI: Membangun Strategi data untuk AI perusahaan

Dalam episode ini, Cathy Reese menjelaskan bagaimana organisasi saat ini membutuhkan strategi data yang siap untuk AI canggih, yang akan mengharuskan mereka untuk memanfaatkan aset data kualitas tertinggi mereka.

Render 3D dari beberapa ikon berjajar seperti kamera dan pesawat kertas

Data lakehouse hybrid terbuka untuk AI

Sederhanakan akses data dan otomatiskan tata kelola data. Temukan kekuatan mengintegrasikan strategi data lakehouse ke dalam arsitektur data Anda, termasuk mengoptimalkan biaya beban kerja Anda dan menskalakan AI dan analitik dengan semua data Anda, di mana saja.

Laporan Biaya Pelanggaran Data 2025

Biaya pelanggaran data telah mencapai rekor tertingginya. Dapatkan insight terkini tentang ancaman keamanan siber dan dampak keuangannya terhadap organisasi.

Render 3D dari dua baris dari beberapa ikon seperti kamera, kenop volume, dan clipboard

Panduan pemimpin data untuk data siap AI

Pahami langkah-langkah yang dapat ditindaklanjuti yang dapat diambil oleh pemimpin data untuk mengatasi tantangan data, membangun dasar untuk landasan data tepercaya, dan membantu menyiapkan data organisasi Anda untuk AI.

Render 3D dari beberapa ikon berbaris seperti kamera, kenop volume, dan clipboard

Bagaimana C-suite mengubah informasi menjadi dampak

Jelajahi insight dari 1.700 CDO dalam laporan lintas-industri untuk pemimpin data ini.

Solusi terkait

Perangkat lunak dan solusi manajemen data

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data

IBM watsonx.data™

watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.

Temukan watsonx.data

Layanan konsultasi data dan analitik

Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik

Ambil langkah selanjutnya