Mengapa kualitas data AI merupakan kunci keberhasilan AI

Latar belakang digital abstrak yang menampilkan kode biner biru bercahaya (nol dan satu) dan berkas cahaya oranye yang melintasi aliran data.

Definisi kualitas data AI

Kualitas data kecerdasan buatan (AI) adalah sejauh mana data akurat, lengkap, andal, dan cocok untuk digunakan di seluruh siklus hidup AI, termasuk pelatihan, validasi, dan penerapan. 

Dalam sistem AI, kualitas data juga mencakup berbagai faktor yang kurang ditekankan dalam dimensi kualitas data tradisional—seperti keterwakilan, bias, akurasi label, dan variasi yang tidak relevan (noise)—yang dapat memengaruhi perilaku model.

Pentingnya kualitas data dalam AI tidak dapat dilebih-lebihkan: kualitas data yang buruk adalah salah satu alasan paling umum gagalnya inisiatif AI. Model AI yang dilatih pada data yang cacat, bias, atau tidak lengkap akan menghasilkan output yang tidak dapat diandalkan, terlepas dari arsitektur yang canggih. Seperti kata pepatah: sampah masuk, sampah keluar.

Sebaliknya, data berkualitas tinggi membentuk fondasi AI yang tepercaya dan efektif. Ketika sistem AI menjadi lebih kompleks dan dapat diskalakan, manajemen kualitas data yang berkelanjutan dan kuat akan menentukan apakah sistem tersebut dapat bekerja dengan andal, beradaptasi dengan lingkungan yang berubah, dan memungkinkan keputusan yang tepat.

Alat kualitas data canggih dapat membantu merampingkan manajemen kualitas data AI dengan menanamkan pemantauan dan validasi berkelanjutan langsung ke saluran data dan model. Selain otomatisasi berbasis aturan, AI dapat digunakan untuk meningkatkan kualitas data AI dengan mendeteksi anomali yang tidak kentara, memprioritaskan masalah berdasarkan dampak model hilir, dan masih banyak lagi. Dengan mengotomatiskan pemeriksaan untuk akurasi, konsistensi, kelengkapan, dan dimensi kualitas data lainnya, semua alat ini membantu tim mendeteksi masalah lebih awal dan menjaga kualitas data tetap selaras seiring perkembangan sistem AI.

AI bergantung pada data

Organisasi di seluruh dunia terus berinvestasi besar-besaran dalam AI. Menurut Gartner, pengeluaran AI di seluruh dunia diperkirakan akan melampaui USD 2 triliun pada tahun 2026, menunjukkan pertumbuhan 37% dibandingkan tahun lalu.1 Namun ekspansi yang cepat ini menutupi fakta bahwa banyak inisiatif AI kesulitan dalam memberikan nilai jangka panjang.

Studi CEO 2025 yang dilakukan IBM Institute for Business Value menemukan bahwa hanya 16% dari inisiatif AI yang berhasil diskalakan di seluruh perusahaan2, sementara studi NANDA dari MIT3 melaporkan bahwa hingga 95% dari proyek uji coba AI generatif gagal beralih melewati tahap eksperimen.

Riset menunjukkan bahwa kualitas data AI dan tata kelola data adalah pembeda utama dalam ekosistem AI. Sebuah studi IBV terpisah menemukan bahwa 68% organisasi yang mengutamakan AI melaporkan kerangka kerja data dan tata kelola yang matang dan mapan, dibandingkan dengan 32% organisasi lainnya.4

Seperti yang dicatat oleh penulis penelitian, “Meskipun kurang mencolok daripada algoritma mutakhir atau contoh penggunaan yang ambisius, fondasi data terstruktur, dapat diakses, dan berkualitas tinggi ini menggambarkan prasyarat penting untuk kesuksesan AI yang berkelanjutan.”

Dasar itu penting karena model machine learning—bagian inti dari banyak sistem AI— “belajar” langsung dari kumpulan data yang diberikan kepada mereka. Ketika data tersebut salah menggambarkan realitas karena kesalahan, kesenjangan, informasi yang ketinggalan zaman, silo, atau bias sistematis, model tidak hanya mewarisi semua kelemahan tersebut, tetapi juga dapat memperburuk masalah data dalam skala besar.

Misalnya, dalam sistem AI generatif, seperti model bahasa besar (LLM) yang digunakan untuk pemrosesan bahasa alami, masalah kualitas data dapat muncul sebagai teks dengan ketidakakuratan faktual atau output gambar yang bias. Kualitas data yang buruk juga dapat menyebabkan kinerja yang tidak merata, terutama dalam kasus edge seperti input yang tidak biasa dan skenario yang kurang terwakili.

Bahkan persentase kecil dari data berkualitas rendah dapat memiliki efek yang sangat besar. Hanya beberapa hasil yang buruk dapat merusak pengambilan keputusan dan kepercayaan pada teknologi secara keseluruhan, membuat para eksekutif menyimpulkan bahwa alat AI rusak ketika akar masalah sebetulnya terletak pada kualitas data yang menginformasikannya.

Di luar hasil teknis, kualitas data AI yang rendah membawa implikasi hukum dan etika, termasuk risiko yang terkait dengan privasi data dan penggunaan data yang bertanggung jawab. Model yang dilatih pada data yang diatur dengan buruk dapat melanggengkan diskriminasi di berbagai bidang seperti perekrutan, pinjaman, perawatan kesehatan, dan layanan publik. Pada saat yang sama, peraturan termasuk Undang-Undang Kecerdasan Buatan UE dan semakin banyak undang-undang AI tingkat negara bagian AS semakin meminta pertanggungjawaban organisasi atas privasi data, serta kualitas, keterwakilan, dan asal data pelatihan.

Bagaimana kualitas data AI berbeda dari kualitas data tradisional?

Mengukur kualitas data AI bergantung pada banyak dimensi kualitas data yang sama dengan yang dilacak melalui metrik kualitas data tradisional. Perbedaannya terletak pada bagaimana dimensi kualitas data dibingkai ulang dalam skenario AI: Dampak dimensi tersebut dievaluasi terhadap pelatihan model, generalisasi model, keadilan, risiko operasional— terutama saat model dikembangkan dan diterapkan di lingkungan data yang berbeda.

Ketika diterapkan pada sistem AI, kualitas data dievaluasi dengan menggunakan versi yang telah diadaptasi dari dimensi kualitas data berikut ini:

  • Akurasi data
  • Kelengkapan
  • Integritas data
  • Konsistensi
  • Ketepatan waktu
  • Relevansi

Akurasi data

Dalam pengaturan tradisional, akurasi berfokus pada apakah nilai data mewakili entitas atau peristiwa dunia nyata dengan benar, yang sering kali diverifikasi melalui pemeriksaan dasar dan ambang batas yang telah ditentukan. Dalam sistem AI, akurasi juga bergantung pada proses validasi data yang kuat yang menilai bagaimana ketidakakuratan label (contoh pelatihan diberi label yang salah atau ambigu), kesalahan pengukuran, dan variabel proksi memengaruhi pelatihan model.

Kelengkapan

Selain memeriksa apakah bidang atau catatan yang diperlukan tidak ada dari segi kelengkapan, untuk kualitas data AI hal ini meluas ke apakah data dengan memadai mencakup berbagai kasus yang diharapkan dihadapi model, seperti kasus edge, peristiwa langka, dan populasi minoritas. Kesenjangan dalam cakupan dapat mengakibatkan model rapuh yang rata-rata berkinerja baik tetapi gagal dalam skenario yang kurang terwakili, meningkatkan risiko keadilan dan operasional.

Integritas data

Sebelumnya integritas data berarti memastikan data mengikuti aturan dasar seperti mengikuti skema yang tepat dan terhubung dengan benar di seluruh sistem. Untuk AI, integritas data juga berarti mengetahui dengan tepat dari mana data berasal dan mampu menciptakan kembali bagaimana data disiapkan dan digunakan di seluruh saluran data.

Tim harus dapat melacak data kembali ke sumber aslinya dan menyimpan catatan yang jelas tentang setiap perubahan yang dilakukan padanya. Aset data penting, termasuk data pelatihan dan input model, harus dilindungi sehingga masalah seperti kerusakan yang tidak disengaja, duplikasi, atau perubahan yang tidak sah dapat dideteksi dan diselidiki.

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Konsistensi

Selain format dan definisi yang konsisten, mengukur kualitas data AI berarti memeriksa apakah data dikumpulkan, diproses, dan ditambah dengan cara yang konsisten di seluruh data historis dan baru. Pemeriksaan ini membantu memastikan bahwa perubahan pada saluran atau sumber tidak menimbulkan distorsi, bias, atau risiko model hilir secara tidak disengaja.

Ketepatan waktu

Ketepatan waktu klasik berfokus pada bagaimana data saat ini berada pada titik pengumpulan. Dalam sistem AI, ketepatan waktu juga memerlukan pemantauan bagaimana data baru atau data real-time berbeda dari data pelatihan, karena penyimpangan data atau konsep dapat menurunkan kinerja model.

Relevansi

Alih-alih menanyakan apakah data berguna secara luas atau terkait dengan domain masalah, menilai relevansi data dalam kasus penggunaan AI berarti menentukan apakah setiap fitur dan contoh memberikan informasi yang mendukung fungsi yang dimaksudkan untuk sistem. Metrik ini mencakup pemeriksaan apakah data meningkatkan kinerja prediktif, mendukung ketangguhan di berbagai kondisi, mengurangi sensitivitas terhadap ketidakakuratan atau korelasi palsu dan memfasilitasi interpretabilitas atau diagnostik hilir.

Cara mencapai data AI berkualitas tinggi

Mengukur kualitas data AI akan menetapkan garis dasar awal, tetapi mempertahankannya membutuhkan pemantauan kualitas data yang berkelanjutan seiring dengan perkembangan data, pola penggunaan, dan kondisi operasi. Empat praktik dasar untuk meningkatkan dan mempertahankan kualitas data AI meliputi:

  • Pembuatan profil dan eksplorasi data di awal siklus hidup
  • Observabilitas data sebagai fondasinya
  • Pemeriksaan kualitas data menggunakan AI
  • Menutup siklus dengan remediasi dan masukan
Pembuatan profil dan eksplorasi data di awal siklus hidup

Pembuatan profil membantu tim memahami sumber data yang mendasarinya, bagaimana data dikumpulkan, disusun, dan ditransformasikan, serta bagaimana data mengalir melalui saluran lewat silsilah data. Proses ini termasuk mengidentifikasi outlier, memeriksa missing values, dan menganalisis hubungan di seluruh data terstruktur dan tidak terstruktur seperti teks atau gambar.

Semua praktik ini membangun fondasi yang kuat dari data akurat untuk pelatihan model. Semua ini harus dilakukan sebelum pengembangan model dan disematkan ke dalam alur kerja persiapan data awal yang memanfaatkan data mentah dan metadata terkait.

Observabilitas data sebagai fondasinya

Observabilitas data memberikan visibilitas yang diperlukan untuk memungkinkan pemantauan dan pemeriksaan berkelanjutan yang efektif dalam skala besar di seluruh alur kerja pembuatan. Dengan memantau saluran data, observabilitas membantu memungkinkan tim untuk melihat bagaimana data berubah dari waktu ke waktu, melacak masalah kualitas kembali ke sumbernya, dan menghubungkan perubahan data dengan hasil model hilir.

Visibilitas menyeluruh ini penting untuk menjaga kualitas data karena sistem AI tumbuh dalam kompleksitas, volume, dan skalabilitas.

Pemeriksaan kualitas data menggunakan AI

AI sendiri dapat digunakan untuk meningkatkan kualitas, keandalan, dan tata kelola data yang menjadi bahan baku modelnya. Solusi kualitas data didukung AI dengan otomatisasi bawaan dan agen AI dapat terus membuat profil kumpulan data baru, besar, dan kompleks saat mereka bergerak melalui saluran data.

Selain itu, mereka dapat melakukan deteksi anomali untuk mengidentifikasi inkonsistensi, titik data di luar jangkauan dan pergeseran distribusi, serta menerapkan penghapusan duplikasi untuk mendeteksi dan menghilangkan duplikat catatan dan masalah kualitas data terkait.

Menutup siklus dengan remediasi dan masukan

Mempertahankan kualitas data AI juga membutuhkan siklus masukan yang menghubungkan sinyal pemantauan ke tindakan. Insight dari pemantauan kualitas data dan observabilitas menginformasikan langkah-langkah remediasi seperti model pelatihan ulang, memperbarui pedoman pelabelan, menyesuaikan logika prapemrosesan, atau mengumpulkan data tambahan di area yang kurang terwakili.

Seiring waktu, masukan berkelanjutan ini memungkinkan tim untuk mengoptimalkan praktik kualitas data dan kinerja model mereka saat sistem AI berkembang.

Alexandra Jonker

Staff Editor

IBM Think

Judith Aquino

Staff Writer

IBM Think

Solusi terkait
Perangkat lunak dan solusi manajemen data

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data
IBM watsonx.data™

watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.

Temukan watsonx.data
Layanan konsultasi data dan analitik

Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

  1. Jelajahi solusi manajemen data
  2. Temukan watsonx.data