Dalam bidang ilmu data, data kebenaran dasar merupakan standar emas untuk data yang akurat. Data ini memungkinkan ilmuwan data untuk mengevaluasi kinerja model dengan membandingkan output model dengan “jawaban yang benar” (data yang diperoleh dari pengamatan dunia nyata). Hal ini memvalidasi bahwa model machine learning (ML) menghasilkan hasil yang akurat dan mencerminkan realitas.
Data kebenaran dasar sangat penting dalam pembelajaran yang diawasi, yaitu subkategori ML yang menggunakan kumpulan data berlabel untuk melatih algoritme dan untuk mengklasifikasikan data (pengklasifikasi) atau memprediksi hasil dengan akurasi tinggi.
Pelabelan data atau anotasi data merupakan langkah dasar dalam pengumpulan data kebenaran dasar. Tanpa label atau anotasi yang akurat, data tidak dapat dianggap sebagai tolok ukur untuk kebenaran di dunia nyata.
Data kebenaran dasar adalah fondasi untuk machine learning yang diawasi, yang memerlukan kumpulan data berlabel berkualitas tinggi. Model ML yang diawasi digunakan untuk mengembangkan dan meningkatkan berbagai aplikasi AI saat ini. Sebagai contoh, model ML yang diawasi mendukung aplikasi seperti pengenalan gambar dan objek, analisis prediktif, analisis sentimen pelanggan, serta deteksi spam.
Data kebenaran dasar menyediakan informasi berlabel yang akurat dan terverifikasi, yang diperlukan untuk mengawasi dan melatih model ML, data ini digunakan untuk memvalidasi kinerja model dan menguji kemampuan mereka dalam menggeneralisasi (atau membuat prediksi akurat berdasarkan data baru). Dengan bertindak sebagai "jawaban yang benar" dibandingkan dengan prediksi model, kebenaran dasar membantu memastikan bahwa sistem AI mempelajari pola yang tepat dan bekerja dengan andal dalam skenario dunia nyata.
Sebagai contoh, bayangkan sebuah gambar kucing. Kumpulan data pelatihan untuk gambar ini bisa mencakup label yang menunjukkan bagian-bagian seperti tubuh, telinga, mata, dan kumis kucing, klasifikasi bahkan hingga tingkat piksel. Anotasi ini membantu algoritma machine learning belajar mengidentifikasi fitur serupa dalam data gambar baru.
Keakuratan label set pelatihan ini sangat penting. Jika anotasi salah atau tidak konsisten (seperti memberi label kaki anjing sebagai kaki kucing) model tersebut tidak akan dapat mempelajari pola yang benar. Hal ini dapat menyebabkan prediksi yang salah.
Seekor kucing dengan cakar kucing mungkin tampak tidak berbahaya. Namun, risiko prediksi yang salah lebih tinggi di bidang-bidang seperti layanan kesehatan dan mitigasi perubahan iklim, di mana akurasi dalam waktu nyata sangat penting.
Kebenaran dasar sangat penting dalam siklus hidup machine learning (ML) yang diawasi, mencakup tahap pelatihan model, validasi dan pengujian.
Kebenaran dasar berfungsi sebagai fondasi untuk berbagai tugas dalam pembelajaran yang diawasi, termasuk klasifikasi, regresi, dan segmentasi. Baik model sedang belajar mengategorikan data, memprediksi hasil numerik atau mengidentifikasi objek dalam gambar, kebenaran dasar memberikan tolok ukur untuk memastikan prediksi yang akurat. Tugas-tugas ini memiliki banyak contoh penggunaan di dunia nyata di mana keakuratan data kebenaran dasar sangat penting untuk mencapai kesuksesan.
Dalam tugas klasifikasi, data kebenaran dasar menyediakan label yang benar untuk setiap input, sehingga membantu model mengkategorikan data ke dalam kelas yang telah ditentukan. Sebagai contoh, dalam klasifikasi biner, model membedakan antara dua kategori (seperti benar atau salah). Klasifikasi multikelas sedikit lebih kompleks karena model harus menetapkan data ke salah satu dari beberapa kelas yang tersedia.
Pertimbangkan industri layanan kesehatan. Platform AI sering menggunakan klasifikasi multikelas untuk menganalisis gambar medis, seperti CT scan dan MRI, guna membantu dalam proses diagnosis.
Secara umum, aplikasi AI dapat menganalisis sinar-X pada lengan dan mengkategorikannya ke dalam salah satu dari empat kelas: patah, retak, terkilir atau sehat. Jika data kebenaran dasar tidak akurat, hal ini dapat menyebabkan prediksi yang salah, yang berpotensi mengakibatkan kesalahan diagnosis atau penundaan dalam perawatan.
Tugas regresi berfokus pada memprediksi nilai yang bersifat kontinu. Data kebenaran dasar mewakili hasil numerik aktual yang ingin diprediksi oleh model. Sebagai contoh, model regresi linear dapat memperkirakan harga rumah berdasarkan faktor-faktor seperti luas bangunan, jumlah kamar dan lokasi.
Dalam mitigasi perubahan iklim, model AI memanfaatkan citra satelit dan data penginderaan jauh untuk memantau perubahan lingkungan, seperti pergeseran suhu dan deforestasi.
Dalam konteks ini, data kebenaran dasar mencakup catatan cuaca historis yang telah diverifikasi atau pengukuran suhu yang diketahui. Data kebenaran dasar ini membantu memastikan bahwa prediksi model AI akurat dan dapat memberikan informasi penting untuk kebijakan serta keputusan terkait aksi iklim.
Tugas segmentasi melibatkan pemecahan gambar atau kumpulan data menjadi wilayah atau objek yang berbeda. Dalam segmentasi, data kebenaran dasar sering didefinisikan pada tingkat piksel untuk mengidentifikasi batas atau area dalam gambar.
Sebagai contoh, dalam pengembangan kendaraan otonom, label kebenaran dasar digunakan untuk melatih model agar dapat mendeteksi dan membedakan antara pejalan kaki, kendaraan, dan rambu-rambu jalan di lingkungan dunia nyata. Jika label kebenaran dasar salah atau tidak konsisten, model dapat salah mengidentifikasi objek, yang berpotensi menimbulkan risiko keselamatan serius di jalan.
Ada beberapa tantangan untuk membangun data kebenaran dasar berkualitas tinggi, termasuk:
Ada beberapa strategi dan metodologi yang dapat digunakan oleh organisasi untuk menghasilkan dan mengoptimalkan data kebenaran dasar berkualitas tinggi, antara lain:
Atur model AI generatif dari mana saja dan terapkan di cloud atau on premises dengan IBM watsonx.governance.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara waktu nyata, dan nilai bisnis.