Apa itu kebenaran dasar?

Orang yang sedang meninjau panel grafik dan data

Penyusun

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Apa itu kebenaran dasar?

Data kebenaran dasar atau kebenaran dasar, mengacu kepada data yang telah diverifikasi dan benar yang digunakan untuk melatih, memvalidasi, dan menguji model kecerdasan buatan (AI).
 

Dalam bidang ilmu data, data kebenaran dasar merupakan standar emas untuk data yang akurat. Data ini memungkinkan ilmuwan data untuk mengevaluasi kinerja model dengan membandingkan output model dengan “jawaban yang benar” (data yang diperoleh dari pengamatan dunia nyata). Hal ini memvalidasi bahwa model machine learning (ML) menghasilkan hasil yang akurat dan mencerminkan realitas.

Data kebenaran dasar sangat penting dalam pembelajaran yang diawasi, yaitu subkategori ML yang menggunakan kumpulan data berlabel untuk melatih algoritme dan untuk mengklasifikasikan data (pengklasifikasi) atau memprediksi hasil dengan akurasi tinggi.

Pelabelan data  atau anotasi data merupakan langkah dasar dalam pengumpulan data kebenaran dasar. Tanpa label atau anotasi yang akurat, data tidak dapat dianggap sebagai tolok ukur untuk kebenaran di dunia nyata.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Mengapa data kebenaran dasar itu penting?

Data kebenaran dasar adalah fondasi untuk machine learning yang diawasi, yang memerlukan kumpulan data berlabel berkualitas tinggi. Model ML yang diawasi digunakan untuk mengembangkan dan meningkatkan berbagai aplikasi AI saat ini. Sebagai contoh, model ML yang diawasi mendukung aplikasi seperti pengenalan gambar dan objek, analisis prediktif, analisis sentimen pelanggan, serta deteksi spam.

Data kebenaran dasar menyediakan informasi berlabel yang akurat dan terverifikasi, yang diperlukan untuk mengawasi dan melatih model ML, data ini digunakan untuk memvalidasi kinerja model dan menguji kemampuan mereka dalam menggeneralisasi (atau membuat prediksi akurat berdasarkan data baru). Dengan bertindak sebagai "jawaban yang benar" dibandingkan dengan prediksi model, kebenaran dasar membantu memastikan bahwa sistem AI mempelajari pola yang tepat dan bekerja dengan andal dalam skenario dunia nyata.

Sebagai contoh, bayangkan sebuah gambar kucing. Kumpulan data pelatihan untuk gambar ini bisa mencakup label yang menunjukkan bagian-bagian seperti tubuh, telinga, mata, dan kumis kucing, klasifikasi bahkan hingga tingkat piksel. Anotasi ini membantu algoritma machine learning belajar mengidentifikasi fitur serupa dalam data gambar baru.

Keakuratan label set pelatihan ini sangat penting. Jika anotasi salah atau tidak konsisten (seperti memberi label kaki anjing sebagai kaki kucing) model tersebut tidak akan dapat mempelajari pola yang benar. Hal ini dapat menyebabkan prediksi yang salah.

Seekor kucing dengan cakar kucing mungkin tampak tidak berbahaya. Namun, risiko prediksi yang salah lebih tinggi di bidang-bidang seperti layanan kesehatan dan mitigasi perubahan iklim, di mana akurasi dalam waktu nyata sangat penting.  

Gabungan Para Pakar | 28 Agustus, episode 70

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Kebenaran dasar di seluruh siklus hidup ML

Kebenaran dasar sangat penting dalam siklus hidup machine learning (ML) yang diawasi, mencakup tahap pelatihan model, validasi dan pengujian.

  • Pelatihan: Selama fase pelatihan, data kebenaran dasar memberikan jawaban yang benar untuk dipelajari oleh model. Akurasi pelabelan data sangat penting: jika data kebenaran dasar salah atau tidak konsisten, model akan mempelajari pola yang keliru dan kesulitan dalam membuat prediksi yang akurat.

  • Validasi: Setelah model dilatih, evaluasi dilakukan untuk menilai seberapa baik model tersebut telah belajar dari data kebenaran dasar. Proses ini disebut validasi, di mana prediksi model dibandingkan dengan sampel data kebenaran dasar yang berbeda. Model tersebut dapat disesuaikan dan disempurnakan sesuai kebutuhan di tahap ini.

  • Pengujian: Setelah model dilatih dan divalidasi, pengujian dengan kumpulan data kebenaran dasar yang baru membantu memastikan bahwa model dapat berfungsi dengan baik pada data baru yang belum pernah dilihat sebelumnya (generalisasi). Pada tahap ini, efektivitas model dalam situasi dunia nyata benar-benar dinilai. Metrik seperti akurasi, presisi, dan recall digunakan untuk mengevaluasi kinerja model serta mengidentifikasi area yang perlu ditingkatkan.

Kebenaran dasar dalam berbagai tugas ML

Kebenaran dasar berfungsi sebagai fondasi untuk berbagai tugas dalam pembelajaran yang diawasi, termasuk klasifikasi, regresi, dan segmentasi. Baik model sedang belajar mengategorikan data, memprediksi hasil numerik atau mengidentifikasi objek dalam gambar, kebenaran dasar memberikan tolok ukur untuk memastikan prediksi yang akurat. Tugas-tugas ini memiliki banyak contoh penggunaan di dunia nyata di mana keakuratan data kebenaran dasar sangat penting untuk mencapai kesuksesan.

Klasifikasi

Dalam tugas klasifikasi, data kebenaran dasar menyediakan label yang benar untuk setiap input, sehingga membantu model mengkategorikan data ke dalam kelas yang telah ditentukan. Sebagai contoh, dalam klasifikasi biner, model membedakan antara dua kategori (seperti benar atau salah). Klasifikasi multikelas sedikit lebih kompleks karena model harus menetapkan data ke salah satu dari beberapa kelas yang tersedia.  

Pertimbangkan industri layanan kesehatan. Platform AI sering menggunakan klasifikasi multikelas untuk menganalisis gambar medis, seperti CT scan dan MRI, guna membantu dalam proses diagnosis.

Secara umum, aplikasi AI dapat menganalisis sinar-X pada lengan dan mengkategorikannya ke dalam salah satu dari empat kelas: patah, retak, terkilir atau sehat. Jika data kebenaran dasar tidak akurat, hal ini dapat menyebabkan prediksi yang salah, yang berpotensi mengakibatkan kesalahan diagnosis atau penundaan dalam perawatan.

Regresi

Tugas regresi berfokus pada memprediksi nilai yang bersifat kontinu. Data kebenaran dasar mewakili hasil numerik aktual yang ingin diprediksi oleh model. Sebagai contoh, model regresi linear dapat memperkirakan harga rumah berdasarkan faktor-faktor seperti luas bangunan, jumlah kamar dan lokasi.

Dalam mitigasi perubahan iklim, model AI memanfaatkan citra satelit dan data penginderaan jauh untuk memantau perubahan lingkungan, seperti pergeseran suhu dan deforestasi.

Dalam konteks ini, data kebenaran dasar mencakup catatan cuaca historis yang telah diverifikasi atau pengukuran suhu yang diketahui. Data kebenaran dasar ini membantu memastikan bahwa prediksi model AI akurat dan dapat memberikan informasi penting untuk kebijakan serta keputusan terkait aksi iklim.

Segmentasi

Tugas segmentasi melibatkan pemecahan gambar atau kumpulan data menjadi wilayah atau objek yang berbeda. Dalam segmentasi, data kebenaran dasar sering didefinisikan pada tingkat piksel untuk mengidentifikasi batas atau area dalam gambar.

Sebagai contoh, dalam pengembangan kendaraan otonom, label kebenaran dasar digunakan untuk melatih model agar dapat mendeteksi dan membedakan antara pejalan kaki, kendaraan, dan rambu-rambu jalan di lingkungan dunia nyata. Jika label kebenaran dasar salah atau tidak konsisten, model dapat salah mengidentifikasi objek, yang berpotensi menimbulkan risiko keselamatan serius di jalan.

Tantangan umum dalam membangun kebenaran dasar

Ada beberapa tantangan untuk membangun data kebenaran dasar berkualitas tinggi, termasuk:

  • Pelabelan data yang tidak konsisten: Ilmuwan data sering menemukan variabilitas dalam kumpulan data, yang dapat menyebabkan inkonsistensi dan memengaruhi perilaku model. Bahkan kesalahan pelabelan kecil dalam atribusi dan kutipan dapat terakumulasi, mengakibatkan kesalahan prediksi pada model.

  • Subjektivitas dan ambiguitas: Banyak tugas pelabelan data memerlukan penilaian manusia, yang dapat bersifat subjektif. Sebagai contoh, dalam tugas seperti analisis sentimen, anotator yang berbeda mungkin menafsirkan data dengan cara yang berbeda, sehingga menyebabkan ketidakkonsistenan dalam kebenaran dasar.

  • Kompleksitas data: Kumpulan data yang besar dan beragam—yang ditemukan dalam pemrosesan bahasa alami (NLP) atau kecerdasan buatan generatif (gen AI)—sering kali lebih sulit untuk dianotasi dengan akurat. Kompleksitas data, dengan beberapa kemungkinan label dan nuansa kontekstual, dapat menyulitkan penetapan kebenaran dasar yang konsisten.

  • Data yang miring dan bias: Data kebenaran dasar tidak selalu sepenuhnya mewakili skenario dunia nyata, terutama jika kumpulan data yang diberi label tidak lengkap atau tidak seimbang. Kondisi ini dapat mengakibatkan model menjadi bias.

  • Skalabilitas dan biaya: Pelabelan kumpulan data besar, terutama yang memerlukan keahlian khusus dan pengamatan langsung (seperti gambar medis), bisa sangat memakan waktu dan mahal. Untuk memenuhi tuntutan sistem AI modern, sering kali diperlukan otomatisasi atau crowdsourcing dalam upaya pelabelan data, namun pendekatan ini masih dapat menyebabkan kesalahan atau inkonsistensi.

Strategi untuk membangun data kebenaran dasar yang berkualitas tinggi

Ada beberapa strategi dan metodologi yang dapat digunakan oleh organisasi untuk menghasilkan dan mengoptimalkan data kebenaran dasar berkualitas tinggi, antara lain:

  • Mendefinisikan tujuan dan kebutuhan data: Menetapkan tujuan model dengan jelas membantu perusahaan menentukan jenis data dan label yang diperlukan, sehingga proses pengumpulan data selaras dengan tujuan penggunaan model. Penyelarasan ini sangat penting di bidang seperti visi komputer di mana ML dan neural networks mengajarkan sistem untuk mengekstrak informasi yang bermakna dari input visual.

  • Mengembangkan strategi pelabelan yang komprehensif: Organisasi dapat membuat pedoman standar untuk memberi label pada data kebenaran dasar, guna memastikan konsistensi dan akurasi di seluruh kumpulan data. Skema pelabelan yang terdefinisi dengan baik dapat memandu cara melakukan anotasi pada berbagai format data dan menjaga agar anotasi tetap seragam selama proses pengembangan model.

  • Menggunakan kolaborasi antara manusia dan mesin: Alat machine learning seperti Amazon SageMaker Ground Truth atau IBM Watson Natural Language Understanding dapat meningkatkan keahlian anotator manusia. Sebagai contoh, Amazon SageMaker Ground Truth menawarkan layanan pelabelan data yang memfasilitasi pembuatan kumpulan data pelatihan berkualitas tinggi melalui kombinasi pelabelan  otomatis dan proses ulasan oleh manusia.

  • Verifikasi konsistensi data: Tim dapat memantau konsistensi data berlabel dengan menerapkan proses jaminan kualitas, seperti perjanjian antar-anotator (IAA). IAA adalah metrik statistik yang mengukur tingkat kesepakatan antara anotator yang berbeda saat melabeli data yang sama.

  • Mengatasi bias:  Ilmuwan data harus menyadari dan berusaha menghindari potensi bias dalam kumpulan data kebenaran dasar mereka. Mereka dapat menggunakan berbagai teknik, seperti memastikan praktik pengumpulan data yang beragam dengan melibatkan beberapa anotator dari latar belakang yang berbeda untuk setiap titik data, melakukan referensi silang dengan sumber eksternal atau menerapkan strategi penambahan data untuk kelompok yang kurang terwakili.

  • Memperbarui data kebenaran dasar: Data kebenaran dasar adalah aset dinamis. Organisasi dapat memverifikasi prediksi model mereka dengan menggunakan data baru dan memperbarui kumpulan data berlabel seiring dengan perubahan kondisi di dunia nyata. Citra satelit, data penginderaan jauh, dan model perubahan iklim adalah semua contoh kumpulan data yang memerlukan kalibrasi berkelanjutan untuk mempertahankan akurasi dari waktu ke waktu.
Solusi terkait
IBM® watsonx.governance

Atur model AI generatif dari mana saja dan terapkan di cloud atau on premises dengan IBM watsonx.governance.

Jelajahi watsonx.governance
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara waktu nyata, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Arahkan , kelola, dan pantau AI Anda dengan satu portofolio untuk mempercepat AI yang bertanggung jawab, transparan, dan dapat dijelaskan.

Jelajahi watsonx.governance Pesan demo langsung