Beranda Topics Pelabelan data Apa itu pelabelan data?
Jelajahi solusi pelabelan data IBM Daftar untuk mendapatkan pembaruan AI
Ilustrasi dengan kolase piktogram awan, diagram lingkaran, piktogram grafik
Apa itu pelabelan data?

Pelabelan data, atau anotasi data, adalah bagian dari tahap prapemrosesan saat mengembangkan model machine learning (ML).

Pelabelan data memerlukan identifikasi data mentah (misalnya, gambar, file teks, video), dan kemudian penambahan satu atau beberapa label pada data tersebut untuk menentukan konteksnya bagi model, sehingga model machine learning dapat membuat prediksi yang akurat.

Pelabelan data mendukung berbagai contoh penggunaan machine learning dan pembelajaran mendalam, termasuk visi komputer dan pemrosesan bahasa alami (NLP).

Penyimpanan data untuk AI

Temukan manfaat mengintegrasikan strategi data lakehouse ke dalam arsitektur data Anda, yang mencakup peningkatan untuk meningkatkan skala AI dan peluang pengoptimalan biaya.

Konten terkait

Daftar untuk buku elektronik tentang AI generatif

Bagaimana cara kerja pelabelan data?

Perusahaan mengintegrasikan perangkat lunak, proses, dan anotator untuk membersihkan, menyusun, dan memberi label data. Data pelatihan ini menjadi dasar bagi model machine learning. Label ini memungkinkan analis untuk mengisolasi variabel dalam kumpulan data, dan ini, pada gilirannya, memungkinkan pemilihan prediktor data yang optimal untuk model ML. Label mengidentifikasi vektor data yang tepat untuk ditarik untuk pelatihan model, di mana model kemudian belajar membuat prediksi terbaik.

Selain bantuan mesin, tugas pelabelan data memerlukan partisipasi “human-in-the-loop (HITL)”. HITL memanfaatkan penilaian “pelabel data” manusia untuk membuat, melatih, menyempurnakan, dan menguji model ML. Mereka membantu memandu proses pelabelan data dengan memasukkan kumpulan data model yang paling sesuai untuk proyek tertentu.

Data berlabel vs. data tidak berlabel
 

Komputer menggunakan data berlabel dan tidak berlabel untuk melatih model ML, tetapi apa bedanya?

  • Data berlabel digunakan dalam pembelajaran yang diawasi, sedangkan data yang tidak berlabel digunakan dalam pembelajaran tanpa pengawasan.
  • Data berlabel lebih sulit diperoleh dan disimpan (yaitu memakan waktu dan mahal), sedangkan data tanpa label lebih mudah diperoleh dan disimpan.
  • Data berlabel dapat digunakan untuk menentukan insight yang dapat ditindaklanjuti (mis. tugas forecasting/perkiraan), sedangkan data yang tidak berlabel lebih terbatas kegunaannya. Metode pembelajaran tanpa pengawasan dapat membantu menemukan kelompok data baru, yang memungkinkan adanya kategorisasi baru saat memberi label.

Komputer juga dapat menggunakan data gabungan untuk pembelajaran semi-pengawasan, yang mengurangi kebutuhan akan data yang dilabeli secara manual sekaligus menyediakan kumpulan data beranotasi yang besar.

Pendekatan pelabelan data

Pelabelan data adalah langkah penting dalam mengembangkan model ML berperforma tinggi. Meskipun pelabelan tampak sederhana, tidak selalu mudah untuk diterapkan. Akibatnya, perusahaan harus mempertimbangkan berbagai faktor dan metode untuk menentukan pendekatan terbaik untuk pelabelan. Karena setiap metode pelabelan data memiliki pro dan kontra, penilaian terperinci tentang kompleksitas tugas, serta ukuran, ruang lingkup, dan durasi proyek disarankan.

Berikut adalah beberapa jalur untuk memberi label pada data Anda:

  • Pelabelan internal - Menggunakan pakar ilmu data internal akan menyederhanakan pelacakan, memberikan akurasi yang lebih baik, dan meningkatkan kualitas. Namun, pendekatan ini biasanya membutuhkan lebih banyak waktu dan menguntungkan perusahaan besar dengan sumber daya yang luas.
  • Pelabelan sintetis - Pendekatan ini menghasilkan data proyek baru dari set data yang sudah ada sebelumnya, yang meningkatkan kualitas data dan efisiensi waktu. Namun, pelabelan sintetis membutuhkan daya komputasi yang luas, yang dapat meningkatkan biaya.
  • Pelabelan terprogram - Proses pelabelan data otomatis ini menggunakan skrip untuk mengurangi konsumsi waktu dan kebutuhan akan anotasi manusia. Namun, kemungkinan masalah teknis mengharuskan HITL untuk tetap menjadi bagian dari proses jaminan kualitas (QA).
  • Alihdaya - Ini bisa menjadi pilihan optimal untuk proyek-proyek sementara tingkat tinggi, tetapi mengembangkan dan mengelola alur kerja yang berorientasi pada pekerja lepas juga bisa memakan waktu. Meskipun platform pekerja lepas menyediakan informasi kandidat yang komprehensif untuk memudahkan proses pemeriksaan, mempekerjakan tim pelabelan data terkelola menyediakan staf yang sudah diperiksa sebelumnya dan alat pelabelan data yang sudah jadi.
  • Crowdsourcing - Pendekatan ini lebih cepat dan lebih hemat biaya karena kemampuan tugas mikro dan distribusi berbasis web. Namun, kualitas pekerja, QA, dan manajemen proyek bervariasi di seluruh platform crowdsourcing. Salah satu contoh paling terkenal dari pelabelan data crowdsourcing adalah Recaptcha. Proyek ini berlipat ganda karena mengontrol bot sekaligus meningkatkan anotasi data gambar. Sebagai contoh, prompt Recaptcha akan meminta pengguna untuk mengidentifikasi semua foto yang berisi mobil untuk membuktikan bahwa foto tersebut adalah manusia, dan kemudian program ini dapat memeriksa dirinya sendiri berdasarkan hasil dari pengguna lain. Masukan dari pengguna ini menyediakan database label untuk array gambar.
Manfaat dan tantangan pelabelan data

Konsekuensi umum dari pelabelan data adalah meskipun dapat mengurangi waktu bisnis untuk berkembang, hal ini cenderung membutuhkan biaya. Data yang lebih akurat umumnya meningkatkan prediksi model, jadi meskipun biayanya tinggi, nilai yang diberikannya biasanya sepadan dengan investasinya. Karena anotasi data memberikan lebih banyak konteks ke kumpulan data, anotasi data meningkatkan kinerja analisis data eksplorasi serta aplikasi machine learning (ML) dan kecerdasan buatan (AI). Misalnya, pelabelan data memberikan hasil pencarian yang lebih relevan di seluruh platform mesin pencari dan rekomendasi produk yang lebih baik di platform e-commerce. Mari kita pelajari lebih dalam manfaat dan tantangan utama lainnya:

Manfaat
 

Pelabelan data memberi pengguna, tim, dan perusahaan konteks, kualitas, dan kegunaan yang lebih baik. Lebih khususnya lagi, berikut manfaat yang bisa Anda dapatkan:

  • Prediksi yang Lebih Tepat: Pelabelan data yang akurat memastikan jaminan kualitas yang lebih baik dalam algoritma machine learning, sehingga model dapat dilatih dan menghasilkan output yang diharapkan. Kalau tidak, seperti pepatah lama, “sampah masuk, sampah keluar.” Data berlabel dengan benar memberikan “kebenaran dasar” (yaitu, bagaimana label mencerminkan skenario “dunia nyata”) untuk menguji dan melakukan iterasi model berikutnya.
  • Kegunaan Data yang Lebih Baik: Pelabelan data juga dapat meningkatkan kegunaan variabel data dalam suatu model. Misalnya, Anda dapat mengklasifikasikan ulang variabel kategori sebagai variabel biner agar lebih dapat dikonsumsi untuk model.  Menggabungkan data dengan cara ini dapat mengoptimalkan model dengan mengurangi jumlah variabel model atau memungkinkan penyertaan variabel kontrol. Baik jika Anda menggunakan data untuk membangun model visi komputer (yaitu menempatkan kotak pembatas di sekitar objek) atau model NLP (yaitu mengklasifikasikan teks untuk sentimen sosial), memanfaatkan data berkualitas tinggi adalah prioritas utama.

Tantangan
 

Pelabelan data bukannya tanpa tantangan. Secara khusus, beberapa tantangan yang paling umum adalah:

  • Mahal dan memakan waktu: Meskipun pelabelan data sangat penting untuk model machine learning, hal ini dapat memakan biaya baik dari segi sumber daya maupun waktu. Jika suatu bisnis mengambil pendekatan yang lebih otomatis, tim teknik masih perlu menyiapkan jalur data sebelum pemrosesan data, dan pelabelan manual hampir selalu mahal dan memakan waktu.
  • Rentan terhadap Kesalahan Manusia: Pendekatan pelabelan ini juga rentan terhadap kesalahan manusia (misalnya kesalahan pengodean, kesalahan entri manual), yang dapat menurunkan kualitas data. Hal ini sebaliknya menjadikan pemrosesan dan pemodelan data yang tidak akurat. Pemeriksaan jaminan kualitas sangat penting untuk menjaga kualitas data.
Praktik terbaik pelabelan data

Apa pun pendekatannya, praktik terbaik berikut mengoptimalkan akurasi dan efisiensi pelabelan data:

  • Antarmuka tugas yang intuitif dan ramping Meminimalkan beban kognitif dan pengalihan konteks untuk pelabel manusia.
  • Konsensus: Mengukur tingkat kesepakatan antara beberapa pelabel (manusia atau mesin). Skor konsensus dihitung dengan membagi jumlah label yang menyetujui dengan jumlah total label per aset.
  • Audit label: Memverifikasi keakuratan label dan memperbaruinya sesuai kebutuhan.
  • Pembelajaran transfer: Mengambil satu atau beberapa model yang telah dilatih sebelumnya dari satu kumpulan data dan menerapkannya pada kumpulan data lainnya. Ini dapat mencakup pembelajaran multi-tugas, yang mana beberapa tugas dipelajari secara bersamaan.
  • Pembelajaran aktif: Sebuah kategori algoritma ML dan bagian dari pembelajaran semi-pengawasan yang membantu manusia mengidentifikasi kumpulan data yang paling tepat. Pendekatan pembelajaran aktif meliputi:
    • Sintesis kueri keanggotaan - Menghasilkan instans sintetis dan meminta label untuk instans tersebut.
    • Pengambilan sampel berbasis kumpulan - Mengurutkan semua contoh yang tidak diberi label menurut pengukuran keinformatifan dan memilih kueri terbaik untuk diberi keterangan.
    • Pengambilan sampel selektif berbasis aliran - Memilih contoh yang tidak berlabel satu per satu, dan memberi label atau mengabaikannya tergantung pada keakuratan atau ketidakpastiannya.
Contoh penggunaan pelabelan data

Meskipun pelabelan data dapat meningkatkan akurasi, kualitas, dan kegunaan dalam berbagai konteks di seluruh industri, contoh penggunaannya yang lebih menonjol meliputi:

  • Visi komputer: Bidang AI yang menggunakan data pelatihan untuk membangun model visi komputer yang memungkinkan segmentasi gambar dan otomatisasi kategori, mengidentifikasi titik-titik penting dalam gambar dan mendeteksi lokasi objek. Bahkan, IBM menawarkan platform visi komputer, Maximo Visual Inspection, yang memungkinkan para pakar materi (SME) untuk memberi label dan melatih model visi pembelajaran mendalam yang bisa digunakan di cloud, perangkat edge, dan pusat data lokal. Visi komputer digunakan di berbagai industri—mulai dari energi dan utilitas hingga manufaktur dan otomotif. Pada tahun 2022, bidang yang melonjak ini diperkirakan akan mencapai nilai pasar sebesar USD 48,6 miliar.
  • Pemrosesan bahasa alami (NLP): Cabang AI yang menggabungkan linguistik komputasi dengan model statistik, machine learning, dan pembelajaran mendalam untuk mengidentifikasi dan menandai bagian penting dari teks yang menghasilkan data pelatihan untuk analisis sentimen, pengenalan nama entitas, dan pengenalan karakter optik. NLP makin banyak digunakan dalam solusi perusahaan seperti deteksi spam, terjemahan mesin, pengenalan suara, ringkasan teks, asisten virtual dan chatbot, dan sistem GPS yang dioperasikan dengan suara. Ini telah menjadikan NLP komponen penting dalam evolusi proses bisnis yang sangat penting.
Solusi terkait
Natural Language Understanding

Layanan pemrosesan bahasa alami (NLP) untuk analitik teks tingkat lanjut.

Jelajahi IBM Watson Natural Language Understanding
Cloud Object Storage

Aktifkan beban kerja AI dan konsolidasikan penyimpanan big data primer dan sekunder dengan object storage on premises yang terkemuka di industri.

Jelajahi IBM Cloud Object Storage
Inspeksi visual

Melihat, memprediksi, dan mencegah masalah dengan pemantauan jarak jauh canggih yang didukung AI dan visi komputer untuk aset dan operasi.

Jelajahi IBM Maximo Application Suite Visual Inspection
Ambil langkah selanjutnya

Skalakan beban kerja AI untuk semua data Anda di mana saja dengan IBM watsonx.data. Penyimpanan data yang disesuaikan untuk tujuan yang dibangun pada arsitektur terbuka data lakehouse.

Jelajahi watsonx.data Pesan demo langsung