Apa itu Pelabelan Data?

Apa itu pelabelan data?

Pelabelan data, atau anotasi data, adalah bagian dari tahap prapemrosesan saat mengembangkan model machine learning (ML).

Pelabelan data melibatkan identifikasi data mentah, seperti gambar, file teks atau video, dan menetapkan satu atau lebih label untuk menentukan konteksnya untuk model machine learning. Label ini membantu model menafsirkan data dengan benar, memungkinkan mereka membuat prediksi yang akurat.

Pelabelan data mendukung berbagai contoh penggunaan machine learning dan pembelajaran mendalam, termasuk visi komputer dan pemrosesan bahasa alami (NLP).

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Bagaimana cara kerja pelabelan data?

Perusahaan mengintegrasikan perangkat lunak, proses, dan anotator untuk membersihkan, menyusun, dan memberi label data. Data pelatihan ini menjadi dasar bagi model machine learning. Label ini memungkinkan analis untuk mengisolasi variabel dalam kumpulan data, dan hal ini, pada gilirannya, memungkinkan pemilihan prediktor data yang optimal untuk model ML. Label mengidentifikasi vektor data yang tepat untuk ditarik untuk pelatihan model, di mana model kemudian belajar membuat prediksi terbaik.

Selain bantuan mesin, tugas pelabelan data memerlukan partisipasi “keterlibatan manusia (HITL)”. HITL memanfaatkan penilaian “pelabel data” manusia untuk membuat, melatih, menyempurnakan, dan menguji model ML. Mereka membantu memandu proses pelabelan data dengan memberi kumpulan data pada model yang paling berlaku untuk proyek.

Data berlabel versus data tidak berlabel

Komputer menggunakan data berlabel dan tidak berlabel untuk melatih model ML, tetapi apa bedanya?

Data berlabel digunakan dalam pembelajaran diawasi, sedangkan data tidak berlabel digunakan dalam pembelajaran tanpa pengawasan.
Data berlabel lebih sulit diperoleh dan disimpan (karena memakan waktu dan mahal), sedangkan data tidak berlabel lebih mudah diperoleh dan disimpan.
Data berlabel dapat digunakan untuk menentukan insight yang dapat ditindaklanjuti (misalnya, tugas perkiraan), sedangkan data tidak berlabel lebih terbatas dalam kebergunaannya. Metode pembelajaran tanpa pengawasan dapat membantu menemukan klaster data baru, yang memungkinkan adanya kategorisasi baru saat memberi label.

Komputer juga dapat menggunakan data gabungan untuk pembelajaran agak diawasi, yang mengurangi kebutuhan akan data yang diberi label secara manual sekaligus menyediakan kumpulan data beranotasi dalam jumlah besar.

Akademi AI

Menjadi pakar AI

Raih pengetahuan demi memprioritaskan investasi AI yang mendorong pertumbuhan bisnis. Mulai dengan Akademi AI gratis kami hari ini dan pimpin masa depan AI di organisasi Anda.

Tonton serialnya

Pendekatan pelabelan data

Pelabelan data adalah langkah penting dalam mengembangkan model ML berkinerja tinggi. Meskipun pelabelan tampak sederhana, namun belum tentu mudah untuk diterapkan. Akibatnya, perusahaan harus mempertimbangkan berbagai faktor dan metode untuk menentukan pendekatan terbaik untuk pelabelan. Karena setiap metode pelabelan data memiliki pro dan kontra, disarankan untuk melakukan penilaian terperinci tentang kompleksitas tugas, serta ukuran, ruang lingkup, dan durasi proyek.

Berikut adalah beberapa jalur untuk memberi label pada data Anda:

Pelabelan internal: Menggunakan pakar ilmu data internal akan menyederhanakan pelacakan, memberikan akurasi yang lebih baik, dan meningkatkan kualitas. Namun, pendekatan ini biasanya membutuhkan lebih banyak waktu dan menguntungkan perusahaan besar dengan sumber daya yang luas.
Pelabelan sintetis: Pendekatan ini menghasilkan data proyek baru dari kumpulan data yang sudah ada sebelumnya, yang meningkatkan kualitas data dan efisiensi waktu. Namun, pelabelan sintetis membutuhkan daya komputasi yang luas, yang dapat meningkatkan biaya.
Pelabelan terprogram: Proses pelabelan data otomatis ini menggunakan skrip untuk mengurangi konsumsi waktu dan kebutuhan anotasi manusia. Namun, kemungkinan masalah teknis mengharuskan HITL untuk tetap menjadi bagian dari proses jaminan kualitas (QA).
Pengalihdayaan: Pendekatan ini dapat menjadi pilihan optimal untuk proyek sementara tingkat tinggi, tetapi mengembangkan dan mengelola alur kerja yang berorientasi pada pekerja lepas juga dapat memakan waktu. Meskipun platform pekerja lepas menyediakan informasi kandidat yang komprehensif untuk memudahkan proses pemeriksaan, mempekerjakan tim pelabelan data terkelola menyediakan staf yang sudah diperiksa sebelumnya dan alat pelabelan data bawaan.
Crowdsourcing: Pendekatan ini lebih cepat dan lebih hemat biaya karena kemampuan tugas mikro dan distribusi berbasis web. Namun, kualitas pekerja, QA, dan manajemen proyek bervariasi di seluruh platform crowdsourcing. Salah satu contoh paling terkenal dari pelabelan data crowdsourcing adalah reCAPTCHA. Proyek ini berlipat ganda karena mengontrol bot sekaligus meningkatkan anotasi data gambar. Sebagai contoh, prompt reCAPTCHA akan meminta pengguna untuk mengidentifikasi semua foto yang berisi mobil untuk membuktikan bahwa mereka adalah manusia. Program ini kemudian dapat memverifikasi keakuratannya dengan membandingkan hasil dengan pengguna lain. Input dari pengguna ini menyediakan basis data label untuk array gambar.

Manfaat dan tantangan pelabelan data

Konsekuensi umum dari pelabelan data adalah, meskipun dapat mempercepat proses penskalaan bisnis, hal ini sering kali memerlukan biaya yang signifikan. Data yang lebih akurat mengarah pada prediksi model yang lebih baik, menjadikan pelabelan data sebagai investasi yang berharga tetapi mahal. Meskipun biayanya tinggi, bisnis merasa bermanfaat karena peningkatan akurasi yang diberikannya.

Karena anotasi data menambahkan lebih banyak konteks ke kumpulan data, aktivitas ini meningkatkan kinerja analisis data eksplorasi, machine learning (ML), dan aplikasi kecerdasan buatan (AI). Misalnya, data berlabel berkontribusi pada hasil pencarian yang lebih relevan pada platform mesin pencari dan rekomendasi produk yang lebih baik di e-commerce. Mari kita jelajahi manfaat utama dan tantangan lainnya secara lebih terperinci.

Manfaat

Pelabelan data memberi pengguna, tim, dan perusahaan konteks, kualitas, dan kegunaan yang lebih baik. Lebih khususnya lagi, berikut manfaat yang bisa Anda dapatkan:

Prediksi yang lebih tepat: Pelabelan data yang akurat memastikan jaminan kualitas yang lebih baik dalam algoritma machine learning, sehingga model dapat dilatih dan menghasilkan output yang diharapkan. Kalau tidak, seperti pepatah lama, “sampah masuk, sampah keluar.” Data yang diberi label dengan benar memberikan “kebenaran dasar” (yaitu, bagaimana label mencerminkan skenario “dunia nyata”) untuk menguji dan melakukan iterasi model berikutnya.
Kegunaan data yang lebih baik: Pelabelan data juga dapat meningkatkan kegunaan variabel data dalam model. Misalnya, Anda dapat mengklasifikasikan ulang variabel kategori sebagai variabel biner agar lebih dapat dikonsumsi untuk model. Menggabungkan data dengan cara ini dapat mengoptimalkan model dengan mengurangi jumlah variabel model atau memungkinkan penyertaan variabel kontrol. Baik Anda menggunakan data untuk membangun model visi komputer (yaitu menempatkan kotak pembatas di sekitar objek) atau model NLP (yaitu mengklasifikasikan teks untuk sentimen sosial), memastikan data berkualitas tinggi adalah prioritas utama.

Tantangan

Pelabelan data hadir dengan serangkaian tantangannya sendiri. Beberapa tantangan yang paling umum terutama adalah:

Mahal dan memakan waktu: Meskipun pelabelan data sangat penting untuk model machine learning, hal ini dapat memakan biaya baik dari segi sumber daya maupun waktu. Jika bisnis mengambil pendekatan yang lebih otomatis, tim teknisi masih perlu menyiapkan jalur data sebelum pemrosesan data dan pelabelan manual biasanya akan mahal dan memakan waktu.
Rentan terhadap kesalahan manusia: Pendekatan pelabelan ini juga tunduk pada kesalahan manusia (misalnya, kesalahan pengodean, kesalahan entri manual), yang dapat menurunkan kualitas data. Proses ini, pada gilirannya, mengarah pada pemrosesan dan pemodelan data yang tidak akurat. Pemeriksaan jaminan kualitas sangat penting untuk menjaga kualitas data.

Praktik terbaik pelabelan data

Apa pun pendekatannya, praktik terbaik berikut mengoptimalkan akurasi dan efisiensi pelabelan data:

Antarmuka tugas yang intuitif dan ramping meminimalkan beban kognitif dan pengalihan konteks untuk pelabel manusia.
Konsensus: Mengukur tingkat kesepakatan antara beberapa pelabel (manusia atau mesin). Skor konsensus dihitung dengan membagi jumlah label yang menyetujui dengan jumlah total label per aset.
Audit label: Memverifikasi keakuratan label dan memperbaruinya sesuai kebutuhan.
Pembelajaran transfer: Mengambil satu atau beberapa model yang telah dilatih sebelumnya dari satu kumpulan data dan menerapkannya pada kumpulan data lainnya. Proses ini dapat mencakup pembelajaran multitugas, di mana beberapa tugas dipelajari secara bersamaan.
Pembelajaran aktif: Sebuah kategori algoritma ML dan bagian dari pembelajaran agak diawasi yang membantu manusia mengidentifikasi kumpulan data yang paling tepat. Pendekatan pembelajaran aktif meliputi:
- Penggabungan kueri keanggotaan - Menghasilkan instans sintetis dan meminta label untuk instans tersebut.
- Pengambilan sampel berbasis kumpulan - Memeringkat semua contoh yang tidak diberi label menurut pengukuran keinformatifan dan memilih kueri terbaik untuk diberi anotasi.
- Pengambilan sampel selektif berbasis aliran - Memilih contoh yang tidak berlabel satu per satu, dan memberi label atau mengabaikannya tergantung pada keakuratan atau ketidakpastiannya.

Contoh penggunaan pelabelan data

Meskipun pelabelan data dapat meningkatkan akurasi, kualitas, dan kegunaan dalam berbagai konteks di seluruh industri, contoh penggunaannya yang lebih menonjol meliputi:

Visi komputer: Bidang AI yang menggunakan data pelatihan untuk membangun model visi komputer yang memungkinkan segmentasi gambar dan otomatisasi kategori, mengidentifikasi titik-titik penting dalam gambar dan mendeteksi lokasi objek. IBM menawarkan platform visi komputer yang disebut Maximo Visual Inspection, yang memungkinkan tenaga ahli (SME) memberi label dan melatih model visi pembelajaran mendalam. Semua model ini dapat diterapkan di cloud, perangkat edge, dan di pusat data lokal. Visi komputer digunakan di berbagai industri—mulai dari energi dan utilitas hingga manufaktur dan otomotif. Pada tahun 2022, bidang yang melonjak ini diperkirakan akan mencapai nilai pasar sebesar USD 48,6 miliar.
Pemrosesan bahasa alami (NLP): Cabang AI menggabungkan linguistik komputasi dengan statistik, machine learning, dan pembelajaran mendalam untuk mengidentifikasi dan menandai bagian penting teks. Bagian yang ditandai ini menghasilkan data pelatihan untuk analisis sentimen, pengenalan nama entitas, dan pengenalan karakter optik. NLP makin banyak digunakan dalam solusi perusahaan seperti deteksi spam, penerjemahan mesin, pengenalan suara, peringkasan teks, asisten virtual dan chatbot, serta sistem GPS yang dioperasikan dengan suara. Kemajuan ini telah menjadikan NLP komponen sangat penting dalam evolusi proses bisnis sangat penting.

Ilmu data dan MLOP untuk pemimpin data

Menyelaraskan dengan para pemimpin lain dalam 3 tujuan utama MLOps dan AI yang dapat dipercaya: kepercayaan pada data, kepercayaan pada model, dan kepercayaan pada proses.

Apa itu pelabelan data?