Perusahaan mengintegrasikan perangkat lunak, proses, dan anotator untuk membersihkan, menyusun, dan memberi label data. Data pelatihan ini menjadi dasar bagi model machine learning. Label ini memungkinkan analis untuk mengisolasi variabel dalam kumpulan data, dan ini, pada gilirannya, memungkinkan pemilihan prediktor data yang optimal untuk model ML. Label mengidentifikasi vektor data yang tepat untuk ditarik untuk pelatihan model, di mana model kemudian belajar membuat prediksi terbaik.

Selain bantuan mesin, tugas pelabelan data memerlukan partisipasi “human-in-the-loop (HITL)”. HITL memanfaatkan penilaian “pelabel data” manusia untuk membuat, melatih, menyempurnakan, dan menguji model ML. Mereka membantu memandu proses pelabelan data dengan memasukkan kumpulan data model yang paling sesuai untuk proyek tertentu.

Data berlabel vs. data tidak berlabel



Komputer menggunakan data berlabel dan tidak berlabel untuk melatih model ML, tetapi apa bedanya?

Data berlabel digunakan dalam pembelajaran yang diawasi, sedangkan data yang tidak berlabel digunakan dalam pembelajaran tanpa pengawasan.

Data berlabel lebih sulit diperoleh dan disimpan (yaitu memakan waktu dan mahal), sedangkan data tanpa label lebih mudah diperoleh dan disimpan.

Data berlabel dapat digunakan untuk menentukan insight yang dapat ditindaklanjuti (mis. tugas forecasting/perkiraan), sedangkan data yang tidak berlabel lebih terbatas kegunaannya. Metode pembelajaran tanpa pengawasan dapat membantu menemukan kelompok data baru, yang memungkinkan adanya kategorisasi baru saat memberi label.

Komputer juga dapat menggunakan data gabungan untuk pembelajaran semi-pengawasan, yang mengurangi kebutuhan akan data yang dilabeli secara manual sekaligus menyediakan kumpulan data beranotasi yang besar.