Apa itu data pelatihan?

Apa itu data pelatihan?

Data pelatihan adalah informasi yang digunakan untuk mengajarkan model machine learning cara membuat prediksi, mengenali pola, atau membuat konten. Setelah memproses sejumlah besar data, algoritma tersebut dianggap "terlatih," dan dapat digunakan untuk banyak aplikasi. Namun tanpa data pelatihan, algoritma yang canggih sekalipun tidak akan berguna, seperti seorang siswa cerdas yang tidak mempelajari materi untuk ujian.

Semua machine learning dimulai dengan kumpulan data atau gabungan data. Kumpulan data dapat terdiri dari spreadsheet, rekaman video, halaman web, PDF, atau jenis data lainnya. Secara umum, semakin banyak data pelatihan yang dimasukkan ke dalam model, semakin baik kinerja model. Tapi bukan hanya kuantitas data — kualitas data juga sangat penting.

Data pelatihan AI terdiri dari fitur, disebut juga atribut, yang menggambarkan data. Sebagai contoh, satu kumpulan data tentang peralatan pabrik dapat mencakup suhu, kecepatan osilasi, dan waktu perbaikan terakhir. Data ini “dimasukkan” ke algoritma machine learning, sekumpulan instruksi yang diekspresikan melalui sepotong kode yang memproses input data untuk membuat output. Memasukkan data ke algoritma berarti memberikannya data input yang kemudian diproses dan dianalisis untuk menghasilkan output. Model matematika yang terlatih adalah hasil dari proses ini. Semua model ini adalah dasar untuk hampir semua inovasi terbaru dalam kecerdasan buatan.

Beberapa model digunakan untuk pemrosesan bahasa alami (NLP) yang dapat digunakan untuk mengajarkan mesin membaca dan berbicara dalam bahasa manusia. Visi komputer memungkinkan model lain untuk menafsirkan informasi visual. Tapi semuanya dimulai dengan data pelatihan.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Jenis pelatihan

Berbagai jenis algoritma pembelajaran menggunakan pendekatan yang berbeda untuk data pelatihan. Pembelajaran diawasi menggunakan data berlabel, sedangkan pembelajaran tanpa pengawasan menggunakan data tidak berlabel. Pembelajaran agak diawasi menggabungkan keduanya.

Model pelatihan untuk pembelajaran diawasi

Pembelajaran diawasi adalah teknik machine learning yang menggunakan kumpulan data berlabel untuk melatih model AI guna mengidentifikasi pola yang mendasari di seluruh titik data. Data berlabel mencakup fitur dan label, output yang sesuai yang digunakan model untuk memahami hubungan antara keduanya.

Banyak bisnis mempekerjakan tim besar yang terdiri dari anotator data manusia yang terkadang dibantu oleh mesin. Anotator ini sering membutuhkan keahlian domain untuk memastikan bahwa data diberi label dengan benar. Misalnya, ketika memberi label data hukum, anotator mungkin memerlukan latar belakang hukum. Proses menggunakan anotator manusia untuk membantu memastikan pelabelan yang tepat terkadang disebut sebagai “keterlibatan manusia.”

Contoh klasik dari pembelajaran diawasi adalah deteksi spam. Untuk mengajarkan model cara mengidentifikasi spam, seseorang dapat mengeksposnya ke kumpulan data yang terdiri dari ribuan email, masing-masing diberi label oleh manusia sebagai “spam” atau “bukan spam.” Model akan meninjau pola dalam email, memperhatikan berbagai pola. Misalnya, email yang memiliki kata "gratis" di baris subjek kemungkinan adalah spam. Model ini akan menghitung kemungkinan statistik bahwa kata "gratis" di baris subjek sesuai dengan label "spam". Kemudian, ketika diberikan email baru tanpa label, model ini dapat menerapkan perhitungan tersebut berikut banyak perhitungan lainnya untuk menentukan apakah email baru tersebut adalah spam atau bukan.

Jenis machine learning ini disebut "diawasi" karena melibatkan pengawasan manusia untuk memberi label pada semua data tersebut.

Model pelatihan untuk pembelajaran tanpa pengawasan

Model pembelajaran tanpa pengawasan bekerja sendiri untuk menemukan struktur yang melekat pada data tidak berlabel. Meskipun pembelajaran diawasi sangat membantu untuk memetakan input ke output, pembelajaran tanpa pengawasan lebih cocok untuk menemukan pola, struktur, dan hubungan dalam data itu sendiri, tanpa panduan apa pun tentang apa yang harus dicari.

Misalnya, bayangkan pengiklan ingin mengelompokkan pelanggan ke dalam segmen yang berbeda berdasarkan perilaku pembelian tanpa mengetahui kategorinya terlebih dahulu. Kumpulan data yang tidak berlabel dapat mencakup berbagai fitur seperti frekuensi pembelian, nilai pesanan rata-rata, jenis produk yang dibeli, dan waktu sejak pembelian terakhir, namun tidak memiliki kolom untuk "jenis pelanggan." Itulah yang coba dicari oleh model. Algoritma pengelompokan dapat digunakan untuk mengidentifikasi tiga klaster:

  1. Pembeli dengan pengeluaran tinggi dan sering
     

  2. Pembeli dengan diskon sesekali
     

  3. Pelanggan baru atau satu kali

Model mempelajari sendiri pola dan membuat pengelompokan ini langsung dari kumpulan data pelatihan.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Persiapan data pelatihan

Data ada di sekitar kita. Populasi global menghasilkan sejumlah besar data setiap detik dalam sehari. Tetapi data mentah biasanya tidak berguna untuk pelatihan model. Jaminan kualitas sangat penting. Pertama, data harus diproses sebelumnya melalui saluran data melalui beberapa langkah. Ini bisa menjadi proses dengan rangkaian aktivitas bagi ilmuwan data yang terdiri dari sebagian besar ruang lingkup proyek machine learning, yang membutuhkan alat dan infrastruktur ilmu data yang canggih. Data berkualitas buruk dapat menyebabkan ketidakakuratan dan bias yang mencegah model machine learning membuat prediksi yang akurat, tetapi data pelatihan berkualitas tinggi memungkinkan model untuk membuat hasil yang lebih andal di berbagai contoh penggunaan, mulai dari otomatisasi dan terjemahan hingga pengambilan keputusan berbasis data

Pengumpulan data

Data harus dikumpulkan terlebih dahulu. Untuk sistem AI seperti kendaraan otonom atau rumah pintar, pengumpulan data dapat dilakukan menggunakan sensor atau perangkat IoT. Lembaga pemerintah, lembaga penelitian, dan bisnis sering menyediakan kumpulan data publik. Pengiklan menggunakan aliran klik, pengiriman formulir, dan data perilaku dari pengguna.

Pembersihan dan transformasi data

Data mentah sering berisi nilai yang hilang, duplikat, dan kesalahan lainnya. Setelah dikumpulkan data harus dibersihkan untuk memperbaiki kesalahan ini. Ini bisa dilakukan dengan sederhana menggunakan format standar, seperti memastikan bahwa tanggal muncul sebagai MM/DD/YYYY. Setelah dibersihkan, format data sering kali perlu diubah agar lebih mudah diproses oleh algoritma. Rekayasa fitur memproses data mentah ke dalam format yang dapat dibaca mesin. Tindakan ini mengoptimalkan kinerja model ML dengan mengubah dan memilih fitur yang relevan.

Memisahkan kumpulan data

Untuk mengevaluasi seberapa baik model menggeneralisasi ke data baru, kumpulan data biasanya dibagi menjadi tiga kumpulan. Yang pertama adalah kumpulan pelatihan yang digunakan untuk menyesuaikan parameter model guna menemukan kecocokan terbaik antara prediksi dan data, sebuah proses pelatihan yang disebut "pencocokan". Yang kedua adalah kumpulan data validasi yang digunakan untuk menyempurnakan hiperparameter dan mencegah overfitting. Terakhir kumpulan data pengujian digunakan untuk evaluasi akhir pada kinerja model.

Pelabelan data

Terkadang disebut "anotasi manusia," pelabelan data adalah proses menambahkan label yang berarti ke data mentah sehingga model dapat belajar darinya. Label dapat menggambarkan properti data apa pun. Misalnya, posting media sosial yang mengatakan “Produk ini mengerikan,” dapat diberi label sebagai “sentimen negatif” dalam proses yang dikenal sebagai analisis sentimen. Seorang anotator manusia dapat melabeli foto seekor kucing sebagai “dog.” Transaksi bank dapat diberi label sebagai “penipuan.”

Langkah-langkah lebih lanjut mungkin termasuk penataan data, augmentasi, dan pembuatan versi. Beberapa alur kerja mencakup siklus masukan di mana analisis mengungkapkan di mana data yang lebih banyak atau lebih baik diperlukan, atau di mana data yang tidak berguna dapat disaring.

Tren dalam data pelatihan

Karena data sama pentingnya dengan arsitektur model, banyak perhatian yang diberikan untuk mengoptimalkan proses pelatihan data. Data sintetis adalah salah satu inovasi. Alih-alih mengikis kumpulan data dunia nyata yang besar, organisasi sekarang menghasilkan data sintetis menggunakan AI itu sendiri.

Tren lainnya adalah kumpulan data yang lebih kecil dan berkualitas lebih tinggi. Model besar tidak hanya membutuhkan lebih banyak data, mereka membutuhkan data yang lebih baik. Ilmuwan data sedang membangun kumpulan data yang lebih kecil atau kumpulan data khusus tugas yang berguna untuk contoh penggunaan yang sempit. Misalnya, LLM yang digunakan di bidang layanan hukum dapat dilatih secara eksklusif pada korpus hukum untuk hasil yang lebih baik.

Pekerjaan prapemrosesan data yang dijelaskan dalam artikel ini dapat dilakukan secara otomatis dengan AI. Algoritma yang lebih baru membantu membersihkan kumpulan data yang sangat besar, menghapus teks berkualitas rendah, konten duplikat, dan materi boilerplate yang tidak relevan, sehingga menghemat waktu dan komputasi.

Ini hanyalah beberapa tren di bidang yang berkembang pesat.

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung