Apa itu klasifikasi teks?

Penyusun

Cole Stryker

Staff Editor, AI Models

IBM Think

Apa itu klasifikasi teks?

Klasifikasi teks adalah tugas machine learning yang melibatkan penetapan label yang telah ditentukan untuk data teks untuk mengategorikannya ke dalam berbagai kelompok secara otomatis. Ketika bisnis dan platform berurusan dengan volume teks tidak terstruktur yang terus berkembang, klasifikasi teks menyediakan cara yang efektif untuk mengatur, menafsirkan, dan menindaklanjuti data teks dalam skala besar.

Organisasi saat ini menghasilkan sejumlah besar data teks di seluruh situs web, aplikasi, dan jaringan lain dalam bentuk ulasan pelanggan, posting media sosial, dokumen hukum, email, dan banyak lagi. Terdapat insight yang terkubur dalam data ini yang dapat membantu organisasi membuat keputusan yang lebih baik. Klasifikasi teks adalah langkah pertama dari proses tersebut.

Tiket dukungan berlabel “mendesak” dapat dialihkan ke alur kerja yang diprioritaskan. Email berlabel "spam" dapat diarsipkan secara otomatis. Ulasan pelanggan berlabel "positif" dapat menginformasikan laporan sentimen pelanggan tentang produk baru. Data yang diklasifikasikan dapat dikumpulkan dan divisualisasikan untuk mengungkap tren dan pola yang akan tetap tersembunyi jika tidak diklasifikasikan.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Cara kerja klasifikasi teks

Klasifikasi teks adalah tugas mendasar dalam pemrosesan bahasa alami (NLP) yang digunakan dalam berbagai aplikasi. Pengklasifikasi teks adalah model machine learning yang memecahkan masalah klasifikasi yang berbeda, seperti mengklasifikasikan teks berdasarkan topik, sentimen, atau maksud. Begini cara kerjanya:

Klasifikasi teks yang diawasi

Model yang diawasi biasanya digunakan untuk melakukan klasifikasi teks. Langkah pertama adalah mengumpulkan sekumpulan data besar berisi sampel teks. Data ini bisa berupa email, posting media sosial, ulasan pelanggan, atau dokumen.

Anotator manusia menerapkan label pada setiap bagian teks. Misalnya, “spam” atau “bukan spam,” atau sentimen “positif” vs “negatif”. Kumpulan data pelatihan berlabel ini merupakan dasar untuk melatih model machine learning. Biasanya, semakin banyak data, semakin akurat output.

Prapemrosesan teks input mengubah teks menjadi format standar yang dapat dibaca mesin. Pengklasifikasi hanya dapat bekerja dengan teks yang telah diterjemahkan menjadi representasi numerik, sering kali menggunakan penanaman kata atau arsitektur encoder lebih canggih yang menangkap makna semantik bahasa.

Hiperparameter mengonfigurasi variabel seperti jumlah lapisan neural networks, jumlah neuron per lapisan, atau penggunaan aktivasi. Hiperparameter ini dipilih sebelum pelatihan dimulai.

Kemudian data dimasukkan ke dalam algoritma klasifikasi yang belajar untuk mengaitkan pola dalam data dengan label terkait mereka.

Algoritma klasifikasi teks meliputi:

Model terlatih diuji pada validasi terpisah atau kumpulan data uji untuk mengevaluasi kinerja model dengan metrik seperti akurasi, presisi, skor recall dan F1, dan dievaluasi terhadap tolok ukur yang ditetapkan.

Model klasifikasi teks yang berkinerja baik dapat diintegrasikan ke dalam sistem produksi di mana model ini mengklasifikasikan teks yang masuk secara real-time.

Model lanjutan dapat meningkat seiring waktu dengan memasukkan data baru dan pelatihan ulang. Model bahasa terlatih seperti BERT telah mempelajari pemahaman bahasa yang mendalam dan dapat disempurnakan pada tugas klasifikasi tertentu dengan data yang relatif sedikit. Penyempurnaan mengurangi waktu pelatihan dan meningkatkan kinerja, terutama untuk kategori yang kompleks atau mendalam.

Klasifikasi teks tanpa pengawasan

Meskipun metode yang diawasi jauh lebih umum, model dapat dilatih tanpa data berlabel menggunakan pembelajaran tanpa pengawasan. Alih-alih diberi tahu kategori yang benar untuk setiap teks, model ini mencoba menemukan sendiri struktur atau pola dalam data. Hal ini berbeda dengan klasifikasi teks yang diawasi, di mana setiap contoh pelatihan diberi label kategorisasi yang sudah ditentukan sebelumnya. Metode yang diawasi jauh lebih umum.

Misalnya, dengan teknik yang disebut pengelompokan, model mengelompokkan potongan teks serupa ke dalam klaster berdasarkan fitur bersama, yang kemudian dapat ditafsirkan sebagai kategori.

Akademi AI

Manfaatkan AI untuk layanan pelanggan

Lihat bagaimana AI generatif dapat menyenangkan pelanggan dengan pengalaman yang lebih mulus dan meningkatkan produktivitas organisasi di tiga area utama ini: layanan mandiri, agen manusia, dan operasi pusat kontak.

Contoh penggunaan klasifikasi teks

Berikut adalah beberapa tugas NLP umum yang melibatkan klasifikasi:

  • Deteksi spam
  • Analisis sentimen
  • Klasifikasi topik
  • Deteksi maksud
  • Deteksi toksisitas dan penyalahgunaan

Deteksi spam

Sistem deteksi spam menganalisis pesan masuk dan mengklasifikasikannya sebagai "spam" atau "bukan spam". Mereka menggunakan campuran aturan, pola statistik, dan teknik machine learning untuk mendeteksi email phishing, pesan pemasaran massal dari pengirim yang tidak dikenal, tautan mencurigakan, malware, dan banyak lagi.

Analisis sentimen

Analisis sentimen adalah proses menganalisis volume besar teks untuk menentukan sentimennya. Analisis sentimen membantu organisasi menentukan apakah orang memiliki asosiasi positif atau negatif pada titik kontak digital.

Algoritma machine learning dapat mengukur sentimen menggunakan kata-kata yang muncul dalam teks serta urutan kemunculannya. Para pengembang menggunakan algoritma analisis sentimen untuk mengajarkan perangkat lunak cara mengidentifikasi emosi dalam teks, mirip dengan yang dilakukan manusia.

Klasifikasi topik

Tujuan klasifikasi topik adalah untuk menetapkan kategori topik yang telah ditentukan pada sepotong teks. Ini biasanya digunakan dalam manajemen konten, agregasi, penelitian akademis, dan analisis masukan pelanggan untuk mengatur volume besar teks tidak terstruktur.

Deteksi maksud

Sementara klasifikasi topik memberi tahu Anda tentang isi pesan, deteksi maksud memberi tahu Anda apa yang ingin dilakukan pengguna. Deteksi maksud berguna untuk mengotomatiskan percakapan dan tugas pengarahan dalam layanan pelanggan atau e-commerce. Tanpa fungsi ini, sistem akan kesulitan untuk memberikan bantuan yang berarti.

Deteksi toksisitas dan penyalahgunaan

Deteksi toksisitas dan penyalahgunaan adalah tugas klasifikasi teks yang berfokus pada identifikasi dan penandaan konten online yang berbahaya, menyinggung, atau kasar. Ini mungkin termasuk bahasa yang penuh kebencian, mengancam, melecehkan, cabul, atau tidak pantas. Platform media sosial besar menggunakan algoritma klasifikasi untuk membantu staf pendukung mereka dalam mengelola basis pengguna global yang besar.

Kerangka kerja, alat, dan API

Ada banyak alat sumber terbuka yang tersedia untuk membangun pengklasifikasi teks. Kerangka kerja seperti TensorFlow dan PyTorch menawarkan komponen untuk membuat dan melatih model. Misalnya, pengklasifikasi berbasis Tensorflow mungkin menggunakan API Keras dengan modul seperti validation_data, pengoptimal, dan kesalahan untuk melatih model pada data berlabel. PyTorch, sebuah pustaka machine learning berbasis Python yang dikenal dengan fleksibilitasnya juga banyak digunakan dengan utilitas seperti DataLoader dan nn.Module.

Sementara pengklasifikasi tradisional menggunakan label tetap, kemunculan model bahasa besar (LLM) telah memperkenalkan pendekatan generatif untuk klasifikasi. Model dapat diperintahkan untuk menghasilkan label dan penjelasan dalam bahasa alami. Misalnya, seseorang dapat memerintahkan LLM dengan kalimat dan memintanya untuk mengklasifikasikan sentimen, menghasilkan pembenaran, atau menyarankan kategori serupa—semuanya tanpa pelatihan tambahan.

Dengan akselerasi GPU, waktu pelatihan berkurang secara drastis, terutama untuk kumpulan data besar atau arsitektur pembelajaran mendalam yang kompleks. Peneliti dan pengembang sering berbagi saluran dan model pelatihan mereka di GitHub.

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses ke berbagai kemampuan dalam satu alat untuk seluruh siklus pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung