Apa itu Penambangan Teks?

Apa itu penambangan teks?

Penambangan teks, juga dikenal sebagai penambangan data teks, adalah proses transformasi teks tidak terstruktur menjadi format terstruktur untuk mengidentifikasi pola yang bermakna dan insight baru. Anda dapat menggunakan penambangan teks untuk menganalisis koleksi materi tekstual yang sangat besar untuk menangkap konsep utama, tren, dan hubungan tersembunyi.

Dengan menerapkan teknik analisis canggih, seperti Naïve Bayes, Support Vector Machines (SVM), dan algoritma pembelajaran mendalam lainnya, perusahaan dapat menjelajahi dan menemukan hubungan tersembunyi dalam data tidak terstruktur mereka.

Teks adalah salah satu tipe data yang paling umum dalam database. Tergantung pada database, data ini dapat diatur sebagai:

Data terstruktur: Data ini distandarisasi ke dalam format tabel dengan banyak baris dan kolom, sehingga lebih mudah disimpan dan diproses untuk analisis dan algoritma machine learning. Data terstruktur dapat mencakup input seperti nama, alamat, dan nomor telepon.
Data tidak terstruktur: Data ini tidak memiliki format data yang ditentukan sebelumnya. Dapat mencakup teks dari berbagai sumber, seperti media sosial atau ulasan produk, atau format media kaya seperti file video dan audio.
Data semi-terstruktur: Seperti namanya, data ini merupakan perpaduan antara format data terstruktur dan tidak terstruktur. Meskipun memiliki beberapa organisasi, data ini tidak memiliki struktur yang cukup untuk memenuhi persyaratan database relasional. Contoh data semi-terstruktur termasuk file XML, JSON dan HTML.

Karena begitu banyak data di dunia ini berada dalam format yang tidak terstruktur, penambangan teks adalah praktik yang sangat berharga dalam organisasi. Alat penambangan teks dan teknik pemrosesan bahasa alami (NLP), seperti ekstraksi informasi, memungkinkan kami mengubah dokumen tidak terstruktur menjadi format terstruktur untuk memungkinkan analisis dan pembuatan insight berkualitas tinggi. Hal ini, pada akhirnya, meningkatkan pengambilan keputusan organisasi yang mengarah pada hasil bisnis yang lebih baik.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Penambangan teks vs. analisis teks

Istilah-istilah tersebut, penambangan teks dan analisis teks, sebagian besar memiliki arti yang sama dalam percakapan, tetapi dapat memiliki arti yang lebih khusus. Penambangan teks dan analisis teks mengidentifikasi pola tekstual dan tren dalam data yang tidak terstruktur melalui penggunaan machine learning, statistik, dan linguistik. Dengan mengubah data menjadi format yang lebih terstruktur melalui penambangan teks dan analisis teks, lebih banyak insight kuantitatif dapat ditemukan melalui analisis teks. Teknik visualisasi data kemudian dapat dimanfaatkan untuk mengomunikasikan temuan kepada audiens yang lebih luas.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Teknik penambangan teks

Proses penambangan teks terdiri dari beberapa aktivitas yang memungkinkan Anda menyimpulkan informasi dari data teks yang tidak terstruktur. Sebelum Anda dapat menerapkan berbagai teknik penambangan teks, Anda harus memulai dengan pra-pemrosesan teks, yang merupakan praktik membersihkan dan mengubah data teks ke dalam format yang dapat digunakan. Praktik ini merupakan aspek inti dari pemrosesan bahasa alami (NLP) dan biasanya melibatkan penggunaan teknik seperti identifikasi bahasa, tokenisasi, pemberian tag part-of-speech, chunking, dan penguraian sintaksis untuk memformat data secara tepat untuk analisis. Ketika pra-pemrosesan teks selesai, Anda dapat menerapkan algoritma penambangan teks untuk mendapatkan insight dari data. Beberapa teknik penambangan teks umum ini meliputi:

Pencarian informasi

Pengambilan informasi (IR) mengembalikan informasi atau dokumen yang relevan berdasarkan serangkaian pertanyaan atau frasa yang telah ditentukan sebelumnya. Sistem IR menggunakan algoritma untuk melacak perilaku pengguna dan mengidentifikasi data yang relevan. Pengambilan informasi umumnya digunakan dalam sistem katalog perpustakaan dan mesin pencari populer, seperti Google. Beberapa sub-tugas IR umum meliputi:

Tokenisasi: Ini adalah proses memecah teks bentuk panjang menjadi kalimat dan kata-kata yang disebut “token”. Ini, kemudian, digunakan dalam model, seperti Bag of words, untuk tugas pengelompokan teks dan pencocokan dokumen.
Stemming: Ini mengacu pada proses memisahkan awalan dan akhiran dari kata-kata untuk mendapatkan bentuk dan makna kata dasar. Teknik ini meningkatkan pengambilan informasi dengan mengurangi ukuran file pengindeksan.

Pemrosesan bahasa alami (NLP)

Pemrosesan bahasa alami, yang berevolusi dari linguistik komputasional, menggunakan metode dari berbagai disiplin ilmu, seperti ilmu komputer, kecerdasan buatan, linguistik, dan ilmu data, untuk memungkinkan komputer memahami bahasa manusia baik dalam bentuk tertulis maupun lisan. Dengan menganalisis struktur kalimat dan tata bahasa, sub-tugas NLP memungkinkan komputer untuk “membaca”. Sub-tugas umum meliputi:

Peringkasan: Teknik ini memberikan sinopsis dari teks yang panjang untuk membuat ringkasan yang ringkas dan koheren dari poin-poin utama dokumen.
Pemberian tag Part-of-Speech (PoS): Teknik ini memberikan tag ke setiap token dalam dokumen berdasarkan bagian dari ucapannya. Yaitu, menunjukkan kata benda, kata kerja, kata sifat, dan sebagainya. Langkah ini memungkinkan analisis semantik pada teks yang tidak terstruktur.
Kategorisasi teks: Tugas ini, yang juga dikenal sebagai klasifikasi teks, bertanggung jawab untuk menganalisis dokumen teks dan mengklasifikasikannya berdasarkan topik atau categories yang telah ditentukan. Sub-tugas ini sangat membantu dalam mengkategorikan sinonim dan singkatan.
Analisis sentimen: Tugas ini mendeteksi sentimen positif atau negatif dari sumber data internal atau eksternal, sehingga Anda dapat melacak perubahan sikap pelanggan dari waktu ke waktu. Ini biasanya digunakan untuk memberikan informasi tentang persepsi merek, produk, dan layanan. Insight ini dapat mendorong bisnis untuk terhubung dengan pelanggan dan meningkatkan proses dan pengalaman.

Ekstraksi informasi

Ekstraksi informasi (IE) menampilkan potongan data yang relevan saat mencari berbagai dokumen. Hal ini juga berfokus pada ekstraksi informasi terstruktur dari teks bebas dan menyimpan entitas, atribut, dan informasi hubungan dalam sebuah database. Sub-tugas ekstraksi informasi umum meliputi:

Pemilihan fitur, atau pemilihan atribut, adalah proses pemilihan fitur (dimensi) penting untuk berkontribusi paling besar pada hasil model analitik prediktif.
Ekstraksi fitur adalah proses memilih subset fitur untuk meningkatkan akurasi tugas klasifikasi. Hal ini khususnya penting untuk pengurangan dimensi.
Named Entity Recognition (NER) juga dikenal sebagai identifikasi entitas atau ekstraksi entitas, bertujuan untuk menemukan dan mengkategorikan entitas tertentu dalam teks, seperti nama atau lokasi. Misalnya, NER mengidentifikasi “California” sebagai lokasi dan “Mary” sebagai nama wanita.

Penambangan data

Penambangan data adalah proses mengidentifikasi pola dan mengekstraksi insight dari kumpulan big data. Praktik ini mengevaluasi data terstruktur dan tidak terstruktur untuk mengidentifikasi informasi baru, dan biasanya digunakan untuk menganalisis perilaku konsumen dalam pemasaran dan penjualan. Penambangan teks pada dasarnya adalah sub-bidang penambangan data karena berfokus pada pemberian struktur ke data tidak terstruktur dan menganalisisnya untuk menghasilkan insight baru. Teknik-teknik yang disebutkan di atas adalah bentuk penambangan data tetapi termasuk dalam lingkup analisis data tekstual.

Aplikasi penambangan teks

Perangkat lunak analisis teks telah memengaruhi cara banyak industri bekerja, memungkinkan mereka untuk meningkatkan pengalaman pengguna produk serta membuat keputusan bisnis yang lebih cepat dan lebih baik. Beberapa contoh penggunaannya meliputi:

Layanan pelanggan: Ada berbagai cara di mana kami meminta masukan pelanggan dari pengguna kami. Ketika dikombinasikan dengan alat analisis teks, sistem masukan, seperti chatbot, survei pelanggan, NPS (net-promoter scores), ulasan online, tiket dukungan, dan profil media sosial, memungkinkan perusahaan untuk meningkatkan pengalaman pelanggan mereka dengan cepat. Penambangan teks dan analisis sentimen dapat menyediakan mekanisme bagi perusahaan untuk memprioritaskan masalah utama bagi pelanggan mereka, memungkinkan bisnis untuk menanggapi masalah mendesak secara real-time dan meningkatkan kepuasan pelanggan. Pelajari bagaimana Verizon menggunakan analisis teks dalam layanan pelanggan.

Manajemen risiko: Penambangan teks juga memiliki aplikasi dalam manajemen risiko, di mana itu dapat memberikan insight seputar tren industri dan pasar keuangan dengan memantau pergeseran sentimen dan dengan mengekstraksi informasi dari laporan analis dan laporan resmi. Hal ini sangat berharga bagi institusi perbankan karena data ini memberikan kepercayaan diri yang lebih besar ketika mempertimbangkan investasi bisnis di berbagai sektor. Pelajari bagaimana CIBC dan EquBot menggunakan analisis teks untuk mitigasi risiko.

Pemeliharaan: Penambangan teks memberikan gambaran yang kaya dan lengkap tentang operasi dan fungsionalitas produk dan mesin. Seiring berjalannya waktu, penambangan teks mengotomatiskan pengambilan keputusan dengan mengungkap pola yang berkorelasi dengan masalah dan prosedur pemeliharaan preventif dan reaktif. Analisis teks membantu profesional pemeliharaan mengungkap akar masalah dari tantangan dan kegagalan dengan lebih cepat.

Layanan kesehatan: Teknik penambangan teks semakin berharga bagi para peneliti di bidang biomedis, terutama untuk pengelompokan informasi. Investigasi manual penelitian medis bisa mahal dan memakan waktu; penambangan teks menyediakan metode otomatisasi untuk mengekstraksi informasi berharga dari literatur medis.

Pemfilteran spam: Spam sering kali berfungsi sebagai titik masuk bagi peretas untuk menginfeksi sistem komputer dengan malware. Penambangan teks dapat menyediakan metode untuk memfilter dan mengecualikan email ini dari kotak masuk, meningkatkan pengalaman pengguna secara keseluruhan, dan meminimalkan risiko serangan siber untuk pengguna akhir.

Melampaui hype—Bagaimana asisten AI mendorong nilai bisnis nyata

Jelajahi contoh penggunaan teratas untuk menggunakan asisten AI, pahami dampak potensial dari gen AI dan teknologi otomatisasi pada bisnis Anda, dan pelajari cara memulai.

Apa itu penambangan teks?