Apa itu NLP (Natural Language Processing atau Pemrosesan Bahasa Alami)?

Penyusun

Staff Editor, AI Models

IBM Think

Staff Writer

IBM Think

Apa itu NLP?

Pemrosesan bahasa alami (NLP) adalah sub-bidang ilmu komputer dan kecerdasan buatan (AI) yang menggunakan machine learning untuk memungkinkan komputer memahami dan berkomunikasi dengan bahasa manusia.

NLP memungkinkan komputer dan perangkat digital untuk mengenali, memahami, dan menghasilkan teks dan ucapan dengan menggabungkan linguistik komputasi, pemodelan berbasis aturan bahasa manusia dengan pemodelan statistik, machine learning, dan pembelajaran mendalam.

Penelitian NLP telah membantu memungkinkan era AI generatif, mulai dari keterampilan komunikasi model bahasa besar (LLM) hingga kemampuan model pembuatan gambar untuk memahami permintaan. NLP sudah menjadi bagian dari kehidupan sehari-hari bagi banyak orang, memberdayakan mesin pencari, mendukung chatbot untuk layanan pelanggan dengan perintah lisan, sistem GPS yang dioperasikan dengan suara, dan asisten digital penjawab pertanyaan di smartphone seperti Amazon Alexa, Apple Siri, dan Cortana Microsoft.

NLP juga memainkan peran yang semakin penting dalam solusi perusahaan yang membantu mengefisienkan dan mengotomatiskan operasi bisnis, meningkatkan produktivitas karyawan, dan menyederhanakan proses bisnis.

Manfaat NLP

NLP memudahkan manusia untuk berkomunikasi dan berkolaborasi dengan mesin, dengan memungkinkan mereka melakukannya dalam bahasa alami manusia yang mereka gunakan setiap hari. Ini menawarkan manfaat di banyak industri dan aplikasi.

Otomatisasi tugas yang berulang
Analisis dan insight data yang ditingkatkan
Pencarian yang ditingkatkan
Pembuatan Konten

Otomatisasi tugas berulang

NLP sangat berguna dalam mengotomatiskan tugas seperti dukungan pelanggan, entri data, dan penanganan dokumen, secara sepenuhnya atau sebagian. Misalnya, chatbot bertenaga NLP dapat menangani pertanyaan pelanggan rutin, membebaskan agen manusia untuk masalah yang lebih kompleks. Dalam pemrosesan dokumen, alat NLP dapat secara otomatis mengklasifikasikan, mengekstrak informasi penting, dan meringkas konten, mengurangi waktu dan kesalahan yang terkait dengan penanganan data manual. NLP memfasilitasi terjemahan bahasa, mengubah teks dari satu bahasa ke bahasa lain sambil mempertahankan makna, konteks, dan nuansa.

Peningkatan analisis data

NLP meningkatkan analisis data dengan memungkinkan ekstraksi insight dari data teks tidak terstruktur, seperti ulasan pelanggan, posting media sosial, dan artikel berita. Dengan menggunakan teknik penambangan teks, NLP dapat mengidentifikasi pola, tren, dan sentimen yang tidak langsung terlihat jelas dalam kumpulan data besar. Analisis sentimen memungkinkan ekstraksi kualitas subjektif, seperti sikap, emosi, sarkasme, kebingungan, atau kecurigaan dari teks. Ini sering digunakan untuk mengarahkan komunikasi ke sistem atau orang yang kemungkinan besar akan membuat respons berikutnya.

Hal ini memungkinkan bisnis untuk lebih memahami preferensi pelanggan, kondisi pasar, dan opini publik. Alat NLP juga dapat melakukan kategorisasi dan meringkas teks dalam jumlah besar, sehingga memudahkan analis untuk mengidentifikasi informasi penting dan membuat keputusan berbasis data dengan lebih efisien.

Pencarian yang ditingkatkan

NLP memberikan manfaat pencarian dengan memungkinkan sistem memahami maksud di balik pertanyaan pengguna, memberikan hasil yang lebih akurat dan relevan secara kontekstual. Alih-alih hanya mengandalkan pencocokan kata kunci, mesin pencari bertenaga NLP menganalisis makna kata dan frasa, sehingga lebih mudah untuk menemukan informasi meskipun kueri tidak jelas atau kompleks. Ini meningkatkan pengalaman pengguna, baik dalam penelusuran web, pencarian dokumen, atau sistem data perusahaan.

Pembuatan konten yang efektif

NLP mendukung model bahasa canggih untuk membuat teks seperti manusia untuk berbagai keperluan. Model yang telah dilatih sebelumnya, seperti GPT-4, dapat menghasilkan artikel, laporan, salinan pemasaran, deskripsi produk, dan bahkan tulisan kreatif berdasarkan prompt yang diberikan oleh pengguna. Alat-alat yang didukung NLP juga dapat membantu mengotomatiskan tugas-tugas seperti menyusun email, menulis postingan media sosial, atau dokumentasi hukum. Dengan memahami konteks, nada, dan gaya, NLP memastikan bahwa konten yang dihasilkan koheren, relevan, dan selaras dengan pesan yang dimaksudkan, menghemat waktu dan tenaga dalam pembuatan konten dengan tetap menjaga kualitas.

Pendekatan untuk NLP

NLP menggabungkan kekuatan linguistik komputasi bersama dengan algoritma machine learning dan pembelajaran mendalam. Linguistik komputasi menggunakan ilmu data untuk menganalisis bahasa dan ucapan. Ini mencakup dua jenis analisis utama: analisis sintaksis dan analisis semantik. Analisis sintaksis menentukan arti kata, frasa, atau kalimat dengan menguraikan sintaksis kata-kata dan menerapkan aturan tata bahasa yang telah diprogram sebelumnya. Analisis semantik menggunakan hasil sintaksis untuk menarik makna dari kata-kata dan menafsirkan maknanya dalam struktur kalimat.

Penguraian kata dapat mengambil salah satu dari dua bentuk. Penguraian dependensi melihat hubungan di antara kata, seperti mengidentifikasi kata benda dan kata kerja, sementara proses penguraian konstituen kemudian membangun pohon urai (atau pohon sintaks): gambaran mengakar dan berurutan dari struktur sintaksis kalimat atau rangkaian kata. Pohon urai yang dihasilkan mendasari fungsi language translator dan pengenalan ucapan. Idealnya, analisis ini membuat output, baik teks atau ucapan, dapat dimengerti oleh model NLP dan manusia.

Pembelajaran yang diawasi sendiri (SSL) khususnya berguna untuk mendukung NLP karena NLP membutuhkan sejumlah besar data berlabel untuk melatih model AI. Karena kumpulan data berlabel ini membutuhkan anotasi yang memakan waktu, sebuah proses yang melibatkan pelabelan manual oleh manusia, mengumpulkan data yang memadai bisa jadi sangat sulit. Pendekatan diawasi sendiri dapat lebih menghemat waktu dan biaya, karena pendekatan ini menggantikan beberapa atau semua data pelatihan yang diberi label secara manual.

Tiga pendekatan berbeda pada NLP meliputi:

NLP berbasis aturan

Aplikasi NLP paling awal adalah decision trees if-then sederhana, yang membutuhkan aturan yang telah diprogram sebelumnya. Mereka hanya dapat memberikan jawaban sebagai tanggapan atas permintaan tertentu, seperti versi asli Moviefone, yang memiliki kemampuan pembuatan bahasa alami (NLG) yang belum sempurna. Karena tidak ada machine learning atau kemampuan AI dalam NLP berbasis aturan, fungsi ini sangat terbatas dan tidak dapat diskalakan.

NLP statistik

Dikembangkan kemudian, NLP statistik secara otomatis mengekstrak, mengklasifikasikan, dan memberi label elemen data teks dan suara, dan selanjutnya menetapkan kemungkinan statistik untuk setiap kemungkinan makna dari elemen tersebut. Hal ini bergantung pada machine learning, yang memungkinkan perincian linguistik yang canggih seperti pemberian tag pada bagian dari ucapan.

NLP Statistik memperkenalkan teknik penting untuk memetakan elemen bahasa, seperti kata dan aturan tata bahasa, pada representasi vektor sehingga bahasa tersebut dapat dimodelkan dengan menggunakan metode matematika (statistik), termasuk regresi atau model Markov. Hal ini memandu perkembangan awal NLP seperti pemeriksa ejaan dan teks T9 (Teks pada 9 tombol, untuk digunakan pada telepon Touch-Tone).

NLP pembelajaran mendalam

Baru-baru ini, model pembelajaran mendalam telah menjadi mode dominan dari NLP, dengan menggunakan volume besar data mentah tidak terstruktur, baik teks maupun suara, untuk menjadi lebih akurat. Pembelajaran mendalam dapat dilihat sebagai perkembangan lebih lanjut dari NLP statistik. Bedanya, pembelajaran ini menggunakan model neural networks . Ada beberapa subkategori model:

Model Urutan-ke-Urutan (seq2seq): Berdasarkan neural networks berulang (RNN), model ini sebagian besar telah digunakan untuk penerjemahan mesin dengan mengubah kalimat dari satu bahasa (seperti Jerman) ke kalimat dalam bahasa lain (seperti Inggris).

Model transformator: Model ini menggunakan tokenisasi bahasa (posisi setiap token, kata atau subkata) dan mekanisme perhatian internal (menangkap dependensi dan hubungan) untuk menghitung hubungan antara bagian bahasa yang berbeda satu sama lain. Model transformator dapat dilatih secara efisien dengan menggunakan pembelajaran yang diawasi sendiri pada basis data teks yang sangat besar. Sebuah pencapaian dalam model transformer adalah representasi encoder dua arah dari transformer (BERT) milik Google, yang telah menjadi dan tetap menjadi dasar cara kerja mesin pencari Google.

Model autoregresif: Jenis model transformator ini dilatih secara khusus untuk memprediksi kata berikutnya secara berurutan, yang merupakan langkah besar ke depan dalam kemampuan untuk menghasilkan teks. Contoh LLM autoregresif termasuk GPT, Llama, Claude dan Mistral sumber terbuka.

Model dasar: Model dasar yang dibuat dan dikurasi sebelumnya dapat mempercepat peluncuran upaya NLP dan meningkatkan kepercayaan dalam pengoperasiannya. Misalnya, model dasar IBM® Granite™ dapat diterapkan secara luas di berbagai industri. Model ini mendukung tugas NLP termasuk pembuatan konten dan ekstraksi insight. Selain itu, mode ini juga memfasilitasi generasi dengan dukungan pengambilan data, kerangka kerja untuk meningkatkan kualitas respons dengan menghubungkan model ke sumber pengetahuan eksternal. Model juga melakukan named entity recognition (pengenalan entitas bernama) yang melibatkan identifikasi dan penggalian informasi kunci dalam teks.

Tugas NLP

Beberapa tugas NLP biasanya membantu memproses data teks dan suara manusia dengan cara yang membantu komputer memahami hal yang dicernanya. Beberapa tugas ini meliputi:

Resolusi koreferensi
Pengenalan entitas bernama
Penandaan bagian ucapan
Disambiguasi pengertian kata

Resolusi koreferensi

Ini adalah tugas untuk mengidentifikasi apakah dan ketika dua kata merujuk pada entitas yang sama. Contoh paling umum adalah menentukan orang atau objek yang dimaksud oleh kata ganti tertentu (misalnya, “she” = “Mary”). Namun, itu juga dapat mengidentifikasi metafora atau idiom dalam teks (misalnya di mana “bear” bukan hewan, tetapi seorang orang yang besar dan berambut tebal).

Named Entity Recognition (NER)

NER mengidentifikasi kata atau frasa sebagai entitas yang berguna. NER mengidentifikasi “London” sebagai lokasi atau “Maria” sebagai nama orang.

Penandaan bagian ucapan

Juga disebut pemberian tag tata bahasa, ini adalah proses menentukan bagian dari ucapan mana sebuah kata atau sepotong teks tertentu, berdasarkan penggunaan dan konteksnya. Misalnya, bagian dari ucapan mengidentifikasi “make” sebagai kata kerja dalam “I can make a paper plane”, dan sebagai kata benda dalam “What make of car do you own?

Disambiguasi makna kata

Ini adalah pemilihan makna kata untuk kata dengan beberapa kemungkinan makna. Fungsi ini menggunakan proses analisis semantik untuk memeriksa kata dalam konteks. Misalnya, disambiguasi makna kata membantu membedakan arti kata kerja bahasa Inggris "make" dalam "make the grade" (mencapai) versus "make a bet" (menempatkan). Memilah kata dalam “I will be merry when I marry Mary” membutuhkan sistem NLP yang canggih.

Cara kerja NLP

NLP bekerja dengan menggabungkan berbagai teknik komputasi untuk menganalisis, memahami, dan menghasilkan bahasa manusia dengan cara yang dapat diproses oleh mesin. Berikut adalah ikhtisar pipa NLP khas dan langkah-langkahnya:

Prapemrosesan teks

Prapemrosesan teks NLP menyiapkan teks mentah untuk dianalisis dengan mengubahnya menjadi format yang lebih mudah dipahami oleh mesin. Ini dimulai dengan tokenisasi, yang melibatkan pemisahan teks menjadi unit yang lebih kecil seperti kata, kalimat, atau frasa. Ini membantu memecah teks kompleks menjadi bagian-bagian yang dapat dikelola. Selanjutnya, huruf kecil diterapkan untuk menstandarkan teks dengan mengubah semua karakter menjadi huruf kecil, memastikan bahwa kata-kata seperti “Apple” dan “apple” diperlakukan sama. Penghapusan kata adalah langkah umum lainnya, di mana kata-kata yang sering digunakan seperti “is“ atau “the” dihapus karena tidak menambah makna yang signifikan pada teks. Stemming atau lemmatization mengurangi kata-kata ke bentuk akarnya (misalnya, “running” menjadi “run”), sehingga lebih mudah untuk menganalisis bahasa dengan mengelompokkan berbagai bentuk kata yang sama. Selain itu, pembersihan teks menghilangkan elemen yang tidak diinginkan seperti tanda baca, karakter khusus, dan angka yang dapat mengacaukan analisis.

Setelah pra-pemrosesan, teks menjadi bersih, terstandarisasi dan siap untuk model machine learning untuk ditafsirkan secara efektif.

Ekstraksi fitur

Ekstraksi fitur adalah proses mengubah teks mentah menjadi representasi numerik yang dapat dianalisis dan ditafsirkan oleh mesin. Ini melibatkan mengubah teks menjadi data terstruktur dengan menggunakan teknik NLP seperti Bag of Words dan TF-IDF, yang mengukur keberadaan dan pentingnya kata-kata dalam dokumen. Metode yang lebih maju termasuk penyematan kata seperti Word2Vec atau GLove, yang mewakili kata-kata sebagai vektor padat dalam ruang berlanjut, menangkap hubungan semantik antara kata-kata. Penyematan kontekstual semakin memperkuat hal ini dengan mempertimbangkan konteks kemunculan kata, sehingga menghasilkan representasi yang lebih kaya dan mendalam.

Analisis teks

Analisis teks melibatkan penafsiran dan ekstraksi informasi yang bermakna dari data teks melalui berbagai teknik komputasi. Proses ini mencakup tugas-tugas seperti pemberian tag bagian dari ucapan (POS - part-of-speech), yang mengidentifikasi peran tata bahasa kata-kata dan named entity recognition (NER), yang mendeteksi entitas tertentu seperti nama, lokasi, dan tanggal. Penguraian ketergantungan menganalisis hubungan tata bahasa antara kata-kata untuk memahami struktur kalimat, sementara analisis sentimen menentukan nada emosional teks, menilai apakah teks tersebut positif, negatif, atau netral. Pemodelan topik mengidentifikasi tema atau topik yang mendasari dalam teks atau di seluruh korpus dokumen. Natural language understanding (NLU) adalah bagian dari NLP yang berfokus pada analisis makna di balik kalimat. NLU memungkinkan perangkat lunak untuk menemukan arti yang serupa dalam kalimat yang berbeda atau untuk memproses kata-kata yang memiliki arti yang berbeda. Melalui teknik ini, analisis teks NLP mengubah teks yang tidak terstruktur menjadi insight.

Pelatihan model

Data yang telah diproses kemudian digunakan untuk melatih model machine learning, yang mempelajari pola dan hubungan dalam data. Selama pelatihan, model menyesuaikan parameternya untuk meminimalkan kesalahan dan meningkatkan kinerjanya. Setelah dilatih, model dapat digunakan untuk membuat prediksi atau memberikan hasil dari data baru yang tidak terlihat. Efektivitas pemodelan NLP terus disempurnakan melalui evaluasi, validasi, dan penyempurnaan untuk meningkatkan akurasi dan relevansi dalam aplikasi dunia nyata.

Lingkungan perangkat lunak yang berbeda berguna di seluruh proses tersebut. Sebagai contoh, Natural Language Toolkit (NLTK) adalah rangkaian pustaka dan program untuk bahasa Inggris yang ditulis dalam bahasa pemrograman Python. Ini mendukung fungsi klasifikasi teks, tokenisasi, stemming, penandaan, parsing dan penalaran semantik. TensorFlow adalah pustaka perangkat lunak sumber terbuka dan gratis untuk machine learning dan AI yang dapat digunakan untuk melatih model untuk aplikasi NLP. Tutorial dan sertifikasi mudah dicapai bagi mereka yang berminat untuk mempelajari alat-alat tersebut.

Tantangan NLP

Bahkan model NLP canggih pun tidak sempurna, sama seperti ucapan manusia yang rentan terhadap kesalahan. Seperti halnya teknologi AI lainnya, NLP hadir dengan potensi kekurangan. Bahasa manusia dipenuhi dengan ambiguitas yang menyulitkan programer untuk menulis perangkat lunak yang dapat menentukan secara akurat makna yang dimaksudkan dari data teks atau suara. Manusia mungkin membutuhkan waktu bertahun-tahun untuk mempelajari bahasa manusia dan banyak yang tidak pernah berhenti belajar. Namun, programer harus mengajarkan aplikasi berbasis bahasa alami untuk mengenali dan memahami ketidakteraturan sehingga aplikasi mereka akurat dan berguna. Risiko terkait mungkin termasuk:

Pelatihan yang bias

Seperti halnya fungsi AI lainnya, data bias yang digunakan dalam pelatihan akan membuat jawaban menjadi tidak akurat. Makin beragam pengguna fungsi NLP, makin signifikan risiko ini, seperti dalam interaksi layanan pemerintah, layanan kesehatan, dan SDM. Kumpulan data pelatihan yang diambil dari web, misalnya, rentan terhadap bias.

Salah tafsir

Seperti dalam pemrograman, ada risiko sampah masuk, sampah keluar (GIGO). Pengenalan ucapan yang dikenal juga sebagai speech to text, adalah tugas untuk mengubah data suara menjadi data teks dengan andal. Namun demikian, solusi NLP dapat membingungkan jika input diucapkan dalam dialek yang tidak jelas, bergumam, mengandung banyak kata-kata slang, homonim, tata bahasa yang keliru, idiom, fragmen, salah pengucapan, pemotongan kata atau frasa, atau direkam dengan terlalu banyak kebisingan di latar belakang.

Kosakata baru

Kata-kata baru terus diciptakan atau diserap. Konvensi tata bahasa dapat berkembang atau sengaja dipatahkan. Dalam kasus ini, NLP dapat membuat tebakan terbaik atau mengakui bahwa NLP tidak yakin, dan dalam kedua kondisi akan menciptakan komplikasi.

Intonasi suara

Ketika orang berbicara, penyampaian verbal atau bahkan bahasa tubuh mereka dapat memberikan makna yang sama sekali berbeda dari kata-kata saja. Membesar-besarkan untuk efek, menekankan kata-kata yang penting atau untuk tujuan sarkasme dapat menimbulkan kebingungan bagi NLP, yang menjadikan analisis semantik menjadi lebih sulit dan kurang dapat diandalkan.

Contoh penggunaan NLP menurut industri

Aplikasi NLP sekarang dapat ditemukan di hampir semua industri.

Keuangan

Dalam transaksi keuangan, waktu nanodetik dapat membuat perbedaan antara keberhasilan dan kegagalan saat mengakses data, atau melakukan perdagangan atau transaksi. NLP dapat mempercepat penambangan informasi dari laporan keuangan, laporan tahunan dan laporan peraturan, perilisan berita, atau bahkan media sosial.

Layanan Kesehatan

Insight dan terobosan medis baru dapat tiba lebih cepat daripada yang dapat diimbangi oleh banyak tenaga profesional layanan kesehatan. Alat berbasis NLP dan AI dapat membantu mempercepat analisis catatan kesehatan dan makalah penelitian medis, membuat keputusan medis yang lebih baik, atau membantu mendeteksi atau bahkan mencegah kondisi medis.

Asuransi

NLP dapat menganalisis klaim untuk mencari pola yang dapat mengidentifikasi area yang menjadi perhatian dan menemukan inefisiensi dalam pemrosesan klaim, yang mengarah pada optimasi pemrosesan dan upaya karyawan yang lebih besar.

Hukum

Hampir semua kasus hukum mungkin memerlukan peninjauan terhadap tumpukan dokumen, informasi latar belakang, dan preseden hukum. NLP dapat membantu mengotomatiskan penemuan hukum, membantu dalam mengelola informasi, mempercepat tinjauan, dan memastikan bahwa semua detail yang relevan dicatat untuk dipertimbangkan.

Melampaui hype—Bagaimana asisten AI mendorong nilai bisnis nyata

Jelajahi contoh penggunaan teratas untuk menggunakan asisten AI, pahami dampak potensial dari gen AI dan teknologi otomatisasi pada bisnis Anda, dan pelajari cara memulai.

Apa itu NLP (pemrosesan bahasa alami)?