Apa itu NLP (natural language processing atau pemrosesan bahasa alami)? 

Pria sedang bekerja pada komputer desktop di kantor coworking

Penyusun

Cole Stryker

Staff Editor, AI Models

IBM Think

Jim Holdsworth

Staff Writer

IBM Think

Apa itu NLP?

Pemrosesan bahasa alami (NLP) adalah sub-bidang ilmu komputer dan kecerdasan buatan (AI) yang menggunakan machine learning untuk memungkinkan komputer memahami dan berkomunikasi dengan bahasa manusia.

NLP memungkinkan komputer dan perangkat digital untuk mengenali, memahami, dan menghasilkan teks dan ucapan dengan menggabungkan linguistik komputasi, pemodelan berbasis aturan bahasa manusia, bersama dengan pemodelan statistik, machine learning dan pembelajaran mendalam.

Penelitian NLP telah membantu memungkinkan era AI generatif, mulai dari keterampilan komunikasi model bahasa besar (LLM) hingga kemampuan model pembuatan gambar untuk memahami permintaan. NLP sudah menjadi bagian dari kehidupan sehari-hari bagi banyak orang, memberdayakan mesin pencari, mendukung chatbot untuk layanan pelanggan dengan perintah lisan, sistem GPS yang dioperasikan dengan suara, dan asisten digital penjawab pertanyaan di smartphone seperti Amazon Alexa, Apple Siri, dan Cortana Microsoft.

NLP juga memainkan peran yang semakin penting dalam solusi perusahaan yang membantu mengefisienkan dan mengotomatiskan operasi bisnis, meningkatkan produktivitas karyawan, dan menyederhanakan proses bisnis.

Manfaat NLP

NLP memudahkan manusia untuk berkomunikasi dan berkolaborasi dengan mesin, dengan memungkinkan mereka melakukannya dalam bahasa alami manusia yang mereka gunakan setiap hari. Ini menawarkan manfaat di banyak industri dan aplikasi.

  • Otomatisasi tugas yang berulang
  • Analisis dan insight data yang ditingkatkan
  • Pencarian yang ditingkatkan
  • Pembuatan Konten

Automasi tugas-tugas yang berulang 

NLP sangat berguna dalam mengotomatiskan tugas seperti dukungan pelanggan, entri data, dan penanganan dokumen, secara sepenuhnya atau sebagian. Misalnya, chatbot bertenaga NLP dapat menangani pertanyaan pelanggan rutin, membebaskan agen manusia untuk masalah yang lebih kompleks. Dalam pemrosesan dokumen, alat NLP dapat secara otomatis mengklasifikasikan, mengekstrak informasi penting, dan meringkas konten, mengurangi waktu dan kesalahan yang terkait dengan penanganan data manual. NLP memfasilitasi terjemahan bahasa, mengubah teks dari satu bahasa ke bahasa lain sambil mempertahankan makna, konteks, dan nuansa.

Analisis data yang ditingkatkan

NLP meningkatkan analisis data dengan memungkinkan ekstraksi insight dari data teks tidak terstruktur, seperti ulasan pelanggan, postingan media sosial, dan artikel berita. Dengan menggunakan teknik penambangan teks, NLP dapat mengidentifikasi pola, tren, dan sentimen yang tidak langsung terlihat dalam kumpulan data besar. Analisis sentimen memungkinkan ekstraksi kualitas subjektif, seperti sikap, emosi, sarkasme, kebingungan, atau kecurigaan, dari teks. Ini sering digunakan untuk mengarahkan komunikasi ke sistem atau orang yang paling mungkin membuat respons berikutnya.

Hal ini memungkinkan bisnis untuk lebih memahami preferensi pelanggan, kondisi pasar, dan opini publik. Alat NLP juga dapat melakukan kategorisasi dan meringkas teks dalam jumlah besar, sehingga memudahkan analis untuk mengidentifikasi informasi penting dan membuat keputusan berbasis data dengan lebih efisien.

Pencarian yang ditingkatkan

NLP memberikan manfaat pencarian dengan memungkinkan sistem memahami maksud di balik pertanyaan pengguna, memberikan hasil yang lebih akurat dan relevan secara kontekstual. Alih-alih hanya mengandalkan pencocokan kata kunci, mesin pencari bertenaga NLP menganalisis makna kata dan frasa, sehingga lebih mudah untuk menemukan informasi meskipun kueri tidak jelas atau kompleks. Ini meningkatkan pengalaman pengguna, baik dalam penelusuran web, pencarian dokumen, atau sistem data perusahaan.

Pembuatan konten yang kuat

NLP mendukung model bahasa canggih untuk membuat teks seperti manusia untuk berbagai keperluan. Model yang telah dilatih sebelumnya, seperti GPT-4, dapat menghasilkan artikel, laporan, salinan pemasaran, deskripsi produk, dan bahkan tulisan kreatif berdasarkan prompt yang diberikan oleh pengguna. Alat-alat yang didukung NLP juga dapat membantu mengotomatiskan tugas-tugas seperti menyusun email, menulis postingan media sosial, atau dokumentasi hukum. Dengan memahami konteks, nada, dan gaya, NLP memastikan bahwa konten yang dihasilkan koheren, relevan, dan selaras dengan pesan yang dimaksudkan, menghemat waktu dan tenaga dalam pembuatan konten dengan tetap menjaga kualitas.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Pendekatan untuk NLP

NLP menggabungkan kekuatan linguistik komputasi bersama dengan algoritma machine learning dan pembelajaran mendalam. Linguistik komputasi menggunakan ilmu data untuk menganalisis bahasa dan ucapan. Ini mencakup dua jenis analisis utama: analisis sintaksis dan analisis semantik. Analisis sintaksis menentukan arti kata, frasa, atau kalimat dengan menguraikan sintaksis kata-kata dan menerapkan aturan tata bahasa yang telah diprogram sebelumnya. Analisis semantik menggunakan hasil sintaksis untuk menarik makna dari kata-kata dan menafsirkan maknanya dalam struktur kalimat.

Penguraian kata dapat mengambil salah satu dari dua bentuk. Penguraian dependensi melihat hubungan antara kata, seperti mengidentifikasi kata benda dan kata kerja, sambil penguraian konstituensi kemudian membangun pohon parse (atau pohon sintaksis): perwakilan akar dan berurutan dari struktur sintaksis kalimat atau rangkaian kata. Pohon parse yang dihasilkan mendasari fungsi language translator dan pengenalan ucapan. Idealnya, analisis ini membuat hasil, baik teks atau ucapan, dapat dimengerti oleh model NLP dan orang.

Pembelajaran yang diawasi sendiri (SSL) khususnya berguna untuk mendukung NLP karena NLP membutuhkan sejumlah besar data berlabel untuk melatih model AI. Karena kumpulan data berlabel ini membutuhkan anotasi yang memakan waktu, sebuah proses yang melibatkan pelabelan manual oleh manusia, mengumpulkan data dalam jumlah yang cukup bisa jadi sangat sulit. Pendekatan yang diawasi sendiri dapat lebih menghemat waktu dan biaya, karena pendekatan ini menggantikan beberapa atau semua data pelatihan yang dilabeli secara manual.
 
Tiga pendekatan berbeda untuk NLP meliputi:

NLP berbasis aturan

Aplikasi NLP paling awal adalah decision trees if-then sederhana, yang membutuhkan aturan yang telah diprogram sebelumnya. Mereka hanya dapat memberikan jawaban sebagai tanggapan atas permintaan tertentu, seperti versi asli Moviefone, yang memiliki kemampuan pembuatan bahasa alami (NLG) yang belum sempurna. Karena tidak ada machine learning atau kemampuan AI dalam NLP berbasis aturan, fungsi ini sangat terbatas dan tidak dapat diskalakan.

NLP statistik

Dikembangkan kemudian, NLP statistik secara otomatis mengekstrak, mengklasifikasikan, dan memberi label elemen-elemen data teks dan suara dan selanjutnya menetapkan kemungkinan statistik untuk setiap kemungkinan makna dari elemen-elemen tersebut. Hal ini bergantung pada machine learning, yang memungkinkan perincian linguistik yang canggih seperti pemberian tag untuk bagian dari ucapan.
 
Statistical NLP memperkenalkan teknik penting untuk memetakan elemen bahasa, seperti kata dan aturan tata bahasa, ke dalam representasi vektor sehingga bahasa dapat dimodelkan dengan menggunakan metode matematika (statistik), termasuk regresi atau model Markov. Hal ini menginformasikan perkembangan awal NLP seperti pemeriksa ejaan dan pesan T9 (Teks pada 9 tombol, untuk digunakan pada telepon Touch-Tone).

Pembelajaran Mendalam NLP

Baru-baru ini, model pembelajaran mendalam telah menjadi mode dominan dari NLP, menggunakan volume besar data mentah yang tidak terstruktur, baik teks maupun suara, untuk menjadi lebih akurat. Pembelajaran mendalam dapat dilihat sebagai evolusi lebih lanjut dari NLP statistik. Bedanya, pembelajaran ini menggunakan model jaringan neural . Ada beberapa subkategori model:

  • Model Urutan-ke-Urutan (seq2seq): Berdasarkan neural networks berulang (RNN), model ini sebagian besar telah digunakan untuk penerjemahan mesin dengan mengubah kalimat dari satu bahasa (seperti Jerman) ke kalimat dalam bahasa lain (seperti Inggris).

  • Model transformator: Model ini menggunakan tokenisasi bahasa (posisi setiap token, kata atau subkata) dan mekanisme perhatian diri (menangkap dependensi dan hubungan) untuk menghitung hubungan antara bagian bahasa yang berbeda dengan satu sama lain. Model transformator dapat dilatih secara efisien dengan pembelajaran yang diawasi sendiri pada database teks yang sangat besar. Sebuah landmark dalam model transformer adalah representasi encoder dua arah dari transformer (BERT) milik Google, yang telah menjadi dan akan tetap menjadi dasar cara kerja mesin pencari Google.

  • Model autoregresif: Jenis model transformator ini dilatih secara khusus untuk memprediksi kata berikutnya secara berurutan, yang merupakan langkah besar ke depan dalam kemampuan untuk menghasilkan teks. Contoh LLM autoregresif termasuk GPT, Llama, Claude dan Mistral sumber terbuka.

  • Model dasar: Model dasar yang dibuat dan dikurasi sebelumnya dapat mempercepat peluncuran upaya NLP dan meningkatkan kepercayaan dalam pengoperasiannya. Misalnya, model dasar IBM® Granite™ dapat diterapkan secara luas di berbagai industri. Model ini mendukung tugas NLP termasuk pembuatan konten dan ekstraksi insight. Selain itu, mode ini juga memfasilitasi generasi dengan dukungan pengambilan data, kerangka kerja untuk meningkatkan kualitas respons dengan menghubungkan model ke sumber pengetahuan eksternal. Model juga melakukan named entity recognition (pengenalan entitas bernama) yang melibatkan identifikasi dan penggalian informasi kunci dalam teks.

Gabungan Para Pakar | 28 Agustus, episode 70

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tugas NLP

Beberapa tugas NLP biasanya membantu memproses data teks dan suara manusia dengan cara yang membantu komputer memahami hal yang dicernanya. Beberapa tugas ini meliputi:

  • Resolusi koreferensi

  • Pengenalan entitas bernama

  • Penandaan bagian ucapan

  • Disambiguasi pengertian kata

Resolusi koreferensi

Ini adalah tugas untuk mengidentifikasi apakah dan ketika dua kata merujuk pada entitas yang sama. Contoh paling umum adalah menentukan orang atau objek yang dimaksud oleh kata ganti tertentu (misalnya, “she” = “Mary”). Namun, itu juga dapat mengidentifikasi metafora atau idiom dalam teks (misalnya di mana “bear” bukan hewan, tetapi seorang orang yang besar dan berambut tebal). 

Named Entity Recognition (NER)

NER mengidentifikasi kata atau frasa sebagai entitas yang berguna. NER mengidentifikasi “London” sebagai lokasi atau “Maria” sebagai nama orang.

Penandaan bagian ucapan

Juga disebut pemberian tag tata bahasa, ini adalah proses menentukan bagian dari ucapan mana sebuah kata atau sepotong teks tertentu, berdasarkan penggunaan dan konteksnya. Misalnya, bagian dari ucapan mengidentifikasi “make” sebagai kata kerja dalam “I can make a paper plane”, dan sebagai kata benda dalam “What make of car do you own?

Disambiguasi pengertian kata

Ini adalah pemilihan arti kata untuk kata dengan beberapa kemungkinan makna. Ini menggunakan proses analisissemantik untuk memeriksa kata dalam konteks. Misalnya, disambiguasi arti kata membantu membedakan arti kata kerja “make” dalam “make the grade” (mencapai) dengan “make a bet” (bertaruh). Menguraikan “I will be merry when I marry Mary” membutuhkan sistem NLP yang canggih.

Cara kerja NLP

NLP bekerja dengan menggabungkan berbagai teknik komputasi untuk menganalisis, memahami, dan menghasilkan bahasa manusia dengan cara yang dapat diproses oleh mesin. Berikut adalah ikhtisar pipa NLP khas dan langkah-langkahnya:

Pemrosesan teks

Prapemrosesan teks NLP menyiapkan teks mentah untuk dianalisis dengan mengubahnya menjadi format yang lebih mudah dipahami oleh mesin. Ini dimulai dengan tokenisasi, yang melibatkan pemisahan teks menjadi unit yang lebih kecil seperti kata, kalimat, atau frasa. Ini membantu memecah teks kompleks menjadi bagian-bagian yang dapat dikelola. Selanjutnya, huruf kecil diterapkan untuk menstandarkan teks dengan mengubah semua karakter menjadi huruf kecil, memastikan bahwa kata-kata seperti “Apple” dan “apple” diperlakukan sama. Penghapusan kata adalah langkah umum lainnya, di mana kata-kata yang sering digunakan seperti “is“ atau “the” dihapus karena tidak menambah makna yang signifikan pada teks. Stemming atau lemmatization mengurangi kata-kata ke bentuk akarnya (misalnya, “running” menjadi “run”), sehingga lebih mudah untuk menganalisis bahasa dengan mengelompokkan berbagai bentuk kata yang sama. Selain itu, pembersihan teks menghilangkan elemen yang tidak diinginkan seperti tanda baca, karakter khusus, dan angka yang dapat mengacaukan analisis.

Setelah pra-pemrosesan, teks menjadi bersih, terstandarisasi dan siap untuk model machine learning untuk ditafsirkan secara efektif.

Ekstraksi fitur

Ekstraksi fitur adalah proses mengubah teks mentah menjadi representasi numerik yang dapat dianalisis dan ditafsirkan oleh mesin. Ini melibatkan mengubah teks menjadi data terstruktur dengan menggunakan teknik NLP seperti Bag of Words dan TF-IDF, yang mengukur keberadaan dan pentingnya kata-kata dalam dokumen. Metode yang lebih maju termasuk penyematan kata seperti Word2Vec atau GLove, yang mewakili kata-kata sebagai vektor padat dalam ruang berlanjut, menangkap hubungan semantik antara kata-kata. Penyematan kontekstual semakin memperkuat hal ini dengan mempertimbangkan konteks kemunculan kata, sehingga menghasilkan representasi yang lebih kaya dan mendalam.

Analisis teks

Analisis teks melibatkan penafsiran dan ekstraksi informasi yang bermakna dari data teks melalui berbagai teknik komputasi. Proses ini mencakup tugas-tugas seperti pemberian tag bagian dari ucapan (POS - part-of-speech), yang mengidentifikasi peran tata bahasa kata-kata dan named entity recognition (NER), yang mendeteksi entitas tertentu seperti nama, lokasi, dan tanggal. Penguraian ketergantungan menganalisis hubungan tata bahasa antara kata-kata untuk memahami struktur kalimat, sementara analisis sentimen menentukan nada emosional teks, menilai apakah teks tersebut positif, negatif, atau netral. Pemodelan topik mengidentifikasi tema atau topik yang mendasari dalam teks atau di seluruh korpus dokumen. Natural language understanding (NLU) adalah bagian dari NLP yang berfokus pada analisis makna di balik kalimat. NLU memungkinkan perangkat lunak untuk menemukan arti yang serupa dalam kalimat yang berbeda atau untuk memproses kata-kata yang memiliki arti yang berbeda. Melalui teknik ini, analisis teks NLP mengubah teks yang tidak terstruktur menjadi insight.

Pelatihan model

Data yang telah diproses kemudian digunakan untuk melatih model machine learning, yang mempelajari pola dan hubungan dalam data. Selama pelatihan, model menyesuaikan parameternya untuk meminimalkan kesalahan dan meningkatkan kinerjanya. Setelah dilatih, model dapat digunakan untuk membuat prediksi atau memberikan hasil dari data baru yang tidak terlihat. Efektivitas pemodelan NLP terus disempurnakan melalui evaluasi, validasi, dan penyempurnaan untuk meningkatkan akurasi dan relevansi dalam aplikasi dunia nyata.

Lingkungan perangkat lunak yang berbeda berguna di seluruh proses tersebut. Sebagai contoh, Natural Language Toolkit (NLTK) adalah rangkaian pustaka dan program untuk bahasa Inggris yang ditulis dalam bahasa pemrograman Python. Ini mendukung fungsi klasifikasi teks, tokenisasi, stemming, penandaan, parsing dan penalaran semantik. TensorFlow adalah pustaka perangkat lunak sumber terbuka dan gratis untuk machine learning dan AI yang dapat digunakan untuk melatih model untuk aplikasi NLP. Tutorial dan sertifikasi mudah dicapai bagi mereka yang berminat untuk mempelajari alat-alat tersebut.

Tantangan NLP 

Bahkan model NLP canggih pun tidak sempurna, sama seperti ucapan manusia rentan terhadap kesalahan. Seperti halnya teknologi AI lainnya, NLP hadir dengan potensi kekurangan. Bahasa manusia dipenuhi dengan ambiguitas yang membuat programmer kesulitan menulis perangkat lunak yang dapat menginterpretasikan makna dari teks atau data suara dengan tepat. Bahasa manusia mungkin membutuhkan waktu bertahun-tahun bagi manusia untuk belajar, dan banyak yang tidak pernah berhenti belajar. Namun, programmer harus mengajarkan aplikasi berbasis bahasa alami untuk mengenali dan memahami ketidakteraturan sehingga aplikasi mereka dapat menjadi akurat dan berguna. Risiko terkait mungkin termasuk:

Pelatihan yang bias

Seperti fungsi AI lainnya, data bias yang digunakan dalam pelatihan akan membuat jawaban menjadi tidak akurat. Semakin beragam pengguna fungsi NLP, semakin signifikan risiko ini, seperti dalam layanan pemerintah, layanan kesehatan, dan interaksi SDM. Kumpulan data pelatihan yang diambil dari web, misalnya, rentan terhadap bias.

Salah tafsir

Seperti dalam pemrograman, ada risiko sampah masuk, sampah keluar (GIGO). Pengenalan suara, juga dikenal sebagai Speech to Text, adalah tugas untuk mengubah data suara menjadi data teks secara andal. Tetapi solusi NLP dapat menjadi bingung jika input ucapan dalam dialek yang tidak jelas, bergumam, terlalu penuh dengan bahasa gaul, homonim, tata bahasa yang salah, idiom, fragmen, salah pengucapan, kontraksi, atau direkam dengan terlalu banyak kebisingan latar belakang.

Kosakata baru

Kata-kata baru terus diciptakan atau diimpor. Konvensi tata bahasa dapat berkembang atau sengaja dipatahkan. Dalam kasus ini, NLP dapat membuat tebakan terbaik atau mengakui bahwa NLP tidak yakin, dan bagaimanapun juga, hal ini menciptakan komplikasi.

Nada suara

Ketika orang berbicara, penyampaian verbal atau bahkan bahasa tubuh mereka dapat memberikan makna yang sama sekali berbeda dari kata-kata saja. Membesar-besarkan untuk efek, menekankan kata-kata yang penting atau untuk tujuan sarkasme dapat menimbulkan kebingungan bagi NLP, yang menjadikan analisis semantik menjadi lebih sulit dan kurang dapat diandalkan.

Contoh penggunaan NLP menurut industri

Aplikasi NLP sekarang dapat ditemukan di hampir semua industri.

Keuangan

Dalam transaksi keuangan, waktu nanodetik dapat membuat perbedaan antara keberhasilan dan kegagalan saat mengakses data, atau melakukan perdagangan atau transaksi. NLP dapat mempercepat penambangan informasi dari laporan keuangan, laporan tahunan dan laporan peraturan, perilisan berita, atau bahkan media sosial.

Pelayanan Kesehatan

Insight dan terobosan medis baru dapat tiba lebih cepat daripada yang dapat diimbangi oleh banyak tenaga profesional layanan kesehatan. Alat berbasis NLP dan AI dapat membantu mempercepat analisis catatan kesehatan dan makalah penelitian medis, membuat keputusan medis yang lebih baik, atau membantu mendeteksi atau bahkan mencegah kondisi medis.

Asuransi


NLP dapat menganalisis klaim untuk mencari pola yang dapat mengidentifikasi area yang menjadi perhatian dan menemukan inefisiensi dalam pemrosesan klaim, yang mengarah pada optimasi pemrosesan dan upaya karyawan yang lebih besar.

Hukum

Hampir semua kasus hukum mungkin memerlukan peninjauan terhadap tumpukan dokumen, informasi latar belakang, dan preseden hukum. NLP dapat membantu mengotomatiskan penemuan hukum, membantu dalam mengelola informasi, mempercepat tinjauan, dan memastikan bahwa semua detail yang relevan dicatat untuk dipertimbangkan.

Solusi terkait
IBM watsonx Orchestrate

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate
Alat dan API pemrosesan bahasa alami

Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.

Jelajahi solusi NLP
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate Jelajahi solusi NLP