Apa itu named entity recognition?

Dokter memeriksa CT scan pasien di rumah sakit

Apa itu named entity recognition?

Named Entity Recognition (NER), yang juga disebut sebagai pemotongan entitas atau ekstraksi entitas, adalah komponen pemrosesan bahasa alami (NLP) yang mengidentifikasi kategori objek yang telah ditentukan dalam badan teks.

Kategori ini dapat mencakup, namun tidak terbatas pada, nama individu, organisasi, lokasi, ekspresi waktu, jumlah, kode medis, nilai moneter, dan persentase, di antaranya. Pada dasarnya, NER adalah proses mengambil serangkaian teks (misalnya kalimat, paragraf, atau keseluruhan dokumen), dan mengidentifikasi serta mengklasifikasikan entitas yang merujuk ke setiap kategori.

Ketika istilah “NER” dicetuskan pada Sixth Message Understanding Conference (MUC-6), tujuannya adalah untuk menyederhanakan tugas ekstraksi informasi, yang melibatkan pemrosesan sejumlah besar teks tidak terstruktur dan mengidentifikasi informasi penting. Semenjak itu, NER telah berkembang dan berevolusi, sebagian besar evolusinya berkat kemajuan dalam machine learning dan teknik pembelajaran mendalam.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Teknik NER

Menurai survei tahun 2019, sekitar 64 persen perusahaan mengandalkan data terstruktur dari sumber daya internal, tetapi kurang dari 18% memanfaatkan data tidak terstruktur dan komentar di media sosial untuk membuat keputusan bisnis1.

Organisasi yang menggunakan NER untuk ekstraksi data tidak terstruktur mengandalkan berbagai pendekatan, tetapi sebagian besar terbagi dalam tiga kategori: pendekatan berbasis aturan, pendekatan machine learning, dan pendekatan hybird.

  • Pendekatan berbasis aturan melibatkan pembuatan seperangkat aturan untuk tata bahasa suatu bahasa. Aturan tersebut kemudian digunakan untuk mengidentifikasi entitas dalam teks berdasarkan fitur struktural dan tata bahasanya. Berbagai metode ini bisa memakan waktu dan mungkin tidak menggeneralisasi dengan baik ke data yang tidak terlihat.
  • Pendekatan hybrid menggabungkan metode berbasis aturan dan machine learning untuk memanfaatkan kekuatan keduanya. Mereka dapat menggunakan sistem berbasis aturan untuk mengidentifikasi entitas yang mudah dikenali dengan cepat dan sistem machine learning untuk mengidentifikasi entitas yang lebih kompleks.
Gabungan Para Pakar | 28 Agustus, episode 70

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Metodologi NER

Sejak awal berdirinya NER, telah ada beberapa kemajuan metodologis yang signifikan, terutama yang mengandalkan teknik berbasis pembelajaran mendalam. Iterasi yang lebih baru meliputi:

  • Recurrent neural networks (RNN) dan long short-term memory (LSTM). RNN adalah jenis neural network yang dirancang untuk masalah prediksi urutan. LSTM, sebuah jenis khusus dari RNN, dapat belajar mengenali pola dari waktu ke waktu dan mempertahankan informasi dalam “memori” dalam urutan yang panjang, sehingga sangat berguna untuk memahami konteks dan mengidentifikasi entitas.
  • Conditional random fields (CRF). CRF sering digunakan dalam kombinasi dengan LSTM untuk tugas NER. Mereka dapat memodelkan probabilitas bersyarat dari keseluruhan rangkaian label, dan bukan sekadar label-label individual, sehingga berguna untuk tugas-tugas di mana label suatu kata bergantung pada label kata-kata di sekitarnya.
  • Transformers dan BERT. Jaringan transformator, khususnya model BERT (Bidirectional Encoder Representations dari Transformers), memiliki dampak yang signifikan pada NER. Dengan mekanisme perhatian mandiri yang menimbang pentingnya kata-kata yang berbeda, BERT memperhitungkan konteks penuh dari sebuah kata dengan melihat kata-kata yang muncul sebelum dan sesudahnya.

Proses NER

Langkah 1. Pengumpulan data

Langkah pertama dari NER adalah mengumpulkan kumpulan data teks beranotasi. Kumpulan data harus berisi contoh teks di mana entitas bernama diberi label atau ditandai, menunjukkan jenisnya. Anotasi dapat dilakukan secara manual atau menggunakan metode otomatis.

Langkah 2. Prapemrosesan data

Setelah kumpulan data diperoleh, teks harus dibersihkan dan diformat. Anda mungkin perlu menghapus karakter yang tidak perlu, menormalkan teks, dan/atau membagi teks menjadi beberapa kalimat atau token.

Langkah 3. Ekstraksi fitur

Selama tahap ini, fitur yang relevan diekstraksi dari teks yang telah diproses sebelumnya. Fitur-fitur ini antara lain dapat mencakup pemberian tag untuk bagian dari ucapan (pemberian tag POS), penyematan kata, dan informasi kontekstual. Pilihan fitur akan tergantung pada model NER spesifik yang digunakan organisasi.

Langkah 4. Pelatihan model

Langkah selanjutnya adalah melatih model machine learning atau pembelajaran mendalam menggunakan kumpulan data beranotasi dan fitur-fitur yang telah diekstrak. Model ini belajar untuk mengidentifikasi pola dan hubungan antara kata-kata dalam teks, serta label entitas bernama yang sesuai.

Langkah 5. Evaluasi model

Setelah Anda melatih model NER, itu harus dievaluasi untuk menilai kinerjanya. Anda dapat mengukur metrik seperti presisi, recall, dan skor F1, yang mengindikasikan seberapa baik model mengidentifikasi dan mengklasifikasikan entitas bernama dengan benar.

Langkah 6. Penyempurnaan model

Berdasarkan hasil evaluasi, Anda akan memperbaiki model untuk meningkatkan kinerjanya. Hal ini dapat mencakup penyesuaian hiperparameter, memodifikasi data pelatihan dan/atau menggunakan teknik yang lebih canggih (misalnya, ansembel atau adaptasi domain).

Langkah 7. Inferensi

Pada tahap ini, Anda dapat mulai menggunakan model untuk inferensi pada teks baru yang tidak terlihat. Model ini akan mengambil teks input, menerapkan langkah-langkah prapemrosesan, mengekstrak fitur-fitur yang relevan, dan pada akhirnya memprediksi label entitas bernama untuk setiap token atau rentang teks.

Langkah 8. Pascapemrosesan

Output dari model NER mungkin perlu melalui langkah-langkah pasca-pemrosesan untuk menyempurnakan hasil dan/atau menambahkan informasi kontekstual. Anda mungkin perlu menyelesaikan tugas-tugas seperti menghubungkan entitas, di mana entitas yang diberi nama dihubungkan ke basis pengetahuan atau basis data untuk pengayaan lebih lanjut.

Menerapkan proses NER

Cara termudah untuk menerapkan sistem Named Entity Recognition adalah dengan mengandalkan antarmuka pemrograman aplikasi (API). API NER adalah antarmuka berbasis web atau lokal yang menyediakan akses ke fungsionalitas NER. Beberapa contoh populer API NER adalah:

Toolkit Bahasa Alami (NLTK)

NLTK adalah platform sumber terbuka terkemuka untuk membangun program Python agar dapat bekerja dengan data bahasa manusia. Platform ini menyediakan antarmuka yang mudah digunakan untuk lebih dari 100 model ekstraksi terlatih2. Platform ini juga mencakup pustaka pemrosesan teks untuk klasifikasi, tokenisasi, stemming, penandaan, penguraian, dan penalaran semantik. NLKT memiliki pengklasifikasinya sendiri untuk mengenali entitas bernama, yang disebut ne_chunk, tetapi juga menyediakan wrapper untuk menggunakan penanda Stanford NER dalam Python.

Pengenal Entitas Bernama Stanford

Dikembangkan oleh Universitas Stanford, Stanford NER adalah implementasi Java yang secara luas dianggap sebagai pustaka ekstraksi entitas standar. Solusi ini mengandalkan CRF dan menyediakan model terlatih untuk mengekstrak entitas bernama.

SpaCy

Ditulis dalam bahasa Python dan dikenal dengan kecepatan dan keramahan penggunanya, SpaCy adalah pustaka perangkat lunak sumber terbuka untuk NLP tingkat lanjut. Solusi ini dibangun di atas penelitian terbaru dan dirancang untuk digunakan dengan produk nyata. Produk ini juga memiliki sistem statistik canggih yang memungkinkan pengguna untuk membuat ekstraktor NER yang disesuaikan.

Aplikasi NER

Seiring dengan perkembangan teknologi, sistem NER akan semakin banyak digunakan, membantu organisasi memahami data yang mereka temui setiap hari. Sejauh ini, terbukti berperan penting untuk berbagai sektor, mulai dari layanan kesehatan dan keuangan hingga layanan pelanggan dan keamanan siber.

Beberapa contoh penggunaan yang paling berdampak adalah:

Ekstraksi informasi

NER adalah langkah pertama yang penting dalam mengekstraksi informasi yang berguna dan terstruktur dari basis data besar yang tidak terstruktur. Mesin pencari menggunakan NER untuk meningkatkan relevansi dan ketepatan hasil pencarian mereka.

Agregasi berita otomatis

Agregator berita menggunakan NER untuk mengategorikan artikel dan cerita berdasarkan entitas bernama yang dikandungnya, memungkinkan cara yang lebih terorganisir dan efisien untuk menyajikan berita kepada audiens. Misalnya, NER untuk aplikasi berita mengotomatiskan proses klasifikasi, mengelompokkan berita serupa bersama-sama dan memberikan pandangan yang lebih komprehensif tentang peristiwa berita tertentu.

Pemantauan media sosial

Dengan proliferasi platform media sosial, jumlah data tekstual yang tersedia untuk analisis sangat besar. NER memainkan peran penting dalam analisis media sosial, mengidentifikasi entitas kunci dalam postingan dan komentar untuk memahami tren dan opini publik tentang berbagai topik (terutama opini seputar merek dan produk). Informasi ini dapat membantu perusahaan melakukan analisis sentimen, mengembangkan strategi pemasaran, menyusun respons layanan pelanggan, dan mempercepat upaya pengembangan produk.

Chatbots dan asisten virtual

Asisten virtual dan chatbot kecerdasan buatan generatif menggunakan NER untuk memahami permintaan pengguna dan pertanyaan dukungan pelanggan secara akurat. Dengan mengidentifikasi entitas penting dalam kueri pengguna, alat bantu yang didukung AI ini dapat memberikan respons yang tepat dan sesuai konteks. Misalnya, dalam kueri “Temukan restoran Soul Food di dekat Piedmont Park”, NER membantu asisten memahami “Soul Food” sebagai masakan, “restoran” sebagai jenis bangunan, dan “Piedmont Park” sebagai lokasi.

Cyber security

Dalam keamanan siber, NER membantu perusahaan mengidentifikasi potensi ancaman dan anomali dalam log jaringan dan data terkait keamanan lainnya. Misalnya, dapat mengidentifikasi alamat IP, URL, nama pengguna, dan nama file yang mencurigakan dalam log keamanan jaringan. Dengan demikian, NER dapat memfasilitasi investigasi insiden keamanan yang lebih menyeluruh dan meningkatkan keamanan jaringan secara keseluruhan.

Tantangan menggunakan NER

NER telah berkembang pesat sejak awal berdirinya, mengintegrasikan teknologi inovatif dan berkembang secara produktif dalam kegunaannya di sepanjang jalan. Namun, ada beberapa tantangan penting yang perlu dipertimbangkan ketika menilai teknologi NER.

Meskipun NER telah membuat banyak kemajuan untuk bahasa seperti bahasa Inggris, namun tidak memiliki tingkat akurasi yang sama untuk bahasa lainnya. Hal ini sering disebabkan oleh kurangnya data berlabel dalam bahasa-bahasa ini. NER lintas bahasa, yang melibatkan transfer pengetahuan dari satu bahasa ke bahasa lain, merupakan bidang penelitian aktif yang dapat membantu menjembatani kesenjangan bahasa NET.

Terkadang entitas juga dapat bersarang di dalam entitas lain, dan mengenali entitas berlapis ini dapat menjadi tantangan. Misalnya, dalam kalimat “Pennsylvania State University, University Park didirikan pada tahun 1855”, baik “Pennsylvania State University” dan “The Pennsylvania State University, University Park” adalah entitas yang valid.

Selain itu, meskipun model NER umum dapat mengidentifikasi entitas umum seperti nama dan lokasi, model ini mungkin mengalami kesulitan dengan entitas yang spesifik untuk domain tertentu. Misalnya, di bidang medis, mengidentifikasi istilah kompleks seperti nama penyakit atau nama obat bisa menjadi sedikit rumit. Model NER khusus domain dapat dilatih dengan data khusus domain, namun mendapatkan informasi tersebut dapat menjadi tantangan tersendiri.

Model NER juga dapat menghadapi masalah yang lebih luas dengan ambiguitas (misalnya, “Apple” dapat merujuk pada jenis buah atau perusahaan teknologi); variasi nama entitas (misalnya, “A.S”, “A.S”, “Amerika Serikat”, dan “Amerika Serikat” semuanya merujuk pada negara yang sama); dan informasi kontekstual yang terbatas (di mana teks dan/atau kalimat tidak mengandung konteks yang cukup untuk secara akurat mengidentifikasi dan mengategorikan entitas).

Meskipun NER memiliki tantangannya sendiri, kemajuan yang sedang berlangsung terus meningkatkan akurasi dan penerapannya, dan oleh karena itu membantu meminimalkan dampak kesenjangan teknologi yang ada.

Masa depan NER

Meskipun NER adalah bidang yang mapan, masih banyak pekerjaan yang harus dilakukan. 

Melihat masa depan, salah satu area yang menjanjikan adalah teknik pembelajaran tak terawasi untuk NER. Meskipun teknik pembelajaran terawasi telah berkinerja baik, teknik tersebut memerlukan banyak data berlabel, yang mungkin sulit diperoleh. Teknik pembelajaran tak terawasi tidak memerlukan data berlabel dan dapat membantu organisasi mengatasi tantangan ketersediaan data.

Arah menarik lainnya adalah integrasi NER dengan tugas NLP lainnya. Sebagai contoh, model gabungan untuk NER dan tautan entitas (yang melibatkan tautan entitas ke entri yang sesuai dalam basis pengetahuan) atau NER dan resolusi referensi bersama (yang melibatkan penentuan ketika dua atau lebih ekspresi dalam teks merujuk pada entitas yang sama) dapat memungkinkan sistem yang lebih baik dalam memahami dan memproses teks.

Few-shot learning dan NER multimodal juga memperluas kemampuan teknologi NER. Dengan few-shot learning, model dilatih untuk melakukan tugas hanya dengan beberapa contoh, yang dapat sangat membantu saat data berlabel terbatas. NER multimodal, di sisi lain, melibatkan pengintegrasian teks dengan jenis entitas lain. Gambar atau potongan audio, misalnya, dapat memberikan konteks tambahan yang membantu dalam mengenali entitas.

Solusi terkait
IBM watsonx Orchestrate

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate
Alat dan API pemrosesan bahasa alami

Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.

Jelajahi solusi NLP
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate Jelajahi solusi NLP
Catatan kaki