Apa Itu Named Entity Recognition?

Apa itu named entity recognition?

Named Entity Recognition (NER)—disebut juga pemotongan entitas atau ekstraksi entitas—adalah komponen pemrosesan bahasa alami (NLP) yang mengidentifikasi kategori objek yang telah ditentukan dalam badan teks.

Kategori ini dapat mencakup, namun tidak terbatas pada, nama individu, organisasi, lokasi, ekspresi waktu, jumlah, kode medis, nilai moneter, dan persentase, antara lain. Pada dasarnya, NER adalah proses mengambil serangkaian teks (misalnya kalimat, paragraf, atau keseluruhan dokumen), dan mengidentifikasi serta mengklasifikasikan entitas yang merujuk ke kategori.

Ketika istilah “NER” dicetuskan pada Konferensi Pemahaman Pesan Keenam (MUC-6), tujuannya adalah untuk menyederhanakan tugas ekstraksi informasi, yang melibatkan pemrosesan sejumlah besar teks tidak terstruktur dan mengidentifikasi informasi penting. Semenjak itu, NER telah berkembang dan berkembang, di mana sebagian besar perkembangannya berkat kemajuan dalam machine learning dan teknik pembelajaran mendalam.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Teknik NER

Menurut survei tahun 2019, sekitar 64 persen perusahaan mengandalkan data terstruktur dari sumber daya internal, tetapi kurang dari 18 persen yang memanfaatkan data tidak terstruktur dan komentar di media sosial untuk menginformasikan keputusan bisnis¹.

Organisasi yang menggunakan NER untuk ekstraksi data tidak terstruktur mengandalkan berbagai pendekatan, tetapi sebagian besar terbagi dalam tiga kategori: pendekatan berbasis aturan, pendekatan machine learning, dan pendekatan hybird.

Pendekatan berbasis aturan melibatkan pembuatan seperangkat aturan untuk tata bahasa suatu bahasa. Aturan tersebut kemudian digunakan untuk mengidentifikasi entitas dalam teks berdasarkan fitur struktural dan tata bahasanya. Berbagai metode ini bisa memakan waktu dan mungkin tidak menggeneralisasi dengan baik ke data yang tidak terlihat.

Pendekatan machine learning melibatkan pelatihan model machine learning berbasis AI pada kumpulan data berlabel menggunakan algoritma seperti bidang acak bersyarat dan entropi maksimum (dua jenis model bahasa statistik yang kompleks). Teknik dapat berkisar dari metode machine learning tradisional (misalnya, struktur keputusan dan support vector machine) hingga pendekatan pembelajaran mendalam yang lebih kompleks, seperti recurrent neural networks (RNN) dan transformator. Semua metode ini menggeneralisasi lebih baik pada data yang tidak terlihat, tetapi mereka membutuhkan sejumlah besar data pelatihan berlabel dan bisa jadi mahal secara komputasi.

Pendekatan hybrid menggabungkan metode berbasis aturan dan machine learning untuk memanfaatkan kekuatan keduanya. Mereka dapat menggunakan sistem berbasis aturan untuk mengidentifikasi entitas yang mudah dikenali dengan cepat dan sistem machine learning untuk mengidentifikasi entitas yang lebih kompleks.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Metodologi NER

Sejak awal berdirinya NER, telah ada beberapa kemajuan metodologis yang signifikan, terutama yang mengandalkan teknik berbasis pembelajaran mendalam. Iterasi yang lebih baru meliputi:

Recurrent neural networks (RNN) dan long short-term memory (LSTM). RNN adalah jenis Neural Networks yang dirancang untuk masalah prediksi urutan. LSTM, sebuah jenis khusus dari RNN, dapat belajar mengenali pola dari waktu ke waktu dan mempertahankan informasi dalam “memori” dalam urutan yang panjang, sehingga sangat berguna untuk memahami konteks dan mengidentifikasi entitas.

Conditional random fields (CRFs). CRF sering digunakan dalam kombinasi dengan LSTM untuk tugas NER. Mereka dapat memodelkan probabilitas bersyarat dari keseluruhan rangkaian label, dan bukan sekadar label-label individual, sehingga berguna untuk tugas-tugas yang label suatu kata bergantung pada label kata-kata di sekitarnya.

Transformers and BERT. Jaringan transformator, khususnya model BERT (Bidirectional Encoder Representations dari Transformers), memiliki dampak yang signifikan pada NER. Dengan menggunakan mekanisme perhatian diri yang menimbang pentingnya kata-kata yang berbeda, BERT memperhitungkan konteks penuh dari sebuah kata dengan melihat kata-kata yang muncul sebelum dan sesudahnya.

Proses NER

Langkah 1. Pengumpulan data

Langkah pertama dari NER adalah mengumpulkan kumpulan data teks beranotasi. Kumpulan data harus berisi contoh teks di mana entitas bernama diberi label atau ditandai, menunjukkan jenisnya. Anotasi dapat dilakukan secara manual atau menggunakan metode otomatis.

Langkah 2. Prapemrosesan data

Setelah kumpulan data dikumpulkan, teks harus dibersihkan dan diformat. Anda mungkin perlu menghapus karakter yang tidak diperlukan, menormalkan teks dan/atau membagi teks menjadi kalimat atau token.

Langkah 3. Ekstraksi fitur

Selama tahap ini, fitur yang relevan diekstraksi dari teks yang telah diproses sebelumnya. Fitur-fitur ini antara lain dapat mencakup penandaan bagian dari ucapan (penandaan POS), penyematan kata, dan informasi kontekstual. Pilihan fitur akan tergantung pada model NER spesifik yang digunakan organisasi.

Langkah 4. Pelatihan model

Langkah selanjutnya adalah melatih model machine learning atau pembelajaran mendalam menggunakan kumpulan data beranotasi dan fitur-fitur yang telah diekstrak. Model ini belajar untuk mengidentifikasi pola dan hubungan antara kata-kata dalam teks, serta label entitas bernama yang sesuai.

Langkah 5. Evaluasi model

Setelah Anda melatih model NER, itu harus dievaluasi untuk menilai kinerjanya. Anda dapat mengukur metrik seperti presisi, recall, dan skor F1, yang mengindikasikan seberapa baik model mengidentifikasi dan mengklasifikasikan entitas bernama dengan benar.

Langkah 6. Penyempurnaan model

Berdasarkan hasil evaluasi, Anda akan memperbaiki model untuk meningkatkan kinerjanya. Hal ini dapat mencakup penyesuaian hiperparameter, memodifikasi data pelatihan dan/atau menggunakan teknik yang lebih canggih (misalnya, ensembling atau adaptasi domain).

Langkah 7. Inferensi

Pada tahap ini, Anda dapat mulai menggunakan model untuk inferensi pada teks baru yang tidak terlihat. Model ini akan mengambil teks input, menerapkan langkah-langkah prapemrosesan, mengekstrak fitur-fitur yang relevan, dan pada akhirnya memprediksi label entitas bernama untuk setiap token atau rentang teks.

Langkah 8. Pascapemrosesan

Keluaran dari model NER mungkin perlu melalui langkah-langkah pasca-pemrosesan untuk menyempurnakan hasil dan/atau menambahkan informasi kontekstual. Anda mungkin perlu menyelesaikan tugas-tugas seperti menghubungkan entitas, di mana entitas yang diberi nama dihubungkan ke basis pengetahuan atau basis data untuk pengayaan lebih lanjut.

Menerapkan proses NER

Cara termudah untuk menerapkan sistem named entity recognition adalah dengan mengandalkan antarmuka pemrograman aplikasi (API). API NER adalah antarmuka berbasis web atau lokal yang menyediakan akses ke fungsionalitas NER. Beberapa contoh populer API NER adalah:

Toolkit Bahasa Alami (NLTK)

NLTK adalah platform sumber terbuka terkemuka untuk membangun program Python agar dapat bekerja dengan data bahasa manusia. Solusi ini menyediakan antarmuka yang mudah digunakan untuk lebih dari 100 model ekstraksi terlatih². Solusi ini juga mencakup pustaka pemrosesan teks untuk klasifikasi, tokenisasi, stemming, penandaan, penguraian, dan penalaran semantik. NLKT memiliki pengklasifikasi sendiri untuk mengenali entitas bernama yang disebut ne_chunk, tetapi juga menyediakan pembungkus untuk menggunakan penanda Stanford NER di Python.

Pengenal Entitas Bernama Stanford

Dikembangkan oleh Stanford University, Stanford NER adalah implementasi Java yang secara luas dianggap sebagai pustaka ekstraksi entitas standar. Solusi ini mengandalkan CRF dan menyediakan model terlatih untuk mengekstrak entitas bernama.

SpaCy

Ditulis dalam bahasa Python dan dikenal dengan kecepatan dan keramahan penggunanya, SpaCy adalah pustaka perangkat lunak sumber terbuka untuk NLP tingkat lanjut. Solusi ini dibangun di atas penelitian terbaru dan dirancang untuk digunakan dengan produk nyata. Produk ini juga memiliki sistem statistik canggih yang memungkinkan pengguna untuk membuat ekstraktor NER yang disesuaikan.

Aplikasi NER

Seiring dengan perkembangan teknologi, sistem NER akan semakin banyak digunakan, membantu organisasi memahami data yang mereka temui setiap hari. Sejauh ini, terbukti berperan penting untuk berbagai sektor, mulai dari layanan kesehatan dan keuangan hingga layanan pelanggan dan keamanan siber.

Beberapa contoh penggunaan yang paling berdampak adalah:

Ekstraksi informasi

NER adalah langkah pertama yang penting dalam mengekstraksi informasi yang berguna dan terstruktur dari basis data besar yang tidak terstruktur. Mesin pencari menggunakan NER untuk meningkatkan relevansi dan ketepatan hasil pencarian mereka.

Agregasi berita otomatis

Agregator berita menggunakan NER untuk mengategorikan artikel dan cerita berdasarkan entitas bernama yang dikandungnya, memungkinkan cara yang lebih terorganisir dan efisien untuk menyajikan berita kepada audiens. Misalnya, NER untuk aplikasi berita mengotomatiskan proses klasifikasi, mengelompokkan berita serupa bersama-sama dan memberikan pandangan yang lebih komprehensif tentang peristiwa berita tertentu.

Pemantauan media sosial

Dengan proliferasi platform media sosial, jumlah data tekstual yang tersedia untuk analisis sangat besar. NER memainkan peran penting dalam analisis media sosial, mengidentifikasi entitas kunci dalam postingan dan komentar untuk memahami tren dan opini publik tentang berbagai topik (terutama opini seputar merek dan produk). Informasi ini dapat membantu perusahaan melakukan analisis sentimen, mengembangkan strategi pemasaran, menyusun respons layanan pelanggan, dan mempercepat upaya pengembangan produk.

Chatbots dan asisten virtual

Asisten virtual dan chatbot kecerdasan buatan generatif serta menggunakan NER untuk memahami permintaan pengguna dan pertanyaan dukungan pelanggan secara akurat. Dengan mengidentifikasi entitas penting dalam kueri pengguna, alat bantu yang didukung AI ini dapat memberikan respons yang tepat dan sesuai konteks. Misalnya, dalam kueri "Temukan restoran Soul Food di dekat Piedmont Park," NER membantu asisten memahami "Soul Food" sebagai masakan, "restoran" sebagai jenis bangunan, dan "Piedmont Park" sebagai lokasi.

Cyber security

Dalam keamanan siber, NER membantu perusahaan mengidentifikasi potensi ancaman dan anomali dalam log jaringan dan data terkait keamanan lainnya. Misalnya, dapat mengidentifikasi alamat IP, URL, nama pengguna, dan nama file yang mencurigakan dalam log keamanan jaringan. Dengan demikian, NER dapat memfasilitasi investigasi insiden keamanan yang lebih menyeluruh dan meningkatkan keamanan jaringan secara keseluruhan.

Tantangan menggunakan NER

NER telah berkembang pesat sejak awal terciptanya, mengintegrasikan teknologi inovatif dan selama prosesnya berkembang dengan cepat dalam hal kegunaannya. Namun, ada beberapa tantangan penting yang perlu dipertimbangkan ketika menilai teknologi NER.

Meskipun NER telah membuat banyak kemajuan untuk bahasa seperti bahasa Inggris, namun tidak memiliki tingkat akurasi yang sama untuk bahasa lainnya. Hal ini sering disebabkan oleh kurangnya data berlabel dalam bahasa-bahasa ini. NER lintas bahasa, yang melibatkan transfer pengetahuan dari satu bahasa ke bahasa lain, merupakan bidang penelitian aktif yang dapat membantu menjembatani kesenjangan bahasa NET.

Terkadang entitas juga dapat bersarang di dalam entitas lain dan mengenali entitas yang bersarang ini dapat menjadi tantangan. Misalnya, dalam kalimat “Pennsylvania State University, University Park didirikan pada tahun 1855”, baik “Pennsylvania State University” maupun “The Pennsylvania State University, University Park” adalah entitas yang valid.

Selain itu, meskipun model NER umum dapat mengidentifikasi entitas umum seperti nama dan lokasi, model ini mungkin mengalami kesulitan dengan entitas yang spesifik untuk domain tertentu. Misalnya, di bidang medis, mengidentifikasi istilah kompleks seperti nama penyakit atau nama obat bisa menjadi sedikit rumit. Model NER khusus domain dapat dilatih dengan data khusus domain, namun mendapatkan informasi tersebut dapat menjadi tantangan tersendiri.

Model NER juga dapat menghadapi masalah yang lebih luas dengan ambiguitas (misalnya, "Apple" dapat merujuk pada buah atau perusahaan teknologi); variasi nama entitas (misalnya, "A.S," "A.S," " Amerika Serikat" dan "Amerika Serikat" semuanya merujuk pada negara yang sama); dan informasi kontekstual yang terbatas (di mana teks dan/atau kalimat tidak mengandung konteks yang cukup untuk secara akurat mengidentifikasi dan mengategorikan entitas).

Meskipun NER memiliki tantangannya sendiri, kemajuan yang sedang berlangsung terus meningkatkan akurasi dan penerapannya, dan oleh karena itu membantu meminimalkan dampak kesenjangan teknologi yang ada.

Masa depan NER

Sementara NER adalah bidang yang mapan, masih banyak pekerjaan yang harus dilakukan.

Melihat masa depan, salah satu area yang menjanjikan adalah teknik pembelajaran tanpa pengawasan untuk NER. Meskipun teknik pembelajaran terbimbing telah berkinerja baik, teknik tersebut memerlukan banyak data berlabel, yang mungkin sulit diperoleh. Teknik pembelajaran tanpa pengawasan tidak memerlukan data berlabel dan dapat membantu organisasi mengatasi tantangan ketersediaan data.

Arah menarik lainnya adalah integrasi NER dengan tugas NLP lainnya. Sebagai contoh, model gabungan untuk NER dan tautan entitas (yang melibatkan tautan entitas ke entri yang sesuai dalam basis pengetahuan) atau NER dan resolusi referensi bersama (yang melibatkan penentuan ketika dua atau lebih ekspresi dalam teks merujuk pada entitas yang sama) dapat memungkinkan sistem yang lebih baik dalam memahami dan memproses teks.

Pembelajaran beberapa bidikan dan NER multimodal juga memperluas kemampuan teknologi NER. Dengan pembelajaran beberapa contoh, model dilatih untuk melakukan tugas hanya dengan beberapa contoh, yang dapat sangat membantu saat data berlabel terbatas. NER multimodal, di sisi lain, melibatkan pengintegrasian teks dengan jenis entitas lain. Gambar atau potongan audio, misalnya, dapat memberikan konteks tambahan yang membantu dalam mengenali entitas.

Melampaui hype—Bagaimana asisten AI mendorong nilai bisnis nyata

Jelajahi contoh penggunaan teratas untuk menggunakan asisten AI, pahami dampak potensial dari gen AI dan teknologi otomatisasi pada bisnis Anda, dan pelajari cara memulai.

Apa itu named entity recognition?