Apa itu Ekstraksi Informasi?

Penyusun

Staff writer

Staff Editor, AI Models

IBM Think

Apa itu ekstraksi informasi?

Ekstraksi informasi (IE) adalah proses otomatis mengekstraksi informasi terstruktur dari data teks semi-terstruktur atau tidak terstruktur, mengubah sumber teks bahasa manusia seperti PDF ke dalam format yang terorganisir, mudah dicari, dan dapat dibaca oleh mesin. Pemrosesan bahasa alami (NLP) bergantung pada ekstraksi informasi untuk mengidentifikasi data penting dalam teks input.

Algoritme ekstraksi informasi dapat mengidentifikasi entitas, termasuk nama, hubungan, peristiwa, sentimen, dan lainnya, kemudian mengklasifikasikan dan menyimpannya dalam database untuk digunakan lebih lanjut. Informasi terstruktur yang dihasilkan memiliki format standar dan biasanya disimpan dalam baris dan kolom yang mengidentifikasi atributnya. Penyimpanan standar adalah pembeda utama antara data terstruktur dan data tidak terstruktur.

Semua nilai data dalam database yang sama mengikuti format terstruktur yang sama dengan atribut yang sama. Atribut relasional juga disorot untuk menghubungkan database bersama-sama berdasarkan atribut bersama.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Mengapa ekstraksi informasi itu penting?

Ekstraksi informasi memungkinkan perusahaan untuk mengubah dokumen menjadi kumpulan data yang dapat ditindaklanjuti dan menghasilkan insight yang berharga darinya. Pasar pemrosesan dokumen cerdas—yang difasilitasi oleh IE—diproyeksikan tumbuh dengan laju pertumbuhan tahunan gabungan (CAGR) sebesar 33,1% hingga tahun 2030 dari nilai USD 2,3 miliar pada tahun 2024.¹

Pengambilan informasi

Sistem ekstraksi informasi menjadi dasar bagi pengambilan informasi secara otomatis: penggunaan algoritme kecerdasan buatan (AI) untuk secara otomatis menemukan dan mengambil data yang relevan dari basis pengetahuan. Pencarian informasi merupakan komponen penting dari generasi dengan dukungan pengambilan data (RAG), sebuah proses di mana model bahasa besar (LLM) mendapatkan akses ke lebih banyak data untuk mendapatkan akurasi yang tinggi dalam contoh penggunaan khusus domain.

RAG dapat membuat chatbot LLM lebih akurat ketika diterapkan pada tugas menjawab pertanyaan karena LLM dapat memanfaatkan lebih banyak pengetahuan di luar data pelatihannya untuk menghasilkan jawaban yang lebih baik.

Pengambilan keputusan berbasis data

Pemimpin bisnis dapat menggunakan informasi yang diekstraksi untuk memfasilitasi pengambilan keputusan berbasis data secara real-time. IE adalah tahap awal dalam siklus pemrosesan informasi yang lebih besar di mana informasi diperoleh, diorganisir, disimpan, dimanipulasi, dan tersedia untuk digunakan.

Pipeline data memberikan informasi di seluruh perusahaan, menghubungkan titik input—misalnya, pesanan online—ke database. Dari sana, alat visualisasi data memanfaatkan data tersebut untuk membuat bagan dan grafik secara real-time, mengungkapkan insight yang dapat ditindaklanjuti yang mendorong pengambilan keputusan strategis.

Kumpulan data besar data terstruktur yang di-output oleh sistem IE dapat digunakan untuk membuat laporan dan ringkasan. Algoritme machine learning untuk IE juga dapat melakukan peringkasan teks untuk memadatkan dokumen yang mendetail menjadi poin yang dapat dicerna dengan cepat dengan anotasi untuk referensi cepat.

Sebagai contoh, IE dalam perawatan kesehatan dapat secara otomatis menyusun laporan pasien dari beberapa file, yang berpotensi memudahkan dokter untuk mendiagnosis masalah dan meresepkan perawatan. Profesional keuangan dapat menghasilkan perkiraan yang lebih akurat dengan informasi yang diambil dari berbagai laporan, artikel berita, dan sumber lainnya.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Jenis ekstraksi informasi

Tugas ekstraksi informasi dikategorikan berdasarkan jenis informasi yang diidentifikasi dan diberi label. Sistem IE dapat menangani berbagai tugas termasuk:

Pengenalan entitas bernama (Named entity recognition atau NER)
Ekstraksi relasi
Ekstraksi peristiwa
Analisis sentimen

Named entity recognition (NER)

Named entity recognition atau pengenalan entitas bernama adalah tugas IE untuk mengidentifikasi entitas bernama dalam data tidak terstruktur. Entitas bernama adalah objek dunia nyata yang dapat diidentifikasi secara unik. Pada dasarnya,ini adalah kata benda yang tepat untuk data. Entitas bernama termasuk orang, tanggal, perusahaan, tempat, dan produk dan dapat berupa fisik atau abstrak.

Dalam kalimat "Pada Januari 2025, Arvind Krishna adalah CEO IBM," entitas yang disebutkan termasuk Januari 2025, Arvind Krishna, CEO dan IBM."

Penautan entitas

Penautan entitas adalah proses mencari tahu apakah beberapa entitas mengacu pada objek dunia nyata yang sama. Saat melakukan IE pada artikel yang menyebutkan "Arvind Krishna," "Krishna" dan "CEO IBM", entitas yang menghubungkan subtugas akan mengidentifikasi ketiganya sebagai referensi ke orang yang sama. Penautan entitas juga disebut sebagai resolusi coreference.

Ekstraksi relasi (ER)

Ekstraksi relasi adalah tugas ekstraksi informasi untuk mengidentifikasi dan mengategorikan hubungan antara entitas dalam sumber data. Mengungkap hubungan antara entitas dapat membuka pintu terhadap insight yang mungkin luput dari perhatian.

Dalam contoh kalimat kita di awal bagian ini, proses RE akan menarik hubungan “bekerja di” antara “Arvind Krishna” dan “IBM” dengan jabatan “CEO”.

Ekstraksi relasi versus ekstraksi hubungan

Istilah ekstraksi relasi dan ekstraksi hubungan kerap kali digunakan secara bergantian, tetapi beberapa ilmuwan data berpendapat bahwa ada perbedaan yang samar di antara keduanya. Sementara ekstraksi relasi mencakup setiap upaya untuk memahami hubungan antara entitas, ekstraksi relasi paling sering digunakan terkait penerapan model machine learning untuk menyelesaikan tugas ini.

Ekstraksi peristiwa

Ekstraksi peristiwa adalah cara sistem IE mengenali kejadian terpisah pada isi input. Kata-kata seperti “janji temu” atau “rapat” dapat memicu urutan ekstraksi peristiwa, begitu pula tanggal. Ekstraksi peristiwa mencakup peristiwa itu sendiri, waktu dan tanggal terjadinya, serta setiap peserta yang disebutkan.

Dalam kalimat contoh, “Arvind Krishna menghadiri konferensi pada bulan Januari 2025,” algoritme ekstraksi peristiwa akan mengidentifikasi bahwa konferensi tersebut berlangsung pada bulan Januari 2025 dan salah satu pesertanya adalah CEO IBM Arvind Krishna.

Analisis sentimen

Analisis sentimen menentukan perasaan yang disampaikan oleh sepotong teks. Analisis sentimen adalah alat yang berharga untuk melakukan riset pasar dan memahami perilaku pelanggan.

Jika diberikan kumpulan data yang terdiri dari ulasan pengguna, algoritme IE dapat memberikan insight semantik yang mengungkapkan persentase konsumen yang merasa positif, negatif, atau netral terhadap suatu produk. Manajer produk selanjutnya dapat mengambil insight tersebut dan mengubah produk agar lebih menarik bagi sebagian besar pengguna saat ini dan calon pengguna.

Bagaimana cara kerja ekstraksi informasi?

Ekstraksi informasi bekerja dengan mengurai sumber data yang tidak terstruktur dengan algoritme machine learning untuk mengidentifikasi data yang bermakna. Sistem IE memberi label pada entitas data yang ditemukan dan menyimpannya dalam basis data yang terorganisir dan dapat ditelusuri untuk pengambilan yang efisien.

Teknik ekstraksi informasi meliputi:

Berbasis aturan
Klasifikasi (machine learning)
Pelabelan urutan

Metode-metode ini tidak saling terpisah—kemajuan dalam IE telah menghasilkan model hybrid yang menggabungkan berbagai metode untuk hasil yang lebih baik.

Ekstraksi informasi berbasis aturan

Ekstraksi informasi berbasis aturan mengurai dokumen untuk mengidentifikasi entitas berdasarkan "aturan" yang telah ditetapkan—pola dan definisi yang telah diketahui tentang entitas dalam teks. IE berbasis aturan paling sering diterapkan pada sumber data semi-terstruktur—data yang tidak sepenuhnya terstruktur tetapi masih memiliki beberapa fitur pengenal seperti tag atau metadata.

IE berbasis aturan dari atas ke bawah bekerja dengan mengembangkan dari kasus umum ke kasus khusus, sedangkan metode bottom-up melakukan sebaliknya.

Ekstraksi informasi berbasis klasifikasi

IE berbasis klasifikasi adalah proses 2 langkah yang mendekati ekstraksi informasi sebagai tugas klasifikasi pembelajaran yang diawasi . Pertama, model machine learning dilatih pada kumpulan data berlabel untuk mempelajari hubungan antara entitas dan atribut yang sesuai. Model kemudian memprediksi label untuk entitas yang mereka identifikasi dalam data baru yang tidak terstruktur.

Pelabelan urutan

Pelabelan urutan adalah landasan NLP dan menggunakan model pembelajaran mendalam untuk mengidentifikasi dan memberi label komponen urutan input—misalnya, kata-kata dalam prompt chatbot. Pelabelan urutan adalah langkah prapemrosesan NLP yang penting, yang membantu memastikan bahwa neural networks tahu persis bagaimana cara menafsirkan input.

Selain mengidentifikasi entitas dalam data, pelabelan urutan juga menangkap ketergantungan antara bagian-bagian dari urutan input. Ketergantungan adalah jenis hubungan khusus di mana satu bagian dari urutan input bergantung pada bagian lain untuk ditafsirkan dengan benar. Model transformator seperti teknologi serba guna(GPT) unggul dalam menangkap ketergantungan, sehingga dapat mempertahankan pemahaman kontekstual di seluruh urutan input yang panjang.

Melampaui hype—Bagaimana asisten AI mendorong nilai bisnis nyata

Jelajahi contoh penggunaan teratas untuk menggunakan asisten AI, pahami dampak potensial dari gen AI dan teknologi otomatisasi pada bisnis Anda, dan pelajari cara memulai.

Apa itu ekstraksi informasi?

Apa itu ekstraksi informasi?

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Mengapa ekstraksi informasi itu penting?

Pengambilan informasi

Pengambilan keputusan berbasis data

Decoding AI: Rangkuman Berita Mingguan

Jenis ekstraksi informasi

Named entity recognition (NER)

Penautan entitas

Ekstraksi relasi (ER)

Ekstraksi relasi versus ekstraksi hubungan

Ekstraksi peristiwa

Analisis sentimen

Bagaimana cara kerja ekstraksi informasi?

Ekstraksi informasi berbasis aturan

Ekstraksi informasi berbasis klasifikasi

Pelabelan urutan

Sumber daya

Catatan kaki

Apa itu ekstraksi informasi?

Apa itu ekstraksi informasi?

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Mengapa ekstraksi informasi itu penting?

Pengambilan informasi

Pengambilan keputusan berbasis data

Decoding AI: Rangkuman Berita Mingguan

Jenis ekstraksi informasi

Named entity recognition (NER)

Penautan entitas

Ekstraksi relasi (ER)

Ekstraksi relasi versus ekstraksi hubungan

Ekstraksi peristiwa

Analisis sentimen

Bagaimana cara kerja ekstraksi informasi?

Ekstraksi informasi berbasis aturan

Ekstraksi informasi berbasis klasifikasi

Pelabelan urutan

Share

Sumber daya

Catatan kaki