Waktu membaca
Ekstraksi informasi (IE) adalah proses otomatis mengekstraksi informasi terstruktur dari data teks semi-terstruktur atau tidak terstruktur, mengubah sumber teks bahasa manusia seperti PDF ke dalam format yang terorganisir, mudah dicari, dan dapat dibaca oleh mesin. Pemrosesan bahasa alami (NLP) bergantung pada ekstraksi informasi untuk mengidentifikasi data penting dalam teks input.
Algoritme ekstraksi informasi dapat mengidentifikasi entitas, termasuk nama, hubungan, peristiwa, sentimen, dan lainnya, kemudian mengklasifikasikan dan menyimpannya dalam database untuk digunakan lebih lanjut. Informasi terstruktur yang dihasilkan memiliki format standar dan biasanya disimpan dalam baris dan kolom yang mengidentifikasi atributnya. Penyimpanan standar adalah pembeda utama antara data terstruktur dan data tidak terstruktur.
Semua nilai data dalam database yang sama mengikuti format terstruktur yang sama dengan atribut yang sama. Atribut relasional juga disorot untuk menghubungkan database bersama-sama berdasarkan atribut bersama.
Ekstraksi informasi memungkinkan perusahaan untuk mengubah dokumen menjadi kumpulan data yang dapat ditindaklanjuti dan menghasilkan insight yang berharga darinya. Pasar pemrosesan dokumen cerdas—yang difasilitasi oleh IE—diproyeksikan tumbuh dengan laju pertumbuhan tahunan gabungan (CAGR) sebesar 33,1% hingga tahun 2030 dari nilai USD 2,3 miliar pada tahun 2024.1
Sistem ekstraksi informasi menjadi dasar bagi pengambilan informasi secara otomatis: penggunaan algoritme kecerdasan buatan (AI) untuk secara otomatis menemukan dan mengambil data yang relevan dari basis pengetahuan. Pencarian informasi merupakan komponen penting dari generasi dengan dukungan pengambilan data (RAG), sebuah proses di mana model bahasa besar (LLM) mendapatkan akses ke lebih banyak data untuk mendapatkan akurasi yang tinggi dalam contoh penggunaan khusus domain.
RAG dapat membuat chatbot LLM lebih akurat ketika diterapkan pada tugas menjawab pertanyaan karena LLM dapat memanfaatkan lebih banyak pengetahuan di luar data pelatihannya untuk menghasilkan jawaban yang lebih baik.
Pemimpin bisnis dapat menggunakan informasi yang diekstraksi untuk memfasilitasi pengambilan keputusan berbasis data secara real-time. IE adalah tahap awal dalam siklus pemrosesan informasi yang lebih besar di mana informasi diperoleh, diorganisir, disimpan, dimanipulasi, dan tersedia untuk digunakan.
Pipeline data memberikan informasi di seluruh perusahaan, menghubungkan titik input—misalnya, pesanan online—ke database. Dari sana, alat visualisasi data memanfaatkan data tersebut untuk membuat bagan dan grafik secara real-time, mengungkapkan insight yang dapat ditindaklanjuti yang mendorong pengambilan keputusan strategis.
Kumpulan data besar data terstruktur yang di-output oleh sistem IE dapat digunakan untuk membuat laporan dan ringkasan. Algoritme machine learning untuk IE juga dapat melakukan peringkasan teks untuk memadatkan dokumen yang mendetail menjadi poin yang dapat dicerna dengan cepat dengan anotasi untuk referensi cepat.
Sebagai contoh, IE dalam perawatan kesehatan dapat secara otomatis menyusun laporan pasien dari beberapa file, yang berpotensi memudahkan dokter untuk mendiagnosis masalah dan meresepkan perawatan. Profesional keuangan dapat menghasilkan perkiraan yang lebih akurat dengan informasi yang diambil dari berbagai laporan, artikel berita, dan sumber lainnya.
Tugas ekstraksi informasi dikategorikan berdasarkan jenis informasi yang diidentifikasi dan diberi label. Sistem IE dapat menangani berbagai tugas termasuk:
Named entity recognition atau pengenalan entitas bernama adalah tugas IE untuk mengidentifikasi entitas bernama dalam data tidak terstruktur. Entitas bernama adalah objek dunia nyata yang dapat diidentifikasi secara unik. Pada dasarnya,ini adalah kata benda yang tepat untuk data. Entitas bernama termasuk orang, tanggal, perusahaan, tempat, dan produk dan dapat berupa fisik atau abstrak.
Dalam kalimat "Pada Januari 2025, Arvind Krishna adalah CEO IBM," entitas yang disebutkan termasuk Januari 2025, Arvind Krishna, CEO dan IBM."
Penautan entitas adalah proses mencari tahu apakah beberapa entitas mengacu pada objek dunia nyata yang sama. Saat melakukan IE pada artikel yang menyebutkan "Arvind Krishna," "Krishna" dan "CEO IBM", entitas yang menghubungkan subtugas akan mengidentifikasi ketiganya sebagai referensi ke orang yang sama. Penautan entitas juga disebut sebagai resolusi coreference.
Ekstraksi relasi adalah tugas ekstraksi informasi untuk mengidentifikasi dan mengategorikan hubungan antara entitas dalam sumber data. Mengungkap hubungan antara entitas dapat membuka pintu terhadap insight yang mungkin luput dari perhatian.
Dalam contoh kalimat kita di awal bagian ini, proses RE akan menarik hubungan “bekerja di” antara “Arvind Krishna” dan “IBM” dengan jabatan “CEO”.
Istilah ekstraksi relasi dan ekstraksi hubungan kerap kali digunakan secara bergantian, tetapi beberapa ilmuwan data berpendapat bahwa ada perbedaan yang samar di antara keduanya. Sementara ekstraksi relasi mencakup setiap upaya untuk memahami hubungan antara entitas, ekstraksi relasi paling sering digunakan terkait penerapan model machine learning untuk menyelesaikan tugas ini.
Ekstraksi peristiwa adalah cara sistem IE mengenali kejadian terpisah pada isi input. Kata-kata seperti “janji temu” atau “rapat” dapat memicu urutan ekstraksi peristiwa, begitu pula tanggal. Ekstraksi peristiwa mencakup peristiwa itu sendiri, waktu dan tanggal terjadinya, serta setiap peserta yang disebutkan.
Dalam kalimat contoh, “Arvind Krishna menghadiri konferensi pada bulan Januari 2025,” algoritme ekstraksi peristiwa akan mengidentifikasi bahwa konferensi tersebut berlangsung pada bulan Januari 2025 dan salah satu pesertanya adalah CEO IBM Arvind Krishna.
Analisis sentimen menentukan perasaan yang disampaikan oleh sepotong teks. Analisis sentimen adalah alat yang berharga untuk melakukan riset pasar dan memahami perilaku pelanggan.
Jika diberikan kumpulan data yang terdiri dari ulasan pengguna, algoritme IE dapat memberikan insight semantik yang mengungkapkan persentase konsumen yang merasa positif, negatif, atau netral terhadap suatu produk. Manajer produk selanjutnya dapat mengambil insight tersebut dan mengubah produk agar lebih menarik bagi sebagian besar pengguna saat ini dan calon pengguna.
Ekstraksi informasi bekerja dengan mengurai sumber data yang tidak terstruktur dengan algoritme machine learning untuk mengidentifikasi data yang bermakna. Sistem IE memberi label pada entitas data yang ditemukan dan menyimpannya dalam basis data yang terorganisir dan dapat ditelusuri untuk pengambilan yang efisien.
Teknik ekstraksi informasi meliputi:
Metode-metode ini tidak saling terpisah—kemajuan dalam IE telah menghasilkan model hybrid yang menggabungkan berbagai metode untuk hasil yang lebih baik.
Ekstraksi informasi berbasis aturan mengurai dokumen untuk mengidentifikasi entitas berdasarkan "aturan" yang telah ditetapkan—pola dan definisi yang telah diketahui tentang entitas dalam teks. IE berbasis aturan paling sering diterapkan pada sumber data semi-terstruktur—data yang tidak sepenuhnya terstruktur tetapi masih memiliki beberapa fitur pengenal seperti tag atau metadata.
IE berbasis aturan dari atas ke bawah bekerja dengan mengembangkan dari kasus umum ke kasus khusus, sedangkan metode bottom-up melakukan sebaliknya.
IE berbasis klasifikasi adalah proses 2 langkah yang mendekati ekstraksi informasi sebagai tugas klasifikasi pembelajaran yang diawasi. Pertama, model machine learning dilatih pada kumpulan data berlabel untuk mempelajari hubungan antara entitas dan atribut yang sesuai. Model kemudian memprediksi label untuk entitas yang mereka identifikasi dalam data baru yang tidak terstruktur.
Pelabelan urutan adalah landasan NLP dan menggunakan model pembelajaran mendalam untuk mengidentifikasi dan memberi label komponen urutan input—misalnya, kata-kata dalam prompt chatbot. Pelabelan urutan adalah langkah prapemrosesan NLP yang penting, yang membantu memastikan bahwa neural networks tahu persis bagaimana cara menafsirkan input.
Selain mengidentifikasi entitas dalam data, pelabelan urutan juga menangkap ketergantungan antara bagian-bagian dari urutan input. Ketergantungan adalah jenis hubungan khusus di mana satu bagian dari urutan input bergantung pada bagian lain untuk ditafsirkan dengan benar. Model transformator seperti teknologi serba guna(GPT) unggul dalam menangkap ketergantungan, sehingga dapat mempertahankan pemahaman kontekstual di seluruh urutan input yang panjang.
IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
Temukan bagaimana pemrosesan bahasa alami dapat membantu Anda berkomunikasi lebih alami dengan komputer.
Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.
Jelajahi situs web IBM Developer untuk mengakses blog, artikel, buletin, dan mempelajari lebih lanjut tentang AI yang dapat disematkan IBM.
Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.
Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.
Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.