Apa itu pengambilan informasi?

Penyusun

Jacob Murel Ph.D.

Senior Technical Content Creator

Meredith Syed

Technical Content, Editorial Lead

IBM

Apa itu pengambilan informasi?

Pengambilan informasi (IR) adalah bidang ilmu komputer dan ilmu informasi yang luas, yang membahas pengambilan data untuk permintaan pengguna. Proses ini mendukung alat pencarian seperti katalog pustaka dan mesin pencari web.

Secara umum, kita dapat mendefinisikan IR sebagai penemuan data tidak terstruktur dalam kumpulan besar untuk memenuhi kebutuhan informasi tertentu.1 Sistem IR—sistem pengambilan informasi—menyediakan materi untuk menanggapi pertanyaan yang diberikan. Sistem ini mencari kumpulan data untuk item yang relevan dengan kueri pengguna. Sistem ini kemudian menampilkan item tersebut kepada pengguna, biasanya dalam bentuk daftar yang diurutkan berdasarkan perhitungan relevansi.2

Sistem dan teknik IR mendukung berbagai alat pencarian, termasuk mesin pencari web dan katalog perpustakaan digital.

Pengambilan informasi versus pengambilan data

Perlu dicatat bahwa banyak sumber online membandingkan sistem IR dengan pengambilan data: sistem IR berfokus pada pengambilan informasi tidak terstruktur, seperti dokumen teks dan halaman web, sementara pengambilan data berurusan dengan data terstruktur yang biasanya ditemukan dalam sistem manajemen basis data relasional. Dengan menggunakan ekstensi, data dapat diambil menggunakan Structured Query Language (SQL) untuk menjalankan kueri pencarian.

Perbedaan antara Information Retrieval (IR) yang dianggap tidak terstruktur dan non-relasional dengan pencarian data yang bersifat terstruktur dan relasional sebenarnya lebih jelas dibandingkan apa yang sering disampaikan oleh banyak sumber online. Indeks sistem IR, dan dengan demikian struktur, informasi. Sebagai contoh, meskipun secara tradisional IR berfokus pada pengambilan dokumen teks mentah, beberapa sistem IR juga menggunakan XML untuk merepresentasikan dan mengindeks teks. Literatur penelitian sering menggambarkan sistem berbasis XML sebagai cabang dari IR yang dikenal sebagai pengambilan terstruktur atau pengambilan semi-terstruktur.3 Selain itu, literatur telah mengeksplorasi penggunaan model IR berbasis relasional selama beberapa dekade.4

Perbedaan antara IR dan pengambilan data menjadi lebih ambigu dibandingkan pemahaman tradisional. Mengingat bahwa data, secara definisi, merupakan bentuk informasi, pengambilan data terstruktur dapat dianggap sebagai salah satu jenis pengambilan informasi.

Pengambilan informasi versus sistem pemberi rekomendasi

Perhatikan bahwa IR berbeda dari sistem rekomendasi. Teknik rekomendasi berbasis machine learning—seperti penyaringan kolaboratif dan pemfilteran berbasis konten—dapat dianggap sebagai bentuk penyaringan informasi yang merupakan salah satu sub-tugas dari sistem IR. Namun demikian, sistem IR dan rekomendasi berbeda. Secara tradisional IR membutuhkan kueri dari pengguna, sedangkan mesin rekomendasi biasanya mengambil objek tanpa memerlukan kueri pengguna.5

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Cara kerja sistem pengambilan informasi

Berbagai model IR merepresentasikan informasi dengan cara yang berbeda. Bentuk representasi dokumen yang dipilih sangat memengaruhi cara model mencari dan mengambil informasi. Namun, teknik umum yang digunakan di seluruh model IR mencakup pengindeksan, pembobotan, dan pemberian masukan relevansi.

Pengindeksan

Pengindeksan pada dasarnya sama dengan pembuatan metadata.6 Banyak orang pernah menjumpai indeks di bagian belakang buku cetak. Indeks ini adalah kumpulan kata-kata yang disusun secara terstruktur dari isi buku, dirancang untuk memudahkan pembaca menemukan bagian tertentu yang berkaitan dengan topik tertentu. Indeks IR serupa. Indeks IR (atau indeks terbalik) adalah struktur data yang bersumber dari sekumpulan dokumen yang dimaksudkan untuk meningkatkan hasil pencarian.7

Konstruksi indeks memerlukan penguraian dokumen terlebih dahulu untuk ekstraksi fitur. Misalnya, katakanlah kita membuat sistem IR untuk dokumen berbasis teks. Seperti halnya dalam pemrosesan bahasa alami (NLP), kami menyiapkan kumpulan dokumen menggunakan berbagai teknik preprocessing, seperti tokenisasi dan penghapusan stop words (kata berhenti). Sistem IR mengubah kumpulan dokumen yang telah diproses menjadi struktur data yang terorganisasi. Salah satu struktur tersebut adalah sebuah kamus, di mana setiap dokumen diidentifikasi dengan ID yang terkait dengan kata-kata (atau istilah indeks) yang muncul di dalamnya.8 Struktur data potensial lainnya untuk sistem pengambilan teks adalah model ruang vektor, seperti bag of words.9 Kedua pendekatan ini menggunakan kata-kata sebagai fitur utama untuk mengekstrak, mengambil, dan memberi peringkat dokumen berdasarkan pertanyaan yang diajukan oleh pengguna.

Pembobotan

Bagaimana sistem pencarian menentukan peringkat hasil berdasarkan kecocokan perkiraan atau kecocokan tepat terhadap kueri yang diberikan? Pendekatan pemeringkatan dan pengambilan informasi sangat bergantung pada jenis model pengambilan informasi yang digunakan serta bentuk representasi dokumen dalam sistem tersebut. Namun, istilah indeks memegang peranan penting dalam menentukan peringkat dokumen yang relevan sebagai respons terhadap kueri. Tetapi tidak semua istilah indeks sama. Sistem IR dengan demikian menggunakan metode yang berbeda untuk menimbang istilah indeks sesuai pentingnya yang dirasakan.

Sistem IR yang menggunakan model ruang vektor, seperti bag of words, dapat menggunakan istilah frekuensi dari frekuensi dokumen terbalik (TF-IDF). TF-IDF adalah variasi dari bag of words yang memperhitungkan prevalensi kata di setiap dokumen dalam kumpulan teks. Semakin banyak dokumen di mana kata tertentu muncul, semakin besar TF-IDF mengurangi bobot kata itu. Pendekatan lain termasuk dekomposisi nilai tunggal (SVD) dan analisis semantik laten (LSA), yang terakhir merupakan pendekatan pemodelan topik yang umum.10

Pendekatan pembobotan semacam ini memengaruhi cara sistem IR menentukan peringkat dokumen sebagai respons terhadap pertanyaan. Namun, setiap jenis model IR memanfaatkan bobot tersebut dengan metode yang berbeda.

Masukan relevansi

Bagaimana sebuah sistem dapat meningkatkan hasil pencariannya? Dengan kata lain, bagaimana sistem dapat melakukan fine tuning lebih lanjut terhadap pencarian pengguna untuk meningkatkan jumlah dokumen relevan yang ditemukan?

Masukan relevansi merupakan teknik umum dalam pengambilan informasi untuk meningkatkan hasil pencarian. Masukan yang relevan melibatkan pengumpulan informasi berdasarkan respons pengguna terhadap hasil pencarian awal. Sistem kemudian menyesuaikan bobot relevansi item berdasarkan tanggapan tersebut. Kemudian menghasilkan hasil pencarian baru yang menggabungkan kueri awal dengan masukan pengguna dari hasil pencarian sebelumnya.

Masukan relevansi biasanya melibatkan tanggapan eksplisit dari pengguna mengenai relevansi dokumen yang diambil. Sebagai alternatif, terdapat masukan implisit, yang menyimpulkan relevansi dokumen berdasarkan perilaku pengguna—seperti tautan situs web yang diklik di halaman hasil pencarian. Masukan yang relevan dan semu mengasumsikan bahwa n dokumen teratas yang diambil dari hasil kueri awal dianggap relevan. Kemudian ia mengumpulkan fitur-fitur tambahan yang umum di seluruh dokumen tersebut untuk memodifikasi kueri lebih lanjut.11

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Jenis teknik pengambilan informasi

Model pengambilan informasi terdiri atas berbagai jenis. Untuk menjelaskan semuanya secara mendalam memerlukan pembahasan yang jauh lebih luas. Namun, buku teks tentang IR dan ulasan ensiklopedis sering kali menyebutkan tiga pendekatan utama yang umum digunakan: Boolean, aljabar, dan probabilistik.

Model Boolean

Model Boolean mungkin merupakan model IR yang paling mudah, bahkan sederhana. Mereka menggunakan struktur kamus istilah indeks seperti yang dijelaskan sebelumnya. Model kemudian memberi peringkat dokumen sesuai dengan keberadaan kata-kata dari kueri pengguna dalam dokumen yang diambil. Misalnya, jika pengguna memberikan kueri, "jazz DAN dancing," model Boolean hanya mengambil dokumen yang berisi kombinasi kata jazz dan dancing. Dengan demikian, model Boolean hanya memperhitungkan ada atau tidak adanya kata dalam dokumen; kecocokan parsial tidak ada dalam sistem pengambilan Boolean. Teknik prapemrosesan teks seperti stemming dan lemmatization dapat mengatasi masalah varian morfologis ini—seperti dokumen yang berisi dance, dances, atau dancer, bukan hanya kueri pengguna yang dancing.

Model Boolean, seperti yang telah disebutkan, hanya memperhitungkan keberadaan atau ketiadaan kata dalam dokumen. Pendekatan biner ini tidak menyediakan mekanisme untuk menentukan tingkat relevansi dokumen terhadap kueri pengguna. Salah satu solusi yang dapat diterapkan adalah memberikan penilaian relevansi berdasarkan frekuensi kemunculan istilah kueri pengguna di dalamnya. Dengan kata lain, semakin banyak dokumen yang menyebutkan jazz dan dancing, semakin relevan model tersebut untuk kueri pengguna. Namun, peningkatan frekuensi istilah tidak selalu menunjukkan relevansi yang lebih besar. Terlepas dari kelemahan potensial ini, model Boolean telah digunakan di banyak sistem IR karena kemudahan implementasinya.12

Model aljabar

Model Boolean untuk pengambilan dokumen membatasi pencocokan hanya pada kesesuaian penuh, sehingga tidak mendukung pencocokan parsial. Model aljabar dan probabilistik mengatasi keterbatasan ini dengan menetapkan bobot non-biner pada istilah indeks.

Salah satu pendekatan aljabar yang umum adalah model ruang vektor. Dalam pendekatan ini, sistem IR merepresentasikan dokumen dan kueri sebagai vektor dalam ruang vektor multidimensi. Di dalam ruang ini, istilah indeks berfungsi sebagai fitur, dan dokumen serta kueri dari ruang vektor dipetakan berdasarkan keberadaan serta frekuensi yang mengandung istilah indeks. Sistem IR kemudian menghitung tingkat kesamaan antara kueri dan dokumen berdasarkan kedekatan posisi mereka dalam ruang vektor tersebut.

Terdapat banyak metrik yang digunakan untuk mengukur kedekatan dalam model ruang vektor, seperti Jaccard dan perkalian titik. Namun, salah satu metrik yang paling umum digunakan adalah kesamaan kosinus yang dinyatakan dengan rumus:

 cosine_similarity(A,B)=i=1nAiBii=1nAi2i=1nBi2   

Di sini, A dan B menandakan dua vektor dalam ruang vektor. Skor kesamaan kosinus dapat berupa nilai antara -1 dan 1. Semakin tinggi skor kosinus, kedua item semakin dianggap mirip.

Model ruang vektor IR mengembalikan dokumen secara berurutan sesuai dengan tingkat kesamaan yang diukur. Dengan pendekatan ini, sistem IR aljabar, seperti model ruang vektor, mendukung pencocokan parsial, yang dapat memberikan hasil pencarian informasi yang lebih akurat dan bernuansa.13

Model probabilistik

Model probabilistik memungkinkan pencocokan sebagian antara kueri pengguna dan dokumen. Model probabilistik bekerja dengan asumsi bahwa setiap kueri memiliki himpunan dokumen ideal yang dapat diambil dari sistem informasi. Set ideal ini, diakui, tidak diketahui. Tetapi semantik istilah indeks dapat mengkarakterisasi properti himpunan ini.

Sama seperti model aljabar, model probabilistik memanfaatkan keberadaan dan frekuensi istilah indeks untuk mengukur tingkat kesesuaian antara kueri dan dokumen. Namun, model probabilistik berbeda karena mempertimbangkan faktor-faktor tambahan. Misalnya, mereka dapat mempertimbangkan frekuensi kemunculan bersama istilah indeks—yaitu seberapa sering istilah indeks muncul bersamaan dalam sebuah dokumen—dalam kaitannya dengan panjang keseluruhan dokumen, atau seberapa sering istilah indeks tertentu muncul dibandingkan dengan semua istilah kueri dalam kueri tertentu. Ini hanyalah beberapa faktor yang dapat dipertimbangkan—pembahasan lebih mendalam memerlukan pemahaman yang lebih komprehensif tentang teori probabilitas.

Perlu dicatat bahwa tidak semua model probabilistik menggunakan faktor yang sama dalam menghitung kesamaan dokumen atau probabilitas. Misalnya, model independensi biner (BIM), sebagai model IR probabilistik pertama, tidak memperhitungkan frekuensi kemunculan istilah. Model yang menggunakan teknik pemodelan topik, seperti latent Dirichlet allocation (LDA), akan mempertimbangkan ko-frekuensi istilah.14

Penelitian terbaru

Bias. Mesin pencari web adalah salah satu contoh penggunaan paling terkenal dari sistem IR. Algoritme seperti PageRank digunakan untuk meringkas, mengambil, dan memberi peringkat pada halaman web (dokumen HTML). Penelitian telah menunjukkan bahwa algoritme pencarian sering kali melanggengkan berbagai bias, termasuk bias rasial dan gender.15 Sebagai tanggapan, berbagai eksperimen yang telah dipublikasikan mengeksplorasi sejumlah metode untuk mengurangi bias sosial dalam sistem IR, mencakup pengambilan sampel negatif16 dan penggunaan algoritme yang sadar akan bias, yang dirancang untuk memasukkan penalti terhadap hasil yang mengandung bias.17 Mitigasi bias menjadi salah satu fokus utama penelitian dalam mengembangkan praktik etis terkait sistem IR dan kecerdasan buatan.

Solusi terkait
IBM watsonx Orchestrate

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate
Alat dan API pemrosesan bahasa alami

Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.

Jelajahi solusi NLP
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate Jelajahi solusi NLP
Catatan kaki

1 Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

2 Qiaozhu Mei dan Dragomir Radev, “Information Retrieval”, The Oxford Handbook of Computational Linguistics,  edisi ke-2, Oxford University Press, 2016.

3 Christopher Manning, Prabhakar Raghavan, dan Hinrich Schütze, Pengantar Pengambilan Informasi, Cambridge University Press, 2009. Mounia Lalmas dan Ricardo Baeza-Yates, “Pengambilan Dokumen Terstruktur,” Encyclopedia of Database Systems, Springer, 2018.

4 Robert Crawford, “The relational model in information retrieval,” Journal of the American Society for Information Science, Vol. 32, No. 1, 1981, hlm. 51-64.

5 Alejandro Bellogín and Alan Said, “Information Retrieval and Recommender Systems,” Data Science in Practice, Springer, 2018.

6 Jeffrey Pomerantz, Metadata, MIT Press, 2015.

7 Steven Beitzel, Eric Jensen, dan Ophir Frieder, “Index Creation and File Structures,” Encyclopedia of Database Systems, Springer, 2018.

8 Christopher Manning, Prabhakar Raghavan, dan Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

10 Qiaozhu Mei dan Dragomir Radev, “Information Retrieval”, Oxford Handbook of Computational Linguistics,  edisi ke-2, Oxford University Press, 2016.

10 Qiaozhu Mei dan Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, edisi ke-2, Oxford University Press, 2016. Ricardo Baeza-Yates dan Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999.

11 Qiaozhu Mei dan Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, edisi ke-2, Oxford University Press, 2016. Stefan Büttcher, Charles Clarke, dan Gordon Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2016.

12 Ricardo Baeza-Yates dan Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan, dan Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

13 Qiaozhu Mei dan Dragomir Radev, “Information Retrieval”, Oxford Handbook of Computational Linguistics, edisi ke-2, Oxford University Press, 2016. Christopher Manning, Prabhakar Raghavan, dan Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

14 Ricardo Baeza-Yates dan Berthier Ribeiro-Neto, Pengambilan Informasi Modern, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan, dan Hinrich Schütze, Pengantar Temu Kembali Informasi, Cambridge University Press, 2009.

15 Safiya Umoja Noble, Algorithms of Oppression: How Search Engines Reinforce Racism, NYU Press, 2018.

16 Amin Bigdeli et al., “A Light-Weight Strategy for Restraining Gender Biases in Neural Rankers,” Proceedings of the 44th European Conference on Advances in Information Retrieval, 2022, hlm. 47-55.

17 Dhanasekar Sundararaman dan Vivek Subramanian, “Debiasing Gender Bias in Information Retrieval Models,” 2022, https://arxiv.org/abs/2208.01755. Shirin Seyed Salehi et al., “Bias-aware Fair Neural Ranking for Addressing Stereotypical gender Biases,” Microsoft Research, 2022.