Apa itu pemfilteran berbasis konten?

21 Maret 2024

Penyusun

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

Penyaringan berbasis konten adalah salah satu dari dua jenis utama sistem rekomendasi. Aplikasi ini merekomendasikan item kepada pengguna sesuai dengan fitur masing-masing item.

Pemfilteran berbasis konten adalah metode pencarian informasi yang menggunakan fitur item untuk memilih dan mengembalikan item yang relevan dengan kueri pengguna. Metode ini sering kali memperhitungkan fitur item lain yang diminati pengguna.Namun, berbasis konten adalah istilah yang agak keliru. Beberapa algoritme rekomendasi berbasis konten mencocokkan item berdasarkan fitur deskriptif (misalnya, metadata) yang dilampirkan pada item, bukan pada konten sebenarnya dari suatu item.2 Namun demikian, beberapa metode berbasis konten, misalnya pengambilan gambar berbasis konten atau aplikasi pemrosesan bahasa alami, memang mencocokkan item sesuai dengan atribut item intrinsik.

Penyaringan berbasis konten vs penyaringan kolaboratif

Penyaringan berbasis konten adalah salah satu dari dua jenis utama sistem rekomendasi. Yang lainnya adalah metode penyaringan kolaboratif. Pendekatan terakhir ini mengelompokkan pengguna ke dalam kelompok yang berbeda berdasarkan perilaku mereka. Dengan menggunakan karakteristik kelompok secara umum, kemudian mengembalikan item tertentu ke seluruh kelompok dengan prinsip bahwa pengguna yang serupa (dari segi perilaku) tertarik pada item yang serupa.3

Kedua metode ini telah menjadi saksi dari banyak aplikasi di dunia nyata dalam beberapa tahun terakhir, mulai dari e-commerce seperti Amazon, media sosial, hingga layanan streaming. Bersama, sistem kolaboratif dan sistem berbasis konten membentuk sistem rekomendasi hybrid. Bahkan, pada tahun 2009, Netflix mengadopsi sistem rekomendasi hybrid melalui kompetisi hadiah Netflix.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Cara kerja pemfilteran berbasis konten

Sistem rekomendasi berbasis konten (CBRS) menggabungkan algoritma machine learning dan teknik ilmu data untuk merekomendasikan item baru dan menjawab pertanyaan.

Komponen pemfilteran berbasis konten

Di CBRS, mesin rekomendasi pada dasarnya membandingkan profil pengguna dan profil item untuk memprediksi interaksi item pengguna dan merekomendasikan item yang sesuai.

  • Profil item adalah representasi item dalam sistem. Ini terdiri dari kumpulan fitur item, yang dapat berupa karakteristik terstruktur internal atau metadata deskriptif. Misalnya, layanan streaming dapat menyimpan film menurut genre, tanggal rilis, sutradara, dan sebagainya.
  • Jadi, profil pengguna mewakili preferensi dan perilaku pengguna. Profil ini dapat terdiri atas representasi dari item di mana pengguna sebelumnya telah menunjukkan minat. Profil ini juga terdiri atas data pengguna tentang interaksi mereka di masa lalu dengan sistem (misalnya, suka, tidak suka, rating, pertanyaan, dll.).4

Representasi item

CBRS sering mewakili item dan pengguna sebagai penyematan dalam ruang vektor. Item dikonversi ke vektor menggunakan deskripsi metadata atau karakteristik internal sebagai fitur. Misalnya, kita membuat profil item untuk merekomendasikan novel baru kepada pengguna sebagai bagian dari toko buku online. Kami kemudian membuat profil untuk setiap novel menggunakan metadata representatif, seperti penulis, genre, dll. Nilai sebuah novel untuk kategori tertentu dapat diwakili dengan nilai Boolean, di mana 1 menunjukkan keberadaan novel dalam kategori tersebut dan 0 menunjukkan ketidakhadirannya. Dengan sistem ini, kami berpotensi merepresentasikan sejumlah kecil novel menurut genre:

Di sini, setiap genre merupakan dimensi yang berbeda dari ruang vektor kami, dengan nilai-nilai dalam novel tertentu mewakili posisinya dalam ruang vektor tersebut. Misalnya, Little Women terletak di (1,0,1), Northanger Abbey di (0,0,1), dan seterusnya. Kita dapat memvisualisasikan ruang vektor sampel ini sebagai:

Semakin dekat dua vektor baru dalam ruang vektor, semakin mirip sistem kami menganggapnya sesuai dengan fitur yang disediakan.5 Peter Pan dan Treasure Island memiliki fitur yang sama persis, muncul di titik vektor yang sama (1,1,0). Menurut sistem kami, maka, keduanya identik. Keduanya memang memiliki banyak perangkat plot yang sama (misalnya, pulau-pulau terpencil dan bajak laut) dan tema (misalnya, bertumbuh dewasa atau perlawanan terhadapnya). Sebaliknya, meskipun Little Women juga merupakan novel anak-anak, novel ini bukanlah sebuah petualangan, tapi sebuah bildungsroman (novel bertumbuh dewasa). Meskipun Little Women adalah novel anak-anak seperti Peter Pan dan Treasure Island, novel ini tidak memiliki nilai fitur petualangan dan memiliki nilai fitur 1 untuk bildungsroman, yang tidak dimiliki oleh kedua novel lainnya. Hal ini memposisikan Little Women lebih dekat dengan Northanger Abbey dalam ruang vektor, karena mereka memiliki nilai fitur yang sama untuk fitur petualangan dan bildungsroman.

Karena kemiripannya dalam bidang ini, jika pengguna sebelumnya pernah membeli Peter Pan, sistem akan merekomendasikan novel-novel yang paling mirip dengan Peter Pan, seperti Treasure Island, kepada pengguna tersebut sebagai potensi pembelian di masa mendatang. Perhatikan bahwa jika kita menambahkan lebih banyak novel dan fitur berbasis genre (misalnya, fantasi, gothic, dll.) posisi novel dalam ruang vektor akan bergerak. Misalnya, jika menambahkan dimensi genre fantasi, Peter Pan dan Treasure Island dapat bergerak sedikit dari yang lain mengingat yang pertama sering dianggap fantasi sementara yang terakhir tidak.

Perhatikan bahwa vektor item juga dapat dibuat menggunakan karakteristik internal item sebagai fitur. Misalnya, kita dapat mengubah item teks mentah (misalnya, artikel berita) ke dalam format terstruktur dan memetakannya ke ruang vektor, seperti "bag of words model". Dalam pendekatan ini, setiap kata yang digunakan di seluruh korpus menjadi dimensi ruang vektor yang berbeda, dan artikel yang menggunakan kata kunci yang sama muncul lebih dekat satu sama lain dalam ruang vektor.

Metrik kesamaan

Bagaimana sistem pemfilteran berbasis konten menentukan kesamaan antara sejumlah item? Seperti yang telah disebutkan, kedekatan dalam ruang vektor adalah metode utama. Metrik spesifik yang digunakan untuk menentukan kedekatan itu, bagaimanapun, dapat bervariasi. Metrik umumnya meliputi:

Kesamaan kosinus menandakan pengukuran sudut antara dua vektor. Ini dapat memiliki nilai antara -1 dan 1. Semakin tinggi skor kosinus, semakin mirip dua item yang dipertimbangkan. Beberapa sumber merekomendasikan metrik ini untuk ruang fitur dimensi tinggi. Kesamaan kosinus direpresentasikan oleh rumus ini, dimana x dan y menandakan dua vektor item dalam ruang vektor:7

Jarak Euklides mengukur panjang segmen garis hipotetis yang menghubungkan dua titik vektor. Skor jarak euklides mungkin serendah nol tanpa batas atas. Semakin kecil jarak Euklides kedua vektor item, maka mereka dianggap semakin mirip. Jarak Euclidean dihitung dengan rumus ini, di mana x dan y mewakili dua vektor item:8

Dot product adalah hasil kali kosinus sudut antara dua vektor dan masing-masing besaran Euklides vektor dari titik asal yang ditentukan. Dengan kata lain, ini adalah kosinus dari dua vektor dikalikan dengan proyeksi panjang masing-masing vektor yang merupakan perpindahan vektor dari titik awal yang ditentukan, seperti (0,0). Dot product paling baik digunakan untuk membandingkan item dengan besaran yang sangat berbeda, misalnya, popularitas buku atau film. Produk ini diwakili oleh rumus ini, di mana d dan q sekali lagi mewakili dua vektor item:9

Perhatikan bahwa metrik ini sensitif terhadap bagaimana vektor yang dibandingkan diberi bobot, karena pembobotan yang berbeda dapat secara signifikan memengaruhi fungsi penilaian ini.10 Metrik lain yang memungkinkan untuk menentukan kemiripan vektor adalah koefisien korelasi Pearson (atau korelasi Pearson) dan kemiripan Jaccard, dan indeks dadu.11

Prediksi interaksi item pengguna

CBRS membuat pengklasifikasi berbasis pengguna atau model regresi untuk merekomendasikan item kepada pengguna tertentu. Untuk memulai, algoritme mengambil deskripsi dan fitur dari item-item yang sebelumnya diminati oleh pengguna tertentu, yaitu profil pengguna. Item ini merupakan kumpulan data pelatihan yang digunakan untuk membuat model klasifikasi atau regresi khusus untuk pengguna tersebut. Dalam model ini, atribut item adalah variabel independen, dengan variabel dependen adalah perilaku pengguna (misalnya, rating pengguna, suka, pembelian, dll.). Model yang dilatih tentang perilaku masa lalu ini bertujuan untuk memprediksi perilaku pengguna di masa depan untuk item yang mungkin dan merekomendasikan item sesuai dengan prediksi.12

Keuntungan dan kerugian dari pemfilteran berbasis konten

Keuntungan

Masalah cold-start pada dasarnya terdiri atas bagaimana sistem menangani pengguna baru atau item baru. Keduanya menimbulkan masalah dalam penyaringan kolaboratif karena merekomendasikan item dengan mengelompokkan pengguna berdasarkan kesamaan perilaku dan preferensi yang disimpulkan. Akan tetapi, pengguna baru tidak memiliki kemiripan yang terbukti dengan yang lain, dan item baru tidak memiliki interaksi pengguna yang cukup (misalnya, rating) untuk merekomendasikannya. Meskipun pemfilteran berbasis konten kesulitan dengan pengguna baru, itu tetap menangani penggabungan item baru dengan baik. Itu karena sistem ini merekomendasikan item berdasarkan karakteristik internal atau metadata daripada interaksi pengguna sebelumnya.13

Pemfilteran berbasis konten memungkinkan tingkat transparansi yang lebih tinggi dengan menyediakan fitur yang dapat ditafsirkan yang menjelaskan rekomendasi. Sebagai contoh, sistem rekomendasi film dapat menjelaskan mengapa film tertentu direkomendasikan, seperti genre atau aktor yang tumpang tindih dengan film yang telah ditonton sebelumnya. Oleh karena itu, pengguna dapat membuat keputusan yang lebih tepat tentang apakah akan menonton film yang direkomendasikan.14

Kekurangan

Salah satu kelemahan utama pemfilteran berbasis konten adalah keterbatasan fitur. Rekomendasi berbasis konten diperoleh secara eksklusif dari fitur-fitur yang digunakan untuk mendeskripsikan item. Namun, fitur item suatu sistem mungkin tidak dapat menangkap apa yang disukai pengguna. Misalnya, kembali ke contoh sistem rekomendasi film, asumsikan seorang pengguna menonton dan menyukai film Gaslight tahun 1944. CBRS dapat merekomendasikan film lain yang disutradarai oleh George Cukor atau dibintangi Ingrid Bergman, tetapi film tersebut mungkin tidak mirip dengan Gaslight. Jika pengguna lebih menyukai suatu alur cerita tertentu (misalnya, suami yang suka menipu) atau elemen produksi (misalnya, sinematografer) yang tidak tercantum dalam profil item, sistem tidak akan memberikan rekomendasi yang sesuai. Pembedaan yang akurat antara kesukaan dan ketidaksukaan pengguna tidak dapat dicapai tanpa data yang memadai.15

Karena penyaringan berbasis konten hanya merekomendasikan item berdasarkan minat pengguna yang telah dibuktikan sebelumnya, rekomendasinya sering kali serupa dengan item yang disukai pengguna sebelumnya. Dengan kata lain, CBRS tidak memiliki metodologi untuk mengeksplorasi hal-hal yang baru dan tak terduga. Ini adalah spesialisasi yang berlebihan. Sebaliknya, metode berbasis kolaboratif mengambil rekomendasi dari kumpulan pengguna yang memiliki minat yang mirip dengan pengguna tertentu. Hal ini seringkali dapat merekomendasikan item yang mungkin belum dianggap oleh pengguna, memiliki fitur yang berbeda dari item sebelumnya yang disukai oleh pengguna, tetapi masih mempertahankan elemen-elemen yang tidak terwakili yang menggoda jenis pengguna tersebut.16

Mixture of Experts | Podcast

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Penelitian terbaru

Sementara penelitian sebelumnya telah mendekati rekomendasi sebagai masalah prediksi atau klasifikasi, sejumlah besar penelitian terbaru menyarankan bahwa rekomendasi harus dipahami sebagai masalah pengambilan keputusan yang berurutan. Dalam paradigma ini, reinforcement learning mungkin lebih cocok untuk mengatasi rekomendasi. Pendekatan ini berpendapat bahwa rekomendasi diperbarui secara real-time sesuai dengan interaksi item pengguna; saat pengguna melewatkan, mengklik, menilai, membeli item yang disarankan, model mengembangkan kebijakan optimal dari masukan ini untuk merekomendasikan item baru.17 Studi terbaru mengusulkan berbagai macam aplikasi pembelajaran penguatan untuk alamat minat pengguna jangka panjang yang dapat berubah, yang menimbulkan tantangan bagi penyaringan berbasis konten dan kolaboratif.18

Solusi terkait
IBM watsonx Orchestrate

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate
Alat dan API pemrosesan bahasa alami

Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.

Jelajahi solusi NLP
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate Jelajahi solusi NLP
Catatan kaki

1 Prem Melville dan Vikas Sindhwani, “Recommender Systems,” Encyclopedia of Machine learning and Data Mining, Springer, 2017.

2 Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.

3 "Penyaringan Kolaboratif," Ensiklopedia machine learning dan Penambangan Data, Springer, 2017. Mohamed Sarwat dan Mohamed Mokbel, "Collaborative Filtering", Encyclopedia of Database Systems, Springer, 2018.

4 Michael J. Pazzani dan Daniel Billsus, “Content-Based Recommendation Systems,” The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.

5 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015.

6 Michael J. Pazzani dan Daniel Billsus, “Content-Based Recommendation Systems,” The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.

7 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar, dan Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020.

8 Rounak Banik, Hands-On Recommendation Systems with Python, Packt Publishing, 2018. Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015.

9 Max Kuhn dan Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

10 Qiaozhu Mei dan Dragomir Radev, “Information Retrieval”, Oxford Handbook of Computational Linguistics, edisi ke-2, Oxford University Press, 2016.

11 Elsa Negre, Sistem Informasi dan Rekomendasi, Vol. 4, Wiley-ISTE, 2015. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar, dan Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020.

12 Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016. Ricci, Buku Pegangan Sistem Rekomendasi, edisi ke-3, Springer 2022.

13 Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016. Ian Goodfellow, Yoshua Bengio, dan Aaron Courville, Deep Learning, MIT Press, 2016.

14 Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar, dan Priya Gupta, Sistem Rekomendasi dengan machine learning dan Kecerdasan Buatan, Wiley-Scrivener, 2020. Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.

15 Jaiwei Han, Micheline Kamber, dan Jian Pei, Data Mining: Concepts and Techniques, edisi ke-3, Elsevier, 2012. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar, dan Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020.

16 Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar, dan Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020. Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.

17 Guy Shani dan David Heckerman dan Ronen I. Brafman, “Sistem Rekomendasi Berbasis MDP,” Jurnal Penelitian machine learning, Vol. 6, No. 43, 2005, hlm. 1265-1295, https://www.jmlr.org/papers/v6/shani05a.html. Yuanguo Lin, Yong Liu, Fan Lin, Lixin Zou, Pengcheng Wu, Wenhua Zeng, Huanhuan Chen, dan Chunyan Miao, "A Survey on Reinforcement Learning for Recommender Systems,"neural NetworksIEEE Transactions on Neural Networks and Learning Systems, 2023, https://ieeexplore.ieee.org/abstract/document/10144689. M. Mehdi Afsar, Trafford Crump, dan Behrouz Far, Reinforcement Learning based Recommender Systems: A Survey," ACM Computing Survey, Vol. 55, No. 7, 2023, https://dl.acm.org/doi/abs/10.1145/3543846.

18 Xinshi Chen, Shuang Li, Hui Li, Shaohua Jiang, Yuan Qi, dan Le Song, “Generative Adversarial User Model for Reinforcement Learning Based Recommendation System,” Proceedings of the 36th International Conference on Machine LearningPMLR, No. 97, 2019, hlm. 1052-1061, http://proceedings.mlr.press/v97/chen19f.html. Liwei Huang, Mingsheng Fu, Fan Li, Hong Qu, Yangjun Liu, dan Wenyu Chen, "A deep reinforcement learning based long-term recommender system," Knowledge-Based Systems, Vol. 213, 2021, https://www.sciencedirect.com/science/article/abs/pii/S0950705120308352.