Apa itu pemfilteran berbasis konten?

Penyusun

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

Apa itu pemfilteran berbasis konten?

Penyaringan berbasis konten adalah salah satu dari dua jenis utama sistem rekomendasi. Aplikasi ini merekomendasikan item kepada pengguna sesuai dengan fitur masing-masing item.

Pemfilteran berbasis konten adalah metode pencarian informasi yang menggunakan fitur item untuk memilih dan mengembalikan item yang relevan dengan kueri pengguna. Metode ini sering kali memperhitungkan fitur item lain yang diminati pengguna.¹Namun, berbasis konten adalah istilah yang agak keliru. Beberapa algoritme rekomendasi berbasis konten mencocokkan item berdasarkan fitur deskriptif (misalnya, metadata) yang dilampirkan pada item, bukan pada konten sebenarnya dari suatu item.² Namun demikian, beberapa metode berbasis konten, misalnya pengambilan gambar berbasis konten atau aplikasi pemrosesan bahasa alami, memang mencocokkan item sesuai dengan atribut item intrinsik.

Penyaringan berbasis konten vs penyaringan kolaboratif

Penyaringan berbasis konten adalah salah satu dari dua jenis utama sistem rekomendasi. Yang lainnya adalah metode penyaringan kolaboratif. Pendekatan terakhir ini mengelompokkan pengguna ke dalam kelompok yang berbeda berdasarkan perilaku mereka. Dengan menggunakan karakteristik kelompok secara umum, kemudian mengembalikan item tertentu ke seluruh kelompok dengan prinsip bahwa pengguna yang serupa (dari segi perilaku) tertarik pada item yang serupa.³

Kedua metode ini telah menjadi saksi dari banyak aplikasi di dunia nyata dalam beberapa tahun terakhir, mulai dari e-commerce seperti Amazon, media sosial, hingga layanan streaming. Bersama, sistem kolaboratif dan sistem berbasis konten membentuk sistem rekomendasi hybrid. Bahkan, pada tahun 2009, Netflix mengadopsi sistem rekomendasi hybrid melalui kompetisi hadiah Netflix.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Cara kerja pemfilteran berbasis konten

Sistem rekomendasi berbasis konten (CBRS) menggabungkan algoritma machine learning dan teknik ilmu data untuk merekomendasikan item baru dan menjawab pertanyaan.

Komponen pemfilteran berbasis konten

Di CBRS, mesin rekomendasi pada dasarnya membandingkan profil pengguna dan profil item untuk memprediksi interaksi item pengguna dan merekomendasikan item yang sesuai.

Profil item adalah representasi item dalam sistem. Ini terdiri dari kumpulan fitur item, yang dapat berupa karakteristik terstruktur internal atau metadata deskriptif. Misalnya, layanan streaming dapat menyimpan film menurut genre, tanggal rilis, sutradara, dan sebagainya.
Jadi, profil pengguna mewakili preferensi dan perilaku pengguna. Profil ini dapat terdiri atas representasi dari item di mana pengguna sebelumnya telah menunjukkan minat. Profil ini juga terdiri atas data pengguna tentang interaksi mereka di masa lalu dengan sistem (misalnya, suka, tidak suka, rating, pertanyaan, dll.).⁴

Representasi item

CBRS sering mewakili item dan pengguna sebagai penyematan dalam ruang vektor. Item dikonversi ke vektor menggunakan deskripsi metadata atau karakteristik internal sebagai fitur. Misalnya, kita membuat profil item untuk merekomendasikan novel baru kepada pengguna sebagai bagian dari toko buku online. Kami kemudian membuat profil untuk setiap novel menggunakan metadata representatif, seperti penulis, genre, dll. Nilai sebuah novel untuk kategori tertentu dapat diwakili dengan nilai Boolean, di mana 1 menunjukkan keberadaan novel dalam kategori tersebut dan 0 menunjukkan ketidakhadirannya. Dengan sistem ini, kami berpotensi merepresentasikan sejumlah kecil novel menurut genre:

Di sini, setiap genre merupakan dimensi yang berbeda dari ruang vektor kami, dengan nilai-nilai dalam novel tertentu mewakili posisinya dalam ruang vektor tersebut. Misalnya, Little Women terletak di (1,0,1), Northanger Abbey di (0,0,1), dan seterusnya. Kita dapat memvisualisasikan ruang vektor sampel ini sebagai:

Ilustrasi posisi tertentu dalam ruang vektor

Semakin dekat dua vektor baru dalam ruang vektor, semakin mirip sistem kami menganggapnya sesuai dengan fitur yang disediakan.⁵ Peter Pan dan Treasure Island memiliki fitur yang sama persis, muncul di titik vektor yang sama (1,1,0). Menurut sistem kami, maka, keduanya identik. Keduanya memang memiliki banyak perangkat plot yang sama (misalnya, pulau-pulau terpencil dan bajak laut) dan tema (misalnya, bertumbuh dewasa atau perlawanan terhadapnya). Sebaliknya, meskipun Little Women juga merupakan novel anak-anak, novel ini bukanlah sebuah petualangan, tapi sebuah bildungsroman (novel bertumbuh dewasa). Meskipun Little Women adalah novel anak-anak seperti Peter Pan dan Treasure Island, novel ini tidak memiliki nilai fitur petualangan dan memiliki nilai fitur 1 untuk bildungsroman, yang tidak dimiliki oleh kedua novel lainnya. Hal ini memposisikan Little Women lebih dekat dengan Northanger Abbey dalam ruang vektor, karena mereka memiliki nilai fitur yang sama untuk fitur petualangan dan bildungsroman.

Karena kemiripannya dalam bidang ini, jika pengguna sebelumnya pernah membeli Peter Pan, sistem akan merekomendasikan novel-novel yang paling mirip dengan Peter Pan, seperti Treasure Island, kepada pengguna tersebut sebagai potensi pembelian di masa mendatang. Perhatikan bahwa jika kita menambahkan lebih banyak novel dan fitur berbasis genre (misalnya, fantasi, gothic, dll.) posisi novel dalam ruang vektor akan bergerak. Misalnya, jika menambahkan dimensi genre fantasi, Peter Pan dan Treasure Island dapat bergerak sedikit dari yang lain mengingat yang pertama sering dianggap fantasi sementara yang terakhir tidak.

Perhatikan bahwa vektor item juga dapat dibuat menggunakan karakteristik internal item sebagai fitur. Misalnya, kita dapat mengubah item teks mentah (misalnya, artikel berita) ke dalam format terstruktur dan memetakannya ke ruang vektor, seperti "bag of words model". Dalam pendekatan ini, setiap kata yang digunakan di seluruh korpus menjadi dimensi ruang vektor yang berbeda, dan artikel yang menggunakan kata kunci yang sama muncul lebih dekat satu sama lain dalam ruang vektor.

Metrik kesamaan

Bagaimana sistem pemfilteran berbasis konten menentukan kesamaan antara sejumlah item? Seperti yang telah disebutkan, kedekatan dalam ruang vektor adalah metode utama. Metrik spesifik yang digunakan untuk menentukan kedekatan itu, bagaimanapun, dapat bervariasi. Metrik umumnya meliputi:

Kesamaan kosinus menandakan pengukuran sudut antara dua vektor. Ini dapat memiliki nilai antara -1 dan 1. Semakin tinggi skor kosinus, semakin mirip dua item yang dipertimbangkan. Beberapa sumber merekomendasikan metrik ini untuk ruang fitur dimensi tinggi. Kesamaan kosinus direpresentasikan oleh rumus ini, dimana x dan y menandakan dua vektor item dalam ruang vektor:⁷

Jarak Euklides mengukur panjang segmen garis hipotetis yang menghubungkan dua titik vektor. Skor jarak euklides mungkin serendah nol tanpa batas atas. Semakin kecil jarak Euklides kedua vektor item, maka mereka dianggap semakin mirip. Jarak Euclidean dihitung dengan rumus ini, di mana x dan y mewakili dua vektor item:⁸

Dot product adalah hasil kali kosinus sudut antara dua vektor dan masing-masing besaran Euklides vektor dari titik asal yang ditentukan. Dengan kata lain, ini adalah kosinus dari dua vektor dikalikan dengan proyeksi panjang masing-masing vektor yang merupakan perpindahan vektor dari titik awal yang ditentukan, seperti (0,0). Dot product paling baik digunakan untuk membandingkan item dengan besaran yang sangat berbeda, misalnya, popularitas buku atau film. Produk ini diwakili oleh rumus ini, di mana d dan q sekali lagi mewakili dua vektor item:⁹

Perhatikan bahwa metrik ini sensitif terhadap bagaimana vektor yang dibandingkan diberi bobot, karena pembobotan yang berbeda dapat secara signifikan memengaruhi fungsi penilaian ini.¹⁰ Metrik lain yang memungkinkan untuk menentukan kemiripan vektor adalah koefisien korelasi Pearson (atau korelasi Pearson) dan kemiripan Jaccard, dan indeks dadu.¹¹

Prediksi interaksi item pengguna

CBRS membuat pengklasifikasi berbasis pengguna atau model regresi untuk merekomendasikan item kepada pengguna tertentu. Untuk memulai, algoritme mengambil deskripsi dan fitur dari item-item yang sebelumnya diminati oleh pengguna tertentu, yaitu profil pengguna. Item ini merupakan kumpulan data pelatihan yang digunakan untuk membuat model klasifikasi atau regresi khusus untuk pengguna tersebut. Dalam model ini, atribut item adalah variabel independen, dengan variabel dependen adalah perilaku pengguna (misalnya, rating pengguna, suka, pembelian, dll.). Model yang dilatih tentang perilaku masa lalu ini bertujuan untuk memprediksi perilaku pengguna di masa depan untuk item yang mungkin dan merekomendasikan item sesuai dengan prediksi.¹²

Keuntungan dan kerugian dari pemfilteran berbasis konten

Keuntungan

Masalah cold-start pada dasarnya terdiri atas bagaimana sistem menangani pengguna baru atau item baru. Keduanya menimbulkan masalah dalam penyaringan kolaboratif karena merekomendasikan item dengan mengelompokkan pengguna berdasarkan kesamaan perilaku dan preferensi yang disimpulkan. Akan tetapi, pengguna baru tidak memiliki kemiripan yang terbukti dengan yang lain, dan item baru tidak memiliki interaksi pengguna yang cukup (misalnya, rating) untuk merekomendasikannya. Meskipun pemfilteran berbasis konten kesulitan dengan pengguna baru, itu tetap menangani penggabungan item baru dengan baik. Itu karena sistem ini merekomendasikan item berdasarkan karakteristik internal atau metadata daripada interaksi pengguna sebelumnya.¹³

Pemfilteran berbasis konten memungkinkan tingkat transparansi yang lebih tinggi dengan menyediakan fitur yang dapat ditafsirkan yang menjelaskan rekomendasi. Sebagai contoh, sistem rekomendasi film dapat menjelaskan mengapa film tertentu direkomendasikan, seperti genre atau aktor yang tumpang tindih dengan film yang telah ditonton sebelumnya. Oleh karena itu, pengguna dapat membuat keputusan yang lebih tepat tentang apakah akan menonton film yang direkomendasikan.¹⁴

Kekurangan

Salah satu kelemahan utama pemfilteran berbasis konten adalah keterbatasan fitur. Rekomendasi berbasis konten diperoleh secara eksklusif dari fitur-fitur yang digunakan untuk mendeskripsikan item. Namun, fitur item suatu sistem mungkin tidak dapat menangkap apa yang disukai pengguna. Misalnya, kembali ke contoh sistem rekomendasi film, asumsikan seorang pengguna menonton dan menyukai film Gaslight tahun 1944. CBRS dapat merekomendasikan film lain yang disutradarai oleh George Cukor atau dibintangi Ingrid Bergman, tetapi film tersebut mungkin tidak mirip dengan Gaslight. Jika pengguna lebih menyukai suatu alur cerita tertentu (misalnya, suami yang suka menipu) atau elemen produksi (misalnya, sinematografer) yang tidak tercantum dalam profil item, sistem tidak akan memberikan rekomendasi yang sesuai. Pembedaan yang akurat antara kesukaan dan ketidaksukaan pengguna tidak dapat dicapai tanpa data yang memadai.¹⁵

Karena penyaringan berbasis konten hanya merekomendasikan item berdasarkan minat pengguna yang telah dibuktikan sebelumnya, rekomendasinya sering kali serupa dengan item yang disukai pengguna sebelumnya. Dengan kata lain, CBRS tidak memiliki metodologi untuk mengeksplorasi hal-hal yang baru dan tak terduga. Ini adalah spesialisasi yang berlebihan. Sebaliknya, metode berbasis kolaboratif mengambil rekomendasi dari kumpulan pengguna yang memiliki minat yang mirip dengan pengguna tertentu. Hal ini seringkali dapat merekomendasikan item yang mungkin belum dianggap oleh pengguna, memiliki fitur yang berbeda dari item sebelumnya yang disukai oleh pengguna, tetapi masih mempertahankan elemen-elemen yang tidak terwakili yang menggoda jenis pengguna tersebut.¹⁶

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Penelitian terbaru

Sementara penelitian sebelumnya telah mendekati rekomendasi sebagai masalah prediksi atau klasifikasi, sejumlah besar penelitian terbaru menyarankan bahwa rekomendasi harus dipahami sebagai masalah pengambilan keputusan yang berurutan. Dalam paradigma ini, reinforcement learning mungkin lebih cocok untuk mengatasi rekomendasi. Pendekatan ini berpendapat bahwa rekomendasi diperbarui secara real-time sesuai dengan interaksi item pengguna; saat pengguna melewatkan, mengklik, menilai, membeli item yang disarankan, model mengembangkan kebijakan optimal dari masukan ini untuk merekomendasikan item baru.¹⁷ Studi terbaru mengusulkan berbagai macam aplikasi pembelajaran penguatan untuk alamat minat pengguna jangka panjang yang dapat berubah, yang menimbulkan tantangan bagi penyaringan berbasis konten dan kolaboratif.¹⁸

Apakah organisasi Anda siap memanfaatkan Gen AI?

Pelajari tentang lima kemampuan orkestrasi utama yang dapat membantu organisasi mengatasi tantangan penerapan AI generatif secara efektif.

Sumber daya

Jelajahi IBM Granite

IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.

Panduan pemula untuk NLP

Temukan bagaimana pemrosesan bahasa alami dapat membantu Anda berkomunikasi lebih alami dengan komputer.

Aksi AI 2024

Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.

Tingkatkan aplikasi Anda dengan AI IBM yang dapat disematkan

Jelajahi situs web IBM Developer untuk mengakses blog, artikel, buletin, dan mempelajari lebih lanjut tentang AI yang dapat disematkan IBM.

Praktik langsung dengan AI generatif

Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.

Solusi terkait

IBM watsonx Orchestrate

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate

Alat dan API pemrosesan bahasa alami

Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.

Jelajahi solusi NLP

Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI

Ambil langkah selanjutnya

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate

Jelajahi solusi NLP

Catatan kaki

¹ Melville, P. and Sindhwani, V. “Recommender Systems,” Encyclopedia of Machine learning and Data Mining, Springer, 2017.

² Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

³ Sarwat, M. and Mokbel, M. “Collaborative Filtering,” Encyclopedia of Database Systems, Springer, 2018.
Sarwat, M. and Mokbel, M. “Collaborative Filtering,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

^4, 6 Pazzani, M.J. and Billsus, D. “Content-Based Recommendation Systems,” The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.

⁵ Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.

^7, 11 Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.
Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.

⁸ Banik, R. “Hands-On Recommendation Systems with Python”, Packt Publishing, 2018.
Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.

⁹ Kuhn, M. and Johnson, K. “Applied Predictive Modeling”, Springer, 2016.

¹⁰ Mei, Q. and Radev, D. “Information Retrieval,” Oxford Handbook of Computational Linguistics, Second Edition, Oxford University Press, 2016.

¹² Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.
Ricci, F., Rokach, L. and Shapira, B. “Recommender Systems Handbook”, Third Edition, Springer 2022.

¹³ Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.
Goodfellow, I., Bengio, Y. and Courville, A. “Deep Learning”, MIT Press, 2016.

^14, 16 Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.
Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

¹⁵ Han, J. Kamber, M. dan Pei, J. “Data Mining: Concepts and Techniques”, Third Edition, Elsevier, 2012.
Mohanty, S. N. et al. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.

¹⁷ Shani, G., Heckerman, D. and Brafman, R. I. “An MDP-Based Recommender System”, 2005.
Lin, Y. et all. “A Survey on Reinforcement Learning for Recommender Systems”, 2023.
M.M. Afsar et al. “Reinforcement learning based recommender systems: A survey”, ACM Computing Surveys, 2023.

¹⁸ Chen, X. et all. “Generative Adversarial User Model for Reinforcement Learning Based Recommendation System”, 2019.
Huang, L. et all. “A deep reinforcement learning based long-term recommender system”, 2021

Apa itu pemfilteran berbasis konten?

Penyusun

Apa itu pemfilteran berbasis konten?

Penyaringan berbasis konten vs penyaringan kolaboratif

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Cara kerja pemfilteran berbasis konten

Komponen pemfilteran berbasis konten

Representasi item

Metrik kesamaan

Prediksi interaksi item pengguna

Keuntungan dan kerugian dari pemfilteran berbasis konten

Keuntungan

Kekurangan

Decoding AI: Rangkuman Berita Mingguan

Penelitian terbaru

Sumber daya

Catatan kaki