My IBM Se connecter S’abonner

Qu’est-ce que le filtrage basé sur le contenu ?

21 mars 2024

Auteurs

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

Le filtrage basé sur le contenu est l’un des principaux types de systèmes de recommandation. Il suggère des éléments aux utilisateurs en fonction de leurs caractéristiques individuelles.

Le filtrage basé sur le contenu est une méthode de recherche d’information qui se sert des caractéristiques des éléments pour sélectionner et renvoyer les éléments correspondant à la requête de l’utilisateur. Cette méthode tient souvent compte des caractéristiques d’autres éléments pour lesquels un utilisateur exprime son intérêt.L’approche basée sur le contenu est toutefois un peu trompeuse. Certains algorithmes de recommandation basés sur le contenu font correspondre les éléments en fonction de caractéristiques descriptives (par exemple, les métadonnées) attachées aux éléments plutôt que du contenu réel d’un élément.2 Néanmoins, plusieurs méthodes basées sur le contenu, par exemple les applications de récupération d’images basées sur le contenu ou de traitement automatique du langage naturel, font correspondre les éléments en fonction de leurs attributs intrinsèques.

Filtrage basé sur le contenu et filtrage collaboratif

Le filtrage basé sur le contenu est l’un des principaux types de systèmes de recommandation. L’autre est la méthode de filtrage collaboratif. Cette dernière approche regroupe les utilisateurs en groupes distincts en fonction de leur comportement. En utilisant les caractéristiques générales du groupe, il renvoie ensuite des éléments spécifiques à un groupe entier sur le principe que des utilisateurs similaires (en termes de comportement) s’intéressent à des éléments similaires.3

Ces deux méthodes ont connu de nombreuses applications dans le monde réel ces dernières années, du e-commerce comme Amazon aux réseaux sociaux en passant par les services de streaming. Ensemble, les systèmes collaboratifs et basés sur le contenu forment des systèmes de recommandation hybrides. En fait, en 2009, Netflix a adopté un système de recommandation hybride lors de son concours du prix Netflix.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Filtrage basé sur le contenu : comment ça marche ?

Les systèmes de recommandation basés sur le contenu (CBRS) intègrent des algorithmes de machine learning et des techniques de science des données pour recommander de nouveaux éléments et répondre aux requêtes.

Composantes du filtrage basé sur le contenu

Dans les CBRS, le moteur de recommandation compare essentiellement le profil de l'utilisateur et le profil de chaque élément pour prédire l'interaction entre l'utilisateur et l'élément et recommander des éléments en conséquence.

  • Le profil de l'élément est la représentation d’un élément dans le système. Il s'agit de l'ensemble des caractéristiques d'un élément, qui peuvent être des caractéristiques internes structurées ou des métadonnées descriptives. Par exemple, un service de streaming peut stocker des films en fonction du genre, de la date de sortie, du réalisateur, etc.
  • Le profil utilisateur représente les préférences et le comportement de l’utilisateur. Il peut s’agir de représentations des éléments pour lesquels un utilisateur a déjà manifesté son intérêt. Il comprend également les données des utilisateurs sur leurs interactions passées avec le système (par exemple, les goûts des utilisateurs, leurs aversions, les évaluations, les requêtes, etc.).4

Représentations d'éléments

Les CBRS représentent souvent les objets et les utilisateurs sous forme d'intégrations dans un espace vectoriel. Les éléments sont convertis en vecteurs en utilisant des descriptions de métadonnées ou des caractéristiques internes comme traits. Par exemple, supposons que nous créions des profils d'éléments pour recommander de nouveaux romans aux utilisateurs pour une librairie en ligne. Nous créons ensuite des profils pour chaque roman en utilisant des métadonnées représentatives, telles que l’auteur, le genre, etc. La valeur d'un roman pour une catégorie donnée peut être représentée par des valeurs booléennes, où 1 indique la présence du roman dans cette catégorie et 0 son absence. Avec ce système, nous pouvons potentiellement considérer une petite poignée de romans en fonction de leur genre :

Ici, chaque genre est une dimension différente de notre espace vectoriel, les valeurs d’un roman donné représentant sa position dans cet espace vectoriel. Par exemple, Little Women se trouve à (1,0,1), Northanger Abby à (0,0,1), etc. Nous pouvons visualiser cet exemple d’espace vectoriel comme suit :

Plus deux vecteurs de romans sont proches dans l’espace vectoriel, plus notre système les considère comme similaires selon les caractéristiques fournies.5 Peter Pan et L’Île au trésor partagent exactement les mêmes caractéristiques, apparaissant au même point vectoriel (1,1,0). Selon notre système, ils sont donc identiques. En effet, ils partagent de nombreux éléments de l’intrigue (par exemple, les îles isolées et les pirates) et des thèmes (par exemple, le fait de grandir ou les difficultés qui y sont liées). En revanche, bien que Les Quatre Filles du docteur March soit également un roman pour enfants, il ne s’agit pas d’un roman d’aventures, mais d’un bildungsroman (passage à l’âge adulte). Bien que Les Quatre Filles du docteur March soit un livre pour enfants comme Peter Pan et L’Île au trésor, il n’a pas les caractéristiques pour l’aventure et possède une valeur de caractéristiques de 1 pour bildungsroman, ce qui n’est pas le cas des deux autres. Cela positionne Les Quatre Filles du docteur March plus près de L’Abbaye de Northanger dans l’espace vectoriel, car ils partagent les mêmes valeurs de caractéristiques pour les caractéristiques d’aventure et de bildungsroman.

En raison de la proximité dans cet espace, si un utilisateur a déjà acheté Peter Pan, le système recommandera les romans les plus proches de Peter Pan (comme Treasure Island)à cet utilisateur comme futur achat potentiel. Notez que si nous ajoutions d’autres romans et des caractéristiques basées sur le genre (par exemple, la Fantasy, l'univers gothique, etc.), les positions des romans dans l’espace vectoriel ne seront plus les mêmes. Par exemple, si l'on ajoute une dimension de genre fantastique, Peter Pan et Treasure Island peuvent s'éloigner marginalement l'un de l'autre, étant donné que le premier est souvent considéré comme une dimension fantastique, mais pas le second.

Notez que les vecteurs d’éléments peuvent également être créés en utilisant les caractéristiques internes des éléments comme traits. Par exemple, nous pouvons convertir des éléments de texte brut (comme des articles d’actualité) en un format structuré et les faire correspondre à un espace vectoriel, tel qu’un « modèle de sac de mots ». Dans cette approche, chaque mot utilisé dans le corpus devient une dimension différente de l’espace vectoriel, et les éléments qui utilisent des mots-clés similaires apparaissent plus proches les uns des autres dans l’espace vectoriel.

Indicateurs de similarité

Comment un système de filtrage basé sur le contenu détermine-t-il la similarité entre un nombre quelconque d'éléments ? Comme nous l’avons mentionné, la proximité dans l’espace vectoriel est une méthode primaire. Les indicateurs spécifiques utilisés pour déterminer cette proximité peuvent toutefois varier. Parmi les indicateurs les plus courants, on trouve :

La similarité cosinus détermine la mesure de l’angle entre deux vecteurs. Cette valeur est comprise entre -1 et 1. Plus le cosinus est élevé, plus les deux éléments sont considérés comme similaires. Certaines sources recommandent cet indicateur pour les espaces de caractéristiques de grande dimension. La similarité cosinus est représentée par cette formule, où x et y représentent deux vecteurs d’éléments dans l’espace vectoriel :7

La distance euclidienne mesure la longueur d’un segment de ligne hypothétique reliant deux points vectoriels. Les scores de distance euclidienne peuvent aller jusqu’à zéro, sans limite supérieure. Plus la distance euclidienne entre deux vecteurs d’éléments est faible, plus ils sont considérés comme similaires. Elle est calculée avec cette formule, où x et y représentent deux vecteurs d’élément :8

Le produit scalaire est le produit du cosinus de l’angle entre deux vecteurs et chaque vecteur de magnitude euclidienne respective à partir d’une origine définie. En d’autres termes, il s’agit du cosinus de deux vecteurs multiplié par la longueur projetée de chaque vecteur, la longueur étant le déplacement d’un vecteur par rapport à une origine définie, telle que (0,0). Le produit scalaire est utilisé de préférence pour comparer des éléments ayant des magnitudes sensiblement différentes, pensez par exemple à la popularité des livres ou des films. Il est représenté par cette formule, dans laquelle d et q représentent à nouveau deux vecteurs d’élément :9

Notez que ces indicateurs sont sensibles à la façon dont les vecteurs comparés sont pondérés, car des pondérations différentes peuvent affecter considérablement ces fonctions de notation.10 D’autres indicateurs possibles pour déterminer la similarité vectorielle sont le coefficient de corrélation de Pearson (ou corrélation de Pearson), la similarité de Jaccard et l’indice de Dice.11

Prédiction de l'interaction utilisateur-élément

Les CBRS créent un classificateur ou un modèle de régression basé sur l’utilisateur pour recommander des éléments à un utilisateur spécifique. Pour commencer, l’algorithme se base sur les descriptions et les caractéristiques des éléments pour lesquels un utilisateur donné a déjà manifesté de l’intérêt, c’est-à-dire le profil de l’utilisateur. Ces éléments constituent le jeu de données d’entraînement utilisé pour créer un modèle de classification ou de régression spécifique à cet utilisateur. Dans ce modèle, les attributs d’élément sont les variables indépendantes, soit les comportements de l’utilisateur (par exemple, ses évaluations, goûts, achats, etc.). Le modèle entraîné sur ce comportement passé vise à prédire le comportement futur de l’utilisateur pour des éléments possibles et à recommander des éléments en fonction de la prédiction.12

Avantages et inconvénients du filtrage basé sur le contenu

Avantages

Le problème ici concerne essentiellement la manière dont un système gère les nouveaux utilisateurs ou les nouveaux éléments. Les deux posent un problème dans le filtrage collaboratif, car celui-ci recommande des éléments en regroupant les utilisateurs en fonction des similitudes de comportement et de préférence déduites. Or, les nouveaux utilisateurs n’ont pas de similarité avérée avec les autres, et les nouveaux éléments ne font pas l’objet d’une interaction suffisante avec les utilisateurs (par exemple, des évaluations) pour être recommandés. Si le filtrage basé sur le contenu a du mal à prendre en compte les nouveaux utilisateurs, il gère néanmoins habilement l’incorporation de nouveaux éléments. En effet, il recommande des éléments sur la base de caractéristiques internes ou de métadonnées plutôt qu’en fonction de l’interaction passée avec l’utilisateur.13

Le filtrage basé sur le contenu permet un plus grand degré de transparence en fournissant des caractéristiques interprétables qui justifient les recommandations. Par exemple, un système de recommandation de films peut expliquer pourquoi un certain film est recommandé, en raison d’un recoupement de genre ou d’acteur avec des films visionnés précédemment. L’utilisateur peut donc décider en toute connaissance de cause s’il souhaite regarder le film recommandé.14

Inconvénients

L’un des principaux inconvénients du filtrage basé sur le contenu est la limitation des caractéristiques. Les recommandations basées sur le contenu sont dérivées exclusivement des caractéristiques utilisées pour décrire les éléments. Cependant, les caractéristiques des éléments d’un système peuvent ne pas être en mesure de saisir ce que l’utilisateur aime. Ainsi, pour revenir à l’exemple du système de recommandation de films, supposons qu’un utilisateur regarde et aime le film Hantise de 1944. Un CBRS peut recommander d’autres films réalisés par George Cudor ou avec Ingrid Bergman, mais ces films peuvent n’avoir rien à voir avec Hantise. Si l’utilisateur apprécie plutôt un élément spécifique de l’intrigue (par exemple, un mari trompeur) ou un élément de production (par exemple, un directeur de la photographie) qui n’est pas représenté dans le profil de l’élément, le système ne présentera pas de recommandations appropriées. Il est impossible de différencier avec précision les goûts et les aversions potentiels d’un utilisateur si les données sont insuffisantes.15

Étant donné que le filtrage basé sur le contenu ne recommande que des éléments en fonction des centres d’intérêt précédemment identifiés par l’utilisateur, ses recommandations sont souvent similaires aux éléments qu’un utilisateur a aimés par le passé. En d’autres termes, les CBRS ne disposent pas d’une méthodologie pour étudier ce qui est nouveau et imprévisible. Il s’agit d’une spécialisation excessive. En revanche, comme les méthodes collaboratives s’appuient sur les recommandations d’un groupe d’utilisateurs ayant des goûts similaires à ceux d’un utilisateur donné, elles peuvent souvent recommander des éléments qu’un utilisateur n’a peut-être pas envisagés, qui semblent présenter des caractéristiques différentes de celles des éléments précédemment appréciés par un utilisateur, mais qui conservent un élément non représenté qui plaît à un type d’utilisateur.16

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Recherches récentes

Alors que les études précédentes ont abordé la recommandation comme un problème de prédiction ou de classification, un important corpus de recherches récentes soutient que celle-ci doit être envisagée comme un problème séquentiel de prise de décision. Dans ce paradigme, l’apprentissage par renforcement pourrait être plus adapté au traitement des recommandations. Cette approche affirme que la recommandation doit être mise à jour en temps réel en fonction de l’interaction utilisateur-élément. Au fur et à mesure que l’utilisateur ignore, clique, évalue, achète des éléments suggérés, le modèle développe une politique optimale à partir de ces commentaires afin de recommander de nouveaux éléments.17 Des études récentes proposent une grande variété d’applications de l’apprentissage par renforcement pour répondre aux intérêts changeants des utilisateurs à long terme, qui posent des défis pour le filtrage basé sur le contenu et collaboratif.18

Solutions connexes

Solutions connexes

IBM watsonx Orchestrate

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate
Outils et API de traitement automatique du langage naturel

Accélérez la valeur métier de l’intelligence artificielle grâce à un portefeuille puissant et flexible de bibliothèques, de services et d’applications.

Découvrir les solutions NLP
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate Découvrir les solutions NLP
Notes de bas de page

1 Prem Melville et Vikas Sindhwani, « Recommender Systems », Encyclopedia of Machine learning and Data Mining, Springer, 2017.

2 Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.

3 « Collaborative Filtering », Encyclopedia of Machine Learning and Data Mining, Springer, 2017. Mohamed Sarwat et Mohamed Mokbel, « Collaborative Filtering », Encyclopedia of Database Systems, Springer, 2018.

4 Michael J. Pazzani et Daniel Billsus, « Content-Based Recommendation Systems », The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.

5 Elsa Negre, Information and Recommender Systems, vol. 4, Wiley-ISTE, 2015.

6 Michael J. Pazzani et Daniel Billsus, « Content-Based Recommendation Systems », The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.

7 Elsa Negre, Information and Recommender Systems, vol. 4, Wiley-ISTE, 2015. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar et Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020.

8 Rounak Banik, Hands-On Recommendation Systems with Python, Packt Publishing, 2018. Elsa Negre, Information and Recommender Systems, vol. 4, Wiley-ISTE, 2015.

9 Max Kuhn et Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

10 Qiaozhu Mei et Dragomir Radev, « Information Retrieval », Oxford Handbook of Computational Linguistics, 2e édition, Oxford University Press, 2016.

11 Elsa Negre, Information and Recommender Systems, vol. 4, Wiley-ISTE, 2015. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar et Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020.

12 Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016. Ricci, Recommender Systems Handbook, 3e édition, Springer, 2022.

13 Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016. Ian Goodfellow, Yoshua Bengio et Aaron Courville, Deep Learning, MIT Press, 2016.

14 Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar et Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020. Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.

15 Jaiwei Han, Micheline Kamber et Jian Pei, Data Mining: Concepts and Techniques, 3e édition, Elsevier, 2012. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar et Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020.

16 Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar et Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020. Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.

17 Guy Shani, David Heckerman et Ronen I. Brafman, « An MDP-Based Recommender System », Journal of Machine Learning Research, vol. 6, n° 43, 2005, pages 1265 à 1295, https://www.jmlr.org/papers/v6/shani05a.html. Yuanguo Lin, Yong Liu, Fan Lin, Lixin Zou, Pengcheng Wu, Wenhua Zeng, Huanhuan Chen et Chunyan Miao, « A Survey on Reinforcement Learning for Recommender Systems », transactions de l’IEEE sur les réseaux neuronaux et les systèmes d’apprentissage, 2023, https://ieeexplore.ieee.org/abstract/document/10144689. M. Mehdi Afsar, Trafford Crump et Behrouz Far, « Reinforcement Learning based Recommender Systems: A Survey », ACM Computing Survey, vol. 55, n° 7, 2023, https://dl.acm.org/doi/abs/10.1145/3543846.

18 Xinshi Chen, Shuang Li, Hui Li, Shaohua Jiang, Yuan Qi, Le Song, « Generative Adversarial User Model for Reinforcement Learning Based Recommendation System », actes de la 36e conférence internationale sur le machine learningPMLR, n° 97, 2019, pages 1052 à 1061, http://proceedings.mlr.press/v97/chen19f.html. Liwei Huang, Mingsheng Fu, Fan Li, Hong Qu, Yangjun Liu et Wenyu Chen, « A deep reinforcement learning based long-term recommender system », Knowledge-Based Systems, vol. 213, 2021, https://www.sciencedirect.com/science/article/abs/pii/S0950705120308352.