Qu’est-ce que le filtrage basé sur le contenu ?

Auteurs

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

Qu’est-ce que le filtrage basé sur le contenu ?

Le filtrage basé sur le contenu est l’un des principaux types de systèmes de recommandation. Il suggère des éléments aux utilisateurs en fonction de leurs caractéristiques individuelles.

Le filtrage basé sur le contenu est une méthode de recherche d’information qui se sert des caractéristiques des éléments pour sélectionner et renvoyer les éléments correspondant à la requête de l’utilisateur. Cette méthode tient souvent compte des caractéristiques d’autres éléments pour lesquels un utilisateur exprime son intérêt.¹L’approche basée sur le contenu est toutefois un peu trompeuse. Certains algorithmes de recommandation basés sur le contenu font correspondre les éléments en fonction de caractéristiques descriptives (par exemple, les métadonnées) attachées aux éléments plutôt que du contenu réel d’un élément.² Néanmoins, plusieurs méthodes basées sur le contenu, par exemple les applications de récupération d’images basées sur le contenu ou de traitement automatique du langage naturel, font correspondre les éléments en fonction de leurs attributs intrinsèques.

Filtrage basé sur le contenu et filtrage collaboratif

Le filtrage basé sur le contenu est l’un des principaux types de systèmes de recommandation. L’autre est la méthode de filtrage collaboratif. Cette dernière approche regroupe les utilisateurs en groupes distincts en fonction de leur comportement. En utilisant les caractéristiques générales du groupe, il renvoie ensuite des éléments spécifiques à un groupe entier sur le principe que des utilisateurs similaires (en termes de comportement) s’intéressent à des éléments similaires.³

Ces deux méthodes ont connu de nombreuses applications dans le monde réel ces dernières années, du e-commerce comme Amazon aux réseaux sociaux en passant par les services de streaming. Ensemble, les systèmes collaboratifs et basés sur le contenu forment des systèmes de recommandation hybrides. En fait, en 2009, Netflix a adopté un système de recommandation hybride lors de son concours du prix Netflix.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Filtrage basé sur le contenu : comment ça marche ?

Les systèmes de recommandation basés sur le contenu (CBRS) intègrent des algorithmes de machine learning et des techniques de science des données pour recommander de nouveaux éléments et répondre aux requêtes.

Composantes du filtrage basé sur le contenu

Dans les CBRS, le moteur de recommandation compare essentiellement le profil de l'utilisateur et le profil de chaque élément pour prédire l'interaction entre l'utilisateur et l'élément et recommander des éléments en conséquence.

Le profil de l'élément est la représentation d’un élément dans le système. Il s'agit de l'ensemble des caractéristiques d'un élément, qui peuvent être des caractéristiques internes structurées ou des métadonnées descriptives. Par exemple, un service de streaming peut stocker des films en fonction du genre, de la date de sortie, du réalisateur, etc.
Le profil utilisateur représente les préférences et le comportement de l’utilisateur. Il peut s’agir de représentations des éléments pour lesquels un utilisateur a déjà manifesté son intérêt. Il comprend également les données des utilisateurs sur leurs interactions passées avec le système (par exemple, les goûts des utilisateurs, leurs aversions, les évaluations, les requêtes, etc.).⁴

Représentations d’éléments

Les CBRS représentent souvent les objets et les utilisateurs sous forme d'intégrations dans un espace vectoriel. Les éléments sont convertis en vecteurs en utilisant des descriptions de métadonnées ou des caractéristiques internes comme traits. Par exemple, supposons que nous créions des profils d'éléments pour recommander de nouveaux romans aux utilisateurs pour une librairie en ligne. Nous créons ensuite des profils pour chaque roman en utilisant des métadonnées représentatives, telles que l’auteur, le genre, etc. La valeur d'un roman pour une catégorie donnée peut être représentée par des valeurs booléennes, où 1 indique la présence du roman dans cette catégorie et 0 son absence. Avec ce système, nous pouvons potentiellement considérer une petite poignée de romans en fonction de leur genre :

Illustration d'un tableau de représentation des éléments

Ici, chaque genre est une dimension différente de notre espace vectoriel, les valeurs d’un roman donné représentant sa position dans cet espace vectoriel. Par exemple, Little Women se trouve à (1,0,1), Northanger Abby à (0,0,1), etc. Nous pouvons visualiser cet exemple d’espace vectoriel comme suit :

Illustration d’une position donnée dans un espace vectoriel

Plus deux vecteurs de romans sont proches dans l’espace vectoriel, plus notre système les considère comme similaires selon les caractéristiques fournies.⁵ Peter Pan et L’Île au trésor partagent exactement les mêmes caractéristiques, apparaissant au même point vectoriel (1,1,0). Selon notre système, ils sont donc identiques. En effet, ils partagent de nombreux éléments de l’intrigue (par exemple, les îles isolées et les pirates) et des thèmes (par exemple, le fait de grandir ou les difficultés qui y sont liées). En revanche, bien que Les Quatre Filles du docteur March soit également un roman pour enfants, il ne s’agit pas d’un roman d’aventures, mais d’un bildungsroman (passage à l’âge adulte). Bien que Les Quatre Filles du docteur March soit un livre pour enfants comme Peter Pan et L’Île au trésor, il n’a pas les caractéristiques pour l’aventure et possède une valeur de caractéristiques de 1 pour bildungsroman, ce qui n’est pas le cas des deux autres. Cela positionne Les Quatre Filles du docteur March plus près de L’Abbaye de Northanger dans l’espace vectoriel, car ils partagent les mêmes valeurs de caractéristiques pour les caractéristiques d’aventure et de bildungsroman.

En raison de la proximité dans cet espace, si un utilisateur a déjà acheté Peter Pan, le système recommandera les romans les plus proches de Peter Pan (comme Treasure Island)à cet utilisateur comme futur achat potentiel. Notez que si nous ajoutions d’autres romans et des caractéristiques basées sur le genre (par exemple, la Fantasy, l'univers gothique, etc.), les positions des romans dans l’espace vectoriel ne seront plus les mêmes. Par exemple, si l'on ajoute une dimension de genre fantastique, Peter Pan et Treasure Island peuvent s'éloigner marginalement l'un de l'autre, étant donné que le premier est souvent considéré comme une dimension fantastique, mais pas le second.

Notez que les vecteurs d’éléments peuvent également être créés en utilisant les caractéristiques internes des éléments comme traits. Par exemple, nous pouvons convertir des éléments de texte brut (comme des articles d’actualité) en un format structuré et les faire correspondre à un espace vectoriel, tel qu’un « modèle de sac de mots ». Dans cette approche, chaque mot utilisé dans le corpus devient une dimension différente de l’espace vectoriel, et les éléments qui utilisent des mots-clés similaires apparaissent plus proches les uns des autres dans l’espace vectoriel.

Indicateurs de similarité

Comment un système de filtrage basé sur le contenu détermine-t-il la similarité entre un nombre quelconque d'éléments ? Comme nous l’avons mentionné, la proximité dans l’espace vectoriel est une méthode primaire. Les indicateurs spécifiques utilisés pour déterminer cette proximité peuvent toutefois varier. Parmi les indicateurs les plus courants, on trouve :

La similarité cosinus détermine la mesure de l’angle entre deux vecteurs. Cette valeur est comprise entre -1 et 1. Plus le cosinus est élevé, plus les deux éléments sont considérés comme similaires. Certaines sources recommandent cet indicateur pour les espaces de caractéristiques de grande dimension. La similarité cosinus est représentée par cette formule, où x et y représentent deux vecteurs d’éléments dans l’espace vectoriel :⁷

Illustration de la formule de similarité cosinus

La distance euclidienne mesure la longueur d’un segment de ligne hypothétique reliant deux points vectoriels. Les scores de distance euclidienne peuvent aller jusqu’à zéro, sans limite supérieure. Plus la distance euclidienne entre deux vecteurs d’éléments est faible, plus ils sont considérés comme similaires. Elle est calculée avec cette formule, où x et y représentent deux vecteurs d’élément :⁸

Illustration de la formule de la distance euclidienne

Le produit scalaire est le produit du cosinus de l’angle entre deux vecteurs et chaque vecteur de magnitude euclidienne respective à partir d’une origine définie. En d’autres termes, il s’agit du cosinus de deux vecteurs multiplié par la longueur projetée de chaque vecteur, la longueur étant le déplacement d’un vecteur par rapport à une origine définie, telle que (0,0). Le produit scalaire est utilisé de préférence pour comparer des éléments ayant des magnitudes sensiblement différentes, pensez par exemple à la popularité des livres ou des films. Il est représenté par cette formule, dans laquelle d et q représentent à nouveau deux vecteurs d’élément :⁹

Illustration de la formule du produit scalaire

Notez que ces indicateurs sont sensibles à la façon dont les vecteurs comparés sont pondérés, car des pondérations différentes peuvent affecter considérablement ces fonctions de notation.¹⁰ D’autres indicateurs possibles pour déterminer la similarité vectorielle sont le coefficient de corrélation de Pearson (ou corrélation de Pearson), la similarité de Jaccard et l’indice de Dice.¹¹

Prédiction de l’interaction utilisateur-élément

Les CBRS créent un classificateur ou un modèle de régression basé sur l’utilisateur pour recommander des éléments à un utilisateur spécifique. Pour commencer, l’algorithme se base sur les descriptions et les caractéristiques des éléments pour lesquels un utilisateur donné a déjà manifesté de l’intérêt, c’est-à-dire le profil de l’utilisateur. Ces éléments constituent le jeu de données d’entraînement utilisé pour créer un modèle de classification ou de régression spécifique à cet utilisateur. Dans ce modèle, les attributs d’élément sont les variables indépendantes, soit les comportements de l’utilisateur (par exemple, ses évaluations, goûts, achats, etc.). Le modèle entraîné sur ce comportement passé vise à prédire le comportement futur de l’utilisateur pour des éléments possibles et à recommander des éléments en fonction de la prédiction.¹²

Avantages et inconvénients du filtrage basé sur le contenu

Avantages

Le problème ici concerne essentiellement la manière dont un système gère les nouveaux utilisateurs ou les nouveaux éléments. Les deux posent un problème dans le filtrage collaboratif, car celui-ci recommande des éléments en regroupant les utilisateurs en fonction des similitudes de comportement et de préférence déduites. Or, les nouveaux utilisateurs n’ont pas de similarité avérée avec les autres, et les nouveaux éléments ne font pas l’objet d’une interaction suffisante avec les utilisateurs (par exemple, des évaluations) pour être recommandés. Si le filtrage basé sur le contenu a du mal à prendre en compte les nouveaux utilisateurs, il gère néanmoins habilement l’incorporation de nouveaux éléments. En effet, il recommande des éléments sur la base de caractéristiques internes ou de métadonnées plutôt qu’en fonction de l’interaction passée avec l’utilisateur.¹³

Le filtrage basé sur le contenu permet un plus grand degré de transparence en fournissant des caractéristiques interprétables qui justifient les recommandations. Par exemple, un système de recommandation de films peut expliquer pourquoi un certain film est recommandé, en raison d’un recoupement de genre ou d’acteur avec des films visionnés précédemment. L’utilisateur peut donc décider en toute connaissance de cause s’il souhaite regarder le film recommandé.¹⁴

Inconvénients

L’un des principaux inconvénients du filtrage basé sur le contenu est la limitation des caractéristiques. Les recommandations basées sur le contenu sont dérivées exclusivement des caractéristiques utilisées pour décrire les éléments. Cependant, les caractéristiques des éléments d’un système peuvent ne pas être en mesure de saisir ce que l’utilisateur aime. Ainsi, pour revenir à l’exemple du système de recommandation de films, supposons qu’un utilisateur regarde et aime le film Hantise de 1944. Un CBRS peut recommander d’autres films réalisés par George Cudor ou avec Ingrid Bergman, mais ces films peuvent n’avoir rien à voir avec Hantise. Si l’utilisateur apprécie plutôt un élément spécifique de l’intrigue (par exemple, un mari trompeur) ou un élément de production (par exemple, un directeur de la photographie) qui n’est pas représenté dans le profil de l’élément, le système ne présentera pas de recommandations appropriées. Il est impossible de différencier avec précision les goûts et les aversions potentiels d’un utilisateur si les données sont insuffisantes.¹⁵

Étant donné que le filtrage basé sur le contenu ne recommande que des éléments en fonction des centres d’intérêt précédemment identifiés par l’utilisateur, ses recommandations sont souvent similaires aux éléments qu’un utilisateur a aimés par le passé. En d’autres termes, les CBRS ne disposent pas d’une méthodologie pour étudier ce qui est nouveau et imprévisible. Il s’agit d’une spécialisation excessive. En revanche, comme les méthodes collaboratives s’appuient sur les recommandations d’un groupe d’utilisateurs ayant des goûts similaires à ceux d’un utilisateur donné, elles peuvent souvent recommander des éléments qu’un utilisateur n’a peut-être pas envisagés, qui semblent présenter des caractéristiques différentes de celles des éléments précédemment appréciés par un utilisateur, mais qui conservent un élément non représenté qui plaît à un type d’utilisateur.¹⁶

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Regardez tous les épisodes de Mixture of Experts

Recherches récentes

Alors que les études précédentes ont abordé la recommandation comme un problème de prédiction ou de classification, un important corpus de recherches récentes soutient que celle-ci doit être envisagée comme un problème séquentiel de prise de décision. Dans ce paradigme, l’apprentissage par renforcement pourrait être plus adapté au traitement des recommandations. Cette approche affirme que la recommandation doit être mise à jour en temps réel en fonction de l’interaction utilisateur-élément. Au fur et à mesure que l’utilisateur ignore, clique, évalue, achète des éléments suggérés, le modèle développe une politique optimale à partir de ces commentaires afin de recommander de nouveaux éléments.¹⁷ Des études récentes proposent une grande variété d’applications de l’apprentissage par renforcement pour répondre aux intérêts changeants des utilisateurs à long terme, qui posent des défis pour le filtrage basé sur le contenu et collaboratif.¹⁸

Votre entreprise est-elle prête à tirer parti de l’IA générative ?

Découvrez les cinq principales capacités d’orchestration pouvant aider les organisations à relever les défis d’une mise en œuvre efficace de l’IA générative.

Ressources

Découvrir IBM Granite®

IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de barrières de sécurité.

Guide du débutant sur le NLP

Découvrez comment le traitement automatique du langage naturel (NLP) peut vous aider à converser plus naturellement avec les ordinateurs.

IBM est désigné leader en science des données et machine learning

Découvrez pourquoi IBM a été nommé leader dans le Gartner Magic Quadrant 2025 pour les plateformes de science des données et de machine learning.

L’IA générative en pratique

Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.

Solutions connexes

IBM watsonx Orchestrate

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate

Outils et API de traitement automatique du langage naturel

Accélérez la valeur métier de l’intelligence artificielle grâce à un portefeuille puissant et flexible de bibliothèques, de services et d’applications.

Découvrir les solutions NLP

Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA

Passez à l’étape suivante

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Notes de bas de page

¹ Melville, P. and Sindhwani, V. “Recommender Systems,” Encyclopedia of Machine learning and Data Mining, Springer, 2017.

² Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

³ Sarwat, M. and Mokbel, M. “Collaborative Filtering,” Encyclopedia of Database Systems, Springer, 2018.
Sarwat, M. et Mokbel, M. « Collaborative Filtering », Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

^4, 6 Pazzani, M.J. and Billsus, D. “Content-Based Recommendation Systems,” The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.

⁵ Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.

^7, 11 Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.
Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.

⁸ Banik, R. “Hands-On Recommendation Systems with Python”, Packt Publishing, 2018.
Elsa Negre,Information and Recommender Systems, vol. 4, Wiley-ISTE, 2015.

⁹ Kuhn, M. and Johnson, K. “Applied Predictive Modeling”, Springer, 2016.

¹⁰ Mei, Q. and Radev, D. “Information Retrieval,” Oxford Handbook of Computational Linguistics, Second Edition, Oxford University Press, 2016.

¹² Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.
Ricci, F., Rokach, L. and Shapira, B. “Recommender Systems Handbook”, Third Edition, Springer 2022.

¹³ Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.
Goodfellow, I., Bengio, Y. and Courville, A. “Deep Learning”, MIT Press, 2016.

^14, 16 Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.
Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

¹⁵ Han, J. Kamber, M. and Pei, J. “Data Mining: Concepts and Techniques”, Third Edition, Elsevier, 2012.
Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.

¹⁷ Shani, G., Heckerman, D. and Brafman, R. I. “An MDP-Based Recommender System”, 2005.
Lin, Y. et all. “A Survey on Reinforcement Learning for Recommender Systems”, 2023.
M.M. Afsar et al. “Reinforcement learning based recommender systems: A survey”, ACM Computing Surveys, 2023.

¹⁸ Chen, X. et all. “Generative Adversarial User Model for Reinforcement Learning Based Recommendation System”, 2019.
Huang, L. et all. “A deep reinforcement learning based long-term recommender system”, 2021

Qu’est-ce que le filtrage basé sur le contenu ?

Qu’est-ce que le filtrage basé sur le contenu ?

Filtrage basé sur le contenu et filtrage collaboratif

Les dernières tendances en matière d’IA, vues par des experts

Merci ! Vous êtes abonné(e).

Filtrage basé sur le contenu : comment ça marche ?

Composantes du filtrage basé sur le contenu

Représentations d’éléments

Indicateurs de similarité

Prédiction de l’interaction utilisateur-élément

Avantages et inconvénients du filtrage basé sur le contenu

Avantages

Inconvénients

Décryptage de l’IA : Tour d’horizon hebdomadaire

Recherches récentes

Ressources

Notes de bas de page