什么是内容过滤？

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

什么是内容过滤？

内容过滤是两大类推荐系统之一。它根据单个物品的特征向用户推荐物品。

基于内容的过滤是一种信息检索方法，它使用项目特征来选择并返回与用户查询相关的项目。此方法通常会考虑用户感兴趣的其他项目的特征。¹不过，基于内容 有点用词不当。一些基于内容的推荐算法根据附加在项目上的描述性特征（例如元数据）而不是项目的实际内容来匹配项目。²尽管如此，有几种基于内容的方法（例如，基于内容的图像检索或自然语言处理应用程序）确实会根据项目内在属性来匹配项目。

内容过滤与协同过滤

内容过滤是推荐系统的两种主要类型之一。另一种是协同过滤方法。后一种方法根据用户的行为将其分为不同的组。然后，它会使用一般的群组特征，根据相似用户（行为方面）对相似物品感兴趣的原则，将特定物品返回给整个组。³

近年来，从亚马逊等电子商务、社交媒体到流媒体服务，这两种方法在现实世界中得到了广泛应用。协作式系统和基于内容的系统共同构成了混合推荐系统。事实上，早在 2009 年，Netflix 就在其 Netflix 有奖竞赛中采用了混合推荐系统。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

内容过滤的工作原理

基于内容的推荐系统 (CBRS) 结合了机器学习算法和数据科学技术来推荐新商品并解答查询。

内容过滤的组成部分

在 CBRS 中，推荐引擎主要通过比较用户资料和商品资料来预测用户与商品的互动，并据此推荐商品。

物品配置文件是物品在系统中的表示形式。它包括物品的特征集，可以是内部结构特征或描述性元数据。例如，流媒体服务可以按照类型、发行日期、导演等来存储电影。
用户画像代表用户的偏好和行为。它可包含用户以前表现出兴趣的那些商品的代表内容。此外，它还包含用户过去与系统的交互的相关数据（例如，用户点赞、踩、评分、查询等）。⁴

物品表示

CBRS 通常将商品和用户作为向量空间中的嵌入。使用元数据描述或内部特征作为特征，将项目转换为向量。例如，我们构建了商品资料，作为在线书店的一部分向用户推荐新小说。然后，我们利用作者、流派等代表性元数据为每部小说创建资料。小说在某一类别中的价值可用布尔值表示，其中 1 表示小说在该类别中存在，0 表示不存在。通过此系统，我们就可以按照流派来呈现一小部分小说：

在这里，每种流派都是向量空间的不同维度，特定小说的数值代表了它在该向量空间中的位置。例如《小妇人》位于 (1,0,1)，《诺桑觉寺》位于 (0,0,1)，以此类推。我们可以将此样本向量空间可视化为：

在矢量空间中，两个小说矢量越接近，我们的系统就认为它们在所提供的特征上越相似。⁵《彼得·潘》和《金银岛》具有完全相同的特征，出现在同一个矢量点 (1,1,0)。那么，根据我们的系统，它们是相同的。事实上，它们有许多共同的情节设置（如孤岛和海盗）和主题（如成长或反抗）。相比之下，虽然《小妇人》也是一部儿童小说，但它不是一部冒险小说，而是一部成长小说。虽然《小妇人》和《彼得·潘》及《金银岛》一样是儿童小说，但它缺乏后两者的冒险特征值，并且具有成长小说的 1 个特征值，而后两者则缺乏这一特征值。这使得《小妇人》在矢量空间中更接近《诺桑觉寺》，因为它们在冒险和成长小说特征上具有相同的特征值。

由于它们在这一空间中的相似性，如果用户之前购买过 《彼得潘》，系统就会向其推荐与 《彼得潘》最接近的小说，例如 《金银岛》，作为其未来的潜在购买对象。请注意，如果我们添加更多的小说和基于流派的特征（如幻想、哥特等），小说在向量空间中的位置将会移动。例如，如果添加一个奇幻类型维度， 《彼得潘》和《金银岛》 可能会从另一个维度略微移动，因为前者通常被认为是奇幻小说，而后者则不是。

请注意，也可将项目的内部特点用作特征来创建项目向量。例如，我们可以将原始文本项目（如新闻文章）转换为结构化格式，并将其映射到向量空间，例如“Bag of Words 模型”。在此方法中，整个语料库中使用的每个词均会成为该向量空间的不同维度，而使用相似关键字的文章在向量空间中的位置也彼此更为靠近。

相似性指标

基于内容的筛选系统如何确定任意数量的物品之间的相似性？如上所述，向量空间中的邻近性是一种主要方法。不过，用于确定邻近性的特定指标可能会有所不同。常见指标包括：

余弦相似度表示两个向量之间角度的测量值。可以是 -1 到 1 之间的任意值。余弦分数越高，两个项目就越相似。一些资料推荐在高维特征空间中使用这个指标。余弦相似度用以下公式表示，其中，x 和y 表示向量空间中的两个项目向量：⁷

欧几里得距离测量连接两个向量点的假设线段的长度。欧几里得距离分数可能低至零，没有上限。两个项目向量的欧几里得距离越小，它们被认为越相似。欧几里得距离计算公式如下，其中，x 和y 代表两个项目向量：⁸

点积是指两个矢量之间的夹角余弦值与每个矢量各自从既定原点出发所测得欧几里得大小的乘积。换言之，它是指两个矢量的余弦值乘以每个矢量的投影长度——长度为矢量距离既定原点的位移，如 (0,0)。点积最适合用于比较量级差异很大的项目；例如，书籍或电影的受欢迎程度。它可由以下公式表示，而其中的 d 和 q 依然表示两个项目矢量：⁹

请注意，这些指标对比较矢量的加权方式十分敏感，因为不同的权重会大幅影响这些评分函数。¹⁰用于确定矢量相似度的其他潜在指标为：Pearson 相关系数（或 Pearson 相关性）和 Jaccard 相似度以及 Dice 系数。¹¹

用户-物品交互预测

CBRS 创建一个基于用户的分类器或回归模型，向特定用户推荐商品。首先，该算法会获取特定用户以前感兴趣的商品的描述和特征，这就是用户资料。这些商品构成训练数据集，用于创建针对该用户的分类或回归模型。在该模型中，商品属性是自变量，因变量是用户行为（例如，用户评分、喜欢、购买等）。根据用户过去的行为训练出的模型旨在预测用户未来对可能商品的行为，并根据预测结果推荐商品。¹²

内容过滤的优缺点

优势

冷启动问题本质上是系统如何处理新用户或新项目。这两者都给协同过滤带来了问题，因为协同过滤是根据推断出的行为和偏好的相似性对用户进行分组，从而推荐项目。然而，新用户与其他用户没有明显的相似性，新项目也没有足够的用户交互（例如评分）来获得推荐。虽然基于内容的过滤在处理新用户时存在困难，但它仍然能够熟练地处理新项目。这是因为它根据内部或元数据特征而不是过去的用户交互来推荐项目。¹³
基于内容的过滤通过提供可解释的特征来解释推荐，从而实现更高程度的透明度。例如，电影推荐系统可能会解释为什么推荐某部电影，比如与之前观看过的电影在类型或演员上有重叠。因此，用户可以就是否观看推荐的电影做出更明智的决定。¹⁴

缺点

基于内容的过滤的一个主要缺点是特征限制。基于内容的推荐完全来自于用于描述项目的特征。然而，系统的项目特征可能无法捕捉用户的喜好。例如，回到电影推荐系统的例子，假设用户看过并喜欢 1944 年的电影《煤气灯》。CBRS 可能会推荐 George Cukor 执导或 Ingrid Bergman 主演的其他电影，但这些电影可能与《煤气灯》 并不相似。如果用户偏爱的某些特定情节（如骗人的丈夫）或制作元素（如电影摄影师）在项目配置文件中没有体现，系统将无法提供合适的推荐。在数据不足的情况下，无法准确区分用户的潜在好恶。¹⁵
由于基于内容的过滤仅根据用户先前表现出的兴趣来推荐项目，因此，其推荐通常与用户过去喜欢的项目相似。换句话说，CBRS 缺乏应对新项目和不可预测项目的方法。这就是过度专门化。相比其他方法，基于协同的方法从具有与特定用户类似喜好的用户群中获得推荐。它们常常会向用户推荐一些他们可能没有考虑过的项目，这些项目与用户之前喜欢的项目具有不同的特征，但它们保留了某种未被代表的元素，这种元素能够吸引某类用户。¹⁶

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

资源

深入了解 IBM Granite

IBM Granite 是我们开放、性能出色且值得信赖的 AI 模型系列，它专为企业量身定制，并经过优化可帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列与防护措施选项。

NLP 初学者指南

了解自然语言处理 (NLP) 如何帮助您与计算机更自然地对话。

IBM 获评数据科学与机器学习领域领导者

了解 IBM 为何荣膺 2025 年 Gartner Magic Quadrant 数据科学与机器学习平台领域的领导者。

亲身体验生成式 AI

学习基本概念并通过亲手实验、课程、指导项目、试用等方式培养您的技能。

脚注

¹ Melville, P. and Sindhwani, V. “Recommender Systems,” Encyclopedia of Machine learning and Data Mining, Springer, 2017.

² Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

³ Sarwat, M. and Mokbel, M. “Collaborative Filtering,” Encyclopedia of Database Systems, Springer, 2018.
Sarwat, M. and Mokbel, M. “Collaborative Filtering,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

^4, 6 Pazzani, M.J. and Billsus, D. “Content-Based Recommendation Systems,” The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.

⁵ Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.

^7, 11 Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.
Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.

⁸ Banik, R. “Hands-On Recommendation Systems with Python”, Packt Publishing, 2018.
Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.

⁹ Kuhn, M. and Johnson, K. “Applied Predictive Modeling”, Springer, 2016.

¹⁰ Mei, Q. and Radev, D. “Information Retrieval,” Oxford Handbook of Computational Linguistics, Second Edition, Oxford University Press, 2016.

¹² Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.
Ricci, F., Rokach, L. and Shapira, B. “Recommender Systems Handbook”, Third Edition, Springer 2022.

¹³ Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.
Goodfellow, I., Bengio, Y. and Courville, A. “Deep Learning”, MIT Press, 2016.

^14, 16 Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.
Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

¹⁵ Han, J. Kamber, M. and Pei, J. “Data Mining: Concepts and Techniques”, Third Edition, Elsevier, 2012.
Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.

¹⁷ Shani, G., Heckerman, D. and Brafman, R. I. “An MDP-Based Recommender System”, 2005.
Lin, Y. et all. “A Survey on Reinforcement Learning for Recommender Systems”, 2023.
M.M. Afsar et al. “Reinforcement learning based recommender systems: A survey”, ACM Computing Surveys, 2023.

¹⁸ Chen, X. et all. “Generative Adversarial User Model for Reinforcement Learning Based Recommendation System”, 2019.
Huang, L. et all. “A deep reinforcement learning based long-term recommender system”, 2021

什么是内容过滤？

什么是内容过滤？

内容过滤与协同过滤

专家为您带来最新的 AI 趋势

谢谢！您已订阅。

内容过滤的工作原理

内容过滤的组成部分

物品表示

相似性指标

用户-物品交互预测

内容过滤的优缺点

优势

缺点

解码 AI：每周新闻摘要

最近的研究

资源

脚注