内容过滤是两大类推荐系统之一。它根据单个物品的特征向用户推荐物品。
基于内容的过滤是一种信息检索方法,它使用项目特征来选择并返回与用户查询相关的项目。此方法通常会考虑用户感兴趣的其他项目的特征。1不过,基于内容 有点用词不当。一些基于内容的推荐算法根据附加在项目上的描述性特征(例如元数据)而不是项目的实际内容来匹配项目。2尽管如此,有几种基于内容的方法(例如,基于内容的图像检索或自然语言处理应用程序)确实会根据项目内在属性来匹配项目。
内容过滤是推荐系统的两种主要类型之一。另一种是协同过滤方法。后一种方法根据用户的行为将其分为不同的组。然后,它会使用一般的群组特征,根据相似用户(行为方面)对相似物品感兴趣的原则,将特定物品返回给整个组。3
近年来,从亚马逊等电子商务、社交媒体到流媒体服务,这两种方法在现实世界中得到了广泛应用。协作式系统和基于内容的系统共同构成了混合推荐系统。事实上,早在 2009 年,Netflix 就在其 Netflix 有奖竞赛中采用了混合推荐系统。
基于内容的推荐系统 (CBRS) 结合了机器学习算法和数据科学技术来推荐新商品并解答查询。
在 CBRS 中,推荐引擎主要通过比较用户资料和商品资料来预测用户与商品的互动,并据此推荐商品。
CBRS 通常将商品和用户作为向量空间中的嵌入。使用元数据描述或内部特征作为特征,将项目转换为向量。例如,我们构建了商品资料,作为在线书店的一部分向用户推荐新小说。然后,我们利用作者、流派等代表性元数据为每部小说创建资料。小说在某一类别中的价值可用布尔值表示,其中 1 表示小说在该类别中存在,0 表示不存在。通过此系统,我们就可以按照流派来呈现一小部分小说:
在这里,每种流派都是向量空间的不同维度,特定小说的数值代表了它在该向量空间中的位置。例如《小妇人》位于 (1,0,1),《诺桑觉寺》位于 (0,0,1),以此类推。我们可以将此样本向量空间可视化为:
在矢量空间中,两个小说矢量越接近,我们的系统就认为它们在所提供的特征上越相似。5《彼得·潘》和《金银岛》具有完全相同的特征,出现在同一个矢量点 (1,1,0)。那么,根据我们的系统,它们是相同的。事实上,它们有许多共同的情节设置(如孤岛和海盗)和主题(如成长或反抗)。相比之下,虽然《小妇人》也是一部儿童小说,但它不是一部冒险小说,而是一部成长小说。虽然《小妇人》和《彼得·潘》及《金银岛》一样是儿童小说,但它缺乏后两者的冒险特征值,并且具有成长小说的 1 个特征值,而后两者则缺乏这一特征值。这使得《小妇人》在矢量空间中更接近《诺桑觉寺》,因为它们在冒险和成长小说特征上具有相同的特征值。
由于它们在这一空间中的相似性,如果用户之前购买过 《彼得潘》,系统就会向其推荐与 《彼得潘》最接近的小说,例如 《金银岛》,作为其未来的潜在购买对象。请注意,如果我们添加更多的小说和基于流派的特征(如幻想、哥特等),小说在向量空间中的位置将会移动。例如,如果添加一个奇幻类型维度, 《彼得潘》和《金银岛》 可能会从另一个维度略微移动,因为前者通常被认为是奇幻小说,而后者则不是。
请注意,也可将项目的内部特点用作特征来创建项目向量。例如,我们可以将原始文本项目(如新闻文章)转换为结构化格式,并将其映射到向量空间,例如“Bag of Words 模型”。在此方法中,整个语料库中使用的每个词均会成为该向量空间的不同维度,而使用相似关键字的文章在向量空间中的位置也彼此更为靠近。
基于内容的筛选系统如何确定任意数量的物品之间的相似性?如上所述,向量空间中的邻近性是一种主要方法。不过,用于确定邻近性的特定指标可能会有所不同。常见指标包括:
余弦相似度表示两个向量之间角度的测量值。可以是 -1 到 1 之间的任意值。余弦分数越高,两个项目就越相似。一些资料推荐在高维特征空间中使用这个指标。余弦相似度用以下公式表示,其中,x 和y 表示向量空间中的两个项目向量:7
欧几里得距离测量连接两个向量点的假设线段的长度。欧几里得距离分数可能低至零,没有上限。两个项目向量的欧几里得距离越小,它们被认为越相似。欧几里得距离计算公式如下,其中,x 和y 代表两个项目向量:8
点积是指两个矢量之间的夹角余弦值与每个矢量各自从既定原点出发所测得欧几里得大小的乘积。换言之,它是指两个矢量的余弦值乘以每个矢量的投影长度——长度为矢量距离既定原点的位移,如 (0,0)。点积最适合用于比较量级差异很大的项目;例如,书籍或电影的受欢迎程度。它可由以下公式表示,而其中的 d 和 q 依然表示两个项目矢量:9
请注意,这些指标对比较矢量的加权方式十分敏感,因为不同的权重会大幅影响这些评分函数。10用于确定矢量相似度的其他潜在指标为:Pearson 相关系数(或 Pearson 相关性)和 Jaccard 相似度以及 Dice 系数。11
CBRS 创建一个基于用户的分类器或回归模型,向特定用户推荐商品。首先,该算法会获取特定用户以前感兴趣的商品的描述和特征,这就是用户资料。这些商品构成训练数据集,用于创建针对该用户的分类或回归模型。在该模型中,商品属性是自变量,因变量是用户行为(例如,用户评分、喜欢、购买等)。根据用户过去的行为训练出的模型旨在预测用户未来对可能商品的行为,并根据预测结果推荐商品。12
冷启动问题本质上是系统如何处理新用户或新项目。这两者都给协同过滤带来了问题,因为协同过滤是根据推断出的行为和偏好的相似性对用户进行分组,从而推荐项目。然而,新用户与其他用户没有明显的相似性,新项目也没有足够的用户交互(例如评分)来获得推荐。虽然基于内容的过滤在处理新用户时存在困难,但它仍然能够熟练地处理新项目。这是因为它根据内部或元数据特征而不是过去的用户交互来推荐项目。13
基于内容的过滤通过提供可解释的特征来解释推荐,从而实现更高程度的透明度。例如,电影推荐系统可能会解释为什么推荐某部电影,比如与之前观看过的电影在类型或演员上有重叠。因此,用户可以就是否观看推荐的电影做出更明智的决定。14
基于内容的过滤的一个主要缺点是特征限制。基于内容的推荐完全来自于用于描述项目的特征。然而,系统的项目特征可能无法捕捉用户的喜好。例如,回到电影推荐系统的例子,假设用户看过并喜欢 1944 年的电影《煤气灯》。CBRS 可能会推荐 George Cukor 执导或 Ingrid Bergman 主演的其他电影,但这些电影可能与《煤气灯》 并不相似。如果用户偏爱的某些特定情节(如骗人的丈夫)或制作元素(如电影摄影师)在项目配置文件中没有体现,系统将无法提供合适的推荐。在数据不足的情况下,无法准确区分用户的潜在好恶。15
由于基于内容的过滤仅根据用户先前表现出的兴趣来推荐项目,因此,其推荐通常与用户过去喜欢的项目相似。换句话说,CBRS 缺乏应对新项目和不可预测项目的方法。这就是过度专门化。相比其他方法,基于协同的方法从具有与特定用户类似喜好的用户群中获得推荐。它们常常会向用户推荐一些他们可能没有考虑过的项目,这些项目与用户之前喜欢的项目具有不同的特征,但它们保留了某种未被代表的元素,这种元素能够吸引某类用户。16
虽然过去的研究将推荐作为一个预测或分类问题来处理,但近期大量研究则认为,推荐应被理解为一个连续的决策问题。在此模式下,强化学习可能更适合用于解决推荐问题。这种方法主张根据用户与项目的互动实时更新推荐;当用户跳过、点击、评分、购买建议的项目时,该模型会根据这些反馈制定最佳策略来推荐新项目。17近期多项研究提出了各种强化学习应用程序来解决可变的长期用户兴趣,这对基于内容的过滤和协作过滤都带来了挑战。18
IBM® Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列,专门为企业量身定制,并经过优化,可以帮助您扩展 AI 应用。深入了解语言、代码、时间序列和防护措施选项。
了解自然语言处理如何帮助您与计算机更自然地对话。
我们对 2,000 家组织进行了调查,旨在了解他们的 AI 计划,以发现哪些方法有效、哪些方法无效,以及如何才能取得领先。
深入了解 IBM 开发人员网站,访问博客、文章、时事通讯,并了解更多有关 IBM 嵌入式 AI 的信息。
学习基本概念并通过亲手实验、课程、指导项目、试用等方式培养您的技能。
1 Prem Melville 和 Vikas Sindhwani,《推荐系统》, 机器学习和数据挖掘百科全书,Springer,2017 年。
2 Charu Aggarwal, 《推荐系统:教科书》,Springer,2016 年。
3 “协同过滤”, 机器学习与数据挖掘百科全书,Springer,2017 年。Mohamed Sarwat 和 Mohamed Mokbel,“协同过滤”, 《数据库系统百科全书》,Springer,2018 年。
4 Michael J. Pazzani 和 Daniel Billsus,“内容基于的推荐系统”, 《自适应网络: 网络个性化的方法和策略》,Springer,2007 年。
5 Elsa Negre,《信息和推荐系统》,第 4 卷,Wiley-ISTE,2015 年。
6 Michael J. Pazzani 和 Daniel Billsus,“基于内容的推荐系统”, 《自适应网络: 网络个性化的方法和策略》 ,Springer,2007 年。
7 Elsa Negre, 《信息和推荐系统》,第 4 卷,Wiley-ISTE,2015 年。Sachi Nandan Mohanty、Jyotir Moy Chatterjee、Sarika Jain、Ahmed A. Elngar 和 Priya Gupta, 使用机器学习和人工智能的推荐系统,Wiley-Scrivener,2020 年。
8 Rounak Banik, 《使用 Python 的动手推荐系统》,Packt Publishing,2018 年。Elsa Negre, 信息和推荐系统,第 4 卷,Wiley-ISTE,2015 年。
9 Max Kuhn 和 Kjell Johnson, 应用预测建模,Springer,2016 年。
10 Qiaozhu Mei 和 Dragomir Radev,《信息检索》, 《牛津计算语言学手册》,第 2 版,牛津大学出版社,2016 年。
11 Elsa Negre, 《信息和推荐系统》,第 4 卷,Wiley-ISTE,2015 年。Sachi Nandan Mohanty、Jyotir Moy Chatterjee、Sarika Jain、Ahmed A. Elngar 和 Priya Gupta, 使用机器学习和人工智能的推荐系统,Wiley-Scrivener,2020 年。
12 Charu Aggarwal,《推荐系统:教科书》,Springer,2016 年。Ricci,《推荐系统手册》,第 3 版,Springer,2022 年。
13 Charu Aggarwal, 《推荐系统:教科书》 ,Springer,2016 年。Ian Goodfellow、Yoshua Bengio 和 Aaron Courville, 《深度学习》,MIT Press,2016 年。
14 Sachi Nandan Mohanty、Jyotir Moy Chatterjee、Sarika Jain、Ahmed A. Elngar 和 Priya Gupta,《机器学习和人工智能推荐系统》,Wiley-Scrivener,2020 年。Charu Aggarwal,《推荐系统:教科书》,Springer,2016 年。
15 Jaiwei Han、Micheline Kamber 和 Jian Pei,《数据挖掘:概念与技术》,第 3 版,Elsevier,2012 年。Sachi Nandan Mohanty、Jyotir Moy Chatterjee、Sarika Jain、Ahmed A. Elngar 和 Priya Gupta,《机器学习和人工智能推荐系统》,Wiley-Scrivener,2020 年。
16 Sachi Nandan Mohanty、Jyotir Moy Chatterjee、Sarika Jain、Ahmed A. Elngar 和 Priya Gupta, 带有机器学习和人工智能的推荐系统,Wiley-Scrivener,2020 年。Charu Aggarwal, 《推荐系统: 教科书》,Springer,2016 年。
17 Guy Shani、David Heckerman 和 Ronen I. Brafman,“基于 MDP 的推荐系统”, 机器学习研究杂志,第 6 卷,第 43 期,2005 年,第 1265-1295 页, https://www.jmlr.org/papers/v6/shani05a.html。Yuanguo Lin、Yong Liu、Fan Lin、Lixin Zou、Pengcheng Wu、Wenhua Zeng、Huanhuan Chen 和 Chunyan Miao,“推荐系统强化学习调查”, 《IEEE Neural Networks 和学习系统交易》,2023 年, https://ieeexplore.ieee.org/abstract/document/10144689。M. Mehdi Afsar、Trafford Crump 和 Behrouz Far,“基于强化学习的推荐系统:一项调查”,ACM 计算调查,第 55 卷,第 7 期,2023 年, https://dl.acm.org/doi/abs/10.1145/3543846。
18 Xinshi Chen、 Shuang Li、 Hui Li、 Shaohua Jiang、 Yuan Qi、 Le Song,“基于强化学习的推荐系统的生成式对抗用户模型”, 第 36 届国际机器学习大会论文集, PMLR,第 97 期,2019 年,第 1052-1061 页, http://proceedings.mlr.press/v97/chen19f.html。Liwei Huang、Mingsheng Fu、Fan Li、Hong Qu、Yangjun Liu 和 Wenyu Chen,“基于深度强化学习的长期推荐系统”,Knowledge-Based Systems,第 213 卷,2021 年, https://www.sciencedirect.com/science/article/abs/pii/S0950705120308352。