コンテンツ・ベースのフィルタリングは、レコメンデーション・システムの主要2タイプのうちの1つです。個々のアイテムの特徴に応じてユーザーにアイテムを推奨します。
コンテンツ・ベースのフィルタリングは、アイテムの特徴を使用して、ユーザーのクエリに関連するアイテムを選択して返す情報検索方法です。この方法では、多くの場合、ユーザーが興味を示している他のアイテムの特徴が考慮されます。1しかし、コンテンツ・ベースというのは、少し誤解を招く表現と言えるでしょう。一部のコンテンツ・ベースの推奨アルゴリズムでは、アイテムの実際のコンテンツではなく、アイテムに添付された説明的な特徴(メタデータなど)に基づいてアイテムがマッチングされます。2ただし、コンテンツ・ベースの画像検索や自然言語処理アプリケーションなど、いくつかのコンテンツ・ベースの方法では、アイテムの固有の属性に従ってアイテムを照合します。
コンテンツ・ベースのフィルタリングは、レコメンデーション・システムの主要2タイプのうちの1つです。もう1つは協調フィルタリング方式です。後者のアプローチでは、ユーザーをその行動に基づいて個別のグループにグループ化します。一般的なグループ特性を使用して、類似したユーザー(行動的に)は類似したアイテムに興味があるという原則に基づいて、特定のアイテムをグループ全体に返します。3
どちらの方法も、AmazonなどのEコマースからソーシャルメディアやストリーミング・サービスに至るまで、近年では現実世界の多くの分野で活用されています。協調システムとコンテンツ・ベースのシステムが一緒に、ハイブリッドな推奨システムを形成します。2009年には、NetflixがNetflix賞のコンテストを通じて、ハイブリッド推奨システムを採用しました。
コンテンツ・ベースのレコメンデーション・システム(CBRS)は、機械学習アルゴリズムとデータサイエンスの手法を組み込んで、新しいアイテムを推奨し、クエリーに回答します。
CBRSでは、推奨エンジンは基本的にユーザー・プロファイルとアイテム・プロファイルを比較して、ユーザーとアイテムのやり取りを予測し、それに応じてアイテムを推奨します。
CBRは多くの場合、アイテムやユーザーをベクトル空間の埋め込みとして表します。アイテムは、メタデータの説明または内部特性を特徴として使用してベクトルに変換されます。例えば、オンライン書店の一部としてユーザーに新しい小説を推奨するためのアイテム・プロファイルを作成するとします。次に、著者、ジャンルなどの代表的なメタデータを使用して、各小説のプロファイルを作成します。特定のカテゴリーにおける小説の価値はブール値で表すことができます。「1」は小説がそのカテゴリーに存在することを示し、「0」は存在しないことを示します。このシステムでは、ジャンルに応じて少数の小説を表現できる可能性があります。
ここで、各ジャンルはベクトル空間の異なる次元であり、特定の小説の値はベクトル空間における位置を表します。例えば、「若草物語」は(1,0,1)、「ノーサンガー・アビー」は(0,0,1)にあります。このサンプル・ベクトル空間は次のように視覚化できます。
2つの新規ベクトルがベクトル空間内で近いほど、提供された特徴に基づいて、それらをより類似しているとみなされます。5「ピーターパン」と「宝島」はまったく同じ特徴を共有しており、同じベクトル点(1,1,0)に表示されます。IBMのシステムでは、これらは同一とみなされます。実際、これらの作品には多くのプロット装置(例えば、孤立した島や海賊)やテーマ(例えば、成長やそれに対する抵抗)が共通しています。対照的に、「若草物語」も児童小説ですが、冒険小説ではなく、子どもの成長を描く物語です。つまり、「若草物語」は「ピーターパン」や「宝島」のような児童向け小説ですが、冒険小説としての特徴値は「0」で、後者2冊には備わっていない、成長小説としての特徴値は「1」となります。これにより、ベクトル空間では「若草物語」は「ノーサンガー・アビー」に近くなります。これは、冒険と成長物語の特徴が同じ値を共有しているためです。
この分野での類似性のため、ユーザーが以前に「ピーターパン」を購入した場合、システムは「ピーターパン」に最も近い小説(例えば「宝島」)を将来の購入候補としてそのユーザーに推奨します。より多くの小説やジャンルベースの機能(ファンタジー、ゴシックなど)を追加すると、ベクトル空間内の小説の位置が移動することに注意してください。例えば、ファンタジー・ジャンルの次元を追加すると、前者はファンタジーとみなされることが多いのに対し、後者はそうではないため、「ピーターパン」と」宝島」は互いにわずかに異なる可能性があります。
アイテムの内部特性を特徴として使用してアイテム・ベクトルを作成することもできることに注意してください。例えば、生のテキスト項目(ニュース記事など)を構造化された形式に変換し、「Bag-of-Wordsモデル」などのベクトル空間にマッピングすることができます。このアプローチでは、コーパス全体で使用される各単語がベクトル空間の異なる次元になり、同様のキーワードを使用する記事がベクトル空間内で互いに近くに表示されます。
コンテンツ・ベースのフィルタリング・システムは、任意の数のアイテム間の類似性をどのように判断するのでしょうか。前述のように、ベクトル空間での近接性が主な方法ですが、近接性を判断するために用いられるメトリクスはさまざまです。一般的なメトリクスには、次のようなものがあります。
コサイン類似性は、2つのベクトル間の角度を表します。これは、-1~1の任意の値です。コサインス類似度が高いほど、2つのアイテムが類似していると見なされます。一部の文献では、高次元の特徴空間に対してこの指標を推奨しています。コサイン類似度は次の式で表され、xとyは、ベクトル空間内の2つのアイテム・ベクトルを示します。7
ユークリッド距離は、2つのベクトル点を結ぶ仮想線分の長さを測定します。ユークリッド距離スコアは、上限なしで「0」まで下がる場合があります。2つの項目ベクトルのユークリッド距離が小さいほど、それらの類似性が高いとみなされます。ユークリッド距離は次の式で計算されます。ここで、「x」と「y」は2つのアイテム・ベクトルを表します:8
ドット積は、2つのベクトル間の角度の余弦と、定義された原点からの各ベクトルのユークリッド大きさの積です。つまり、2つのベクトルの余弦に各ベクトルの投影された長さを掛けたものです。長さは、(0,0)などの定義された原点からのベクトルの変位です。ドット積は、書籍や映画の人気度など、著しく異なる大きさの項目を比較する場合に最適です。これは次の式で表されます。ここで、「d」と「q」は、2つの項目ベクトルを表します。9
これらの指標は比較するベクトルの重み付け方法に左右されることに注意してください。重み付けが異なると、これらのスコアリング関数に大きく影響する可能性があります。10ベクトルの類似性を判断するための他の指標としては、ピアソン相関係数(またはピアソンの相関)、ジャカード類似度、およびダイス・インデックスがあります。11
CBRSは、ユーザーベースの分類子または回帰モデルを作成し、特定のユーザーにアイテムを推奨します。まず、アルゴリズムは、特定のユーザーが以前興味を示したアイテムの説明と特徴、つまりユーザー・プロファイルを取得します。これらの項目は、そのユーザーに固有の分類または回帰モデルを作成するために使用されるトレーニング・データ・セットを構成します。このモデルでは、アイテム属性が独立変数であり、従属変数はユーザーの行動(ユーザーの評価、いいね、購入など)です。この過去の行動に基づいてトレーニングされたモデルは、可能性のあるアイテムに対する将来のユーザー行動を予測し、予測に従ってアイテムを推奨することを目的としています。12
コールド・スタートの問題は、本質的には、システムが新しいユーザーまたは新しいアイテムをどのように処理するかという問題です。協調フィルタリングでは、推測された行動や好みの類似性に基づいてユーザーをグループ化してアイテムを推奨するため、どちらも問題を引き起こします。ただし、新しいユーザーには他のユーザーとの明らかな類似性がなく、新しいアイテムには推奨するための十分なユーザー・インタラクション(評価など)がありません。一方、コンテンツ・ベースのフィルタリングは新しいユーザーにとっては苦労しますが、それでも新しいアイテムの組み込みはうまく処理します。これは、過去のユーザー・インタラクションではなく、内部またはメタデータの特性に基づいてアイテムを推奨するためです。13
コンテンツ・ベースのフィルタリングでは、推奨事項を説明する解釈可能な機能を提供することで、透明性が向上します。例えば、映画推奨システムでは、ジャンルや俳優が以前に視聴した映画と重複しているなど、特定の映画が推奨される理由を説明する場合があります。したがって、ユーザーは、推奨された映画を視聴するかどうかについて、より情報に基づいた決定を下すことができます。14
コンテンツ・ベースのフィルタリングの主な欠点の1つは、特徴における制限です。コンテンツ・ベースの推奨事項は、アイテムを説明するために使用される特徴からのみ派生します。ただし、システムのアイテムの特徴では、ユーザーの好みを捉えられない場合があります。例えば、映画推奨システムの例に戻ると、ユーザーが1944年の映画「ガス燈」を視聴して気に入ったとします。CBRSはジョージ・キューカー監督やイングリッド・バーグマン主演の他の映画を推奨するかもしれませんが、それらの映画は「ガス燈」と似ていない可能性があります。ユーザーが、アイテム・プロファイルに示されていない特定のプロット・デバイス(例えば、偽りの夫)や制作要素(例えば、撮影監督)を好む場合、システムは適切な推奨事項を提示しません。データが不十分だと、ユーザーの潜在的な好き嫌いを正確に区別することはできません。15
コンテンツ・ベースのフィルタリングでは、ユーザーが以前に証明した興味に基づいてアイテムのみが推奨されるため、その推奨はユーザーが過去に気に入ったアイテムに似ていることがよくあります。言い換えれば、CBRSには新しい予測不可能な事柄を探索する手段が欠けているのです。これは過剰な専門化です。対照的に、コラボレーションベースの方法では、特定のユーザーと似たような好みを持つユーザーのプールから推奨を引き出すため、ユーザーが考慮していなかったアイテムや、ユーザーが以前に気に入ったアイテムとは異なる特徴を持つアイテムを推奨することがよくありますが、そのアイテムにはユーザータイプにアピールする、表現されていない要素が残っています。16
これまでの研究では、レコメンデーションを予測や分類の問題として取り組んできましたが、最近の研究では、レコメンデーションが逐次的な意思決定の問題として理解されています。このパラダイムでは、強化学習の方がレコメンデーションに対処するために、より適している可能性があります。このアプローチでは、レコメンデーションはユーザーとアイテムの相互作用に従ってリアルタイムで更新されると主張されています。ユーザーがおすすめ商品をスキップ、クリック、評価、購入すると、モデルはこのフィードバックから最適なポリシーを開発して新しい商品をおすすめします。17最近の研究では、コンテンツ・ベースのフィルタリングと協調フィルタリングの両方に課題をもたらす、可変的で長期的なユーザーの関心に対処するためのさまざまな強化学習アプリケーションが提案されています。18
IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。
自然言語処理がコンピューターとのより自然な対話にどのように役立つかをご覧ください。
2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。
IBM DeveloperのWebサイトのブログ、記事、ニュースレターには、IBMの組み込み型AIに関する詳細が記載されています。
ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。
IBM® watsonx Orchestrateを使用すると、スケーラブルなAIアシスタントとエージェントを簡単に設計し、反復的なタスクを自動化し、複雑なプロセスを簡素化できます。
ライブラリー、サービス、アプリケーションの強力かつ柔軟なポートフォリオにより、人工知能のビジネス価値を促進します。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
1 Prem Melville and Vikas Sindhwani, “Recommender Systems,” Encyclopedia of Machine learning and Data Mining, Springer, 2017.
2 Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.
3 “Collaborative Filtering,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017. Mohamed Sarwat and Mohamed Mokbel, “Collaborative Filtering,” Encyclopedia of Database Systems, Springer, 2018.
4 Michael J. Pazzani and Daniel Billsus, “Content-Based Recommendation Systems,” The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.
5 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015.
6 Michael J. Pazzani and Daniel Billsus, “Content-Based Recommendation Systems,” The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.
7 Elsa Negre、Information and Recommender Systems、Vol.4、Wiley-ISTE、2015年。 Sachi Nandan Mohanty、Jyotir Moy Chatterjee、Sarika Jain、Ahmed A. Elngar、Priya Gupta共著、Recommender System with Machine Learning and Artificial Intelligence、Wiley-Scrivener、2020年。
8 Rounak Banik, Hands-On Recommendation Systems with Python, Packt Publishing, 2018. Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015.
9 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
10 Qiaozhu Mei、Dragomir Radev共著、『Information Retrieval』、Oxford Handbook of Computational Linguistics、第2版、Oxford University Press、2016年。
11 Elsa Negre著、Information and Recommender Systems、Vol. 4、Wiley-ISTE、2015年。Sachi Nandan Mohanty、Jyotir Moy Chatterjee、Sarika Jain、Ahmed A. Elngar、Priya Gupta共著、Recommender System with Machine Learning and Artificial Intelligence、Wiley-Scrivener、2020年。
12 Charu Aggarwal著、Recommender Systems: The Textbook、Springer、2016年。Ricci著、Recommender Systems Handbook、第3版、Springer、2022年。
13 Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016. Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.
14 Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar, and Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020. Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.
15 Jaiwei Han、Micheline Kamber、Jian Pei共著、Data Mining: Concepts and Techniques、第3版、Elsevier、2012年。Sachi Nandan Mohanty、Jyotir Moy Chatterjee、Sarika Jain、Ahmed A. Elngar、Priya Gupta共著、Recommender System with Machine Learning and Artificial Intelligence、Wiley-Scrivener、2020年。
16 Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar, and Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020. Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.
17 Guy Shani and David Heckerman and Ronen I. Brafman, “An MDP-Based Recommender System,” Journal of Machine Learning Research, Vol. 6, No. 43, 2005, pp. 1265-1295, https://www.jmlr.org/papers/v6/shani05a.html. Yuanguo Lin, Yong Liu, Fan Lin, Lixin Zou, Pengcheng Wu, Wenhua Zeng, Huanhuan Chen, and Chunyan Miao, “A Survey on Reinforcement Learning for Recommender Systems,” IEEE Transactions on Neural Networks and Learning Systems, 2023, https://ieeexplore.ieee.org/abstract/document/10144689. M. Mehdi Afsar, Trafford Crump, and Behrouz Far, Reinforcement Learning based Recommender Systems: A Survey,” ACM Computing Survey, Vol. 55, No. 7, 2023, https://dl.acm.org/doi/abs/10.1145/3543846.
18 Xinshi Chen, Shuang Li, Hui Li, Shaohua Jiang, Yuan Qi, Le Song, “Generative Adversarial User Model for Reinforcement Learning Based Recommendation System,” Proceedings of the 36th International Conference on Machine Learning, PMLR, No. 97, 2019, pp. 1052-1061, http://proceedings.mlr.press/v97/chen19f.html. Liwei Huang, Mingsheng Fu, Fan Li,Hong Qu, Yangjun Liu, and Wenyu Chen, “A deep reinforcement learning based long-term recommender system,” Knowledge-Based Systems, Vol. 213, 2021, https://www.sciencedirect.com/science/article/abs/pii/S0950705120308352.