コンテンツ・ベースのフィルタリングとは

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

コンテンツ・ベースのフィルタリングとは

コンテンツ・ベースのフィルタリングは、レコメンデーション・システムの主要2タイプのうちの1つです。個々のアイテムの特徴に応じてユーザーにアイテムを推奨します。

コンテンツ・ベースのフィルタリングは、アイテムの特徴を使用して、ユーザーのクエリに関連するアイテムを選択して返す情報検索方法です。この方法では、多くの場合、ユーザーが興味を示している他のアイテムの特徴が考慮されます。¹しかし、コンテンツ・ベースというのは、少し誤解を招く表現と言えるでしょう。一部のコンテンツ・ベースの推奨アルゴリズムでは、アイテムの実際のコンテンツではなく、アイテムに添付された説明的な特徴（メタデータなど）に基づいてアイテムがマッチングされます。²ただし、コンテンツ・ベースの画像検索や自然言語処理アプリケーションなど、いくつかのコンテンツ・ベースの方法では、アイテムの固有の属性に従ってアイテムを照合します。

コンテンツ・ベースのフィルタリングと協調フィルタリングの比較

コンテンツ・ベースのフィルタリングは、レコメンデーション・システムの主要2タイプのうちの1つです。もう1つは協調フィルタリング方式です。後者のアプローチでは、ユーザーをその行動に基づいて個別のグループにグループ化します。一般的なグループ特性を使用して、類似したユーザー（行動的に）は類似したアイテムに興味があるという原則に基づいて、特定のアイテムをグループ全体に返します。³

どちらの方法も、AmazonなどのEコマースからソーシャルメディアやストリーミング・サービスに至るまで、近年では現実世界の多くの分野で活用されています。協調システムとコンテンツ・ベースのシステムが一緒に、ハイブリッドな推奨システムを形成します。2009年には、NetflixがNetflix賞のコンテストを通じて、ハイブリッド推奨システムを採用しました。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

コンテンツ・ベース・フィルタリングの仕組み

コンテンツ・ベースのレコメンデーション・システム（CBRS）は、機械学習アルゴリズムとデータサイエンスの手法を組み込んで、新しいアイテムを推奨し、クエリーに回答します。

コンテンツ・ベース・フィルタリングのコンポーネント

CBRSでは、推奨エンジンは基本的にユーザー・プロファイルとアイテム・プロファイルを比較して、ユーザーとアイテムのやり取りを予測し、それに応じてアイテムを推奨します。

アイテム・プロファイルは、システム内のアイテムを表したものです。これは、内部構造化された特性または記述的なメタデータであるアイテムの機能セットで構成されます。例えば、ストリーミング・サービスでは、ジャンル、公開日、監督などに基づいて映画を保存できます。
ユーザー・プロファイル は、ユーザーの好みと行動を表します。ユーザーが以前興味を示したアイテムの表現で構成できます。また、システムとの過去のやり取りに関するユーザーデータ（ユーザーのいいね、嫌い、評価、クエリなど）も含まれます。⁴

アイテムの表現

CBRは多くの場合、アイテムやユーザーをベクトル空間の埋め込みとして表します。アイテムは、メタデータの説明または内部特性を特徴として使用してベクトルに変換されます。例えば、オンライン書店の一部としてユーザーに新しい小説を推奨するためのアイテム・プロファイルを作成するとします。次に、著者、ジャンルなどの代表的なメタデータを使用して、各小説のプロファイルを作成します。特定のカテゴリーにおける小説の価値はブール値で表すことができます。「1」は小説がそのカテゴリーに存在することを示し、「0」は存在しないことを示します。このシステムでは、ジャンルに応じて少数の小説を表現できる可能性があります。

ここで、各ジャンルはベクトル空間の異なる次元であり、特定の小説の値はベクトル空間における位置を表します。例えば、「若草物語」は（1,0,1）、「ノーサンガー・アビー」は（0,0,1）にあります。このサンプル・ベクトル空間は次のように視覚化できます。

2つの新規ベクトルがベクトル空間内で近いほど、提供された特徴に基づいて、それらをより類似しているとみなされます。⁵「ピーターパン」と「宝島」はまったく同じ特徴を共有しており、同じベクトル点（1,1,0）に表示されます。IBMのシステムでは、これらは同一とみなされます。実際、これらの作品には多くのプロット装置（例えば、孤立した島や海賊）やテーマ（例えば、成長やそれに対する抵抗）が共通しています。対照的に、「若草物語」も児童小説ですが、冒険小説ではなく、子どもの成長を描く物語です。つまり、「若草物語」は「ピーターパン」や「宝島」のような児童向け小説ですが、冒険小説としての特徴値は「０」で、後者2冊には備わっていない、成長小説としての特徴値は「1」となります。これにより、ベクトル空間では「若草物語」は「ノーサンガー・アビー」に近くなります。これは、冒険と成長物語の特徴が同じ値を共有しているためです。

この分野での類似性のため、ユーザーが以前に「ピーターパン」を購入した場合、システムは「ピーターパン」に最も近い小説（例えば「宝島」）を将来の購入候補としてそのユーザーに推奨します。より多くの小説やジャンルベースの機能（ファンタジー、ゴシックなど）を追加すると、ベクトル空間内の小説の位置が移動することに注意してください。例えば、ファンタジー・ジャンルの次元を追加すると、前者はファンタジーとみなされることが多いのに対し、後者はそうではないため、「ピーターパン」と」宝島」は互いにわずかに異なる可能性があります。

アイテムの内部特性を特徴として使用してアイテム・ベクトルを作成することもできることに注意してください。例えば、生のテキスト項目（ニュース記事など）を構造化された形式に変換し、「Bag-of-Wordsモデル」などのベクトル空間にマッピングすることができます。このアプローチでは、コーパス全体で使用される各単語がベクトル空間の異なる次元になり、同様のキーワードを使用する記事がベクトル空間内で互いに近くに表示されます。

類似性メトリクス

コンテンツ・ベースのフィルタリング・システムは、任意の数のアイテム間の類似性をどのように判断するのでしょうか。前述のように、ベクトル空間での近接性が主な方法ですが、近接性を判断するために用いられるメトリクスはさまざまです。一般的なメトリクスには、次のようなものがあります。

コサイン類似性は、2つのベクトル間の角度を表します。これは、-1～1の任意の値です。コサインス類似度が高いほど、2つのアイテムが類似していると見なされます。一部の文献では、高次元の特徴空間に対してこの指標を推奨しています。コサイン類似度は次の式で表され、xとyは、ベクトル空間内の2つのアイテム・ベクトルを示します。⁷

ユークリッド距離は、2つのベクトル点を結ぶ仮想線分の長さを測定します。ユークリッド距離スコアは、上限なしで「0」まで下がる場合があります。2つの項目ベクトルのユークリッド距離が小さいほど、それらの類似性が高いとみなされます。ユークリッド距離は次の式で計算されます。ここで、「x」と「y」は2つのアイテム・ベクトルを表します:⁸

ドット積は、2つのベクトル間の角度の余弦と、定義された原点からの各ベクトルのユークリッド大きさの積です。つまり、2つのベクトルの余弦に各ベクトルの投影された長さを掛けたものです。長さは、（0,0）などの定義された原点からのベクトルの変位です。ドット積は、書籍や映画の人気度など、著しく異なる大きさの項目を比較する場合に最適です。これは次の式で表されます。ここで、「d」と「q」は、2つの項目ベクトルを表します。⁹

これらの指標は比較するベクトルの重み付け方法に左右されることに注意してください。重み付けが異なると、これらのスコアリング関数に大きく影響する可能性があります。¹⁰ベクトルの類似性を判断するための他の指標としては、ピアソン相関係数（またはピアソンの相関）、ジャカード類似度、およびダイス・インデックスがあります。¹¹

ユーザーとアイテムのインタラクション予測

CBRSは、ユーザーベースの分類子または回帰モデルを作成し、特定のユーザーにアイテムを推奨します。まず、アルゴリズムは、特定のユーザーが以前興味を示したアイテムの説明と特徴、つまりユーザー・プロファイルを取得します。これらの項目は、そのユーザーに固有の分類または回帰モデルを作成するために使用されるトレーニング・データ・セットを構成します。このモデルでは、アイテム属性が独立変数であり、従属変数はユーザーの行動（ユーザーの評価、いいね、購入など）です。この過去の行動に基づいてトレーニングされたモデルは、可能性のあるアイテムに対する将来のユーザー行動を予測し、予測に従ってアイテムを推奨することを目的としています。¹²

コンテンツ・ベースフィルタリングの利点と欠点

メリット

コールド・スタートの問題は、本質的には、システムが新しいユーザーまたは新しいアイテムをどのように処理するかという問題です。協調フィルタリングでは、推測された行動や好みの類似性に基づいてユーザーをグループ化してアイテムを推奨するため、どちらも問題を引き起こします。ただし、新しいユーザーには他のユーザーとの明らかな類似性がなく、新しいアイテムには推奨するための十分なユーザー・インタラクション（評価など）がありません。一方、コンテンツ・ベースのフィルタリングは新しいユーザーにとっては苦労しますが、それでも新しいアイテムの組み込みはうまく処理します。これは、過去のユーザー・インタラクションではなく、内部またはメタデータの特性に基づいてアイテムを推奨するためです。¹³

コンテンツ・ベースのフィルタリングでは、推奨事項を説明する解釈可能な機能を提供することで、透明性が向上します。例えば、映画推奨システムでは、ジャンルや俳優が以前に視聴した映画と重複しているなど、特定の映画が推奨される理由を説明する場合があります。したがって、ユーザーは、推奨された映画を視聴するかどうかについて、より情報に基づいた決定を下すことができます。¹⁴

デメリット

コンテンツ・ベースのフィルタリングの主な欠点の1つは、特徴における制限です。コンテンツ・ベースの推奨事項は、アイテムを説明するために使用される特徴からのみ派生します。ただし、システムのアイテムの特徴では、ユーザーの好みを捉えられない場合があります。例えば、映画推奨システムの例に戻ると、ユーザーが1944年の映画「ガス燈」を視聴して気に入ったとします。CBRSはジョージ・キューカー監督やイングリッド・バーグマン主演の他の映画を推奨するかもしれませんが、それらの映画は「ガス燈」と似ていない可能性があります。ユーザーが、アイテム・プロファイルに示されていない特定のプロット・デバイス（例えば、偽りの夫）や制作要素（例えば、撮影監督）を好む場合、システムは適切な推奨事項を提示しません。データが不十分だと、ユーザーの潜在的な好き嫌いを正確に区別することはできません。¹⁵

コンテンツ・ベースのフィルタリングでは、ユーザーが以前に証明した興味に基づいてアイテムのみが推奨されるため、その推奨はユーザーが過去に気に入ったアイテムに似ていることがよくあります。言い換えれば、CBRSには新しい予測不可能な事柄を探索する手段が欠けているのです。これは過剰な専門化です。対照的に、コラボレーションベースの方法では、特定のユーザーと似たような好みを持つユーザーのプールから推奨を引き出すため、ユーザーが考慮していなかったアイテムや、ユーザーが以前に気に入ったアイテムとは異なる特徴を持つアイテムを推奨することがよくありますが、そのアイテムにはユーザータイプにアピールする、表現されていない要素が残っています。¹⁶

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

参考情報

IBM Granite®はこちら

IBM Granite®は、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションはこちら。

NLPの初心者向けガイド

自然言語処理（NLP）がコンピューターとのより自然な対話にどのように役立つかをご覧ください。

IBMはデータサイエンスと機械学習のリーダーに選ばれました

IBM®が2025年Gartner Magic Quadrantのデータサイエンスおよび機械学習プラットフォーム部門におけるリーダーとして評価された理由をご覧ください。

生成AIを試してみる

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。

脚注

¹ Melville, P. and Sindhwani, V. “Recommender Systems,” Encyclopedia of Machine learning and Data Mining, Springer, 2017.

² Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

³ Sarwat, M. and Mokbel, M. “Collaborative Filtering,” Encyclopedia of Database Systems, Springer, 2018.
Sarwat, M. and Mokbel, M. “Collaborative Filtering,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

^4, 6 Pazzani, M.J. and Billsus, D. “Content-Based Recommendation Systems,” The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.

⁵ Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.

^7, 11 Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.
Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.

⁸ Banik, R. “Hands-On Recommendation Systems with Python”, Packt Publishing, 2018.
Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.

⁹ Kuhn, M. and Johnson, K. “Applied Predictive Modeling”, Springer, 2016.

¹⁰ Mei, Q. and Radev, D. “Information Retrieval,” Oxford Handbook of Computational Linguistics, Second Edition, Oxford University Press, 2016.

¹² Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.
Ricci, F., Rokach, L. and Shapira, B. “Recommender Systems Handbook”, Third Edition, Springer 2022.

¹³ Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.
Goodfellow, I., Bengio, Y. and Courville, A. “Deep Learning”, MIT Press, 2016.

^14, 16 Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.
Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

¹⁵ Han, J. Kamber, M. and Pei, J. “Data Mining: Concepts and Techniques”, Third Edition, Elsevier, 2012.
Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.

¹⁷ Shani, G., Heckerman, D. and Brafman, R. I. “An MDP-Based Recommender System”, 2005.
Lin, Y. et all. “A Survey on Reinforcement Learning for Recommender Systems”, 2023.
M.M. Afsar et al. “Reinforcement learning based recommender systems: A survey”, ACM Computing Surveys, 2023.

¹⁸ Chen, X. et all. “Generative Adversarial User Model for Reinforcement Learning Based Recommendation System”, 2019.
Huang, L. et all. “A deep reinforcement learning based long-term recommender system”, 2021

コンテンツ・ベースのフィルタリングとは

コンテンツ・ベースのフィルタリングとは

コンテンツ・ベースのフィルタリングと協調フィルタリングの比較

The DX Leaders

ご登録いただきありがとうございます。

コンテンツ・ベース・フィルタリングの仕組み

コンテンツ・ベース・フィルタリングのコンポーネント

アイテムの表現

類似性メトリクス

ユーザーとアイテムのインタラクション予測

コンテンツ・ベースフィルタリングの利点と欠点

メリット

デメリット

IBMお客様事例

最近の研究

参考情報

脚注