Was ist inhaltsbasierte Filterung?

21. März 2024

Autoren

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

Die inhaltsbasierte Filterung ist eine von zwei Hauptarten von Empfehlungssystemen. Es empfiehlt den Benutzern Artikel anhand individueller Artikelmerkmale.

Die inhaltsbasierte Filterung ist eine Methode zur Informationsbeschaffung, bei der anhand von Artikelmerkmalen Artikel ausgewählt und zurückgegeben werden, die für die Anfrage eines Benutzers relevant sind. Bei dieser Methode werden oft Merkmale anderer Artikel berücksichtigt, für die ein Benutzer Interesse bekundet. „Inhaltsbasiert“ ist jedoch eine etwas irreführende Bezeichnung. Einige inhaltsbasierte Empfehlungsalgorithmen gleichen Artikel anhand beschreibender Merkmale (z. B. Metadaten) ab, die den Artikeln zugeordnet sind, und nicht anhand des tatsächlichen Inhalts eines Artikels.2 Dennoch gibt es mehrere inhaltsbasierte Methoden – beispielsweise inhaltsbasierte Bildabfragen oder Anwendungen zur Verarbeitung natürlicher Sprache –, die Artikel anhand ihrer intrinsischen Artikelattribute zuordnen.

Inhaltsbasierte Filterung und kollaborative Filterung

Inhaltsbasierte Filterung ist eine von zwei Hauptarten von Empfehlungssystemen. Die andere ist die kollaborative Filtermethode. Bei diesem Ansatz werden Benutzer anhand ihres Verhaltens in verschiedene Gruppen eingeteilt. Unter Verwendung allgemeiner Gruppenmerkmale gibt es dann bestimmte Artikel an eine ganze Gruppe zurück, nach dem Prinzip, dass ähnliche Benutzer (in Bezug auf das Verhalten) an ähnlichen Artikeln interessiert sind.3

Beide Methoden wurden in den letzten Jahren in vielen realen Anwendungen eingesetzt, von E-Commerce wie Amazon über soziale Medien bis hin zu Streaming-Diensten. Zusammen bilden kollaborative und inhaltsbasierte Systeme hybride Empfehlungssysteme. Tatsächlich hat Netflix 2009 im Rahmen seines Netflix-Preiswettbewerbs ein hybrides Empfehlungssystem eingeführt.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

So funktioniert die inhaltsbasierte Filterung

Inhaltsbasierte Empfehlungssysteme (Content-Based Recommender Systems, CBRS) verwenden Algorithmen für maschinelles Lernen und datenwissenschaftliche Verfahren, um neue Artikel zu empfehlen und Anfragen zu beantworten.

Komponenten der inhaltsbasierten Filterung

Bei CBRS vergleicht die Empfehlungsmaschine im Wesentlichen ein Benutzerprofil und ein Artikelprofil, um die Interaktion zwischen Benutzer und Artikel vorherzusagen und dementsprechend Artikel zu empfehlen.

  • Das Artikelprofil ist die Darstellung eines Artikels im System. Sie besteht aus den Merkmalen eines Artikels, bei denen es sich um intern strukturierte Merkmale oder beschreibende Metadaten handeln kann. Ein Streaming-Dienst kann beispielsweise Filme nach Genre, Erscheinungsdatum, Regisseur usw. speichern.
  • Das Benutzerprofil stellt die Präferenzen und das Verhalten der Nutzer dar. Sie kann aus Darstellungen der Artikel bestehen, an denen ein Nutzer zuvor Interesse gezeigt hat. Sie besteht auch aus Benutzerdaten über ihre früheren Interaktionen mit dem System (z. B. Vorlieben, Abneigungen, Bewertungen, Anfragen usw.).4

Artikeldarstellungen

CBRSs stellen Artikel und Benutzer oft als Einbettungen in einem Vektorraum dar. Artikel werden mithilfe von Metadatenbeschreibungen oder internen Merkmalen als Features in Vektoren umgewandelt. Nehmen wir zum Beispiel an, wir erstellen Artikelprofile, um den Nutzern im Rahmen eines Online-Buchladens neue Romane zu empfehlen. Anschließend erstellen wir Profile für jeden Roman unter Verwendung repräsentativer Metadaten wie Autor, Genre usw. Der Wert eines Romans für eine bestimmte Kategorie kann mit Booleschen Werten dargestellt werden, wobei 1 die Anwesenheit des Romans in dieser Kategorie und 0 seine Abwesenheit anzeigt. Mit diesem System können wir potenziell eine kleine Handvoll Romane nach Genres darstellen:

Hier stellt jedes Genre eine andere Dimension unseres Vektorraums dar, wobei die Werte eines bestimmten Romans dessen Position in diesem Vektorraum darstellen. Beispielsweise befindet sich „Little Women“ bei (1,0,1), „Northanger Abbey“ bei (0,0,1) und so weiter. Wir können diesen Beispielvektorraum wie folgt visualisieren:

Je näher zwei Roman-Vektoren im Vektorraum beieinander liegen, desto ähnlicher betrachtet unser System sie gemäß den bereitgestellten Merkmalen.5 „Peter Pan“ und „Die Schatzinsel“ haben genau die gleichen Merkmale und werden am selben Vektorpunkt (1,1,0) angezeigt. Nach unserem System sind sie also identisch. In der Tat haben sie viele Handlungselemente (z. B. einsame Inseln und Piraten) und Themen (z. B. das Erwachsenwerden oder der Widerstand dagegen) gemeinsam. Im Gegensatz dazu ist Little Women zwar auch ein Kinderroman, aber kein Abenteuerroman, sondern ein Bildungsroman (Coming-of-Age). Obwohl Little Women wie Peter Pan und Die Schatzinsel ein Kinderroman ist, fehlen ihm die Merkmalswerte für Abenteuer und der Merkmalswert von 1 für Bildungsroman, der den beiden letztgenannten fehlt. Dadurch befindet sich Little Women im Vektorraum näher an Northanger Abbey, da sie die gleichen Merkmalswerte für Abenteuer- und Bildungsromane aufweisen.

Aufgrund ihrer Ähnlichkeit in diesem Bereich empfiehlt das System, wenn ein Benutzer zuvor Peter Pan gekauft hat, diesem Benutzer die Romane, die Peter Pan am nächsten kommen – wie z. B. Die Schatzinsel– als potenziellen zukünftigen Kauf. Beachten Sie, dass sich die Positionen der Romane im Vektorraum verschieben werden, wenn wir mehr Romane und genrebasierte Funktionen (z. B. Fantasy, Gothic usw.) hinzufügen. Wenn man zum Beispiel eine Dimension des Fantasy-Genres hinzufügt, kann es sein, dass Peter Pan und Die Schatzinsel sich geringfügig von einer anderen unterscheiden, da ersteres oft als Fantasy angesehen wird, während letzteres nicht der Fall ist.

Beachten Sie, dass Artikelvektoren auch unter Verwendung der internen Merkmale von Artikeln als Features erstellt werden können. Zum Beispiel können wir rohe Textelemente (z. B. Nachrichtenartikel) in ein strukturiertes Format konvertieren und sie auf einen Vektorraum abbilden, z. B. ein „Bag-of-Words-Modell“. Bei diesem Ansatz wird jedes im gesamten Korpus verwendete Wort zu einer anderen Dimension des Vektorraums, und Artikel, die ähnliche Schlüsselwörter verwenden, erscheinen im Vektorraum näher beieinander.

Ähnlichkeitsmetriken

Wie ermittelt ein inhaltsbasiertes Filtersystem die Ähnlichkeit zwischen einer beliebigen Anzahl von Elementen? Wie bereits erwähnt, ist die Nähe im Vektorraum eine primäre Methode. Die spezifischen Metriken, die zur Bestimmung dieser Nähe verwendet werden, können jedoch variieren. Zu den gängigen Metriken gehören:

Unter Kosinus-Ähnlichkeit versteht man die Messung des Winkels zwischen zwei Vektoren. Es kann sich um einen beliebigen Wert zwischen -1 und 1 handeln. Je höher der Kosinus-Wert, desto ähnlicher sind sich zwei Elemente. Einige Quellen empfehlen diese Metriken für hochdimensionale Funktionsräume. Die Kosinusähnlichkeit wird durch diese Formel dargestellt, wobei x und y zwei Elementvektoren im Vektorraum bezeichnen:7

Die euklidische Distanz misst die Länge eines hypothetischen Liniensegments, das zwei Vektorpunkte verbindet. Die euklidischen Distanzwerte können bis auf Null gehen, ohne eine Obergrenze zu haben. Je kleiner der euklidische Abstand der beiden Objektvektoren ist, desto ähnlicher werden sie betrachtet. Die euklidische Distanz wird mit dieser Formel berechnet, wobei x und y zwei Elementvektoren darstellen:8

Das Skalarprodukt ist das Produkt aus dem Kosinus des Winkels zwischen zwei Vektoren und der jeweiligen euklidischen Größe jedes Vektors von einem definierten Ursprung aus. Mit anderen Worten ist es der Kosinus zweier Vektoren, multipliziert mit der projizierten Länge jedes Vektors – wobei die Länge die Verschiebung eines Vektors von einem definierten Ursprung, wie z. B. (0,0), ist. Das Skalarprodukt eignet sich am besten für den Vergleich von Elementen mit deutlich unterschiedlichen Größenordnungen – denken Sie beispielsweise an die Beliebtheit von Büchern oder Filmen. Es wird durch diese Formel dargestellt, in der d und q wiederum zwei Elementvektoren darstellen:9

Beachten Sie, dass diese Metriken empfindlich darauf reagieren, wie die verglichenen Vektoren gewichtet werden, da unterschiedliche Gewichtungen diese Bewertungsfunktionen erheblich beeinflussen können.10 Weitere mögliche Metriken zur Bestimmung der Vektorähnlichkeit sind der Pearson-Korrelationskoeffizient (oder Pearson-Korrelation) und die Jaccard-Ähnlichkeit sowie der Dice-Index.11

Vorhersage der Interaktion zwischen Benutzer und Element

CBRS erstellen ein benutzerbasiertes Klassifizierungs- oder Regressionsmodell, um einem bestimmten Benutzer Artikel zu empfehlen. Zunächst nimmt der Algorithmus Beschreibungen und Merkmale der Artikel, für die ein bestimmter Benutzer zuvor Interesse gezeigt hat – das ist das Benutzerprofil. Diese Elemente bilden den Trainingsdatensatz, der zur Erstellung eines Klassifizierungs- oder Regressionsmodells verwendet wird, das für diesen Benutzer spezifisch ist. In diesem Modell sind die Elementattribute die unabhängigen Variablen, wobei die abhängige Variable das Benutzerverhalten ist (z. B. Benutzerbewertungen, „Gefällt mir“-Angaben, Käufe usw.). Das auf diesem vergangenen Verhalten trainierte Modell zielt darauf ab, zukünftiges Benutzerverhalten für mögliche Elemente vorherzusagen und Elemente entsprechend der Vorhersage zu empfehlen.12

Vor- und Nachteile der inhaltsbasierten Filterung

Vorteile

Das Kaltstartproblem besteht im Wesentlichen darin, wie ein System mit neuen Benutzern oder neuen Artikeln umgeht. Beide stellen ein Problem bei der kollaborativen Filterung dar, da sie Artikel empfehlen, indem sie Benutzer nach abgeleiteten Ähnlichkeiten in Verhalten und Vorlieben gruppieren. Neue Benutzer weisen jedoch keine nachgewiesene Ähnlichkeit mit anderen auf, und neue Artikel verfügen nicht über genügend Benutzerinteraktion (z. B. Bewertungen), um sie empfehlen zu können. Während die inhaltsbasierte Filterung bei neuen Nutzern zu kämpfen hat, kann sie die Einbindung neuer Artikel problemlos bewältigen. Dies liegt daran, dass Artikel basierend auf internen oder Metadatenmerkmalen und nicht auf früheren Benutzerinteraktionen empfohlen werden.13

Inhaltsbasierte Filterung ermöglicht ein höheres Maß an Transparenz, indem sie interpretierbare Funktionen bereitstellt, mit denen Empfehlungen erklärt werden können. Ein Filmempfehlungssystem kann z.B. erklären, warum ein bestimmter Film empfohlen wird, z. B. aufgrund von Genre- oder Schauspielerüberschneidungen mit zuvor gesehenen Filmen. Der Benutzer kann daher eine fundiertere Entscheidung darüber treffen, ob er den empfohlenen Film ansehen möchte.14

Nachteile

Ein Hauptnachteil der inhaltsbasierten Filterung ist die Einschränkung der Merkmale. Inhaltsbasierte Empfehlungen werden ausschließlich aus den Merkmalen abgeleitet, die zur Beschreibung von Artikeln verwendet werden. Die Artikelmerkmale eines Systems sind jedoch möglicherweise nicht in der Lage, die Vorlieben eines Benutzers zu erfassen. Nehmen wir zum Beispiel das Beispiel des Filmempfehlungssystems: Angenommen, ein Benutzer sieht sich den Film Gaslight aus dem Jahr 1944 an und mag ihn. Ein CBRS kann andere Filme von George Cukor oder Filme mit Ingrid Bergman empfehlen, aber diese Filme sind möglicherweise nicht ähnlich wie der Film Gaslight. Wenn der Benutzer lieber ein bestimmtes Handlungselement (z. B. betrügerischer Ehemann) oder Produktionselement (z. B. eine bestimmte Kameraführung) bevorzugt, das nicht im Artikelprofil enthalten ist, wird das System keine geeigneten Empfehlungen anzeigen. Eine genaue Unterscheidung zwischen den potenziellen Vorlieben und Abneigungen eines Benutzers kann bei unzureichenden Daten nicht erreicht werden.15

Da bei der inhaltsbasierten Filterung nur Artikel empfohlen werden, die auf den zuvor nachgewiesenen Interessen eines Benutzers basieren, ähneln die Empfehlungen oft Artikeln, die einem Benutzer in der Vergangenheit gefallen haben. Mit anderen Worten: CBRSs fehlt eine Methodik zur Erforschung des Neuen und Unvorhergesehenen. Das nennt man Überspezialisierung. Im Unterschied dazu können kollaborative Methoden, die Empfehlungen aus einem Pool von Benutzern mit ähnlichen Vorlieben wie ein bestimmter Benutzer ziehen, oft Artikel empfehlen, die ein Benutzer möglicherweise nicht in Betracht gezogen hat. Diese Artikel weisen möglicherweise andere Merkmale auf als die Artikel, die einem Benutzer zuvor gefallen haben, enthalten aber dennoch bestimmte nicht repräsentierte Merkmale, die einen bestimmten Benutzertyp ansprechen.16

Mixture of Experts | Podcast

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Aktuelle Forschung

Während frühere Studien Empfehlungen als Vorhersage- oder Klassifizierungsproblem betrachteten, argumentiert eine umfangreiche Reihe neuerer Forschungsarbeiten, dass sie als sequentielles Entscheidungsproblem verstanden werden sollten. In diesem Paradigma könnte sich das bestärkende Lernen besser für die Bearbeitung von Empfehlungen eignen. Dieser Ansatz geht davon aus, dass Empfehlungen in Echtzeit entsprechend der Interaktion zwischen Benutzer und Artikel aktualisiert werden. Wenn der Benutzer vorgeschlagene Artikel überspringt, anklickt, bewertet oder kauft, entwickelt das Modell aus diesem Feedback eine optimale Richtlinie, um neue Artikel zu empfehlen.17 Aktuelle Studien schlagen eine Vielzahl von Anwendungen für bestärkendes Lernen vor, um veränderliche, langfristige Nutzerinteressen zu berücksichtigen, die sowohl für inhaltsbasierte als auch für kollaborative Filterung eine Herausforderung darstellen.18

Weitere Lösungen
IBM® watsonx™ Orchestrate®

Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate
Tools und APIs zur Verarbeitung natürlicher Sprache

Steigern Sie den Geschäftswert der künstlichen Intelligenz mit einem leistungsstarken und flexiblen Portfolio aus Bibliotheken, Diensten und Anwendungen.

NLP-Lösungen erkunden
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate NLP-Lösungen erkunden
Fußnoten

1 Prem Melville und Vikas Sindhwani, „Recommender Systems“, Encyclopedia of Machine learning and Data Mining, Springer, 2017.

2 Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.

3 „Collaborative Filtering“, Encyclopedia of Machine Learning and Data Mining, Springer, 2017. Mohamed Sarwat und Mohamed Mokbel, „Collaborative Filtering“, Encyclopedia of Database Systems, Springer, 2018.

4 Michael J. Pazzani und Daniel Billsus, „Content-Based Recommendation Systems“, The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.

5 Elsa Negre, Information and Recommender Systems, Band 4, Wiley-ISTE, 2015.

6 Michael J. Pazzani und Daniel Billsus, „Content-Based Recommendation Systems“, The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.

7 Elsa Negre, Information and Recommender Systems, Band 4, Wiley-ISTE, 2015. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar und Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020.

8 Rounak Banik, Hands-On Recommendation Systems with Python, Packt Publishing, 2018. Elsa Negre, Information and Recommender Systems, Band 4, Wiley-ISTE, 2015.

9 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

10 Qiaozhu Mei und Dragomir Radev, „Information Retrieval“, Oxford Handbook of Computational Linguistics, 2. Auflage, Oxford University Press, 2016.

11 Elsa Negre, Information and Recommender Systems, Bd. 4, Wiley-ISTE, 2015. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar, and Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020.

12 Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016. Ricci, Recommender Systems Handbook, 3. Auflage, Springer 2022.

13 Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016. Ian Goodfellow, Yoshua Bengio und Aaron Courville, Deep Learning, MIT Press, 2016.

14 Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar und Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020. Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.

15 Jaiwei Han, Micheline Kamber und Jian Pei, Data Mining: Concepts and Techniques, 3. Auflage, Elsevier, 2012. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar und Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020.

16 Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar, and Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020. Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.

17 Guy Shani and David Heckerman and Ronen I. Brafman, „An MDP-Based Recommender System“ Journal of Machine Learning Research, Band 6, Nr. 43, 2005, S. 1265–1295, https://www.jmlr.org/papers/v6/shani05a.html. Yuanguo Lin, Yong Liu, Fan Lin, Lixin Zou, Pengcheng Wu, Wenhua Zeng, Huanhuan Chen und Chunyan Miao, „A Survey on Reinforcement Learning for Recommender Systems“, IEEE Transactions on Neural Networks and Learning Systems, 2023, https://ieeexplore.ieee.org/abstract/document/10144689. M. Mehdi Afsar, Trafford Crump und Behrouz Far, Reinforcement Learning based Recommender Systems: A Survey“, ACM Computing Survey, Band 55, Nr. 7, 2023, https://dl.acm.org/doi/abs/10.1145/3543846.

18 Xinshi Chen, Shuang Li, Hui Li, Shaohua Jiang, Yuan Qi, Le Song, „Generative Adversarial User Model for Reinforcement Learning Based Recommendation System,” Proceedings of the 36th International Conference on Machine LearningPMLR, Nr. 97, 2019, S. 1052-1061, http://proceedings.mlr.press/v97/chen19f.html. Liwei Huang, Mingsheng Fu, Fan Li, Hong Qu, Yangjun Liu und Wenyu Chen, „A deep reinforcement learning based long-term recommender system“, Knowledge-Based Systems, Band 213, 2021, https://www.sciencedirect.com/science/article/abs/pii/S0950705120308352.