Was ist inhaltsbasierte Filterung?

Autoren

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

Was ist inhaltsbasierte Filterung?

Die inhaltsbasierte Filterung ist eine von zwei Hauptarten von Empfehlungssystemen. Es empfiehlt den Benutzern Artikel anhand individueller Artikelmerkmale.

Die inhaltsbasierte Filterung ist eine Methode zur Informationsbeschaffung, bei der anhand von Artikelmerkmalen Artikel ausgewählt und zurückgegeben werden, die für die Anfrage eines Benutzers relevant sind. Bei dieser Methode werden oft Merkmale anderer Artikel berücksichtigt, für die ein Benutzer Interesse bekundet.¹ „Inhaltsbasiert“ ist jedoch eine etwas irreführende Bezeichnung. Einige inhaltsbasierte Empfehlungsalgorithmen gleichen Artikel anhand beschreibender Merkmale (z. B. Metadaten) ab, die den Artikeln zugeordnet sind, und nicht anhand des tatsächlichen Inhalts eines Artikels.² Dennoch gibt es mehrere inhaltsbasierte Methoden – beispielsweise inhaltsbasierte Bildabfragen oder Anwendungen zur Verarbeitung natürlicher Sprache –, die Artikel anhand ihrer intrinsischen Artikelattribute zuordnen.

Inhaltsbasierte Filterung und kollaborative Filterung

Inhaltsbasierte Filterung ist eine von zwei Hauptarten von Empfehlungssystemen. Die andere ist die kollaborative Filtermethode. Bei diesem Ansatz werden Benutzer anhand ihres Verhaltens in verschiedene Gruppen eingeteilt. Unter Verwendung allgemeiner Gruppenmerkmale gibt es dann bestimmte Artikel an eine ganze Gruppe zurück, nach dem Prinzip, dass ähnliche Benutzer (in Bezug auf das Verhalten) an ähnlichen Artikeln interessiert sind.³

Beide Methoden wurden in den letzten Jahren in vielen realen Anwendungen eingesetzt, von E-Commerce wie Amazon über soziale Medien bis hin zu Streaming-Diensten. Zusammen bilden kollaborative und inhaltsbasierte Systeme hybride Empfehlungssysteme. Tatsächlich hat Netflix 2009 im Rahmen seines Netflix-Preiswettbewerbs ein hybrides Empfehlungssystem eingeführt.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

So funktioniert die inhaltsbasierte Filterung

Inhaltsbasierte Empfehlungssysteme (Content-Based Recommender Systems, CBRS) verwenden Algorithmen für maschinelles Lernen und datenwissenschaftliche Verfahren, um neue Artikel zu empfehlen und Anfragen zu beantworten.

Komponenten der inhaltsbasierten Filterung

Bei CBRS vergleicht die Empfehlungsmaschine im Wesentlichen ein Benutzerprofil und ein Artikelprofil, um die Interaktion zwischen Benutzer und Artikel vorherzusagen und dementsprechend Artikel zu empfehlen.

Das Artikelprofil ist die Darstellung eines Artikels im System. Sie besteht aus den Merkmalen eines Artikels, bei denen es sich um intern strukturierte Merkmale oder beschreibende Metadaten handeln kann. Ein Streaming-Dienst kann beispielsweise Filme nach Genre, Erscheinungsdatum, Regisseur usw. speichern.
Das Benutzerprofil stellt die Präferenzen und das Verhalten der Nutzer dar. Sie kann aus Darstellungen der Artikel bestehen, an denen ein Nutzer zuvor Interesse gezeigt hat. Sie besteht auch aus Benutzerdaten über ihre früheren Interaktionen mit dem System (z. B. Vorlieben, Abneigungen, Bewertungen, Anfragen usw.).⁴

Artikeldarstellungen

CBRSs stellen Artikel und Benutzer oft als Einbettungen in einem Vektorraum dar. Artikel werden mithilfe von Metadatenbeschreibungen oder internen Merkmalen als Features in Vektoren umgewandelt. Nehmen wir zum Beispiel an, wir erstellen Artikelprofile, um den Nutzern im Rahmen eines Online-Buchladens neue Romane zu empfehlen. Anschließend erstellen wir Profile für jeden Roman unter Verwendung repräsentativer Metadaten wie Autor, Genre usw. Der Wert eines Romans für eine bestimmte Kategorie kann mit Booleschen Werten dargestellt werden, wobei 1 die Anwesenheit des Romans in dieser Kategorie und 0 seine Abwesenheit anzeigt. Mit diesem System können wir potenziell eine kleine Handvoll Romane nach Genres darstellen:

Abbildung einer Tabelle mit Artikelrepräsentationen

Hier stellt jedes Genre eine andere Dimension unseres Vektorraums dar, wobei die Werte eines bestimmten Romans dessen Position in diesem Vektorraum darstellen. Beispielsweise befindet sich „Little Women“ bei (1,0,1), „Northanger Abbey“ bei (0,0,1) und so weiter. Wir können diesen Beispielvektorraum wie folgt visualisieren:

Darstellung einer bestimmten Position innerhalb eines Vektorraums

Je näher zwei Roman-Vektoren im Vektorraum beieinander liegen, desto ähnlicher betrachtet unser System sie gemäß den bereitgestellten Merkmalen.⁵ „Peter Pan“ und „Die Schatzinsel“ haben genau die gleichen Merkmale und werden am selben Vektorpunkt (1,1,0) angezeigt. Nach unserem System sind sie also identisch. In der Tat haben sie viele Handlungselemente (z. B. einsame Inseln und Piraten) und Themen (z. B. das Erwachsenwerden oder der Widerstand dagegen) gemeinsam. Im Gegensatz dazu ist Little Women zwar auch ein Kinderroman, aber kein Abenteuerroman, sondern ein Bildungsroman (Coming-of-Age). Obwohl Little Women wie Peter Pan und Die Schatzinsel ein Kinderroman ist, fehlen ihm die Merkmalswerte für Abenteuer und der Merkmalswert von 1 für Bildungsroman, der den beiden letztgenannten fehlt. Dadurch befindet sich Little Women im Vektorraum näher an Northanger Abbey, da sie die gleichen Merkmalswerte für Abenteuer- und Bildungsromane aufweisen.

Aufgrund ihrer Ähnlichkeit in diesem Bereich empfiehlt das System, wenn ein Benutzer zuvor Peter Pan gekauft hat, diesem Benutzer die Romane, die Peter Pan am nächsten kommen – wie z. B. Die Schatzinsel– als potenziellen zukünftigen Kauf. Beachten Sie, dass sich die Positionen der Romane im Vektorraum verschieben werden, wenn wir mehr Romane und genrebasierte Funktionen (z. B. Fantasy, Gothic usw.) hinzufügen. Wenn man zum Beispiel eine Dimension des Fantasy-Genres hinzufügt, kann es sein, dass Peter Pan und Die Schatzinsel sich geringfügig von einer anderen unterscheiden, da ersteres oft als Fantasy angesehen wird, während letzteres nicht der Fall ist.

Beachten Sie, dass Artikelvektoren auch unter Verwendung der internen Merkmale von Artikeln als Features erstellt werden können. Zum Beispiel können wir rohe Textelemente (z. B. Nachrichtenartikel) in ein strukturiertes Format konvertieren und sie auf einen Vektorraum abbilden, z. B. ein „Bag-of-Words-Modell“. Bei diesem Ansatz wird jedes im gesamten Korpus verwendete Wort zu einer anderen Dimension des Vektorraums, und Artikel, die ähnliche Schlüsselwörter verwenden, erscheinen im Vektorraum näher beieinander.

Ähnlichkeitsmetriken

Wie ermittelt ein inhaltsbasiertes Filtersystem die Ähnlichkeit zwischen einer beliebigen Anzahl von Elementen? Wie bereits erwähnt, ist die Nähe im Vektorraum eine primäre Methode. Die spezifischen Metriken, die zur Bestimmung dieser Nähe verwendet werden, können jedoch variieren. Zu den gängigen Metriken gehören:

Unter Kosinus-Ähnlichkeit versteht man die Messung des Winkels zwischen zwei Vektoren. Es kann sich um einen beliebigen Wert zwischen -1 und 1 handeln. Je höher der Kosinus-Wert, desto ähnlicher sind sich zwei Elemente. Einige Quellen empfehlen diese Metriken für hochdimensionale Funktionsräume. Die Kosinusähnlichkeit wird durch diese Formel dargestellt, wobei x und y zwei Elementvektoren im Vektorraum bezeichnen:⁷

Darstellung der Kosinus-Ähnlichkeitsformel

Die euklidische Distanz misst die Länge eines hypothetischen Liniensegments, das zwei Vektorpunkte verbindet. Die euklidischen Distanzwerte können bis auf Null gehen, ohne eine Obergrenze zu haben. Je kleiner der euklidische Abstand der beiden Objektvektoren ist, desto ähnlicher werden sie betrachtet. Die euklidische Distanz wird mit dieser Formel berechnet, wobei x und y zwei Elementvektoren darstellen:⁸

Darstellung der euklidischen Distanzformel

Das Skalarprodukt ist das Produkt aus dem Kosinus des Winkels zwischen zwei Vektoren und der jeweiligen euklidischen Größe jedes Vektors von einem definierten Ursprung aus. Mit anderen Worten ist es der Kosinus zweier Vektoren, multipliziert mit der projizierten Länge jedes Vektors – wobei die Länge die Verschiebung eines Vektors von einem definierten Ursprung, wie z. B. (0,0), ist. Das Skalarprodukt eignet sich am besten für den Vergleich von Elementen mit deutlich unterschiedlichen Größenordnungen – denken Sie beispielsweise an die Beliebtheit von Büchern oder Filmen. Es wird durch diese Formel dargestellt, in der d und q wiederum zwei Elementvektoren darstellen:⁹

Darstellung der Formel für das Skalarprodukt

Beachten Sie, dass diese Metriken empfindlich darauf reagieren, wie die verglichenen Vektoren gewichtet werden, da unterschiedliche Gewichtungen diese Bewertungsfunktionen erheblich beeinflussen können.¹⁰ Weitere mögliche Metriken zur Bestimmung der Vektorähnlichkeit sind der Pearson-Korrelationskoeffizient (oder Pearson-Korrelation) und die Jaccard-Ähnlichkeit sowie der Dice-Index.¹¹

Vorhersage der Interaktion zwischen Benutzer und Element

CBRS erstellen ein benutzerbasiertes Klassifizierungs- oder Regressionsmodell, um einem bestimmten Benutzer Artikel zu empfehlen. Zunächst nimmt der Algorithmus Beschreibungen und Merkmale der Artikel, für die ein bestimmter Benutzer zuvor Interesse gezeigt hat – das ist das Benutzerprofil. Diese Elemente bilden den Trainingsdatensatz, der zur Erstellung eines Klassifizierungs- oder Regressionsmodells verwendet wird, das für diesen Benutzer spezifisch ist. In diesem Modell sind die Elementattribute die unabhängigen Variablen, wobei die abhängige Variable das Benutzerverhalten ist (z. B. Benutzerbewertungen, „Gefällt mir“-Angaben, Käufe usw.). Das auf diesem vergangenen Verhalten trainierte Modell zielt darauf ab, zukünftiges Benutzerverhalten für mögliche Elemente vorherzusagen und Elemente entsprechend der Vorhersage zu empfehlen.¹²

Vor- und Nachteile der inhaltsbasierten Filterung

Vorteile

Das Kaltstartproblem besteht im Wesentlichen darin, wie ein System mit neuen Benutzern oder neuen Artikeln umgeht. Beide stellen ein Problem bei der kollaborativen Filterung dar, da sie Artikel empfehlen, indem sie Benutzer nach abgeleiteten Ähnlichkeiten in Verhalten und Vorlieben gruppieren. Neue Benutzer weisen jedoch keine nachgewiesene Ähnlichkeit mit anderen auf, und neue Artikel verfügen nicht über genügend Benutzerinteraktion (z. B. Bewertungen), um sie empfehlen zu können. Während die inhaltsbasierte Filterung bei neuen Nutzern zu kämpfen hat, kann sie die Einbindung neuer Artikel problemlos bewältigen. Dies liegt daran, dass Artikel basierend auf internen oder Metadatenmerkmalen und nicht auf früheren Benutzerinteraktionen empfohlen werden.¹³

Inhaltsbasierte Filterung ermöglicht ein höheres Maß an Transparenz, indem sie interpretierbare Funktionen bereitstellt, mit denen Empfehlungen erklärt werden können. Ein Filmempfehlungssystem kann z.B. erklären, warum ein bestimmter Film empfohlen wird, z. B. aufgrund von Genre- oder Schauspielerüberschneidungen mit zuvor gesehenen Filmen. Der Benutzer kann daher eine fundiertere Entscheidung darüber treffen, ob er den empfohlenen Film ansehen möchte.¹⁴

Nachteile

Ein Hauptnachteil der inhaltsbasierten Filterung ist die Einschränkung der Merkmale. Inhaltsbasierte Empfehlungen werden ausschließlich aus den Merkmalen abgeleitet, die zur Beschreibung von Artikeln verwendet werden. Die Artikelmerkmale eines Systems sind jedoch möglicherweise nicht in der Lage, die Vorlieben eines Benutzers zu erfassen. Nehmen wir zum Beispiel das Beispiel des Filmempfehlungssystems: Angenommen, ein Benutzer sieht sich den Film Gaslight aus dem Jahr 1944 an und mag ihn. Ein CBRS kann andere Filme von George Cukor oder Filme mit Ingrid Bergman empfehlen, aber diese Filme sind möglicherweise nicht ähnlich wie der Film Gaslight. Wenn der Benutzer lieber ein bestimmtes Handlungselement (z. B. betrügerischer Ehemann) oder Produktionselement (z. B. eine bestimmte Kameraführung) bevorzugt, das nicht im Artikelprofil enthalten ist, wird das System keine geeigneten Empfehlungen anzeigen. Eine genaue Unterscheidung zwischen den potenziellen Vorlieben und Abneigungen eines Benutzers kann bei unzureichenden Daten nicht erreicht werden.¹⁵

Da bei der inhaltsbasierten Filterung nur Artikel empfohlen werden, die auf den zuvor nachgewiesenen Interessen eines Benutzers basieren, ähneln die Empfehlungen oft Artikeln, die einem Benutzer in der Vergangenheit gefallen haben. Mit anderen Worten: CBRSs fehlt eine Methodik zur Erforschung des Neuen und Unvorhergesehenen. Das nennt man Überspezialisierung. Im Unterschied dazu können kollaborative Methoden, die Empfehlungen aus einem Pool von Benutzern mit ähnlichen Vorlieben wie ein bestimmter Benutzer ziehen, oft Artikel empfehlen, die ein Benutzer möglicherweise nicht in Betracht gezogen hat. Diese Artikel weisen möglicherweise andere Merkmale auf als die Artikel, die einem Benutzer zuvor gefallen haben, enthalten aber dennoch bestimmte nicht repräsentierte Merkmale, die einen bestimmten Benutzertyp ansprechen.¹⁶

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Aktuelle Forschung

Während frühere Studien Empfehlungen als Vorhersage- oder Klassifizierungsproblem betrachteten, argumentiert eine umfangreiche Reihe neuerer Forschungsarbeiten, dass sie als sequentielles Entscheidungsproblem verstanden werden sollten. In diesem Paradigma könnte sich das bestärkende Lernen besser für die Bearbeitung von Empfehlungen eignen. Dieser Ansatz geht davon aus, dass Empfehlungen in Echtzeit entsprechend der Interaktion zwischen Benutzer und Artikel aktualisiert werden. Wenn der Benutzer vorgeschlagene Artikel überspringt, anklickt, bewertet oder kauft, entwickelt das Modell aus diesem Feedback eine optimale Richtlinie, um neue Artikel zu empfehlen.¹⁷ Aktuelle Studien schlagen eine Vielzahl von Anwendungen für bestärkendes Lernen vor, um veränderliche, langfristige Nutzerinteressen zu berücksichtigen, die sowohl für inhaltsbasierte als auch für kollaborative Filterung eine Herausforderung darstellen.¹⁸

Jenseits des Hypes – Wie KI-Assistenten echten geschäftlichen Mehrwert schaffen

Entdecken Sie die wichtigsten Anwendungsfälle für den Einsatz von KI-Assistenten, verstehen Sie die potenziellen Auswirkungen von generativer KI und Automatisierung auf Ihr Unternehmen und erfahren Sie, wie Sie loslegen können.

Ressourcen

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Leitfaden für Anfänger zu NLP

Erfahren Sie, wie die Verarbeitung natürlicher Sprache (NLP) Ihnen dabei helfen kann, sich natürlicher mit Computern zu unterhalten.

IBM wird als führend im Bereich Data Science und maschinelles Lernen genannt

Erfahren Sie, warum IBM im Gartner Magic Quadrant for Data Science and Machine Learning Platforms 2025 als führend eingestuft wurde.

Praktische Anwendung von generativer KI

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.

Weitere Lösungen

IBM® watsonx™ Orchestrate®

Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate

Tools und APIs zur Verarbeitung natürlicher Sprache

Steigern Sie den Geschäftswert der künstlichen Intelligenz mit einem leistungsstarken und flexiblen Portfolio aus Bibliotheken, Diensten und Anwendungen.

NLP-Lösungen erkunden

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Fußnoten

¹ Prem Melville und Vikas Sindhwani, „Recommender Systems“, Encyclopedia of Machine learning and Data Mining, Springer, 2017.

² Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

³ Sarwat, M. and Mokbel, M. “Collaborative Filtering,” Encyclopedia of Database Systems, Springer, 2018.
Sarwat, M. and Mokbel, M. “Collaborative Filtering,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

^4, 6 Pazzani, M.J. and Billsus, D. “Content-Based Recommendation Systems,” The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.

Elsa Negre,Information and Recommender Systems, Band 4, Wiley-ISTE, 2015.

⁷ Elsa Negre,Information and Recommender Systems, Band 4, Wiley-ISTE, 2015.
Mohanty, SN et all. „ Recommender System with Machine Learning and Artificial Intelligence“, Wiley-Scrivener, 2020.

⁸ Banik, R. „Hands-On Recommendation Systems with Python“, Packt Publishing, 2018.
Elsa Negre,Information and Recommender Systems, Band 4, Wiley-ISTE, 2015.

⁹ Kuhn, M. und Johnson, K. „ Applied Predictive Modeling“, Springer, 2016.

¹⁰ Mei, Q. and Radev, D. „Information Retrieval“, Oxford Handbook of Computational Linguistics, Second Edition, Oxford University Press, 2016.

¹² Aggarwal, C. „ Recommender Systems: The Textbook“, Springer, 2016.
Ricci, F., Rokach, L. and Shapira, B. „Recommender Systems Handbook“, dritte Auflage, Springer 2022.

¹³ Aggarwal, C. „Recommender Systems: The Textbook“, Springer, 2016.
Goodfellow, I., Bengio, Y. and Kurville, A. „Deep Learning“, MIT Press, 2016.

^{14, 16} Mohanty, S. N. et al. „Recommender System with Machine Learning and Artificial Intelligence“, Wiley-Scrivener, 2020.
Aggarwal, C. „Recommender Systems: The Textbook“, Springer, 2016.

¹⁵ Han, J. Kamber, M. and Pei, J. „Data Mining: Concepts and Techniques“, Dritte Auflage, Elsevier, 2012.
Mohanty, SN et all. „Recommender System with Machine Learning and Artificial Intelligence“, Wiley-Scrivener, 2020.

¹⁷ Shani, G., Heckerman, D. and Brafman, RI „An MDP-Based Recommender System“, 2005.
Lin, Y. et al. „A Survey on Reinforcement Learning for Recommender Systems“, 2023.
MM Afsar et al. „Reinforcement learning based recommender systems: A survey“, ACM Computing Surveys, 2023.

¹⁸ Chen, X. et al. „Generative Adversarial User Model for Reinforcement Learning Based Recommendation System“, 2019.
Huang, L. et al. „A Deep Reinforcement Learning Based Long-Term Recommender System“ , 2021

Was ist inhaltsbasierte Filterung?

Was ist inhaltsbasierte Filterung?

Inhaltsbasierte Filterung und kollaborative Filterung

Die neuesten KI-Trends, präsentiert von Experten

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

So funktioniert die inhaltsbasierte Filterung

Komponenten der inhaltsbasierten Filterung

Artikeldarstellungen

Ähnlichkeitsmetriken

Vorhersage der Interaktion zwischen Benutzer und Element

Vor- und Nachteile der inhaltsbasierten Filterung

Vorteile

Nachteile

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Aktuelle Forschung

Ressourcen

Fußnoten