Was ist kollaborative Filterung?

Autoren

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Was ist kollaborative Filterung?

Kollaboratives Filtern ist eine Art Empfehlungssystem. Es gruppiert Benutzer auf der Grundlage ähnlichen Verhaltens und empfiehlt neue Artikel entsprechend den Gruppenmerkmalen.

Kollaboratives Filtern ist eine Methode zur Informationsbeschaffung, bei der Benutzern Artikel empfohlen werden, die auf der Interaktion anderer Benutzer mit ähnlichen Vorlieben und Verhaltensweisen mit diesem Artikel basieren. Mit anderen Worten: Kollaborative Filteralgorithmen gruppieren Benutzer basierend auf ihrem Verhalten und verwenden allgemeine Gruppeneigenschaften, um einem Zielbenutzer bestimmte Artikel zu empfehlen. Kollaborative Empfehlungssysteme basieren auf dem Prinzip, dass ähnliche Benutzer (in Bezug auf ihr Verhalten) ähnliche Interessen und einen ähnlichen Geschmack haben.1

Kollaborative Filterung vs. inhaltsbasierte Filterung

Kollaboratives Filtern ist eine von zwei Hauptarten von Empfehlungssystemen, die andere sind inhaltsbasierte Empfehlungssysteme. Bei der letztgenannten Methode werden Merkmale von Artikeln verwendet, um ähnliche Artikel zu empfehlen, zum Beispiel Artikel, mit denen ein bestimmter Benutzer in der Vergangenheit positiv interagiert hat.2 Während sich das kollaborative Filtern auf die Ähnlichkeit der Benutzer konzentriert, um Artikel zu empfehlen, empfiehlt die inhaltsbasierte Filterung Artikel ausschließlich anhand von Artikelprofilmerkmalen. Bei der inhaltsbasierten Filterung werden Empfehlungen auf die Vorlieben eines bestimmten Benutzers zugeschnitten, anstatt auf eine Gruppe oder einen Typ, wie bei der kollaborativen Filterung.

Beide Methoden wurden in den letzten Jahren in vielen realen Anwendungen eingesetzt, von E-Commerce wie Amazon über soziale Medien bis hin zu Streaming-Diensten. Zusammen bilden kollaborative und inhaltsbasierte Systeme hybride Empfehlungssysteme. Tatsächlich hat Netflix 2009 im Rahmen seines Netflix-Preiswettbewerbs ein hybrides Empfehlungssystem eingeführt.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

So funktioniert kollaborative Filterung

Bei der kollaborativen Filterung wird eine Matrix verwendet, um das Benutzerverhalten für jeden Artikel in seinem System abzubilden. Das System entnimmt dann Werte aus dieser Matrix, um sie als Datenpunkte in einem Vektorraum darzustellen. Verschiedene Metriken messen dann den Abstand zwischen Punkten, um die Nutzer-Nutzer- und Element-Element-Ähnlichkeit zu berechnen.

Nutzer-Element-Matrix

In einer Standardeinstellung der kollaborativen Filterung haben wir eine Gruppe von n Benutzern und eine Gruppe von x Elementen. Die individuellen Präferenzen jedes Benutzers für jedes Element werden in einer Benutzerelementmatrix (manchmal auch als Benutzerbewertungsmatrix bezeichnet) angezeigt. Hier werden Benutzer in Zeilen und Elemente in Spalten dargestellt. In der Rij Matrix repräsentiert ein gegebener Wert das Verhalten des Benutzers u gegenüber dem Element i. Bei diesen Werten kann es sich um fortlaufende Zahlen handeln, die von Benutzern bereitgestellt werden (z. B. Bewertungen), oder um Binärwerte, die angeben, ob ein bestimmter Benutzer den Artikel angesehen oder gekauft hat. Hier ist ein Beispiel für eine Nutzungszeitmatrix für eine Buchhandlungs-Website:

Tabelle zur Veranschaulichung der Benutzer-Element-Matrix

Diese Matrix zeigt die Benutzerbewertungen für verschiedene verfügbare Bücher an. Ein kollaborativer Filteralgorithmus vergleicht die von den Benutzern für jedes Buch abgegebenen Bewertungen. Durch die Identifizierung ähnlicher Benutzer oder Elemente auf der Grundlage dieser Bewertungen werden Bewertungen für Bücher vorhergesagt, die ein Zielbenutzer noch nicht gesehen hat – in der Matrix durch Null dargestellt – und diese Bücher dem Zielbenutzer empfohlen (oder nicht empfohlen).

Die hier verwendete Beispielmatrix ist vollständig, da sie auf vier Benutzer und vier Elemente beschränkt ist. In realen Szenarien sind die Präferenzen bekannter Benutzer für Elemente jedoch häufig eingeschränkt, sodass die Benutzer-Element-Matrix dünn besetzt ist.3

Ähnlichkeitsmaße

Wie ermittelt ein kollaborativer Empfehlungsalgorithmus die Ähnlichkeit zwischen verschiedenen Benutzern? Wie bereits erwähnt, ist die Nähe im Vektorraum eine primäre Methode. Die spezifischen Metriken, die zur Bestimmung dieser Nähe verwendet werden, können jedoch variieren. Zwei dieser Metriken sind die Kosinus-Ähnlichkeit und der Pearson-Korrelationskoeffizient.

Kosinus-Ähnlichkeit

Unter Kosinus-Ähnlichkeit versteht man die Messung des Winkels zwischen zwei Vektoren. Vergleichsvektoren umfassen eine Teilmenge von Bewertungen für einen bestimmten Benutzer oder ein bestimmtes Element. Der Kosinus-Ähnlichkeitswert kann einen beliebigen Wert zwischen -1 und 1 annehmen. Je höher der Kosinus-Wert, desto ähnlicher sind sich zwei Elemente. Einige Quellen empfehlen diese Metriken für hochdimensionale Funktionsräume. Beim kollaborativen Filtern werden Vektorpunkte direkt aus der Benutzer-Element-Matrix gezogen. Die Kosinus-Ähnlichkeit wird durch diese Formel dargestellt, wobei x und y zwei Elementvektoren im Vektorraum bezeichnen:4

Darstellung der Kosinus-Ähnlichkeitsformel

Pearson-Korrelationskoeffizient (PCC)

PCC hilft bei der Messung der Ähnlichkeit zwischen Elementen oder Benutzern, indem die Korrelation zwischen den jeweiligen Bewertungen zweier Benutzer oder Elemente berechnet wird. PCC liegt zwischen -1 und 1, was eine negative bis identische Korrelation bedeutet. Im Gegensatz zur Kosinus-Ähnlichkeit verwendet PCC alle Bewertungen für einen bestimmten Benutzer oder ein bestimmtes Element. Wenn wir beispielsweise die PCC zwischen zwei Benutzern berechnen, verwenden wir diese Formel, in der a und b verschiedene Benutzer sind und rai und rbi die Bewertung dieses Benutzers für Element i sind:5

Darstellung des Pearson-Korrelationskoeffizienten

Arten von kollaborativen Empfehlungssystemen 

Es gibt zwei Haupttypen von kollaborativen Filtersystemen: speicherbasiert und modellbasiert.

Speicherbasiert

Speicherbasierte Empfehlungssysteme oder Neighbor-basierte Systeme sind Erweiterungen der k-Nearest-Neighbors-Klassifikatoren, da sie versuchen, das Verhalten eines Zielbenutzers gegenüber einem bestimmten Element auf der Grundlage ähnlicher Benutzer oder einer Reihe von Elementen vorherzusagen. Speicherbasierte Systeme können in zwei Untertypen unterteilt werden:

  • Die benutzerbasierte Filterung empfiehlt einem Zielbenutzer Elemente basierend auf den Präferenzen der sich verhaltenden Benutzer. Der Empfehlungsalgorithmus vergleicht das frühere Verhalten eines Zielbenutzers mit dem anderer Benutzer. Konkret weist das System jedem Benutzer ein Gewicht zu, das die wahrgenommene Ähnlichkeit mit dem Zielbenutzer darstellt – dies sind die Nachbarn des Zielbenutzers. Anschließend wählt sie n Benutzer mit den höchsten Gewichtungen aus und berechnet eine Vorhersage des Verhaltens des Zielbenutzers (z. B. Filmbewertung, Kauf, Abneigungen usw.) aus einem gewichteten Durchschnitt des Verhaltens der ausgewählten Neighbors. Das System empfiehlt dem Zielbenutzer dann Artikel auf der Grundlage dieser Vorhersage. Das Prinzip lautet: Wenn sich der Zielbenutzer in der Vergangenheit ähnlich wie diese Gruppe verhalten hat, wird er sich auch in Bezug auf bislang unbekannte Elemente ähnlich verhalten. Nutzerbasierte Ähnlichkeitsfunktionen werden zwischen Zeilen in der Nutzer-Element-Matrix berechnet.6
  • Elementbasierte Filterung empfiehlt einem Zielbenutzer neue Elemente auf der Grundlage des Verhaltens dieses Benutzers gegenüber ähnlichen Elementen. Beachten Sie jedoch, dass das kollaborative System beim Vergleich von Elementen nicht die Eigenschaften der Elemente vergleicht (wie bei der inhaltsbasierten Filterung), sondern die Art und Weise, wie Benutzer mit diesen Elementen interagieren. In einem Filmempfehlungssystem kann der Algorithmus beispielsweise ähnliche Filme auf der Grundlage von Korrelationen zwischen allen Benutzerbewertungen für jeden Film identifizieren (wobei die Durchschnittsbewertung jedes Benutzers korrigiert wird). Das System empfiehlt dann einem Zielnutzer einen neuen Film auf der Grundlage korrelierter Bewertungen. Das heißt, wenn der Zielnutzer Film a und b hoch bewertet hat, Film c jedoch nicht gesehen hat, und andere Nutzer, die die beiden erstgenannten Filme hoch bewertet haben, auch Film c hoch bewertet haben, empfiehlt das System dem Zielnutzer Film c. Auf diese Weise berechnet die elementbasierte Filterung die Ähnlichkeit von Elementen anhand des Benutzerverhaltens. Elementbasierte Ähnlichkeitsfunktionen werden zwischen den Spalten der Nutzer-Element-Matrix berechnet.7

Modellbasiert

In der Literatur werden erinnerungsbasierte Methoden manchmal als instanzbasierte Lernmethoden bezeichnet. Dies zeigt, wie benutzer- und elementbasierte Filterung Vorhersagen für einen bestimmten Fall einer Benutzer-Element-Interaktion treffen, z. B. die Bewertung eines Zielbenutzers für einen noch nicht gesehenen Film.

Im Gegensatz dazu erstellen modellbasierte Methoden ein prädiktives maschinelles Lernmodell der Daten. Das Modell verwendet die Gegenwartswerte in der Benutzer-Element-Matrix als Trainingsdatensatz und erstellt mit dem resultierenden Modell Vorhersagen für fehlende Werte. Modellbasierte Methoden verwenden daher Techniken und Algorithmen für maschinelles Lernen aus dem Bereich der Data Science, wie Decision Trees, Bayes-Klassifikatoren und neuronale Netze, um Benutzern Artikel zu empfehlen.8

Die Matrixfaktorisierung ist eine viel diskutierte kollaborative Filtermethode, die oft als eine Art latentes Faktormodell klassifiziert wird. Als latentes Faktormodell geht die Matrixfaktorisierung davon aus, dass die Ähnlichkeit zwischen Benutzern oder Elementen durch eine ausgewählte Anzahl von Funktionen bestimmt werden kann. Beispielsweise kann die Buchbewertung eines Benutzers allein anhand des Buchgenres und des Alters oder Geschlechts des Benutzers vorhergesagt werden. Diese Darstellung in niedrigerer Dimension zielt darauf ab, beispielsweise Buchbewertungen zu erklären, indem Elemente und Benutzer anhand einiger ausgewählter Funktionen aus den Feedback-Daten der Benutzer charakterisiert werden.9 Da sie die Funktionen eines gegebenen Vektorraums reduziert, dient die Matrixfaktorisierung auch als Verfahren zur Reduzierung der Dimensionalität. 10

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Vor- und Nachteile der kollaborativen Filterung

Vorteile

Im Vergleich zu inhaltsbasierten Systemen ist die kollaborative Filterung effektiver, wenn es darum geht, den Benutzern neue Empfehlungen zu geben. Auf Zusammenarbeit basierende Methoden beziehen Empfehlungen aus einem Pool von Benutzern, die gemeinsame Interessen mit einem Zielbenutzer haben. Wenn beispielsweise einer Benutzergruppe dieselben Elemente wie dem Zielbenutzer gefallen, aber auch ein zusätzliches Element, das dem Zielbenutzer unbekannt ist, weil es keine Gemeinsamkeiten mit den vorherigen Elementen aufweist, empfiehlt ein kollaboratives Filtersystem dem Benutzer dieses neue Element. Die kollaborative Filterung kann Artikel empfehlen, die ein Zielnutzer möglicherweise nicht in Betracht gezogen hat, die aber dennoch seinem Nutzertyp entsprechen.11

Nachteile

Das Kaltstartproblem ist vielleicht der am häufigsten genannte Nachteil von kollaborativen Filtersystemen. Es tritt auf, wenn ein neuer Benutzer (oder sogar ein neues Element) in das System aufgenommen wird. Da dieser Benutzer keine Interaktionshistorie mit Elementen hat, kann das System die Ähnlichkeit oder Verbindung des neuen Benutzers mit bestehenden Benutzern nicht bewerten. Im Gegensatz dazu sind inhaltsbasierte Systeme besser in der Lage, mit neuen Elementen umzugehen, obwohl sie auch mit Empfehlungen für neue Benutzer zu kämpfen haben.12

Datenknappheit stellt ein weiteres Hauptproblem dar, das kollaborative Empfehlungssysteme beeinträchtigen kann. Wie bereits erwähnt, fehlen Empfehlungssystemen in der Regel Daten zu den Benutzerpräferenzen für die meisten Elemente im System. Das bedeutet, dass der größte Teil des Funktionsraums des Systems leer ist, ein Zustand, der als Datenknappheit (Data Sparsity) bezeichnet wird. Mit zunehmender Datenknappheit werden Vektorpunkte so unterschiedlich, dass Vorhersagemodelle weniger effektiv darin sind, erklärende Muster zu identifizieren.13 Dies ist ein Hauptgrund dafür, dass die Matrixfaktorisierung – und verwandte latente Faktormethoden wie die Singulärwertzerlegung – beim kollaborativen Filtern beliebt ist, da sie die Datenknappheit durch die Reduzierung von Funktionen mildert. Andere Methoden zur Lösung dieses Problems können auch darin bestehen, dass die Benutzer selbst ihre eigenen Interessen bewerten und Informationen darüber bereitstellen, die das System dann zur Filterung von Empfehlungen verwenden kann.

Aktuelle Forschung

Während frühere Studien Empfehlungen als Vorhersage- oder Klassifizierungsproblem betrachteten, argumentiert eine umfangreiche Reihe neuerer Forschungsarbeiten, dass sie als sequentielles Entscheidungsproblem verstanden werden sollten. In diesem Paradigma könnte sich das bestärkende Lernen besser für die Bearbeitung von Empfehlungen eignen. Dieser Ansatz geht davon aus, dass Empfehlungen in Echtzeit entsprechend der Interaktion zwischen Benutzer und Artikel aktualisiert werden. Wenn der Benutzer vorgeschlagene Artikel überspringt, anklickt, bewertet oder kauft, entwickelt das Modell aus diesem Feedback eine optimale Richtlinie, um neue Artikel zu empfehlen.14 Aktuelle Studien schlagen eine Vielzahl von Anwendungen für bestärkendes Lernen vor, um veränderliche, langfristige Nutzerinteressen zu berücksichtigen, die sowohl für inhaltsbasierte als auch für kollaborative Filterung eine Herausforderung darstellen.15

Weitere Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen