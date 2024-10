Je näher zwei Roman-Vektoren im Vektorraum beieinander liegen, desto ähnlicher betrachtet unser System sie gemäß den bereitgestellten Merkmalen.5 „Peter Pan“ und „Die Schatzinsel“ haben genau die gleichen Merkmale und werden am selben Vektorpunkt (1,1,0) angezeigt. Nach unserem System sind sie also identisch. In der Tat haben sie viele Handlungselemente (z. B. einsame Inseln und Piraten) und Themen (z. B. das Erwachsenwerden oder der Widerstand dagegen) gemeinsam. Im Gegensatz dazu ist Little Women zwar auch ein Kinderroman, aber kein Abenteuerroman, sondern ein Bildungsroman (Coming-of-Age). Obwohl Little Women wie Peter Pan und Die Schatzinsel ein Kinderroman ist, fehlen ihm die Feature-Werte für Abenteuer und der Feature-Wert von 1 für Bildungsroman, der den beiden letztgenannten fehlt. Dadurch befindet sich Little Women im Vektorraum näher an Northanger Abbey, da sie die gleichen Merkmalswerte für Abenteuer- und Bildungsromane haben.

Aufgrund ihrer Ähnlichkeit in diesem Bereich empfiehlt das System, wenn ein Benutzer zuvor Peter Pan gekauft hat, diesem Benutzer die Romane, die Peter Pan am nächsten kommen – wie z. B. Die Schatzinsel– als potenziellen zukünftigen Kauf. Beachten Sie, dass sich die Positionen der Romane im Vektorraum verschieben werden, wenn wir mehr Romane und genrebasierte Funktionen (z. B. Fantasy, Gothic usw.) hinzufügen. Wenn man zum Beispiel eine Dimension des Fantasy-Genres hinzufügt, kann es sein, dass Peter Pan und Die Schatzinsel sich geringfügig von einer anderen unterscheiden, da ersteres oft als Fantasy angesehen wird, während letzteres nicht der Fall ist.

Beachten Sie, dass Artikelvektoren auch unter Verwendung der internen Merkmale von Artikeln als Features erstellt werden können. Zum Beispiel können wir rohe Textelemente (z. B. Nachrichtenartikel) in ein strukturiertes Format konvertieren und sie auf einen Vektorraum abbilden, z. B. ein Bag-of-Words-Modell. Bei diesem Ansatz wird jedes im gesamten Korpus verwendete Wort zu einer anderen Dimension des Vektorraums, und Artikel, die ähnliche Schlüsselwörter verwenden, erscheinen im Vektorraum näher beieinander. TF-IDF, eine Erweiterung von Bag of Words, kann weiter dazu beitragen, die Begriffshäufigkeit für jeden Artikel im Vergleich zum gesamten Repository von Nachrichtenartikeln zu messen.6 Ähnliche Methoden können durch Bildeinbettung auf Bildelemente angewendet werden.