Cos'è il filtraggio basato sui contenuti?

Autori

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

Cos'è il filtraggio basato sui contenuti?

Il filtraggio basato sui contenuti è uno dei due principali tipi di sistemi di raccomandazione. Suggerisce oggetti agli utenti in base alle caratteristiche di ciascuno di essi.

Il filtraggio basato sui contenuti è un metodo di recupero delle informazioni che utilizza le caratteristiche degli oggetti per selezionare e restituire oggetti pertinenti alla query di un utente. Questo metodo spesso tiene conto delle caratteristiche di altri oggetti per i quali un utente esprime interesse.¹Tuttavia, l'espressione basato sui contenuti è impropria. Alcuni algoritmi di raccomandazione basati sui contenuti abbinano gli oggetti in base alle caratteristiche descrittive (ad esempio, metadati) associate agli oggetti anziché ai contenuti effettivi di un oggetto.² Tuttavia, diversi metodi basati sui contenuti, ad esempio il recupero di immagini basato sui contenuti o le applicazioni di elaborazione del linguaggio naturale, abbinano gli oggetti in base agli attributi intrinseci degli oggetti.

Filtraggio basato sui contenuti vs filtraggio collaborativo

Il filtraggio basato sui contenuti è uno dei due principali tipi di sistemi di raccomandazione. L'altro è il metodo di filtraggio collaborativo. Quest'ultimo approccio raggruppa gli utenti in gruppi distinti in base al loro comportamento. Utilizzando le caratteristiche generali del gruppo, restituisce quindi oggetti specifici a un intero gruppo in base al principio che utenti simili (dal punto di vista comportamentale) sono interessati a oggetti simili.³

Entrambi i metodi hanno visto molte applicazioni reali negli ultimi anni, dall'e-commerce come Amazon ai social media fino ai servizi di streaming. Insieme, i sistemi collaborativi e quelli basati sui contenuti costituiscono i sistemi di raccomandazione ibridi. Infatti, nel 2009, Netflix ha adottato un sistema di raccomandazione ibrido attraverso il suo concorso a premi Netflix.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Come funziona il filtraggio basato sui contenuti

I sistemi di raccomandazione basati sui contenuti (CBRS) incorporano algoritmi di machine learning e tecniche di data science per suggerire nuovi oggetti e rispondere alle query.

Componenti del filtraggio basato sui contenuti

Nei CBRS, il motore di raccomandazione confronta essenzialmente un profilo utente e un profilo oggetto per prevedere l'interazione utente-oggetto e suggerire oggetti di conseguenza.

Il profilo oggetto è la rappresentazione di un oggetto nel sistema. Consiste in un insieme di caratteristiche di un oggetto, che possono essere caratteristiche strutturate interne o metadati descrittivi. Ad esempio, un servizio di streaming può memorizzare i film in base al genere, alla data di uscita, al regista e così via.
Il profilo utente rappresenta le preferenze e il comportamento dell'utente. Può essere costituito dalle rappresentazioni di quegli oggetti per i quali un utente ha precedentemente mostrato interesse. Include anche i dati delle interazioni passate degli utenti con il sistema (ad esempio, mi piace e non mi piace, valutazioni, domande, ecc.).⁴

Rappresentazioni degli oggetti

I CBRS spesso rappresentano oggetti e utenti come incorporamenti in uno spazio vettoriale. Gli elementi vengono convertiti in vettori utilizzando le descrizioni dei metadati o le caratteristiche interne come attributi. Ad esempio, supponiamo di creare profili oggetto per suggerire nuovi romanzi agli utenti nell'ambito di una libreria online. Creiamo quindi profili per ogni romanzo utilizzando metadati rappresentativi, come autore, genere, ecc. Il valore di un romanzo per una determinata categoria può essere rappresentato con valori booleani, dove 1 indica la presenza del romanzo in quella categoria e 0 ne indica l'assenza. Con questo sistema, possiamo potenzialmente rappresentare una piccola manciata di romanzi in base al genere:

Qui, ogni genere è una dimensione diversa del nostro spazio vettoriale, e i valori in un dato romanzo rappresentano la sua posizione in quello spazio vettoriale. Ad esempio, Piccole Donne si trova in (1,0,1), L'Abbazia di Northanger in (0,0,1) e così via. Possiamo visualizzare questo spazio vettoriale di esempio come:

Illustrazione di una posizione specifica all'interno di uno spazio vettoriale

Più due nuovi vettori sono vicini nello spazio vettoriale, più il nostro sistema li considera simili in base alle caratteristiche fornite.⁵ Peter Pan e L'isola del tesoro condividono esattamente le stesse caratteristiche e appaiono nello stesso punto vettoriale (1,1,0). Secondo il nostro sistema, quindi, sono identici. In effetti, condividono molti elementi della trama (ad esempio, isole sperdute e pirati) e temi (ad esempio, la crescita o la resistenza ad essa). Al contrario, sebbene Piccole donne sia un romanzo per bambini, non è un'avventura ma un romanzo di formazione. Sebbene Piccole donne sia un romanzo per bambini come Peter Pan e L'isola del tesoro, manca dei loro valori caratteristici di romanzo di avventura e possiede un valore di caratteristica 1 per il romanzo di formazione, cosa che manca agli altri due. Questo avvicina Piccole donne a L'abbazia di Northanger nello spazio vettoriale, poiché condividono gli stessi valori di attributi per le caratteristiche di romanzo di avventura e di formazione.

A causa della loro similarità in questo spazio, se un utente ha precedentemente acquistato Peter Pan, il sistema suggerirà quei romanzi più vicini a Peter Pan, come L'isola del tesoro, a quell'utente come potenziale acquisto futuro. Se si dovessero aggiungere più romanzi e caratteristiche basate sul genere (ad esempio, fantasy, gotico, ecc.), le posizioni dei romanzi nello spazio vettoriale si sposterebbero. Ad esempio, se si aggiunge una dimensione di genere fantasy, Peter Pan e L'isola del tesoro potrebbero discostarsi leggermente l'uno dall'altro, dato che il primo è spesso considerato fantasy, mentre il secondo no.

È opportuno notare che i vettori degli oggetti possono anche essere creati utilizzando le caratteristiche interne degli oggetti come attributi. Ad esempio, possiamo convertire elementi di testo non elaborati (ad esempio articoli di notizie) in un formato strutturato e mapparli su uno spazio vettoriale, come un "modello bag of words". In questo approccio, ogni parola utilizzata in tutto il corpus diventa una dimensione diversa dello spazio vettoriale e gli oggetti che utilizzano parole chiave simili appaiono più vicini l'uno all'altro nello spazio vettoriale.

Metriche di similarità

In che modo un sistema di filtraggio basato sui contenuti determina la similarità tra un numero qualsiasi di oggetti? Come accennato, la prossimità nello spazio vettoriale è un metodo primario. Le metriche specifiche utilizzate per determinare tale prossimità, tuttavia, possono variare. Le più comuni includono:

La similarità del coseno indica la misura dell'angolo tra due vettori. Può assumere qualsiasi valore compreso tra -1 e 1. Più alto è il valore del coseno, più due oggetti sono considerati simili. Alcune fonti raccomandano questa metrica per spazi di caratteristiche ad alta dimensionalità. La similarità del coseno è rappresentata da questa formula, in cui x e y indicano due vettori-oggetto nello spazio vettoriale:⁷

Immagine della formula di similarità del coseno

La distanza euclidea misura la lunghezza di un ipotetico segmento di linea che unisce due punti vettoriali. I punteggi della distanza euclidea possono arrivare fino a zero, senza limite superiore. Più piccola è la distanza euclidea tra due vettori-oggetto, più questi sono considerati simili. La distanza euclidea si calcola con la seguente formula, dove x e y rappresentano due vettori-oggetto:⁸

Immagine della formula della distanza euclidea

Il prodotto scalare è il prodotto tra il coseno dell'angolo tra due vettori e la lunghezza euclidea di ciascun vettore a partire da un'origine definita. In altre parole, è il coseno tra due vettori moltiplicato per la lunghezza proiettata di ciascun vettore, dove la lunghezza è lo spostamento di un vettore rispetto a un'origine definita, come (0,0). Il prodotto scalare è particolarmente utile per confrontare oggetti con grandezze notevolmente diverse, per esempio, pensiamo alla popolarità di libri o film. È rappresentato da questa formula, in cui d e q rappresentano di nuovo due vettori-oggetto:⁹

Illustrazione della formula del prodotto scalare

Bisogna tenere presente che queste metriche sono sensibili al modo in cui vengono ponderati i vettori confrontati, poiché ponderazioni diverse possono influire in modo significativo su queste funzioni di punteggio.¹⁰ Altre possibili metriche per determinare la similarità vettoriale sono il coefficiente di correlazione di Pearson (o correlazione di Pearson) e la similarità di Jaccard e l'indice di Dice.¹¹

Previsione dell'interazione utente-oggetto

I CBRS creano un classificatore basato sull'utente o un modello di regressione per suggerire articoli a un utente specifico. Per iniziare, l'algoritmo prende le descrizioni e le caratteristiche degli oggetti per i quali un determinato utente ha mostrato interesse in precedenza, ovvero il profilo utente. Questi elementi costituiscono il set di dati di addestramento utilizzato per creare un modello di classificazione o regressione specifico per l'utente. In questo modello, gli attributi degli oggetti sono le variabili indipendenti, mentre la variabile dipendente è il comportamento dell'utente (ad esempio, le valutazioni dell'utente, i like, gli acquisti, ecc.) Il modello addestrato su questo comportamento passato mira a prevedere il comportamento futuro dell'utente per i possibili oggetti e a raccomandare oggetti in base alla previsione.¹²

Vantaggi e svantaggi del filtraggio basato sui contenuti

Vantaggi

Il problema del cold start riguarda essenzialmente il modo in cui un sistema gestisce nuovi utenti o nuovi oggetti. Entrambi pongono un problema nel filtraggio collaborativo, perché raccomandano gli oggetti raggruppando gli utenti in base alle somiglianze di comportamento e preferenze dedotte. Tuttavia, i nuovi utenti non hanno un'evidente somiglianza con gli altri e i nuovi oggetti non hanno un'interazione utente sufficiente (ad esempio, valutazioni) per consigliarli. Sebbene il filtraggio basato sui contenuti sia difficile da gestire con i nuovi utenti, è comunque in grado di incorporare nuovi elementi. Ciò è dovuto al fatto che suggerisce gli elementi in base alle caratteristiche interne o dei metadati piuttosto che alle interazioni passate dell'utente.¹³

Il filtraggio basato sui contenuti consente un maggiore grado di trasparenza fornendo caratteristiche interpretabili che aiutano a spiegare le raccomandazioni. Ad esempio, un sistema di raccomandazione di film potrebbe spiegare perché un certo film viene raccomandato, ad esempio per la sovrapposizione di genere o di attori con film precedentemente visti. L'utente può quindi decidere in modo più informato se guardare il film consigliato.¹⁴

Svantaggi

Uno dei principali svantaggi del filtraggio basato sui contenuti è la limitazione delle caratteristiche. Le raccomandazioni basate sui contenuti derivano esclusivamente dalle caratteristiche utilizzate per descrivere gli oggetti. Tuttavia, le caratteristiche degli oggetti di un sistema potrebbero non essere in grado di catturare ciò che piace a un utente. Per esempio, tornando all'esempio del sistema di raccomandazione di film, supponiamo che un utente guardi e apprezzi il film Gaslight del 1944. Un CBRS può consigliare altri film diretti da George Cukor o con Ingrid Bergman, ma quei film potrebbero non essere simili a Gaslight. Se l'utente preferisce uno specifico espediente narrativo (ad esempio, un marito ingannevole) o un elemento della produzione (ad esempio, un direttore della fotografia) non rappresentato nel profilo oggetto, il sistema non presenterà raccomandazioni adeguate. Una quantità insufficiente di dati non consente di realizzare una differenziazione accurata tra i potenziali Mi piace e Non mi piace di un utente.¹⁵

Poiché il filtraggio basato sui contenuti consiglia oggetti solo in base agli interessi precedentemente evidenziati di un utente, i suoi suggerimenti sono spesso simili agli oggetti che un utente ha apprezzato in passato. In altre parole, i CBRS non dispongono di una metodologia per esplorare il nuovo e l'imprevisto. In questo caso, si parla di "overspecialization". Al contrario, poiché i metodi basati sul filtraggio collaborativo traggono raccomandazioni da un insieme di utenti che hanno gusti simili a quelli di un dato utente, possono spesso raccomandare oggetti che un utente potrebbe non aver preso in considerazione, che presentano caratteristiche diverse rispetto agli oggetti precedentemente graditi dall'utente, ma che contengono un elemento non rappresentato che attrae un certo tipo di utente.¹⁶

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda tutti gli episodi di Mixture of Experts

Ricerche recenti

Mentre studi passati hanno affrontato la raccomandazione come un problema di previsione o classificazione, un gran numero di ricerche recenti sostiene che essa sia intesa come un problema sequenziale e decisionale. In questo paradigma, l'apprendimento per rinforzo potrebbe essere più adatto per generare la raccomandazione. Questo approccio sostiene che la raccomandazione si aggiorni in tempo reale in base all'interazione utente-oggetto; via via che l'utente salta, clicca, valuta, acquista gli articoli suggeriti, il modello sviluppa una politica ottimale da questo feedback per raccomandare nuovi articoli.¹⁷ Studi recenti propongono un'ampia varietà di applicazioni di apprendimento per rinforzo per affrontare gli interessi mutevoli e a lungo termine degli utenti, che pongono sfide sia per il filtraggio collaborativo che per quello basato sui contenuti.¹⁸

Oltre il clamore: come gli assistenti AI generano un valore aziendale reale

Esplora i principali casi d'uso per l'utilizzo degli assistenti AI per capire il potenziale impatto della gen AI e della tecnologia di automazione sulla tua azienda e scopri come iniziare.

Risorse

Esplora IBM Granite

IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni relative a lingua, codice, serie temporali e guardrail.

Guida per principianti all'NLP

Scopri come l'elaborazione del linguaggio naturale (NLP) può aiutarti a conversare in modo più naturale con i computer.

IBM è stata nominata leader nella data science e nel machine learning

Scopri perché IBM è stata riconosciuta come leader nel Gartner® Magic Quadrant 2025 per le piattaforme di data science e machine learning.

Esperienza diretta con l'AI generativa

Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.

Soluzioni correlate

IBM watsonx Orchestrate

Progetta facilmente assistenti e agenti di AI scalabili, automatizza le attività ripetitive e semplifica i processi complessi con IBM watsonx Orchestrate.

Scopri watsonx Orchestrate

Strumenti di elaborazione del linguaggio naturale e API

Accelera il valore aziendale dell'intelligenza artificiale con un portfolio potente e flessibile di librerie, servizi e applicazioni.

Esplora le soluzioni NLP

Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI

Fai il passo successivo

Progetta facilmente assistenti e agenti di AI scalabili, automatizza le attività ripetitive e semplifica i processi complessi con IBM watsonx Orchestrate.

Note a piè di pagina

¹ Melville, P. and Sindhwani, V. “Recommender Systems,” Encyclopedia of Machine learning and Data Mining, Springer, 2017.

² Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

³ Sarwat, M., Mokbel, M. “Collaborative Filtering,” Encyclopedia of Database Systems, Springer, 2018.
Sarwat, M., Mokbel, M. “Collaborative Filtering,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

^4, 6 Pazzani, M.J., Billsus, D. “Content-Based Recommendation Systems,” The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.

⁵ Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.

^7, 11 Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.
Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.

⁸ Banik, R. “Hands-On Recommendation Systems with Python”, Packt Publishing, 2018.
Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.

⁹ Kuhn, M., Johnson, K. “Applied Predictive Modeling”, Springer, 2016.

¹⁰ Mei, Q., Radev, D. “Information Retrieval,” Oxford Handbook of Computational Linguistics, Second Edition, Oxford University Press, 2016.

¹² Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.
Ricci, F., Rokach, L., Shapira, B. “Recommender Systems Handbook”, Third Edition, Springer 2022.

¹³ Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.
Goodfellow, I., Bengio, Y., Courville, A. “Deep Learning”, MIT Press, 2016.

^14, 16 Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.
Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

¹⁵ Han, J. Kamber, M., Pei, J. “Data Mining: Concepts and Techniques”, Third Edition, Elsevier, 2012.
Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.

¹⁷ Shani, G., Heckerman, D., Brafman, R. I. “An MDP-Based Recommender System”, 2005.
Lin, Y. et all. “A Survey on Reinforcement Learning for Recommender Systems”, 2023.
M.M. Afsar et al. “Reinforcement learning based recommender systems: A survey”, ACM Computing Surveys, 2023.

¹⁸ Chen, X. et all. “Generative Adversarial User Model for Reinforcement Learning Based Recommendation System”, 2019.
Huang, L. et all. “A deep reinforcement learning based long-term recommender system”, 2021

Cos'è il filtraggio basato sui contenuti?

Cos'è il filtraggio basato sui contenuti?

Filtraggio basato sui contenuti vs filtraggio collaborativo

Le ultime tendenze in materia di AI, proposte da esperti

Grazie per aver effettuato l'iscrizione!

Come funziona il filtraggio basato sui contenuti

Componenti del filtraggio basato sui contenuti

Rappresentazioni degli oggetti

Metriche di similarità

Previsione dell'interazione utente-oggetto

Vantaggi e svantaggi del filtraggio basato sui contenuti

Vantaggi

Svantaggi

Decoding AI: Weekly News Roundup

Ricerche recenti

Risorse

Note a piè di pagina