A filtragem baseada em conteúdo é um dos dois principais tipos de sistemas de recomendação. Ela recomenda itens aos usuários de acordo com as características individuais dos itens.
A filtragem baseada em conteúdo é um método de recuperação de informações que utiliza os recursos dos itens para selecionar e retornar itens relevantes à consulta de um usuário. Esse método geralmente leva em consideração os recursos de outros itens nos quais o usuário manifesta interesse.1 No entanto,baseado em conteúdo é um termo um pouco errado. Alguns algoritmos de recomendação baseados em conteúdo relacionam os itens por meio de funcionalidades descritivas (como metadados) ligados aos itens, ao invés do próprio conteúdo.2 No entanto, vários métodos baseados em conteúdo, como a recuperação de imagens baseada em conteúdo ou aplicações de processamento de linguagem natural, combinam itens de acordo com atributos intrínsecos dos itens.
A filtragem baseada em conteúdo é um dos dois principais tipos de sistemas de recomendação. O outro é o método de filtragem colaborativa. Essa última abordagem agrupa usuários em grupos distintos com base em seu comportamento. Usando características gerais do grupo, ela então retorna itens específicos para todo o grupo com base no princípio de que usuários similares (em termos de comportamento) estão interessados em itens similares.3
Ambos os métodos têm testemunhado muitas aplicações no mundo real nos últimos anos, desde e-commerce como a Amazon até redes sociais e serviços de streaming. Juntos, os sistemas colaborativos e baseados em conteúdo formam sistemas de recomendação híbridos. Em 2009, a Netflix, por meio de sua competição Netflix Prize, adotou um sistema de recomendação híbrido.
Os sistemas de recomendação baseados em conteúdo (CBRSs) incorporam algoritmos de aprendizado de máquina e técnicas de ciência de dados para recomendar novos itens e responder a consultas.
Nos CBRSs, o motor de recomendação essencialmente compara o perfil do usuário e o perfil do item para prever a interação usuário-item e recomendar itens de acordo.
Os CBRSs frequentemente representam itens e usuários como embeddings em um espaço vetorial. Os itens são convertidos em vetores utilizando descrições de metadados ou características internas como features. Por exemplo, suponha que construímos perfis de itens para recomendar novos romances aos usuários como parte de uma livraria online. Em seguida, criamos perfis para cada romance usando metadados representativos, como autor, gênero, etc. O valor de um romance para uma determinada categoria pode ser representado com valores booleanos, onde 1 indica a presença do romance nessa categoria e 0 indica sua ausência. Com esse sistema, podemos potencialmente representar um pequeno conjunto de romances de acordo com o gênero:
Aqui, cada gênero é uma dimensão diferente do nosso espaço vetorial, com os valores de um romance representando sua posição nesse espaço vetorial. Por exemplo, "Mulherzinhas" está localizado em (1,0,1), "A Abadia de Northanger" em (0,0,1), e assim por diante. Podemos visualizar este espaço vetorial de exemplo como:
Quanto mais próximos dois vetores de romances estiverem no espaço vetorial, mais similares o nosso sistema os considerará de acordo com as características fornecidas.5 "Peter Pan" e "Ilha do Tesouro" compartilham exatamente as mesmas características, aparecendo no mesmo ponto vetorial (1,1,0). De acordo com o nosso sistema, então, eles são idênticos. De fato, eles compartilham muitos elementos de enredo (por exemplo, ilhas isoladas e piratas) e temas (por exemplo, amadurecimento ou resistência a ele). Por outro lado, embora Mulherzinhas também seja um romance infantil, não se trata de uma aventura, mas de um romance de formação (amadurecimento). Embora Mulherzinhas seja um romance infantil como Peter Pan e Ilha do Tesouro, ele não possui seus valores de características para aventura e possui um valor de característica de 1 para romance de formação, que os dois últimos não possuem. Isso posiciona Mulherzinhas mais perto de A Abadia de Northanger no espaço vetorial, pois compartilham os mesmos valores de características para as características de aventura e romance de formação.
Devido à semelhança nesse espaço, se um usuário já comprou Peter Pan, o sistema recomendará os romances mais próximos de Peter Pan como A Ilha do Tesouro a esse usuário como uma possível compra futura. Observe que, se adicionarmos mais romances e características baseadas em gênero (por exemplo, fantasia, gótico, etc.), as posições dos romances no espaço vetorial irão se mover. Por exemplo, se adicionarmos uma dimensão de gênero de fantasia, Peter Pan e A Ilha do Tesouro podem se mover marginalmente, já que o primeiro é frequentemente considerado fantasia enquanto o último não.
Observe que vetores de itens também podem ser criados usando características internas dos itens como funcionalidades. Por exemplo, podemos converter itens de texto bruto (por exemplo, artigos de notícias) em um formato estruturado e mapeá-los em um espaço vetorial, como um modelo de "bag of words". Nessa abordagem, cada palavra usada no corpus se torna uma dimensão diferente do espaço vetorial, e artigos que utilizam palavras-chave semelhantes aparecem mais próximos uns dos outros nesse espaço.
Como um sistema de filtragem baseada em conteúdo determina a similaridade entre qualquer número de itens? Como mencionado, a proximidade no espaço vetorial é o método principal. No entanto, as métricas específicas usadas para determinar essa proximidade podem variar. As métricas comuns incluem:
Similaridade do cosseno significa a medição do ângulo entre dois vetores. Pode ser qualquer valor entre -1 e 1. Quanto maior o valor do cosseno, mais semelhantes são considerados dois itens. Algumas fontes recomendam essa métrica para espaços de funcionalidades de alta dimensão. A similaridade do cosseno é representada por esta fórmula, onde x e y significam dois vetores de itens no espaço vetorial:7
A distância euclidiana mede o comprimento de um segmento de linha hipotético que une dois pontos vetoriais. Os valores da distância euclidiana podem ser tão baixos quanto zero, sem limite superior. Quanto menor a distância euclidiana entre dois vetores de itens, mais similares são considerados. A distância euclidiana é calculada com esta fórmula, em que x e y representam dois vetores de itens:8
Produto escalar é o produto do cosseno do ângulo entre dois vetores e a magnitude euclidiana respectiva de cada vetor a partir de uma origem definida. Em outras palavras, é o cosseno de dois vetores multiplicado pelo comprimento projetado de cada vetor, com o comprimento sendo o deslocamento de um vetor a partir de uma origem definida, como (0,0). O produto escalar é mais bem usado para comparar itens com magnitudes notavelmente diferentes; por exemplo, pense na popularidade de livros ou filmes. É representado por esta fórmula, na qual d e q novamente representam dois vetores de itens:9
Observe que essas métricas são sensíveis à forma como os vetores comparados são ponderados, pois diferentes ponderações podem afetar significativamente essas funções de pontuação.10 Outras métricas possíveis para determinar a similaridade vetorial são o coeficiente de correlação de Pearson (ou correlação de Pearson), a similaridade de Jaccard e o índice de dados.11
Os CBRSs criam um classificador baseado no usuário ou um modelo de regressão para recomendar itens a um usuário específico. Para começar, o algoritmo leva em consideração as descrições e funcionalidades dos itens nos quais um usuário específico demonstrou interesse anteriormente; esse é o perfil do usuário. Esses itens constituem o conjunto de dados de treinamento usados para criar um modelo de classificação ou regressão específico para esse usuário. Nesse modelo, os atributos dos itens são as variáveis independentes, com a variável dependente sendo o comportamento do usuário (por exemplo, avaliações, gostos, compras do usuário etc.). O modelo treinado com esse comportamento passado visa prever o comportamento futuro do usuário para possíveis itens e recomendar itens de acordo com a previsão.12
O problema da inicialização a frio consiste essencialmente em como um sistema lida com novos usuários ou novos itens. Ambos representam um problema na filtragem colaborativa porque ela recomenda itens agrupando usuários de acordo com similaridades inferidas de comportamentos e preferências. No entanto, novos usuários não têm uma similaridade evidenciada com outros, e novos itens não têm interação suficiente dos usuários (por exemplo, avaliações) para serem recomendados Enquanto a filtragem baseada em conteúdo tem dificuldades com novos usuários, ela lida habilmente com a incorporação de novos itens. Isso ocorre porque recomenda itens com base em características internas ou de metadados, em vez de interações passadas dos usuários.13
A filtragem baseada em conteúdo permite um maior grau de transparência ao fornecer funcionalidades interpretáveis que explicam as recomendações. Por exemplo, um sistema de recomendação de filmes pode explicar por que um determinado filme é recomendado, como sobreposição de gênero ou de atores com filmes assistidos anteriormente. O usuário pode, portanto, tomar uma decisão mais informada sobre se deve assistir ao filme recomendado.14
Uma das principais desvantagens da filtragem baseada em conteúdo é a limitação das funcionalidades. As recomendações baseadas em conteúdo são derivadas exclusivamente das funcionalidades usadas para descrever os itens. No entanto, as funcionalidades dos itens de um sistema podem não ser capazes de capturar aquilo de que um usuário gosta. Por exemplo, voltando ao exemplo do sistema de recomendação de filmes, suponha que um usuário assista e goste do filme "Gaslight" de 1944. Um CBRS pode recomendar outros filmes dirigidos por George Cukor ou estrelando Ingrid Bergman, mas esses filmes podem não ser similares a Gaslight. Se o usuário prefere algum esquema específico de enredo (por exemplo, marido traidor) ou elemento de produção (por exemplo, diretor de fotografia) não representado no perfil do item, o sistema não apresentará recomendações adequadas. A diferenciação precisa entre os possíveis gostos e desgostos de um usuário não pode ser realizada com dados insuficientes.15
Como a filtragem baseada em conteúdo recomenda apenas itens com base nos interesses anteriormente demonstrados pelo usuário, suas recomendações são frequentemente semelhantes a itens dos quais o usuário gostou no passado Em outras palavras, os CBRSs carecem de uma metodologia para explorar o novo e o imprevisível. Isso é superespecialização. Por outro lado, como os métodos baseados em colaboração extraem recomendações de um grupo de usuários com gostos semelhantes a um usuário específico, eles podem frequentemente recomendar itens que o usuário não tenha considerado, que apresentam funcionalidades diferentes dos itens dos quais ele já gostou, mas que mantêm algum elemento não representado que atrai o tipo de usuário.16
Enquanto estudos passados abordavam a recomendação como um problema de previsão ou classificação, um corpo substancial de pesquisas recentes argumenta que ela deve ser entendida como um problema sequencial da tomada de decisões. Nesse paradigma, o aprendizado por reforço pode ser mais adequado para lidar com recomendações. Essa abordagem argumenta que a recomendação deve ser atualizada em tempo real de acordo com a interação usuário-item; conforme o usuário pula, clica, avalia, compra itens sugeridos, o modelo desenvolve uma política ideal a partir desse feedback para recomendar novos itens.17 Estudos recentes propõem uma ampla variedade de aplicações de aprendizado por reforço para lidar com interesses mutáveis e de longo prazo do usuário, que representam desafios para a filtragem baseada em conteúdo e colaborativa.18
O IBM Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagens, código, séries temporais e proteções.
Descubra como o processamento de linguagem natural pode ajudar você a conversar de forma mais natural com computadores.
Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.
Explore o site do desenvolvedor da IBM para acessar blogs, artigos, boletins informativos e saber mais sobre a IA incorporável da IBM.
Projete assistentes e agentes de IA escaláveis com facilidade, automatize tarefas repetitivas e simplifique processos complexos com o IBM® watsonx Orchestrate.
Acelere o valor comercial da inteligência artificial com um portfólio poderoso e flexível de bibliotecas, serviços e aplicativos.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.
1 Prem Melville and Vikas Sindhwani, “Recommender Systems,” Encyclopedia of Machine learning and Data Mining, Springer, 2017.
2 Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.
3 “Collaborative Filtering,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017. Mohamed Sarwat and Mohamed Mokbel, “Collaborative Filtering,” Encyclopedia of Database Systems, Springer, 2018.
4 Michael J. Pazzani and Daniel Billsus, “Content-Based Recommendation Systems,” The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.
5 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015.
6 Michael J. Pazzani and Daniel Billsus, “Content-Based Recommendation Systems,” The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.
7 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar, and Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020.
8 Rounak Banik, Hands-On Recommendation Systems with Python, Packt Publishing, 2018. Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015.
9 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
10 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016.
11 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar, and Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020.
12 Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016. Ricci, Recommender Systems Handbook, 3rd edition, Springer 2022.
13 Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016. Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.
14 Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar, and Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020. Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.
15 Jaiwei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Elsevier, 2012. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar, and Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020.
16 Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar, and Priya Gupta, Recommender System with Machine Learning and Artificial Intelligence, Wiley-Scrivener, 2020. Charu Aggarwal, Recommender Systems: The Textbook, Springer, 2016.
17 Guy Shani and David Heckerman and Ronen I. Brafman, “An MDP-Based Recommender System,” Journal of Machine Learning Research, Vol. 6, No. 43, 2005, pp. 1265-1295, https://www.jmlr.org/papers/v6/shani05a.html. Yuanguo Lin, Yong Liu, Fan Lin, Lixin Zou, Pengcheng Wu, Wenhua Zeng, Huanhuan Chen, and Chunyan Miao, “A Survey on Reinforcement Learning for Recommender Systems,” IEEE Transactions on Neural Networks and Learning Systems, 2023, https://ieeexplore.ieee.org/abstract/document/10144689. M. Mehdi Afsar, Trafford Crump, and Behrouz Far, Reinforcement Learning based Recommender Systems: A Survey,” ACM Computing Survey, Vol. 55, No. 7, 2023, https://dl.acm.org/doi/abs/10.1145/3543846.
18 Xinshi Chen, Shuang Li, Hui Li, Shaohua Jiang, Yuan Qi, Le Song, “Generative Adversarial User Model for Reinforcement Learning Based Recommendation System,” Proceedings of the 36th International Conference on Machine Learning, PMLR, No. 97, 2019, pp. 1052-1061, http://proceedings.mlr.press/v97/chen19f.html. Liwei Huang, Mingsheng Fu, Fan Li,Hong Qu, Yangjun Liu, and Wenyu Chen, “A deep reinforcement learning based long-term recommender system,” Knowledge-Based Systems, Vol. 213, 2021, https://www.sciencedirect.com/science/article/abs/pii/S0950705120308352.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com