O que é filtragem baseada em conteúdo?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

O que é filtragem baseada em conteúdo?

A filtragem baseada em conteúdo é um dos dois principais tipos de sistemas de recomendação. Ela recomenda itens aos usuários de acordo com as características individuais dos itens.

A filtragem baseada em conteúdo é um método de recuperação de informações que utiliza os recursos dos itens para selecionar e retornar itens relevantes à consulta de um usuário. Esse método geralmente leva em consideração os recursos de outros itens nos quais o usuário manifesta interesse.¹No entanto,baseado em conteúdo é um termo um pouco errado. Alguns algoritmos de recomendação baseados em conteúdo relacionam os itens por meio de funcionalidades descritivas (como metadados) ligados aos itens, ao invés do próprio conteúdo.² No entanto, vários métodos baseados em conteúdo, como a recuperação de imagens baseada em conteúdo ou aplicações de processamento de linguagem natural, combinam itens de acordo com atributos intrínsecos dos itens.

Filtragem baseada em conteúdo versus filtragem colaborativa

A filtragem baseada em conteúdo é um dos dois principais tipos de sistemas de recomendação. O outro é o método de filtragem colaborativa. Essa última abordagem agrupa usuários em grupos distintos com base em seu comportamento. Usando características gerais do grupo, ela então retorna itens específicos para todo o grupo com base no princípio de que usuários similares (em termos de comportamento) estão interessados em itens similares.³

Ambos os métodos têm testemunhado muitas aplicações no mundo real nos últimos anos, desde e-commerce como a Amazon até redes sociais e serviços de streaming. Juntos, os sistemas colaborativos e baseados em conteúdo formam sistemas de recomendação híbridos. Em 2009, a Netflix, por meio de sua competição Netflix Prize, adotou um sistema de recomendação híbrido.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Como funciona a filtragem baseada em conteúdo

Os sistemas de recomendação baseados em conteúdo (CBRSs) incorporam algoritmos de aprendizado de máquina e técnicas de ciência de dados para recomendar novos itens e responder a consultas.

Componentes da filtragem baseada em conteúdo

Nos CBRSs, o motor de recomendação essencialmente compara o perfil do usuário e o perfil do item para prever a interação usuário-item e recomendar itens de acordo.

O perfil do item é a representação de um item no sistema. Consiste no conjunto de características de um item, que podem ser características estruturadas internas ou metadados descritivos. Por exemplo, um serviço de streaming pode armazenar filmes de acordo com gênero, data de lançamento, diretor, e assim por diante.
O perfil do usuário representa as preferências e o comportamento do usuário. Pode consistir em representações dos itens nos quais o usuário demonstrou interesse anteriormente. Também inclui dados do usuário sobre suas interações passadas com o sistema (por exemplo, gostos, desgostos, avaliações, consultas etc.).⁴

Representações de itens

Os CBRSs frequentemente representam itens e usuários como embeddings em um espaço vetorial. Os itens são convertidos em vetores utilizando descrições de metadados ou características internas como features. Por exemplo, suponha que construímos perfis de itens para recomendar novos romances aos usuários como parte de uma livraria online. Em seguida, criamos perfis para cada romance usando metadados representativos, como autor, gênero, etc. O valor de um romance para uma determinada categoria pode ser representado com valores booleanos, onde 1 indica a presença do romance nessa categoria e 0 indica sua ausência. Com esse sistema, podemos potencialmente representar um pequeno conjunto de romances de acordo com o gênero:

Aqui, cada gênero é uma dimensão diferente do nosso espaço vetorial, com os valores de um romance representando sua posição nesse espaço vetorial. Por exemplo, "Mulherzinhas" está localizado em (1,0,1), "A Abadia de Northanger" em (0,0,1), e assim por diante. Podemos visualizar este espaço vetorial de exemplo como:

Ilustração de uma posição específica dentro de um espaço vetorial

Quanto mais próximos dois vetores de romances estiverem no espaço vetorial, mais similares o nosso sistema os considerará de acordo com as características fornecidas.⁵ "Peter Pan" e "Ilha do Tesouro" compartilham exatamente as mesmas características, aparecendo no mesmo ponto vetorial (1,1,0). De acordo com o nosso sistema, então, eles são idênticos. De fato, eles compartilham muitos elementos de enredo (por exemplo, ilhas isoladas e piratas) e temas (por exemplo, amadurecimento ou resistência a ele). Por outro lado, embora Mulherzinhas também seja um romance infantil, não se trata de uma aventura, mas de um romance de formação (amadurecimento). Embora Mulherzinhas seja um romance infantil como Peter Pan e Ilha do Tesouro, ele não possui seus valores de características para aventura e possui um valor de característica de 1 para romance de formação, que os dois últimos não possuem. Isso posiciona Mulherzinhas mais perto de A Abadia de Northanger no espaço vetorial, pois compartilham os mesmos valores de características para as características de aventura e romance de formação.

Devido à semelhança nesse espaço, se um usuário já comprou Peter Pan, o sistema recomendará os romances mais próximos de Peter Pan como A Ilha do Tesouro a esse usuário como uma possível compra futura. Observe que, se adicionarmos mais romances e características baseadas em gênero (por exemplo, fantasia, gótico, etc.), as posições dos romances no espaço vetorial irão se mover. Por exemplo, se adicionarmos uma dimensão de gênero de fantasia, Peter Pan e A Ilha do Tesouro podem se mover marginalmente, já que o primeiro é frequentemente considerado fantasia enquanto o último não.

Observe que vetores de itens também podem ser criados usando características internas dos itens como funcionalidades. Por exemplo, podemos converter itens de texto bruto (por exemplo, artigos de notícias) em um formato estruturado e mapeá-los em um espaço vetorial, como um modelo de "bag of words". Nessa abordagem, cada palavra usada no corpus se torna uma dimensão diferente do espaço vetorial, e artigos que utilizam palavras-chave semelhantes aparecem mais próximos uns dos outros nesse espaço.

Métricas de similaridade

Como um sistema de filtragem baseada em conteúdo determina a similaridade entre qualquer número de itens? Como mencionado, a proximidade no espaço vetorial é o método principal. No entanto, as métricas específicas usadas para determinar essa proximidade podem variar. As métricas comuns incluem:

Similaridade do cosseno significa a medição do ângulo entre dois vetores. Pode ser qualquer valor entre -1 e 1. Quanto maior o valor do cosseno, mais semelhantes são considerados dois itens. Algumas fontes recomendam essa métrica para espaços de funcionalidades de alta dimensão. A similaridade do cosseno é representada por esta fórmula, onde x e y significam dois vetores de itens no espaço vetorial:⁷

Ilustração da fórmula de similaridade cosseno

A distância euclidiana mede o comprimento de um segmento de linha hipotético que une dois pontos vetoriais. Os valores da distância euclidiana podem ser tão baixos quanto zero, sem limite superior. Quanto menor a distância euclidiana entre dois vetores de itens, mais similares são considerados. A distância euclidiana é calculada com esta fórmula, em que x e y representam dois vetores de itens^:8

Ilustração da fórmula de similaridade do cosseno

Produto escalar é o produto do cosseno do ângulo entre dois vetores e a magnitude euclidiana respectiva de cada vetor a partir de uma origem definida. Em outras palavras, é o cosseno de dois vetores multiplicado pelo comprimento projetado de cada vetor, com o comprimento sendo o deslocamento de um vetor a partir de uma origem definida, como (0,0). O produto escalar é mais bem usado para comparar itens com magnitudes notavelmente diferentes; por exemplo, pense na popularidade de livros ou filmes. É representado por esta fórmula, na qual d e q novamente representam dois vetores de itens:⁹

Ilustração da fórmula do produto escalar

Observe que essas métricas são sensíveis à forma como os vetores comparados são ponderados, pois diferentes ponderações podem afetar significativamente essas funções de pontuação.¹⁰ Outras métricas possíveis para determinar a similaridade vetorial são o coeficiente de correlação de Pearson (ou correlação de Pearson), a similaridade de Jaccard e o índice de dados.¹¹

Previsão de interação usuário-item

Os CBRSs criam um classificador baseado no usuário ou um modelo de regressão para recomendar itens a um usuário específico. Para começar, o algoritmo leva em consideração as descrições e funcionalidades dos itens nos quais um usuário específico demonstrou interesse anteriormente; esse é o perfil do usuário. Esses itens constituem o conjunto de dados de treinamento usados para criar um modelo de classificação ou regressão específico para esse usuário. Nesse modelo, os atributos dos itens são as variáveis independentes, com a variável dependente sendo o comportamento do usuário (por exemplo, avaliações, gostos, compras do usuário etc.). O modelo treinado com esse comportamento passado visa prever o comportamento futuro do usuário para possíveis itens e recomendar itens de acordo com a previsão.¹²

Vantagens e desvantagens da filtragem baseada em conteúdo

Vantagens

O problema da inicialização a frio consiste essencialmente em como um sistema lida com novos usuários ou novos itens. Ambos representam um problema na filtragem colaborativa porque ela recomenda itens agrupando usuários de acordo com similaridades inferidas de comportamentos e preferências. No entanto, novos usuários não têm uma similaridade evidenciada com outros, e novos itens não têm interação suficiente dos usuários (por exemplo, avaliações) para serem recomendados Enquanto a filtragem baseada em conteúdo tem dificuldades com novos usuários, ela lida habilmente com a incorporação de novos itens. Isso ocorre porque recomenda itens com base em características internas ou de metadados, em vez de interações passadas dos usuários.¹³

A filtragem baseada em conteúdo permite um maior grau de transparência ao fornecer funcionalidades interpretáveis que explicam as recomendações. Por exemplo, um sistema de recomendação de filmes pode explicar por que um determinado filme é recomendado, como sobreposição de gênero ou de atores com filmes assistidos anteriormente. O usuário pode, portanto, tomar uma decisão mais informada sobre se deve assistir ao filme recomendado.¹⁴

Desvantagens

Uma das principais desvantagens da filtragem baseada em conteúdo é a limitação das funcionalidades. As recomendações baseadas em conteúdo são derivadas exclusivamente das funcionalidades usadas para descrever os itens. No entanto, as funcionalidades dos itens de um sistema podem não ser capazes de capturar aquilo de que um usuário gosta. Por exemplo, voltando ao exemplo do sistema de recomendação de filmes, suponha que um usuário assista e goste do filme "Gaslight" de 1944. Um CBRS pode recomendar outros filmes dirigidos por George Cukor ou estrelando Ingrid Bergman, mas esses filmes podem não ser similares a Gaslight. Se o usuário prefere algum esquema específico de enredo (por exemplo, marido traidor) ou elemento de produção (por exemplo, diretor de fotografia) não representado no perfil do item, o sistema não apresentará recomendações adequadas. A diferenciação precisa entre os possíveis gostos e desgostos de um usuário não pode ser realizada com dados insuficientes.¹⁵

Como a filtragem baseada em conteúdo recomenda apenas itens com base nos interesses anteriormente demonstrados pelo usuário, suas recomendações são frequentemente semelhantes a itens dos quais o usuário gostou no passado Em outras palavras, os CBRSs carecem de uma metodologia para explorar o novo e o imprevisível. Isso é superespecialização. Por outro lado, como os métodos baseados em colaboração extraem recomendações de um grupo de usuários com gostos semelhantes a um usuário específico, eles podem frequentemente recomendar itens que o usuário não tenha considerado, que apresentam funcionalidades diferentes dos itens dos quais ele já gostou, mas que mantêm algum elemento não representado que atrai o tipo de usuário.¹⁶

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Veja todos os episódios de Mixture of Experts

Pesquisa recente

Enquanto estudos passados abordavam a recomendação como um problema de previsão ou classificação, um corpo substancial de pesquisas recentes argumenta que ela deve ser entendida como um problema sequencial da tomada de decisões. Nesse paradigma, o aprendizado por reforço pode ser mais adequado para lidar com recomendações. Essa abordagem argumenta que a recomendação deve ser atualizada em tempo real de acordo com a interação usuário-item; conforme o usuário pula, clica, avalia, compra itens sugeridos, o modelo desenvolve uma política ideal a partir desse feedback para recomendar novos itens.¹⁷ Estudos recentes propõem uma ampla variedade de aplicações de aprendizado por reforço para lidar com interesses mutáveis e de longo prazo do usuário, que representam desafios para a filtragem baseada em conteúdo e colaborativa.¹⁸

Além da empolgação — Como assistentes de IA geram valor real para os negócios

Explore os principais casos de uso dos assistentes de IA, compreenda o impacto potencial da IA generativa e da tecnologia de automação em sua empresa e saiba como começar.

Recursos

Explore o IBM Granite

O IBM Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore opções de linguagem, código, séries temporais e proteções.

Guia para iniciantes em PLN

Descubra como o processamento de linguagem natural (NLP) pode ajudar você a conversar de forma mais natural com computadores.

IBM é nomeada líder em ciência de dados e aprendizado de máquina

Saiba por que a IBM foi reconhecida como Líder no Gartner Magic Quadrant de 2025 para plataformas de ciência de dados e aprendizado de máquina.

Prática com IA generativa

Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.

Soluções relacionadas

IBM watsonx Orchestrate

Projete assistentes e agentes de IA escaláveis com facilidade, automatize tarefas repetitivas e simplifique processos complexos com o IBM® watsonx Orchestrate.

Conheça o watsonx Orchestrate

Ferramentas e APIs de processamento de linguagem natural

Acelere o valor comercial da inteligência artificial com um portfólio poderoso e flexível de bibliotecas, serviços e aplicativos.

Explore as soluções de PNL

Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA

Dê o próximo passo

Projete assistentes e agentes de IA escaláveis com facilidade, automatize tarefas repetitivas e simplifique processos complexos com o IBM® watsonx Orchestrate.

Notas de rodapé

¹ Melville, P. e Sindhwani, V. “Recommender Systems,” Encyclopedia of Machine learning and Data Mining, Springer, 2017.

² Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

³ Sarwat, M. e Mokbel, M. “Collaborative Filtering,” Encyclopedia of Database Systems, Springer, 2018.
Sarwat, M. e Mokbel, M. “Collaborative Filtering,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

^4, 6 Pazzani, M.J. e Billsus, D. “Content-Based Recommendation Systems,” The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.

⁵ Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.

^7, 11 Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.
Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.

⁸ Banik, R. “Hands-On Recommendation Systems with Python”, Packt Publishing, 2018.
Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.

⁹ Kuhn, M. e Johnson, K. “Applied Predictive Modeling”, Springer, 2016.

¹⁰ Mei, Q. e Radev, D. “Information Retrieval,” Oxford Handbook of Computational Linguistics, Second Edition, Oxford University Press, 2016.

¹² Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.
Ricci, F., Rokach, L. e Shapira, B. “Recommender Systems Handbook”, Third Edition, Springer 2022.

¹³ Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.
Goodfellow, I., Bengio, Y. e Courville, A. “Deep Learning”, MIT Press, 2016.

^14, 16 Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.
Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

¹⁵ Han, J. Kamber, M. e Pei, J. “Data Mining: Concepts and Techniques”, Third Edition, Elsevier, 2012.
Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.

¹⁷ Shani, G., Heckerman, D. e Brafman, R. I. “An MDP-Based Recommender System”, 2005.
Lin, Y. et all. “A Survey on Reinforcement Learning for Recommender Systems”, 2023.
M.M. Afsar et al. “Reinforcement learning based recommender systems: A survey”, ACM Computing Surveys, 2023.

¹⁸ Chen, X. et all. “Generative Adversarial User Model for Reinforcement Learning Based Recommendation System”, 2019.
Huang, L. et all. “A deep reinforcement learning based long-term recommender system”, 2021

O que é filtragem baseada em conteúdo?

O que é filtragem baseada em conteúdo?

Filtragem baseada em conteúdo versus filtragem colaborativa

As mais recentes tendências em IA, trazidas a você por especialistas

Agradecemos a você! Você se inscreveu.

Como funciona a filtragem baseada em conteúdo

Componentes da filtragem baseada em conteúdo

Representações de itens

Métricas de similaridade

Previsão de interação usuário-item

Vantagens e desvantagens da filtragem baseada em conteúdo

Vantagens

Desvantagens

Decodificando a IA: resumo semanal das notícias

Pesquisa recente

Recursos

Notas de rodapé