¿Qué es el filtrado basado en contenido?

21 de marzo de 2024

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

El filtrado basado en el contenido es uno de los dos tipos principales de sistemas de recomendación. Recomienda artículos a los usuarios según sus características individuales.

El filtrado basado en contenido es un método de recuperación de información que utiliza las características de los elementos para seleccionar y devolver elementos relevantes para la consulta de un usuario. Este método a menudo tiene en cuenta las características de otros elementos en los que un usuario expresa interés1. Sin embargo, el término"basado en contenido" es un poco inapropiado. Algunos algoritmos de recomendación basados en contenido hacen coincidir los elementos según características descriptivas (por ejemplo, metadatos) asociadas a los elementos en lugar de hacerlo según el contenido real de un elemento.2. No obstante, varios métodos basados en el contenido (por ejemplo, la recuperación de imágenes basada en el contenido o las aplicaciones de procesamiento del lenguaje natural) emparejan los elementos en función de sus atributos intrínsecos.

Filtrado basado en contenido vs. filtrado colaborativo

El filtrado basado en contenido es uno de los dos tipos principales de sistemas de recomendación. El otro es el método de filtrado colaborativo. Este último enfoque agrupa a los usuarios en distintos grupos en función de su comportamiento. Al utilizar las características generales del grupo, devuelve elementos específicos a todo un grupo basándose en el principio de que los usuarios similares (en cuanto al comportamiento) están interesados en elementos similares3.

Ambos métodos han sido testigos de muchas aplicaciones en el mundo real en los últimos años, desde el comercio electrónico como Amazon hasta las redes sociales o los servicios de streaming. Juntos, los sistemas colaborativos y los basados en contenidos forman sistemas de recomendación híbridos. De hecho, en 2009, Netflix adoptó un sistema de recomendación híbrido a través de su concurso de premios Netflix.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Cómo funciona el filtrado basado en contenido

Los sistemas de recomendación basados en contenido (CBRS) incorporan algoritmos de aprendizaje automático y técnicas de ciencia de datos para recomendar nuevos elementos y responder a consultas.

Componentes del filtrado basado en contenido

En el CBRSS, el motor de recomendaciones básicamente compara un perfil de usuario y un perfil de elemento para predecir la interacción entre el usuario y el artículo y recomendar los artículos en consecuencia.

  • El perfil del elemento es una representación del artículo en el sistema. Consiste en el conjunto de características de un elemento, que pueden ser características estructuradas internas o metadatos descriptivos. Por ejemplo, un servicio de streaming puede almacenar películas según el género, la fecha de estreno, el director, etc.
  • El perfil de usuario representa las preferencias y el comportamiento del usuario. Puede consistir en representaciones de aquellos elementos en los que un usuario ha mostrado interés previamente. También consta de datos del usuario sobre sus interacciones pasadas con el sistema (por ejemplo, gustos, disgustos, calificaciones, consultas, etc.)4.

Representaciones de elementos

Los CBRS a menudo representan elementos y usuarios como incrustaciones en un espacio vectorial. Los elementos se convierten en vectores utilizando descripciones de metadatos o características internas como características. Por ejemplo, pongamos que creamos perfiles de elementos para recomendar nuevas novelas a los usuarios como parte de una librería en línea. A continuación, creamos perfiles para cada novela utilizando metadatos representativos, como el autor, el género, etc. El valor de una novela para una categoría determinada se puede representar con valores booleanos, donde 1 indica la presencia de la novela en esa categoría y 0 indica su ausencia. Con este sistema, potencialmente podemos representar un pequeño puñado de novelas según el género:

Aquí, cada género es una dimensión diferente de nuestro espacio vectorial, y los valores de una novela determinada representan su posición en ese espacio vectorial. Por ejemplo, Mujercitas se sitúa en (1,0,1), La abadía de Northanger en (0,0,1), y así sucesivamente. Podemos visualizar este espacio vectorial de muestra como:

Cuanto más cerca estén dos nuevos vectores en el espacio vectorial, más similares los considera nuestro sistema según las características proporcionadas5. Peter Pan y La isla del tesoro comparten exactamente las mismas características, apareciendo en el mismo punto vectorial (1,1,0). Por lo tanto, de acuerdo con nuestro sistema, son idénticos. De hecho, comparten muchos dispositivos argumentales (por ejemplo, islas aisladas y piratas) y temas (por ejemplo, el crecimiento o la resistencia a ello). Por el contrario, aunque Mujercitas también es una novela para niños, no es una aventura, sino una novela de aprendizaje (madurez). Aunque Mujercitas es una novela infantil como Peter Pan y La isla del tesoro, carece de sus valores característicos para la aventura y posee un valor característico de 1 para novela de aprendizaje, del que carecen los dos últimos. Esto sitúa a Mujercitas más cerca de La abadía de Northanger en el espacio vectorial, ya que comparten los mismos valores característicos para los rasgos de aventura y novela de aprendizaje.

Por su similitud en este espacio, si un usuario ha comprado Peter Pan anteriormente, el sistema le recomendará las novelas más cercanas a Peter Pan, como La isla del tesoro, a ese usuario como posible compra futura. Tenga en cuenta que, si añadimos más novelas y largometrajes basados en el género (por ejemplo, fantasía, gótico, etc.), las posiciones de las novelas en el espacio vectorial se moverán. Por ejemplo, si se añade una dimensión de género fantástico, Peter Pan y La isla del tesoro puede alejarse marginalmente de otra, dado que la primera suele considerarse fantasía mientras que la segunda no.

Tenga en cuenta que los vectores de elementos también se pueden crear utilizando las características internas de los elementos como características. Por ejemplo, podemos convertir elementos de texto en bruto (como artículos de noticias) en un formato estructurado y asignarlos en un espacio vectorial, como un modelo de bag of words. En este enfoque, cada palabra utilizada en el corpus pasa a ser una dimensión diferente del espacio vectorial y los artículos que utilizan palabras clave similares aparecen más cerca unos de otros en el espacio vectorial.

Métricas de similitud

¿Cómo determina un sistema de filtrado basado en contenido la similitud entre cualquier número de elementos? Como se ha mencionado, la proximidad en el espacio vectorial es un método principal. Sin embargo, las métricas específicas utilizadas para determinar esa proximidad pueden variar. Las métricas incluyen:

La similitud coseno significa la medida del ángulo entre dos vectores. Puede ser cualquier valor entre -1 y 1. Cuanto mayor sea la puntuación del coseno, más similares se considerarán dos elementos. Algunas fuentes recomiendan esta métrica para los espacios de características de alta dimensión. La similitud coseno se representa mediante esta fórmula, donde x e y significan dos vectores de elementos en el espacio vectorial11:

La distancia euclidiana mide la longitud de un segmento de línea hipotético que une dos puntos vectoriales. Las puntuaciones de distancia euclidiana pueden ser tan bajas como cero sin límite superior. Cuanto menor sea la distancia euclidiana entre los dos vectores de elementos, más similares se considerarán. La distancia euclidiana se calcula con esta fórmula, en la que x e y representan dos vectores de elementos8:

El producto escalar es el producto del coseno del ángulo entre dos vectores y la magnitud euclidiana respectiva de cada vector a partir de un origen definido. En otras palabras, es el coseno de dos vectores multiplicado por la longitud proyectada de cada vector, siendo la longitud el desplazamiento de un vector desde un origen definido, como (0,0). El producto escalar se utiliza mejor para comparar elementos con magnitudes notablemente diferentes, por ejemplo, piense en la popularidad de libros o películas. Se representa mediante esta fórmula, en la que d y q representan a su vez dos vectores ítem9:

Tenga en cuenta que estas métricas son sensibles a cómo se ponderan los vectores comparados, ya que diferentes ponderaciones pueden afectar significativamente a estas funciones de puntuación10, Otras métricas posibles para determinar la similitud de vectores son el coeficiente de correlación de Pearson (o correlación de Pearson) y la similitud de Jaccard, y el índice de dados11.

Predicción de la interacción usuario-elemento

Los CBRS crean un clasificador basado en el usuario o un modelo de regresión para recomendar elementos a un usuario específico. Para empezar, el algoritmo toma las descripciones y características de los artículos por los que un usuario concreto ha mostrado interés anteriormente, es decir, el perfil de usuario. Estos elementos constituyen el conjunto de datos de entrenamiento utilizado para crear un modelo de clasificación o regresión específico para ese usuario. En este modelo, los atributos de los elementos son las variables independientes, y la variable dependiente es el comportamiento del usuario (por ejemplo, calificaciones de los usuarios, me gusta, compras, etc.). El modelo entrenado a partir de este comportamiento pasado pretende predecir el comportamiento futuro del usuario para posibles artículos y recomendar artículos de acuerdo con la predicción12.

Ventajas y desventajas del filtrado basado en contenido

Ventajas

El problema del arranque en frío consiste esencialmente en cómo gestiona un sistema los nuevos usuarios o los nuevos artículos. Ambos plantean un problema en el filtrado colaborativo porque recomiendan los elementos agrupando a los usuarios según las similitudes inferidas de comportamiento y preferencias. Sin embargo, los nuevos usuarios no tienen una similitud demostrada con los demás y los nuevos artículos no tienen suficiente interacción con los usuarios (por ejemplo, valoraciones) como para recomendarlos. Aunque el filtrado basado en contenido presenta dificultades con los nuevos usuarios, maneja hábilmente la incorporación de nuevos elementos. Esto se debe a que recomienda elementos basados en características internas o de metadatos en lugar de en interacciones anteriores con el usuario13.

El filtrado basado en el contenido permite un mayor grado de transparencia al proporcionar funciones interpretables que explican las recomendaciones. Por ejemplo, un sistema de recomendación de películas puede explicar por qué se recomienda una película determinada, como el género o el actor que se superpone con las películas vistas anteriormente. De esta forma, el usuario podrá tomar una decisión más informada sobre si quiere ver la película recomendada14.

Desventajas

Una de las principales desventajas del filtrado basado en contenido es la limitación de funciones. Las recomendaciones basadas en contenido se derivan exclusivamente de las características utilizadas para describir los elementos. Sin embargo, las características del artículo de un sistema pueden no ser capaces de captar lo que le gusta al usuario. Por ejemplo, volviendo al ejemplo del sistema de recomendación de películas, supongamos que un usuario ve y le gusta la película Gaslight de 1944. Un CBRS puede recomendar otras películas dirigidas por George Cukor o protagonizadas por Ingrid Bergman, pero puede que esas películas no sean similares a Gaslight. Si el usuario prefiere algún recurso argumental específico (por ejemplo, marido engañoso) o elemento de producción (por ejemplo, director de fotografía) no representado en el perfil del artículo, el sistema no presentará recomendaciones adecuadas. La diferenciación precisa entre los posibles gustos y aversiones de un usuario no se puede lograr con datos insuficientes15.

Como el filtrado basado en contenido solo recomienda elementos en función de los intereses del usuario previamente demostrados, sus recomendaciones suelen ser similares a los artículos que le gustaron a un usuario en el pasado. En otras palabras, los CBRS carecen de una metodología para explorar lo nuevo e imprevisto. Esto es sobreespecialización. En cambio, como los métodos basados en la colaboración extraen recomendaciones de un grupo de usuarios que tienen gustos similares a los de un usuario dado, a menudo pueden recomendar artículos que un usuario puede no haber considerado, aparecen con características diferentes a los artículos que le han gustado previamente a un usuario, pero que conservan algún elemento no representado que atrae a un tipo de usuario16.

Mixture of Experts | Pódcast

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Investigación reciente

Aunque estudios anteriores han abordado la recomendación como un problema de predicción o clasificación, un importante cuerpo de investigación reciente sostiene que debe entenderse como un problema secuencial de toma de decisiones. En este paradigma, el aprendizaje por refuerzo puede ser más adecuado para abordar la recomendación. Este planteamiento defiende que la recomendación se actualice en tiempo real en función de la interacción usuario-elemento; a medida que el usuario omite, pulsa, valora o compra los artículos sugeridos, el modelo desarrolla una política óptima a partir de esta información para recomendar nuevos elementos17. Estudios recientes proponen una amplia variedad de aplicaciones de aprendizaje por refuerzo para abordar los intereses mutables y a largo plazo de los usuarios, lo que plantea retos tanto para el filtrado basado en contenidos como para el colaborativo18.

Soluciones relacionadas
IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate
Herramientas y API de procesamiento del lenguaje natural

Acelere el valor empresarial de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.

Explore soluciones de PLN
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate Explore soluciones de PLN
Notas a pie de página

1 Prem Melville y Vikas Sindhwani. “Recommender Systems”. Encyclopedia of Machine learning and Data Mining. Springer. 2017.

2 Charu Aggarwal. Recommender Systems: The Textbook. Springer. 2016.

3 “Collaborative Filtering”. Encyclopedia of Machine Learning and Data Mining. Springer. 2017. Mohamed Sarwat y Mohamed Mokbel. “Collaborative Filtering”. Encyclopedia of Database Systems, Springer. 2018.

4 Michael J. Pazzani y Daniel Billsus. “Content-Based Recommendation Systems.” The Adaptive Web: Methods and Strategies of Web Personalization. Springer. 2007.

5 Elsa Negre. Information and Recommender Systems. Vol. 4. Wiley-ISTE. 2015.

6 Michael J. Pazzani y Daniel Billsus. “Content-Based Recommendation Systems”. The Adaptive Web: Methods and Strategies of Web Personalization. Springer. 2007.

7 Elsa Negre. Information and Recommender Systems. Vol. 4. Wiley-ISTE. 2015. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar y Priya Gupta. Recommender System with Machine Learning and Artificial Intelligence. Wiley-Scrivener. 2020.

8 Rounak Banik. Hands-On Recommendation Systems with Python. Packt Publishing. 2018. Elsa Negre. Information and Recommender Systems. Vol. 4. Wiley-ISTE. 2015.

9 Max Kuhn y Kjell Johnson. Applied Predictive Modeling. Springer. 2016.

10 Qiaozhu Mei y Dragomir Radev. “Information Retrieval”. Oxford Handbook of Computational Linguistics. 2ª edición. Oxford University Press. 2016.

11 Elsa Negre. Information and Recommender Systems. Vol. 4. Wiley-ISTE. 2015. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar y Priya Gupta. Recommender System with Machine Learning and Artificial Intelligence. Wiley-Scrivener. 2020.

12 Charu Aggarwal. Recommender Systems: The Textbook. Springer. 2016. Ricci. Recommender Systems Handbook. 3ª edición. Springer. 2022.

13 Charu Aggarwal. Recommender Systems: The Textbook. Springer. 2016. Ian Goodfellow, Yoshua Bengio y Aaron Courville. Deep Learning. MIT Press. 2016.

14 Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar y Priya Gupta. Recommender System with Machine Learning and Artificial Intelligence. Wiley-Scrivener. 2020. Charu Aggarwal. Recommender Systems: The Textbook. Springer. 2016.

15 Jaiwei Han, Micheline Kamber y Jian Pei. Data Mining: Concepts and Techniques. 3ª edición. Elsevier. 2012. Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar y Priya Gupta. Recommender System with Machine Learning and Artificial Intelligence. Wiley-Scrivener. 2020.

16 Sachi Nandan Mohanty, Jyotir Moy Chatterjee, Sarika Jain, Ahmed A. Elngar y Priya Gupta. Recommender System with Machine Learning and Artificial Intelligence. Wiley-Scrivener. 2020. Charu Aggarwal. Recommender Systems: The Textbook. Springer. 2016.

17 Guy Shani y David Heckerman y Ronen I. Brafman. “An MDP-Based Recommender System”. Journal of Machine Learning Research. Vol. 6. Nº. 43. 2005. Pp. 1265-1295. https://www.jmlr.org/papers/v6/shani05a.html. Yuanguo Lin, Yong Liu, Fan Lin, Lixin Zou, Pengcheng Wu, Wenhua Zeng, Huanhuan Chen y Chunyan Miao. “A Survey on Reinforcement Learning for Recommender Systems”. IEEE Transactions on Neural Networks and Learning Systems. 2023. https://ieeexplore.ieee.org/abstract/document/10144689. M. Mehdi Afsar, Trafford Crump y Behrouz Far. Reinforcement Learning based Recommender Systems: A Survey”. ACM Computing Survey. Vol. 55. Nº. 7. 2023. https://dl.acm.org/doi/abs/10.1145/3543846.

18 Xinshi Chen, Shuang Li, Hui Li, Shaohua Jiang, Yuan Qi, Le Song. “Generative Adversarial User Model for Reinforcement Learning Based Recommendation System”. Proceedings of the 36th International Conference on Machine LearningPMLR. Nº. 97. 2019. Pp. 1052-1061. http://proceedings.mlr.press/v97/chen19f.html. Liwei Huang, Mingsheng Fu, Fan Li,Hong Qu, Yangjun Liu y Wenyu Chen, “A deep reinforcement learning based long-term recommender system,” Knowledge-Based Systems, Vol. 213. 2021. https://www.sciencedirect.com/science/article/abs/pii/S0950705120308352.