¿Qué es el filtrado basado en contenido?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

¿Qué es el filtrado basado en contenido?

El filtrado basado en contenido es uno de los dos tipos principales de sistemas de recomendación. Recomienda artículos a los usuarios según las características individuales de cada artículo.

El filtrado basado en contenido es un método de recuperación de información que emplea características de elementos para seleccionar y devolver elementos relevantes para la consulta de un usuario. Este método a menudo tiene en cuenta las características de otros elementos en los que un usuario expresa interés.Sin embargo, basado en el contenido es un nombre un poco inapropiado. Algunos algoritmos de recomendación basados en el contenido coinciden con los elementos según las características descriptivas (por ejemplo, metadatos) adjuntos a los elementos en lugar del contenido real de un elemento.2 Sin embargo, varios métodos basados en contenido, por ejemplo, la recuperación de imágenes basada en contenido o las aplicaciones de procesamiento de lenguaje natural, hacen coincidir los elementos de acuerdo con los atributos intrínsecos de los elementos.

Filtrado basado en contenido frente a filtrado colaborativo

El filtrado basado en contenido es uno de los dos tipos principales de sistemas de recomendación. El otro es el método de filtrado colaborativo. Este último enfoque agrupa a los usuarios en grupos distintos en función de su comportamiento. Posteriormente, con base en características generales del grupo, devuelve elementos específicos a todo un grupo con el principio de que los usuarios similares (en cuanto al comportamiento) están interesados en elementos similares.3

Ambos métodos fueron objeto de muchas aplicaciones en el mundo real en los últimos años, desde el e-commerce como Amazon hasta las redes sociales y los servicios de streaming. Juntos, los sistemas colaborativos y basados en contenido forman sistemas de recomendación híbridos. De hecho, en 2009, Netflix adoptó un sistema de recomendación híbrido a través de su concurso de premios Netflix.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funciona el filtrado basado en contenido

Los sistemas de recomendación basados en contenido (CBRS) incorporan algoritmos de aprendizaje automático y técnicas de ciencia de datos para recomendar nuevos elementos y responder consultas.

Componentes del filtrado basado en contenido

En los CBRS, el motor de recomendaciones compara esencialmente un perfil de usuario y un perfil de artículo para predecir la interacción usuario-artículo y recomendar artículos en consecuencia.

  • El perfil del artículo es la representación de un artículo en el sistema. Consiste en el conjunto de características de un elemento, que pueden ser características estructuradas internas o metadatos descriptivos. Por ejemplo, un servicio de transmisión puede almacenar películas según el género, la fecha de lanzamiento, el director, etc.
  • El perfil de usuario representa las preferencias y el comportamiento del usuario. Puede consistir en representaciones de aquellos elementos en los que un usuario mostró interés previamente. También consta de datos de usuario de las interacciones pasadas con el sistema (por ejemplo, preferencias, calificaciones, consultas, etc.).4

Representaciones de elementos

Los CBRS a menudo representan elementos y usuarios como incorporaciones en un espacio vectorial. Los elementos se convierten en vectores utilizando descripciones de metadatos o características internas como características. Por ejemplo, digamos que construimos perfiles de artículos para recomendar nuevas novelas a los usuarios como parte de una librería en línea. Luego creamos perfiles para cada novela utilizando metadatos representativos, como autor, género, etc. El valor de una novela para una categoría determinada puede representarse con valores booleanos, donde 1 indica la presencia de la novela en esa categoría y 0 indica su ausencia. Con este sistema, potencialmente podemos representar un pequeño conjunto de novelas según género:

Ilustración de una tabla de representación de artículos

Aquí, cada género es una dimensión diferente de nuestro espacio vectorial, y los valores de una novela determinada representan su posición en ese espacio vectorial. Por ejemplo, Little Women se encuentra en (1,0,1), Northanger Abbey en (0,0,1), etc. Podemos visualizar este espacio vectorial de muestra como:

Ilustración de una posición específica dentro de un espacio vectorial

Cuanto más cerca estén dos vectores novedosos en el espacio vectorial, más similares los considera nuestro sistema de acuerdo con las características proporcionadas.5 Peter Pan y Treasure Island comparten exactamente las mismas características, apareciendo en el mismo punto vectorial (1,1,0). Según nuestro sistema, entonces, son idénticos. De hecho, comparten muchos dispositivos de trama (por ejemplo, islas aisladas y piratas) y temas (por ejemplo, crecer o resistencia a ello). Por el contrario, aunque Mujercitas también es una novela infantil, no es una aventura sino una novela de formación (sobre la mayoría de edad). Aunque Mujercitas es una novela infantil como Peter Pan y La isla del tesoro, carece de sus valores característicos para la aventura y posee un valor característico de 1 para novela de formación, del que carecen las dos últimas. Esto posiciona a Mujercitas más cerca de Northanger Abbey en el espacio vectorial, ya que comparten los mismos valores para las características de aventura y novela de formación.

Por su similitud en este espacio, si un usuario ha comprado previamente Peter Pan, el sistema recomendará aquellas novelas más cercanas a Peter Pan—como La isla del tesoro— a ese usuario como una posible compra futura. Tenga en cuenta que si agregamos más novelas y características basadas en el género (por ejemplo, fantasía, gótico, etc.), las posiciones de las novelas en el espacio vectorial se desplazarán. Por ejemplo, si se agrega una dimensión de género de fantasía, Peter Pan y la isla del tesoro pueden moverse marginalmente ya que el primero a menudo se considera fantasía mientras que el segundo no lo es.

Tenga en cuenta que los vectores de elementos también pueden crearse empleando las características internas de los elementos como características. Por ejemplo, podemos convertir elementos de texto sin formato (por ejemplo, artículos de noticias) en un formato estructurado y mapearlos en un espacio vectorial, como un "bag of words". En este enfoque, cada palabra empleada en todo el corpus se convierte en una dimensión diferente del espacio vectorial, y los artículos que emplean palabras clave similares aparecen más cerca unos de otros en el espacio vectorial.

Métricas de similitud

¿Cómo determina un sistema de filtrado basado en el contenido la similitud entre cualquier número de elementos? Como ya se mencionó, la proximidad en el espacio vectorial es un método primario. Sin embargo, las métricas específicas empleadas para determinar esa proximidad pueden variar. Las métricas comunes incluyen:

La similitud del coseno significa la medición del ángulo entre dos vectores. Puede ser cualquier valor entre -1 y 1. Cuanto mayor sea el puntaje del coseno, más similares se considerarán dos elementos. Algunas fuentes recomiendan esta métrica para espacios de características de alta dimensión. La similitud del coseno se representa mediante esta fórmula, donde x e y significan dos vectores de elementos en el espacio vectorial:7

Ilustración de la fórmula de similitud del coseno

La distancia euclidiana mide la longitud de un segmento de línea hipotético que une dos puntos vectoriales. Los puntajes de distancia euclidiana pueden ser tan bajos como cero sin límite superior. Cuanto menor sea la distancia euclidiana de dos vectores de elementos, más similares se considerarán. La distancia euclidiana se calcula con esta fórmula, donde x e y representan dos vectores ítem:8

Ilustración de la fórmula de la distancia euclidiana

El producto punto es el producto del coseno del ángulo entre dos vectores y cada vector con una magnitud euclidiana respectiva de un origen definido. En otras palabras, es el coseno de dos vectores multiplicado por la longitud proyectada de cada vector, siendo la longitud el desplazamiento de un vector desde un origen definido, como (0,0). El producto punto se emplea mejor para comparar elementos con magnitudes notablemente diferentes; por ejemplo, piense en la popularidad de libros o películas. Se representa mediante esta fórmula, en la que d y q nuevamente representan dos ítem-vectores:9

Ilustración de la fórmula del producto punto

Tenga en cuenta que estas métricas son sensibles a la forma en que se ponderan los vectores comparados, ya que las diferentes ponderaciones pueden afectar significativamente a estas funciones de puntaje.10 Otras métricas posibles para determinar la similitud vectorial son el coeficiente de correlación de Pearson (o correlación de Pearson) y la similitud de Jaccard, y el índice de dados.11

Predicción de interacción entre usuario y elemento

Los CBRS crean un clasificador basado en el usuario o un modelo de regresión para recomendar elementos a un usuario específico. Para empezar, el algoritmo toma descripciones y características de aquellos elementos en los que un usuario en particular mostró interés previamente, es decir, el perfil de usuario. Estos elementos constituyen el conjunto de datos de entrenamiento empleado para crear un modelo de clasificación o regression específico para ese usuario. En este modelo, los atributos de los artículos son las variables independientes, y la variable dependiente es el comportamiento del usuario (por ejemplo, calificaciones de los usuarios, Me gusta, compras, etc.). El modelo capacitado en este comportamiento pasado tiene como objetivo predecir el comportamiento futuro del usuario para posibles elementos y recomendar elementos de acuerdo con la predicción.12

Ventajas y desventajas del filtrado basado en contenido

Ventajas

El problema del arranque en frío consiste esencialmente en cómo un sistema maneja nuevos usuarios o nuevos elementos. Ambos plantean un problema en el filtrado colaborativo porque recomienda elementos al agrupar a los usuarios de acuerdo a similitudes inferidas de comportamiento y preferencia. Sin embargo, los nuevos usuarios no tienen una similitud evidenciada con otros, y los nuevos elementos no tienen suficiente interacción con el usuario (por ejemplo, calificaciones) para recomendarlos. Si bien el filtrado basado en contenido tiene problemas con los nuevos usuarios, también maneja hábilmente la incorporación de nuevos elementos. Esto se debe a que recomienda elementos basados en características internas o de metadatos en lugar de interacciones pasadas del usuario.13

El filtrado basado en contenido permite un mayor grado de transparencia al proporcionar características interpretables que explican las recomendaciones. Por ejemplo, un sistema de recomendación de películas puede explicar por qué se recomienda una determinada película, como la superposición de género o actor con películas vistas anteriormente. Por lo tanto, el usuario puede tomar una decisión más informada sobre si ver la película recomendada.14

Desventajas

Una de las principales desventajas del filtrado basado en contenido es la limitación de funciones. Las recomendaciones basadas en contenido se derivan exclusivamente de las características empleadas para describir los elementos. Sin embargo, es posible que las características de un elemento del sistema no puedan capturar lo que le gusta al usuario. Por ejemplo, volviendo al ejemplo del sistema de recomendación de películas, supongamos que un usuario mira y le gusta la película Gaslight de 1944. Un CBRS puede recomendar otras películas dirigidas por George Cukor o protagonizadas por Ingrid Bergman, pero esas películas pueden no ser similares a Gaslight. Si el usuario prefiere algún recurso argumental específico (por ejemplo, un marido engañoso) o un elemento de producción (por ejemplo, un director de fotografía) que no está representado en el perfil del artículo, el sistema no presentará recomendaciones adecuadas. No es posible diferenciar con precisión los gustos y disgustos potenciales de un usuario si no se dispone de datos suficientes.15

Debido a que el filtrado basado en contenido solo recomienda elementos basados en los intereses previamente demostrados por el usuario, sus recomendaciones suelen ser similares a los elementos que le gustaron al usuario en el pasado. En otras palabras, los CBRS carecen de una metodología para explorar lo nuevo e imprevisto. A esto se le conoce como sobreespecialización. Por el contrario, dado que los métodos basados en la colaboración extraen recomendaciones de un grupo de usuarios que tienen gustos similares a los de un usuario determinado, a menudo pueden recomendar elementos que un usuario puede no considerar, que aparecen con características diferentes a los elementos que le gustaron anteriormente a un usuario, pero que conservan algún elemento no representado que atrae a un tipo de usuario.16

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Investigación reciente

Si bien estudios anteriores han abordado la recomendación como un problema de predicción o clasificación, un cuerpo sustantivo de investigaciones recientes argumenta que debe entenderse como un problema secuencial de toma de decisiones. En este paradigma, el aprendizaje por refuerzo puede ser más adecuado para abordar la recomendación. Este enfoque argumenta que las recomendaciones deben actualizarse en tiempo real de acuerdo con la interacción usuario-elemento. A medida que el usuario omite, hace clic, califica o compra artículos sugeridos, el modelo desarrolla una política óptima a partir de esta retroalimentación para recomendar nuevos artículos.17 Estudios recientes proponen una amplia variedad de aplicaciones de aprendizaje por refuerzo para abordar los intereses mutables y a largo plazo de los usuarios, lo que plantea desafíos tanto para el filtrado basado en contenido como para el colaborativo.18

Soluciones relacionadas
IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate
Herramientas y API de procesamiento de lenguaje natural

Acelere el valor de negocio de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.

Explorar las soluciones de PLN
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate Explorar las soluciones de PLN
Notas de pie de página

1 Melville, P. and  Sindhwani, V. “Recommender Systems,” Encyclopedia of Machine learning and Data Mining, Springer, 2017.

2 Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

3 Sarwat, M. and Mokbel, M. “Collaborative Filtering,” Encyclopedia of Database Systems, Springer,  2018.
Sarwat, M. and Mokbel, M. “Collaborative Filtering,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

4, 6 Pazzani, M.J. and Billsus, D. “Content-Based Recommendation Systems,” The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007.

5 Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.

7, 11 Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.
Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.

8 Banik, R. “Hands-On Recommendation Systems with Python”, Packt Publishing, 2018. 
Negre, E. “Information and Recommender Systems”, Vol. 4, Wiley-ISTE, 2015.

9 Kuhn, M. and Johnson, K. “Applied Predictive Modeling”, Springer, 2016.

10 Mei, Q. and Radev, D. “Information Retrieval,” Oxford Handbook of Computational Linguistics, Second Edition, Oxford University Press, 2016.

12 Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.
Ricci, F., Rokach, L. and Shapira, B. “Recommender Systems Handbook”, Third Edition, Springer 2022.

13 Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.
Goodfellow, I., Bengio, Y. and Courville, A. “Deep Learning”, MIT Press, 2016.

14, 16 Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.
Aggarwal, C. “Recommender Systems: The Textbook”, Springer, 2016.

15 Han, J. Kamber, M. and Pei, J. “Data Mining: Concepts and Techniques”, Third Edition, Elsevier, 2012.
Mohanty, S. N. et all. “Recommender System with Machine Learning and Artificial Intelligence”, Wiley-Scrivener, 2020.

17 Shani, G.,  Heckerman, D. and Brafman, R. I. “An MDP-Based Recommender System”, 2005.
Lin, Y. et all. “A Survey on Reinforcement Learning for Recommender Systems”, 2023.
M.M. Afsar et al. “Reinforcement learning based recommender systems: A survey”, ACM Computing Surveys, 2023.

18 Chen, X. et all. “Generative Adversarial User Model for Reinforcement Learning Based Recommendation System”,  2019.
Huang, L. et all.  “A deep reinforcement learning based long-term recommender system”, 2021