¿Qué es el filtrado basado en contenido?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

¿Qué es el filtrado basado en contenido?

El filtrado basado en el contenido es uno de los dos tipos principales de sistemas de recomendación. Recomienda artículos a los usuarios según sus características individuales.

El filtrado basado en contenido es un método de recuperación de información que utiliza las características de los elementos para seleccionar y devolver elementos relevantes para la consulta de un usuario. Este método a menudo tiene en cuenta las características de otros elementos en los que un usuario expresa interés¹. Sin embargo, el término"basado en contenido" es un poco inapropiado. Algunos algoritmos de recomendación basados en contenido hacen coincidir los elementos según características descriptivas (por ejemplo, metadatos) asociadas a los elementos en lugar de hacerlo según el contenido real de un elemento.². No obstante, varios métodos basados en el contenido (por ejemplo, la recuperación de imágenes basada en el contenido o las aplicaciones de procesamiento del lenguaje natural) emparejan los elementos en función de sus atributos intrínsecos.

Filtrado basado en contenido vs. filtrado colaborativo

El filtrado basado en contenido es uno de los dos tipos principales de sistemas de recomendación. El otro es el método de filtrado colaborativo. Este último enfoque agrupa a los usuarios en distintos grupos en función de su comportamiento. Al utilizar las características generales del grupo, devuelve elementos específicos a todo un grupo basándose en el principio de que los usuarios similares (en cuanto al comportamiento) están interesados en elementos similares³.

Ambos métodos han sido testigos de muchas aplicaciones en el mundo real en los últimos años, desde el comercio electrónico como Amazon hasta las redes sociales o los servicios de streaming. Juntos, los sistemas colaborativos y los basados en contenidos forman sistemas de recomendación híbridos. De hecho, en 2009, Netflix adoptó un sistema de recomendación híbrido a través de su concurso de premios Netflix.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

Cómo funciona el filtrado basado en contenido

Los sistemas de recomendación basados en contenido (CBRS) incorporan algoritmos de aprendizaje automático y técnicas de ciencia de datos para recomendar nuevos elementos y responder a consultas.

Componentes del filtrado basado en contenido

En el CBRSS, el motor de recomendaciones básicamente compara un perfil de usuario y un perfil de elemento para predecir la interacción entre el usuario y el artículo y recomendar los artículos en consecuencia.

El perfil del elemento es una representación del artículo en el sistema. Consiste en el conjunto de características de un elemento, que pueden ser características estructuradas internas o metadatos descriptivos. Por ejemplo, un servicio de streaming puede almacenar películas según el género, la fecha de estreno, el director, etc.
El perfil de usuario representa las preferencias y el comportamiento del usuario. Puede consistir en representaciones de aquellos elementos en los que un usuario ha mostrado interés previamente. También consta de datos del usuario sobre sus interacciones pasadas con el sistema (por ejemplo, gustos, disgustos, calificaciones, consultas, etc.)⁴.

Representaciones de elementos

Los CBRS a menudo representan elementos y usuarios como incrustaciones en un espacio vectorial. Los elementos se convierten en vectores utilizando descripciones de metadatos o características internas como características. Por ejemplo, pongamos que creamos perfiles de elementos para recomendar nuevas novelas a los usuarios como parte de una librería en línea. A continuación, creamos perfiles para cada novela utilizando metadatos representativos, como el autor, el género, etc. El valor de una novela para una categoría determinada se puede representar con valores booleanos, donde 1 indica la presencia de la novela en esa categoría y 0 indica su ausencia. Con este sistema, potencialmente podemos representar un pequeño puñado de novelas según el género:

Ilustración de una tabla de representaciones de artículos

Aquí, cada género es una dimensión diferente de nuestro espacio vectorial, y los valores de una novela determinada representan su posición en ese espacio vectorial. Por ejemplo, Mujercitas se sitúa en (1,0,1), La abadía de Northanger en (0,0,1), y así sucesivamente. Podemos visualizar este espacio vectorial de muestra como:

Ilustración de una posición específica dentro de un espacio vectorial

Cuanto más cerca estén dos nuevos vectores en el espacio vectorial, más similares los considera nuestro sistema según las características proporcionadas⁵. Peter Pan y La isla del tesoro comparten exactamente las mismas características, apareciendo en el mismo punto vectorial (1,1,0). Por lo tanto, de acuerdo con nuestro sistema, son idénticos. De hecho, comparten muchos dispositivos argumentales (por ejemplo, islas aisladas y piratas) y temas (por ejemplo, el crecimiento o la resistencia a ello). Por el contrario, aunque Mujercitas también es una novela para niños, no es una aventura, sino una novela de aprendizaje (madurez). Aunque Mujercitas es una novela infantil como Peter Pan y La isla del tesoro, carece de sus valores característicos para la aventura y posee un valor característico de 1 para novela de aprendizaje, del que carecen los dos últimos. Esto sitúa a Mujercitas más cerca de La abadía de Northanger en el espacio vectorial, ya que comparten los mismos valores característicos para los rasgos de aventura y novela de aprendizaje.

Por su similitud en este espacio, si un usuario ha comprado Peter Pan anteriormente, el sistema le recomendará las novelas más cercanas a Peter Pan, como La isla del tesoro, a ese usuario como posible compra futura. Tenga en cuenta que, si añadimos más novelas y largometrajes basados en el género (por ejemplo, fantasía, gótico, etc.), las posiciones de las novelas en el espacio vectorial se moverán. Por ejemplo, si se añade una dimensión de género fantástico, Peter Pan y La isla del tesoro puede alejarse marginalmente de otra, dado que la primera suele considerarse fantasía mientras que la segunda no.

Tenga en cuenta que los vectores de elementos también se pueden crear utilizando las características internas de los elementos como características. Por ejemplo, podemos convertir elementos de texto en bruto (como artículos de noticias) en un formato estructurado y asignarlos en un espacio vectorial, como un modelo de bag of words. En este enfoque, cada palabra utilizada en el corpus pasa a ser una dimensión diferente del espacio vectorial y los artículos que utilizan palabras clave similares aparecen más cerca unos de otros en el espacio vectorial.

Métricas de similitud

¿Cómo determina un sistema de filtrado basado en contenido la similitud entre cualquier número de elementos? Como se ha mencionado, la proximidad en el espacio vectorial es un método principal. Sin embargo, las métricas específicas utilizadas para determinar esa proximidad pueden variar. Las métricas incluyen:

La similitud coseno significa la medida del ángulo entre dos vectores. Puede ser cualquier valor entre -1 y 1. Cuanto mayor sea la puntuación del coseno, más similares se considerarán dos elementos. Algunas fuentes recomiendan esta métrica para los espacios de características de alta dimensión. La similitud coseno se representa mediante esta fórmula, donde x e y significan dos vectores de elementos en el espacio vectorial¹¹:

Ilustración de la fórmula de similitud del coseno

La distancia euclidiana mide la longitud de un segmento de línea hipotético que une dos puntos vectoriales. Las puntuaciones de distancia euclidiana pueden ser tan bajas como cero sin límite superior. Cuanto menor sea la distancia euclidiana entre los dos vectores de elementos, más similares se considerarán. La distancia euclidiana se calcula con esta fórmula, en la que x e y representan dos vectores de elementos⁸:

Ilustración de la fórmula de la distancia euclidiana

El producto escalar es el producto del coseno del ángulo entre dos vectores y la magnitud euclidiana respectiva de cada vector a partir de un origen definido. En otras palabras, es el coseno de dos vectores multiplicado por la longitud proyectada de cada vector, siendo la longitud el desplazamiento de un vector desde un origen definido, como (0,0). El producto escalar se utiliza mejor para comparar elementos con magnitudes notablemente diferentes, por ejemplo, piense en la popularidad de libros o películas. Se representa mediante esta fórmula, en la que d y q representan a su vez dos vectores ítem⁹:

Ilustración de la fórmula del producto escalar

Tenga en cuenta que estas métricas son sensibles a cómo se ponderan los vectores comparados, ya que diferentes ponderaciones pueden afectar significativamente a estas funciones de puntuación¹⁰, Otras métricas posibles para determinar la similitud de vectores son el coeficiente de correlación de Pearson (o correlación de Pearson) y la similitud de Jaccard, y el índice de dados¹¹.

Predicción de la interacción usuario-elemento

Los CBRS crean un clasificador basado en el usuario o un modelo de regresión para recomendar elementos a un usuario específico. Para empezar, el algoritmo toma las descripciones y características de los artículos por los que un usuario concreto ha mostrado interés anteriormente, es decir, el perfil de usuario. Estos elementos constituyen el conjunto de datos de entrenamiento utilizado para crear un modelo de clasificación o regresión específico para ese usuario. En este modelo, los atributos de los elementos son las variables independientes, y la variable dependiente es el comportamiento del usuario (por ejemplo, calificaciones de los usuarios, me gusta, compras, etc.). El modelo entrenado a partir de este comportamiento pasado pretende predecir el comportamiento futuro del usuario para posibles artículos y recomendar artículos de acuerdo con la predicción¹².

Ventajas y desventajas del filtrado basado en contenido

Ventajas

El problema del arranque en frío consiste esencialmente en cómo gestiona un sistema los nuevos usuarios o los nuevos artículos. Ambos plantean un problema en el filtrado colaborativo porque recomiendan los elementos agrupando a los usuarios según las similitudes inferidas de comportamiento y preferencias. Sin embargo, los nuevos usuarios no tienen una similitud demostrada con los demás y los nuevos artículos no tienen suficiente interacción con los usuarios (por ejemplo, valoraciones) como para recomendarlos. Aunque el filtrado basado en contenido presenta dificultades con los nuevos usuarios, maneja hábilmente la incorporación de nuevos elementos. Esto se debe a que recomienda elementos basados en características internas o de metadatos en lugar de en interacciones anteriores con el usuario¹³.

El filtrado basado en el contenido permite un mayor grado de transparencia al proporcionar funciones interpretables que explican las recomendaciones. Por ejemplo, un sistema de recomendación de películas puede explicar por qué se recomienda una película determinada, como el género o el actor que se superpone con las películas vistas anteriormente. De esta forma, el usuario podrá tomar una decisión más informada sobre si quiere ver la película recomendada¹⁴.

Desventajas

Una de las principales desventajas del filtrado basado en contenido es la limitación de funciones. Las recomendaciones basadas en contenido se derivan exclusivamente de las características utilizadas para describir los elementos. Sin embargo, las características del artículo de un sistema pueden no ser capaces de captar lo que le gusta al usuario. Por ejemplo, volviendo al ejemplo del sistema de recomendación de películas, supongamos que un usuario ve y le gusta la película Gaslight de 1944. Un CBRS puede recomendar otras películas dirigidas por George Cukor o protagonizadas por Ingrid Bergman, pero puede que esas películas no sean similares a Gaslight. Si el usuario prefiere algún recurso argumental específico (por ejemplo, marido engañoso) o elemento de producción (por ejemplo, director de fotografía) no representado en el perfil del artículo, el sistema no presentará recomendaciones adecuadas. La diferenciación precisa entre los posibles gustos y aversiones de un usuario no se puede lograr con datos insuficientes¹⁵.

Como el filtrado basado en contenido solo recomienda elementos en función de los intereses del usuario previamente demostrados, sus recomendaciones suelen ser similares a los artículos que le gustaron a un usuario en el pasado. En otras palabras, los CBRS carecen de una metodología para explorar lo nuevo e imprevisto. Esto es sobreespecialización. En cambio, como los métodos basados en la colaboración extraen recomendaciones de un grupo de usuarios que tienen gustos similares a los de un usuario dado, a menudo pueden recomendar artículos que un usuario puede no haber considerado, aparecen con características diferentes a los artículos que le han gustado previamente a un usuario, pero que conservan algún elemento no representado que atrae a un tipo de usuario¹⁶.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Vea todos los episodios de Mixture of Experts

Investigación reciente

Aunque estudios anteriores han abordado la recomendación como un problema de predicción o clasificación, un importante cuerpo de investigación reciente sostiene que debe entenderse como un problema secuencial de toma de decisiones. En este paradigma, el aprendizaje por refuerzo puede ser más adecuado para abordar la recomendación. Este planteamiento defiende que la recomendación se actualice en tiempo real en función de la interacción usuario-elemento; a medida que el usuario omite, pulsa, valora o compra los artículos sugeridos, el modelo desarrolla una política óptima a partir de esta información para recomendar nuevos elementos¹⁷. Estudios recientes proponen una amplia variedad de aplicaciones de aprendizaje por refuerzo para abordar los intereses mutables y a largo plazo de los usuarios, lo que plantea retos tanto para el filtrado basado en contenidos como para el colaborativo¹⁸.

Más allá de las expectativas: cómo los asistentes de IA impulsan el valor comercial real

Explore los principales casos de uso para utilizar asistentes de IA, comprenda el posible impacto de la IA generativa y la tecnología de automatización en su negocio y aprenda cómo empezar.

Recursos

Explore IBM® Granite

IBM Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados a la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de lenguaje, código, series temporales y límites de protección.

Guía sobre PLN para principiantes

Descubra cómo el procesamiento del lenguaje natural (PLN) puede ayudarle a conversar de forma más natural con los ordenadores.

IBM es nombrada líder en ciencia de datos y machine learning

Descubra por qué IBM ha sido reconocido como líder en el 2025 Gartner Magic Quadrant for Data Science and Machine Learning Platforms.

Manos a la obra con la IA generativa

Aprenda los conceptos fundamentales y desarrolle sus habilidades con laboratorios prácticos, cursos, proyectos guiados, pruebas y mucho más.

Soluciones relacionadas

IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate

Herramientas y API de procesamiento del lenguaje natural

Acelere el valor empresarial de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.

Explore soluciones de PLN

Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA

Dé el siguiente paso

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Notas a pie de página

¹ Melville, P. y Sindhwani, V. “Recommender Systems”. Encyclopedia of Machine learning and Data Mining. Springer. 2017.

² Aggarwal, C. “Recommender Systems: The Textbook”. Springer. 2016.

³ Sarwat, M. and Mokbel, M. “Collaborative Filtering”. Encyclopedia of Database Systems. Springer. 2018.
Sarwat, M. and Mokbel, M. “Collaborative Filtering”. Encyclopedia of Machine Learning and Data Mining. Springer. 2017.

^4, 6 Pazzani, M.J. and Billsus, D. “Content-Based Recommendation Systems”. The Adaptive Web: Methods and Strategies of Web Personalization. Springer. 2007.

⁵ Negre, E. “Information and Recommender Systems”. Vol. 4. Wiley-ISTE. 2015.

^7, 11 Negre, E. “Information and Recommender Systems”. Vol. 4. Wiley-ISTE. 2015.
Mohanty, SN et al. “Recommender System with Machine Learning and Artificial Intelligence”. Wiley-Scrivener. 2020.

⁸ Banik, R. “Hands-On Recommendation Systems with Python”. Packt Publishing. 2018.
Negre, E. “Information and Recommender Systems”. Vol. 4. Wiley-ISTE. 2015.

⁹ Kuhn, M. y Johnson, K. “Applied Predictive Modeling”. Springer. 2016.

¹⁰ Mei, Q. and Radev, D. “Information Retrieval”. Oxford Handbook of Computational Linguistics. Segunda edición. Oxford University Press. 2016.

¹² Aggarwal, C. “Recommender Systems: The Textbook”. Springer. 2016.
Ricci, F., Rokach, L. y Shapira, B. “Recommender Systems Handbook”. Tercera edición. Springer 2022.

¹³ Aggarwal, C. “Recommender Systems: The Textbook”. Springer. 2016.
Goodfellow, I., Bengio, Y. and Courville, A. "Deep Learning". MIT Press. 2016.

^14, 16 Mohanty, S. N. et al. “Recommender System with Machine Learning and Artificial Intelligence”. Wiley-Scrivener. 2020.
Aggarwal, C. “Recommender Systems: The Textbook”. Springer. 2016.

¹⁵ Han, J. Kamber, M. y Pei, J. “Data Mining: Concepts and Techniques”. Tercera edición. Elsevier. 2012.
Mohanty, SN et al. “Recommender System with Machine Learning and Artificial Intelligence”. Wiley-Scrivener. 2020.

¹⁷ Shani, G., Heckerman, D. y Brafman, R. I. “An MDP-Based Recommender System”. 2005.
Lin, Y. et al. “A Survey on Reinforcement Learning for Recommender Systems”. 2023.
M.M. Afsar et al. “Reinforcement learning based recommender systems: A survey”. ACM Computing Surveys. 2023.

¹⁸ Chen, X. et al. “Generative Adversarial User Model for Reinforcement Learning Based Recommendation System”. 2019.
Huang, L. et al. “A deep reinforcement learning based long-term recommender system”. 2021

¿Qué es el filtrado basado en contenido?

¿Qué es el filtrado basado en contenido?

Filtrado basado en contenido vs. filtrado colaborativo

Las últimas tendencias en IA, presentadas por expertos

¡Gracias! Está suscrito.

Cómo funciona el filtrado basado en contenido

Componentes del filtrado basado en contenido

Representaciones de elementos

Métricas de similitud

Predicción de la interacción usuario-elemento

Ventajas y desventajas del filtrado basado en contenido

Ventajas

Desventajas

Descifrar la IA: resumen semanal de noticias

Investigación reciente

Recursos

Notas a pie de página