¿Qué es el filtrado colaborativo?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

¿Qué es el filtrado colaborativo?

El filtrado colaborativo es un tipo de sistema de recomendación. Agrupa a los usuarios en función de comportamientos similares, recomendando nuevos artículos según las características del grupo.

El filtrado colaborativo es un método de recuperación de información que recomienda elementos a los usuarios en función de cómo otros usuarios con preferencias y comportamientos similares interactuaron con ese elemento. En otras palabras, los algoritmos de filtrado colaborativo agrupan a los usuarios en función del comportamiento y emplean las características generales del grupo para recomendar elementos a un usuario objetivo. Los sistemas de recomendación colaborativa funcionan según el principio de que usuarios similares (en cuanto al comportamiento) comparten intereses y gustos similares.¹

Filtrado colaborativo vs filtrado basado en contenido

El filtrado colaborativo es uno de los dos tipos principales de sistemas de recomendación, el otro son los recomendadores basados en el contenido. Este último método emplea las características de los elementos para recomendar elementos similares a los elementos con los que un usuario en particular interactuó positivamente en el pasado.² Mientras que el filtrado colaborativo se centra en la similitud de los usuarios para recomendar artículos, el filtrado basado en el contenido recomienda artículos exclusivamente en función de las características del perfil del artículo. El filtrado basado en el contenido dirige las recomendaciones a las preferencias de un usuario concreto en lugar de un grupo o tipo como en el filtrado colaborativo.

Ambos métodos fueron objeto de muchas aplicaciones en el mundo real en los últimos años, desde el e-commerce como Amazon hasta las redes sociales y los servicios de streaming. Juntos, los sistemas colaborativos y basados en contenido forman sistemas de recomendación híbridos. De hecho, en 2009, Netflix adoptó un sistema de recomendación híbrido a través de su concurso de premios Netflix.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Cómo funciona el filtrado colaborativo

El filtrado colaborativo emplea una matriz para mapear el comportamiento del usuario para cada elemento de su sistema. Luego, el sistema extrae valores de esta matriz para trazarlos como puntos de datos en un espacio vectorial. Posteriormente, varias métricas miden la distancia entre puntos como un medio para calcular la similitud usuario-usuario y elemento-elemento.

Matriz de usuario-elemento

En una configuración estándar de filtrado colaborativo, tenemos un conjunto de n usuarios y un conjunto de x elementos. La preferencia individual de cada usuario por cada elemento se muestra en una matriz usuario-elemento (a veces denominada matriz de valoración del usuario). Aquí, los usuarios están representados en filas y los elementos en columnas. En la matriz R_ij , un valor dado representa el comportamiento del usuario o hacia el elemento i. Estos valores pueden ser números continuos proporcionados por los usuarios (por ejemplo, valoraciones) o valores binarios que indican si un usuario determinado vio o compró el artículo. Aquí hay un ejemplo de matriz de tiempo de usuario para el sitio web de una librería:

Tabla que ilustra la matriz usuario-elemento

Esta matriz muestra las calificaciones de los usuarios para los diferentes libros disponibles. Un algoritmo de filtrado colaborativo compara las calificaciones proporcionadas por los usuarios para cada libro. Al identificar usuarios o elementos similares en función de esas calificaciones, predice calificaciones para libros que un usuario objetivo no vio (representadas por nulo en la matriz) y recomienda (o no recomienda) esos libros al usuario objetivo según corresponda.

La matriz de ejemplo empleada aquí está completa, ya que está restringida a cuatro usuarios y cuatro elementos. Sin embargo, en escenarios del mundo real, las preferencias de los usuarios conocidos por los artículos suelen ser limitadas, lo que deja escasa la matriz usuario-artículo.³

Medidas de similitud

¿Cómo determina un algoritmo de recomendación colaborativa la similitud entre varios usuarios? Como ya se mencionó, la proximidad en el espacio vectorial es un método primario. Pero las métricas específicas empleadas para determinar esa proximidad pueden variar. Dos de estas métricas son la similitud del coseno y el coeficiente de correlación de Pearson.

Similitud de coseno

La similitud del coseno significa la medida del ángulo entre dos vectores. Los vectores comparados comprenden un subconjunto de valoraciones para un determinado usuario o artículo. El puntaje de similitud del coseno puede ser cualquier valor entre -1 y 1. Cuanto mayor sea el puntaje del coseno, más similares se considerarán dos elementos. Algunas fuentes recomiendan esta métrica para espacios de características de alta dimensión. En el filtrado colaborativo, los puntos vectoriales se extraen directamente de la matriz usuario-elemento. La similitud del coseno se representa mediante esta fórmula, donde x e y significan dos vectores de elementos en el espacio vectorial:⁷

Ilustración de la fórmula de similitud del coseno

Coeficiente de correlación de Pearson (PCC)

El PCC ayuda a medir la similitud entre elementos o usuarios calculando la correlación entre las respectivas calificaciones de dos usuarios o elementos. El PCC oscila entre -1 y 1, lo que significa una correlación negativa o idéntica. A diferencia de la similitud de coseno, PCC emplea todas las calificaciones para un usuario o elemento determinado. Por ejemplo, si calculamos el PCC entre dos usuarios, usamos esta fórmula, en la que a y b son usuarios diferentes, y r_IA y r_bi son la calificación de ese usuario para el elemento i: ⁵

Ilustración del coeficiente de correlación de Pearson

Tipos de sistemas colaborativos de recomendación

Existen dos tipos principales de sistemas de filtrado colaborativo: basados en memoria y basados en modelos.

Basados en memoria

Los sistemas de recomendación basados en memoria, o sistemas basados en vecinos, son extensiones de los clasificadores de vecinos más cercanos k porque intentan predecir el comportamiento de un usuario objetivo hacia un elemento determinado en función de usuarios o conjuntos de elementos similares. Los sistemas basados en memoria se pueden dividir en dos subtipos:

El filtrado basado en el usuario recomienda elementos a un usuario objetivo en función de las preferencias de los usuarios que tienen un comportamiento. El algoritmo de recomendación compara el comportamiento pasado de un usuario objetivo con otros usuarios. Específicamente, el sistema asigna a cada usuario un peso que representa su similitud percibida con el usuario objetivo: se trata de los vecinos del usuario objetivo. A continuación, selecciona n usuarios con las ponderaciones más altas y calcula una predicción del comportamiento del usuario objetivo (por ejemplo, calificación de películas, compras, cosas que no le gustan, etc.) a partir de un promedio ponderado del comportamiento de los vecinos seleccionados. A continuación, el sistema recomienda artículos al usuario objetivo en función de esta predicción. El principio es que, si el usuario objetivo se comportó de manera similar a este grupo en el pasado, se comportará de manera similar con los elementos no vistos. Las funciones de similitud basadas en el usuario se calculan entre las filas de la matriz usuario-elemento.⁶
El filtrado basado en elementos recomienda nuevos elementos a un usuario objetivo en función del comportamiento de ese usuario hacia elementos similares. Sin embargo, tenga en cuenta que, al comparar elementos, el sistema colaborativo no compara las características de los elementos (como en el filtrado basado en el contenido), sino la forma en que los usuarios interactúan con esos elementos. Por ejemplo, en un sistema de recomendación de películas, el algoritmo puede identificar películas similares en función de las correlaciones entre todas las calificaciones de los usuarios para cada película (corrigiendo la calificación promedio de cada usuario). Luego, el sistema recomendará una nueva película a un usuario objetivo en función de las calificaciones correlacionadas. Es decir, si el usuario objetivo calificó muy alta la película a y b pero no vio la película c, y otros usuarios que calificaron muy altas a las dos primeras también calificaron muy alta la película c , el sistema recomendará la película c al usuario objetivo. De esta manera, el filtrado basado en elementos calcula la similitud de los elementos a través del comportamiento del usuario. Las funciones de similitud basadas en elementos se calculan entre las columnas de la matriz usuario-elemento⁷

Basados en modelos

A veces, la literatura describe los métodos basados en la memoria como métodos de aprendizaje basados en instancias. Esto apunta a cómo el filtrado basado en elementos y usuarios hace predicciones específicas para una instancia determinada de interacción usuario-elemento, como la calificación de un usuario objetivo para una película no vista.

Por el contrario, los métodos basados en modelos crean un modelo predictivo de aprendizaje automático de los datos. El modelo emplea valores actuales en la matriz de elementos de usuario como conjunto de datos de entrenamiento y produce predicciones de missing values con el modelo resultante. Por lo tanto, los métodos basados en modelos emplean técnicas de ciencia de datos y algoritmos de machine learning, como decision trees, clasificadores Bayes y neural networks para recomendar elementos a los usuarios.⁸

La factorización matricial es un método de filtrado colaborativo ampliamente discutido, a menudo clasificado como un tipo de modelo de factor latente. Como modelo de factor latente, la factorización matricial supone que la similitud usuario-usuario o elemento-elemento se puede determinar a través de un número seleccionado de características. Por ejemplo, la calificación de un libro de un usuario se puede predecir empleando solo el género del libro y la edad o el sexo del usuario. Esta representación de menor dimensión tiene como objetivo explicar, por ejemplo, las calificaciones de los libros caracterizando los artículos y los usuarios de acuerdo con algunas características seleccionadas extraídas de los datos de retroalimentación de los usuarios.⁹ Debido a que reduce las características de un espacio vectorial dado, la factorización de matrices también sirve como método de reducción de ^{dimensionalidad. 10}

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

Beneficios y desventajas del filtrado colaborativo

Ventajas

En comparación con los sistemas basados en el contenido, el filtrado colaborativo es más eficaz a la hora de ofrecer a los usuarios recomendaciones novedosas. Los métodos basados en la colaboración extraen recomendaciones de un conjunto de usuarios que comparten intereses con un usuario objetivo. Por ejemplo, si a un grupo de usuarios le gustó el mismo conjunto de elementos que al usuario objetivo, pero también le gustó un elemento adicional desconocido para el usuario objetivo porque no comparte características con el conjunto anterior de elementos, un sistema de filtrado colaborativo recomienda este nuevo elemento al usuario. El filtrado colaborativo puede recomendar elementos que un usuario objetivo puede no haber considerado pero que atraen a su tipo de usuario.¹¹

Desventajas

El problema del arranque en frío es quizá la desventaja más citada de los sistemas de filtrado colaborativo. Ocurre cuando un nuevo usuario (o incluso un nuevo elemento) ingresa al sistema. La falta de historial de interacción con artículos de ese usuario impide que el sistema pueda evaluar la similitud o asociación del nuevo usuario con los usuarios existentes. Por el contrario, los sistemas basados en contenido son más expertos en el manejo de nuevos elementos, aunque también tienen dificultades con las recomendaciones para nuevos usuarios.¹²

La escasez de datos es otro de los principales problemas que pueden afectar a los sistemas de recomendación colaborativa. Como ya se dijo, los sistemas de recomendación suelen carecer de datos sobre las preferencias de los usuarios para la mayoría de los elementos del sistema. Esto significa que la mayor parte del espacio de características del sistema está vacío, lo que se conoce como escasez de datos. A medida que aumenta la escasez de datos, los puntos vectoriales se vuelven tan diferentes que los modelos predictivos se vuelven menos efectivos para identificar patrones explicativos.¹³ Esta es una de las principales razones por las que la factorización matricial y los métodos de factores latentes relacionados, como la descomposición de valores singulares, son populares en el filtrado colaborativo, ya que alivia la escasez de datos al reducir las características. Otros métodos aplicados para resolver este problema también pueden implicar que los propios usuarios evalúen y proporcionen información sobre sus propios intereses, que el sistema puede emplear después para filtrar las recomendaciones.

Investigación reciente

Si bien estudios anteriores abordaron la recomendación como un problema de predicción o clasificación, un cuerpo sustantivo de investigación reciente argumenta que se entiende como un problema secuencial de toma de decisiones. En este paradigma, el aprendizaje por refuerzo podría ser más adecuado para abordar la recomendación. Este enfoque argumenta que las recomendaciones se actualizan en tiempo real de acuerdo con la interacción usuario-elemento. A medida que el usuario omite, hace clic, califica o compra artículos sugeridos, el modelo desarrolla una política óptima a partir de esta retroalimentación para recomendar nuevos artículos.¹⁴ Estudios recientes proponen una amplia variedad de aplicaciones de aprendizaje por refuerzo para abordar los intereses mutables y a largo plazo de los usuarios, que plantean desafíos tanto para el filtrado basado en contenido como para el colaborativo.¹⁵

Ciencia de datos y MLOps para líderes de datos

Una fuerzas con otros líderes para impulsar los tres pilares esenciales de MLOps y la IA confiable: confianza en los datos, confianza en los modelos y confianza en los procesos.

Recursos

Amplíe sus conocimientos de aprendizaje automático (ML)

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Explicación del machine learning

Techsplainers de IBM desglosa los fundamentos del machine learning, desde conceptos clave hasta casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos rápidamente.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Explorar IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

¿Qué es el filtrado colaborativo?

Autores

¿Qué es el filtrado colaborativo?

Filtrado colaborativo vs filtrado basado en contenido

Las últimas tendencias de IA presentadas por expertos

¡Gracias! Ya está suscrito.

Cómo funciona el filtrado colaborativo

Matriz de usuario-elemento

Medidas de similitud

Similitud de coseno

Coeficiente de correlación de Pearson (PCC)

Tipos de sistemas colaborativos de recomendación

Basados en memoria

Basados en modelos

Decodificación de la IA: Resumen semanal de noticias

Beneficios y desventajas del filtrado colaborativo

Ventajas

Desventajas

Investigación reciente

Recursos