¿Qué es el aprendizaje no supervisado?

El aprendizaje no supervisado, también conocido como machine learning no supervisado, utiliza algoritmos de machine learning para analizar y agrupar en clústeres conjuntos de datos sin etiquetar. Estos algoritmos descubren agrupaciones de datos o patrones ocultos sin necesidad de ninguna intervención humana. Su capacidad de descubrir similitudes y diferencias en la información lo convierten en la solución ideal para el análisis de datos exploratorios, las estrategias de venta cruzada, la segmentación de clientes y el reconocimiento de imágenes.

Enfoques comunes del aprendizaje no supervisado

Los modelos de aprendizaje no supervisado se utilizan para tres tareas principales: agrupación en clústeres, asociación y reducción de dimensionalidad. A continuación, definiremos cada método de aprendizaje y resaltaremos los algoritmos y los enfoques comunes para aplicarlos de manera efectiva.

Agrupación en clústeres

La agrupación en clústeres es una técnica de minería de datos que agrupa datos no etiquetados en función de sus similitudes o diferencias. Los algoritmos de agrupación en clústeres se utilizan para procesar objetos de datos sin clasificar y sin procesar en grupos representados por estructuras o patrones en la información. Los algoritmos de agrupación en clústeres se pueden clasificar en varios tipos, específicamente: exclusivos, superpuestos, jerárquicos y probabilísticos.

Clústeres exclusivos y superpuestos

La agrupación en clústeres exclusiva es una forma de agrupación que estipula que un punto de datos solo puede existir en un clúster. Esto también puede denominarse agrupación en clústeres "dura". El algoritmo de agrupación en clústeres k-medias (k-means) es un ejemplo de agrupación exclusiva.

La agrupación en clústeres de k-medias es un ejemplo común de un método de agrupación en clústeres exclusiva en el que los puntos de datos se asignan en K grupos, donde K representa el número de clústeres en función de la distancia desde el centroide de cada grupo. Los puntos de datos más próximos a un determinado centroide se agruparán en la misma categoría. Un valor K más grande será indicativo de agrupaciones más pequeñas con más granularidad, mientras que un valor K más pequeño tendrá agrupaciones más grandes y menos granularidad. Las agrupaciones en clústeres de k-medias se suelen utilizar en la segmentación de mercados, la agrupación de documentos en clústeres, la segmentación de imágenes y la compresión de imágenes.

Los clústeres superpuestos difieren de la agrupación en clústeres exclusiva en que permiten que los puntos de datos pertenezcan a varios clústeres con diferentes grados de pertenencia. La agrupación en clústeres de k-medias "suave" o difusa es un ejemplo de agrupación superpuesta.

Agrupación en clústeres jerárquica

La agrupación en clústeres jerárquica, también conocida como análisis de clústeres jerárquicos (HCA, por sus siglas en inglés), es un algoritmo de agrupación en clústeres no supervisado que se puede categorizar de dos formas: aglomerante o divisivo. La agrupación en clústeres se considera un "enfoque de abajo hacia arriba". Sus puntos de datos se aíslan inicialmente como agrupaciones separadas y luego se fusionan iterativamente sobre la base de la similitud hasta que se logra un clúster. Normalmente se utilizan cuatro métodos diferentes para medir la similitud:

Enlace de Ward: este método establece que la distancia entre dos clústeres se define por el incremento en la suma de cuadrados después de fusionar los clústeres.
Enlace promedio: este método está definido por el promedio de distancia entre dos puntos en cada clúster.
Enlace completo (o máximo): este método está definido por la distancia máxima entre dos puntos en cada clúster.
Enlace único (o mínimo): este método viene definido por la distancia mínima entre dos puntos en cada clúster.

La distancia euclídea es la métrica más utilizada para calcular estas distancias; sin embargo, otras métricas, como la distancia de Manhattan, también se citan en la bibliografía sobre agrupación en clústeres.

La agrupación en clústeres divisiva se puede definir como lo opuesto a la agrupación en clústeres aglomerativa, que toma un enfoque "de arriba hacia abajo". En este caso, un único clúster de datos se divide en función de las diferencias entre los puntos de datos. La agrupación en clústeres divisiva no se suele utilizar, pero vale la pena mencionarla en el contexto de la agrupación en clústeres jerárquica. Estos procesos de agrupación en clústeres generalmente se visualizan mediante un dendrograma, que es un diagrama en forma de árbol que documenta la fusión o división de puntos de datos en cada iteración.

Agrupación en clústeres probabilística

Un modelo probabilístico es una técnica no supervisada que nos ayuda a resolver problemas de clústeres "suaves" o de estimación de densidad. En la agrupación en clústeres probabilística, los puntos de datos se agrupan en función de la probabilidad de que pertenezcan a una distribución determinada. El modelo de mezcla gaussiana (GMM, por sus siglas en inglés) es uno de los métodos probabilísticos de agrupación en clústeres más utilizados.

Los modelos de mezcla gaussiana se clasifican como modelos mixtos, lo que significa que están formados por un número sin especificar de funciones de distribución de probabilidad. Los GMM se aprovechan principalmente para determinar a qué distribución de probabilidad gaussiana, o normal, pertenece un punto de datos determinado. Si se conoce el promedio o la varianza, podemos determinar a qué distribución pertenece un punto de datos determinado. Sin embargo, en los GMM, estas variables no se conocen, por lo que asumimos que existe una variable latente, u oculta, para agrupar correctamente los puntos de datos en clústeres. Si bien no se requiere utilizar el algoritmo de expectativa-maximización (EM), está extendido su uso para estimar las probabilidades de asignación para un punto de datos determinado a un clúster de datos.

Regla de asociación

Una regla de asociación es un método basado en reglas para detectar relaciones entre variables en un conjunto de datos determinado. Estos métodos se utilizan con frecuencia para análisis de cesta de la compra, que permiten a las empresas comprender mejor las relaciones entre los diferentes productos. Entender los hábitos de consumo de los clientes permite a las empresas desarrollar mejores estrategias de venta cruzada y motores de recomendaciones. Claros ejemplos son el apartado "Los clientes que compraron este artículo también compraron" de Amazon o la lista "Descubrimiento semanal" de Spotify. Si bien se utilizan diferentes algoritmos para generar reglas de asociación, como Apriori, Eclat y FP-Growth, el algoritmo Apriori es el más utilizado.

Algoritmos Apriori

Los algoritmos Apriori se han popularizado en los análisis de cesta de la compra, que generan diferentes motores de recomendaciones para plataformas de música y comercios en línea. Se utilizan dentro de conjuntos de datos transaccionales para identificar conjuntos de elementos frecuentes, o colecciones de elementos, para identificar la probabilidad de consumir un producto dado el consumo de otro producto. Por ejemplo, si reproduzco la radio de Black Sabbath en Spotify, comenzando con su canción "Orchid", es probable que una de las siguientes canciones de este canal sea una canción de Led Zeppelin, como "Over the Hills and Far Away". Esto se basa en mis hábitos previos de escucha, así como en los de otros usuarios. Los algoritmos Apriori utilizan un árbol hash para contar conjuntos de elementos, navegando a través del conjunto de datos de manera amplia.

Reducción de dimensionalidad

Aunque lo normal es que más datos generen resultados más precisos, también pueden incidir sobre el rendimiento de los algoritmos de machine learning (por ejemplo, sobreajuste) y dificultar la visualización de los conjuntos de datos. La reducción de la dimensionalidad es una técnica utilizada cuando el número de características, o dimensiones, de un determinado conjunto de datos es demasiado elevado. Reduce el número de entradas de datos a un tamaño gestionable, además de preservar la integridad del conjunto de datos lo máximo posible. Se usa comúnmente en la fase de preprocesamiento de datos, y existen varios métodos de reducción de dimensionalidad que se pueden usar, como:

Análisis de componentes principales

El análisis de componente principales (PCA, por sus siglas en inglés) es un tipo de algoritmo de reducción de dimensionalidad que se utiliza para reducir redundancias y comprimir conjuntos de datos a través de la extracción de características. Este método utiliza una transformación lineal para crear una nueva representación de datos, dando como resultado un conjunto de "componentes principales". El primer componente principal es la dirección que maximiza la varianza del conjunto de datos. Si bien el segundo componente principal también encuentra la varianza máxima en los datos, no tiene ninguna correlación con el primer componente principal, lo que genera una dirección que es perpendicular u ortogonal al primer componente. Este proceso se repite en función del número de dimensiones, donde un siguiente componente principal es la dirección ortogonal a los componentes anteriores con mayor varianza.

Descomposición en valores singulares

La descomposición en valores singulares (SVD, por sus siglas en inglés) es otro enfoque a la reducción de dimensionalidad que factoriza una matriz, A, en tres matrices de rango inferior. SVD se denota mediante la fórmula A = USVT, donde U y V son matrices ortogonales. S es una matriz diagonal y los valores de S se consideran valores singulares de la matriz A. Similar a PCA, se suele utilizar para reducir el ruido y comprimir datos, como archivos de imágenes.

Codificadores automáticos

Los codificadores automáticos utilizan las redes neuronales para comprimir los datos y luego volver a crear una nueva representación de la entrada de datos original. Si miramos la imagen de abajo, podemos ver que la capa oculta actúa específicamente como un cuello de botella para comprimir la capa de entrada antes de reconstruirla dentro de la capa de salida. La etapa de la capa de entrada a la capa oculta se denomina "codificación", mientras que la etapa de la capa oculta a la capa de salida se conoce como "decodificación".

Aplicaciones de aprendizaje no supervisado

Las técnicas de machine learning se han convertido en un método común para mejorar la experiencia del usuario con un producto y probar sistemas para garantizar su calidad. El aprendizaje no supervisado proporciona una ruta exploratoria para visualizar datos, lo que permite a las empresas identificar patrones en grandes volúmenes de datos más rápidamente, en comparación con la observación manual. Algunas de las aplicaciones prácticas más comunes de aprendizaje no supervisado son:

Secciones de noticias: Google News utiliza aprendizaje no supervisado para categorizar artículos sobre la misma historia de varios medios informativos en línea. Por ejemplo, los resultados de una elección presidencial podrían categorizarse bajo su etiqueta de noticias de "Estados Unidos".
Visión computacional: los algoritmos de aprendizaje no supervisados se utilizan para tareas de percepción visual, como el reconocimiento de objetos.
Imágenes médicas: el machine learning no supervisado proporciona funciones básicas a los dispositivos de creación de imágenes médicas, como la detección, la clasificación y la segmentación de imágenes, que se utilizan en radiología y anatomía patológica para diagnosticar a pacientes de forma rápida y precisa.
Detección de anomalías: los modelos de aprendizaje no supervisados pueden analizar grandes cantidades de datos y descubrir puntos de datos atípicos dentro de un conjunto de datos. Estas anomalías pueden concienciar sobre equipos defectuosos, errores humanos o brechas en la seguridad.
Personas del cliente: la definición de personas del cliente facilita la comprensión de los rasgos comunes y los hábitos de compra de los clientes de una empresa. El aprendizaje no supervisado permite a las empresas crear perfiles de compradores, con el objetivo de adaptar los mensajes promocionales de producto de manera más adecuada.
Motores de recomendación: utilizando datos de comportamiento de compras anteriores, el aprendizaje no supervisado descubre tendencias de datos que pueden utilizarse para desarrollar estrategias de venta cruzada más eficaces. Esto se utiliza para hacer recomendaciones complementarias relevantes a los clientes durante el proceso de compra en las tiendas en línea.

Aprendizaje no supervisado, supervisado y semisupervisado

El aprendizaje no supervisado y el aprendizaje supervisado suelen formar parte del mismo debate. A diferencia de los algoritmos de aprendizaje no supervisado, los algoritmos de aprendizaje supervisado utilizan datos etiquetados. A partir de esos datos, se prevén resultados futuros o se asignan datos a categorías específicas en función del problema de regresión o clasificación que se está tratando de resolver. Si bien los algoritmos de aprendizaje supervisado tienden a ser más precisos que los modelos de aprendizaje no supervisado, requieren intervención humana inicial para etiquetar los datos de manera adecuada. Sin embargo, estos conjuntos de datos etiquetados permiten evitar la complejidad computacional en los algoritmos de aprendizaje supervisado, ya que no necesitan un gran conjunto de datos de entrenamiento para producir los resultados esperados. Las técnicas comunes de regresión y clasificación son la regresión logística y lineal, naïve bayes, el algoritmo KNN y el bosque aleatorio.

El aprendizaje semisupervisado se produce cuando solo se ha etiquetado una parte de los datos de entrada. El aprendizaje no supervisado y el semisupervisado pueden ser alternativas más atractivas, ya que confiar en la experiencia del dominio para etiquetar bien los datos para el aprendizaje supervisado puede requerir más tiempo y dinero.

Para consultar un análisis más detallado sobre las diferencias entre estos enfoques, consulte el artículo "Supervised vs. Unsupervised Learning: What's the Difference?"

Retos del aprendizaje no supervisado

Si bien el aprendizaje no supervisado presenta muchas ventajas, pueden surgir algunos retos cuando los modelos de machine learning se ejecutan sin ninguna intervención humana. Algunos de ellos pueden incluir:

Complejidad computacional debido al elevado volumen de datos de entrenamiento
Tiempos de entrenamiento más extensos
Mayor riesgo de resultados inexactos
Intervención humana para validar variables de salida
Falta de transparencia en la base sobre la cual se han agrupado los datos

Soluciones relacionadas

IBM® Watson Studio

Cree y escale IA fiable en cualquier cloud. Automatice el ciclo de vida de IA para ModelOps.

Explore IBM® Watson Studio

IBM® Cloud Pak for Data

Conecte los datos correctos con las personas adecuadas, en el momento preciso y en cualquier lugar.

Explore Cloud Pak for Data

Soluciones de IBM Cloud

Híbridas. Abiertas. Resilientes. Su plataforma y su socio para la transformación digital.

Explore las soluciones en cloud

Recursos

Aprendizaje supervisado y no supervisado: ¿en qué se diferencian?

Explore los conceptos básicos de dos enfoques de ciencia de datos: supervisado y no supervisado. Descubra qué enfoque es el adecuado para su situación.

Los 3 modelos de machine learning

Conozca las tres categorías de algoritmos: supervisados, no supervisados y aprendizaje por refuerzo. Vea las ideas que hay detrás de cada uno y algunos de los algoritmos clave que utilizan.

Dé el siguiente paso

Los modelos de machine learning no supervisado son herramientas potentes cuando se trabaja con grandes cantidades de datos.IBM Watson Studio on IBM Cloud Pak for Data ofrece una solución de código abierto para científicos de datos y desarrolladores que tratan de acelerar sus despliegues de machine learning no supervisado. Escale sus modelos de aprendizaje en cualquier entorno de cloud y benefíciese de los recursos y la experiencia de IBM para sacar el máximo partido a sus modelos de machine learning no supervisados.

Explore IBM® Watson Studio ahora