El aprendizaje no supervisado, también conocido como machine learning no supervisado, utiliza algoritmos de machine learning (ML) para analizar y agrupar conjuntos de datos sin etiquetar. Estos algoritmos descubren patrones ocultos o agrupaciones de datos sin necesidad de intervención humana.
La capacidad del aprendizaje no supervisado para descubrir similitudes y diferencias en la información lo convierte en la solución ideal para el análisis exploratorio de datos , las estrategias de venta cruzada, la segmentación de clientes y el reconocimiento de imágenes.
Los modelos de aprendizaje no supervisado se utilizan para tres tareas principales: clustering, asociación y reducción de dimensionalidad. A continuación, definiremos cada método de aprendizaje y destacaremos algoritmos y enfoques comunes para llevarlos a cabo de manera efectiva.
La agrupación en clústeres es una técnica de minería de datos que agrupa datos sin etiquetar en función de sus similitudes o diferencias. Los algoritmos de agrupación en clústeres se emplean para procesar objetos de datos sin procesar y sin clasificar en grupos representados por estructuras o patrones en la información. Los algoritmos de agrupación en clústeres se pueden clasificar en algunos tipos, específicamente exclusivos, superpuestos, jerárquicos y probabilísticos.
La agrupación en clústeres exclusiva es una forma de agrupación que estipula que un punto de datos sólo puede existir en un conglomerado. Esto también puede denominar agrupación en clústeres "dura". La agrupación en clústeres de K-means es un ejemplo común de método de clustering exclusivo en el que los puntos de datos se asignan a K grupos, donde K representa el número de clusters basado en la distancia desde el centroide de cada grupo. Los puntos de datos más cercanos a un centroide determinado se agruparán en la misma categoría. Un valor K mayor indica agrupaciones más pequeñas con más detalle, mientras que un valor K menor indica agrupaciones más grandes y menos detalle. La agrupación en clústeres de K-means se emplea habitualmente en la segmentación de mercados, la agrupación de documentos, la segmentación de imágenes y la compresión de imágenes.
Los clústeres superpuestos difieren de la agrupación en clústeres exclusivo en que permite que los puntos de datos pertenezcan a múltiples clústeres con grados separados de pertenencia. La agrupación en clústeres “suave” o fuzzy k-means es un ejemplo de agrupamiento superpuesto.
La agrupación en clústeres jerárquica, también conocido como análisis de clúster jerárquico (HCA), es un algoritmo de agrupación en clústeres no supervisado que se puede categorizar de dos maneras: aglomerativo o divisivo.
La agrupación en clústeres aglomerativos se considera un "enfoque ascendente". Sus puntos de datos se aíslan inicialmente como agrupaciones separadas y luego se fusionan de forma iterativa sobre la base de la similitud hasta que se logra un clúster. Se utilizan comúnmente cuatro métodos diferentes para medir la similitud:
La distancia euclidiana es la métrica más común empleada para calcular estas distancias; sin embargo, otras métricas, como la distancia de Manhattan, también se citan en la literatura sobre agrupación en clústeres.
La agrupación en clústeres divisiva se puede definir como lo opuesto a la agrupación en clústeres aglomerativa; en su lugar, adopte un enfoque "de arriba hacia abajo". En este caso, un único clúster de datos se divide en función de las diferencias entre los puntos de datos. La agrupación clúster no se usa comúnmente, pero vale la pena señalarla en el contexto de la agrupación jerárquica. Estos procesos de agrupación en clústeres generalmente se visualizan mediante un dendrograma, un diagrama en forma de árbol que documenta la fusión o división de puntos de datos en cada iteración.
Un modelo probabilístico es una técnica no supervisada que nos ayuda a resolver problemas de estimación de densidad o agrupación en clústeres “suave”. En la agrupación en clústeres probabilística, los puntos de datos se agrupan en función de la probabilidad de que pertenezcan a una distribución particular. El Modelo de Mezcla Gaussiana (GMM) es uno de los métodos de agrupación en clústeres probabilística más utilizados.
Una regla de asociación es un método basado en reglas para buscar relaciones entre variables en un conjunto de datos determinado. Estos métodos se emplean con frecuencia para el análisis de la canasta de la compra, lo que permite a las empresas comprender mejor las relaciones entre los diferentes productos. Comprender los hábitos de consumo de los clientes permite a las empresas desarrollar mejores estrategias de venta cruzada y motores de recomendación. Algunos ejemplos de esto se pueden ver en "Los clientes que compraron este artículo de Amazon también compraron" o en la lista de reproducción "Discover Weekly" de Spotify. Si bien hay algunos algoritmos diferentes que se usan para generar reglas de asociación, como Apriori, Eclat y FP-Growth, el algoritmo Apriori es el más empleado.
Los algoritmos Apriori se popularizaron a través de análisis de canastas de mercado, para dar lugar a diferentes motores de recomendación para plataformas musicales y minoristas en línea. Se emplean en conjuntos de datos transaccionales para identificar conjuntos de artículos frecuentes, o colecciones de artículos, para identificar la probabilidad de consumir un producto dado el consumo de otro producto. Por ejemplo, si pongo la radio de Black Sabbath en Spotify, empezando por su canción "Orchid", es probable que otra de las canciones de este canal sea de Led Zeppelin, como "Over the Hills and Far Away". Esto se basa en mis hábitos de escucha anteriores y en los de otros. Los algoritmos Apriori emplean un árbol hash para contar los conjuntos de elementos y navegan a través del conjunto de datos de una manera "búsqueda en anchura".
Si bien más datos generalmente arrojan resultados más precisos, también pueden afectar el rendimiento de los algoritmos de machine learning (por ejemplo, sobreajuste) y también puede dificultar la visualización de conjuntos de datos. La reducción de la dimensionalidad es una técnica que se utiliza cuando el número de características o dimensiones en un conjunto de datos determinado es demasiado alto. Reduce el número de entradas de datos a un tamaño manejable y, al mismo tiempo, preserva la integridad del conjunto de datos tanto como sea posible. Se usa comúnmente en la etapa de preprocesamiento de datos, y existen algunos métodos diferentes de reducción de dimensionalidad que se pueden usar, como:
El análisis de componentes principales (PCA) es un tipo de algoritmo de reducción de dimensionalidad que se utiliza para reducir las redundancias y comprimir conjuntos de datos mediante la extracción de características. Este método utiliza una transformación lineal para crear una nueva representación de datos, lo que produce un conjunto de "componentes principales". El primer componente principal es la dirección que maximiza la varianza del conjunto de datos. Si bien el segundo componente principal también encuentra la varianza máxima en los datos, no tiene ninguna correlación con el primer componente principal, lo que produce una dirección que es perpendicular u ortogonal al primer componente. Este proceso se repite en función del número de dimensiones, donde un siguiente componente principal es la dirección ortogonal a los componentes anteriores con la mayor variación.
La descomposición de valores singulares (SVD) es otro enfoque de reducción de dimensionalidad que factoriza una matriz, A, en tres matrices de rango bajo. La SVD se denota mediante la fórmula A = USVT, donde U y V son matrices ortogonales. S es una matriz diagonal y los valores S se consideran valores singulares de la matriz A. Al igual que PCA, se utiliza comúnmente para reducir el ruido y comprimir datos, como archivos de imagen.
Los autocodificadores aprovechan las redes neuronales para comprimir datos y luego recrear una nueva representación de la entrada de datos original. Al observar la imagen de abajo, puede ver que la capa oculta actúa específicamente como un cuello de botella para comprimir la capa de entrada antes de reconstruirse dentro de la capa de salida. La etapa desde la capa de entrada hasta la capa oculta se conoce como "codificación", mientras que la etapa desde la capa oculta hasta la capa de salida se conoce como "decodificación".
Las técnicas de machine learning se han convertido en un método común para mejorar la experiencia del usuario de un producto y probar los sistemas para garantizar la calidad. El aprendizaje no supervisado proporciona una ruta exploratoria para ver los datos, lo que permite a las empresas identificar patrones en grandes volúmenes de datos más rápidamente en comparación con la observación manual. Algunas de las aplicaciones más comunes del aprendizaje no supervisado en el mundo real son:
El aprendizaje no supervisado y el aprendizaje supervisado se analizan juntos con frecuencia. A diferencia de los algoritmos de aprendizaje no supervisado, los algoritmos de aprendizaje supervisado utilizan datos etiquetados. A partir de esos datos, predice resultados futuros o asigna datos a categorías específicas en función del problema de regresión o clasificación que está tratando de resolver.
Si bien los algoritmos de aprendizaje supervisado tienden a ser más precisos que los modelos de aprendizaje no supervisado, requieren una intervención humana por adelantado para etiquetar los datos de manera adecuada. Sin embargo, estos conjuntos de datos etiquetados permiten que los algoritmos de aprendizaje supervisado eviten la complejidad computacional, ya que no necesitan un gran conjunto de capacitación para producir los resultados previstos. Las técnicas comunes de regresión y clasificación son la regresión lineal y logística, el algoritmo Bayes ingenuo, el algoritmo KNN y el bosque aleatorio.
El aprendizaje semisupervisado se produce cuando solo se ha etiquetado una parte de los datos de entrada dados. El aprendizaje no supervisado y semisupervisado puede ser una alternativa más atractiva, ya que puede llevar mucho tiempo y ser costoso confiar en la experiencia del dominio para etiquetar los datos adecuadamente para el aprendizaje supervisado.
Para profundizar en las diferencias entre estos enfoques, consulte "Aprendizaje supervisado vs. no supervisado: ¿cuál es la diferencia?"
Aunque el aprendizaje no supervisado tiene muchos beneficios, pueden surgir algunos problemas cuando permite que los modelos de machine learning se ejecuten sin intervención humana. Algunos de estos retos pueden ser: