Aprendizaje no supervisado
Inteligencia artificial
Abstract green line, wave, element, isolated on black background illustration
Aprendizaje no supervisado

Descubra cómo funciona el aprendizaje no supervisado y cómo se puede utilizar para explorar y agrupar datos

Productos destacados

Watson Studio

IBM Cloud Pak for Data


¿Qué es el aprendizaje no supervisado?

El aprendizaje no supervisado, también conocido como machine learning no supervisado, utiliza algoritmos de machine learning para analizar y agrupar conjuntos de datos sin etiquetar. Estos algoritmos descubren patrones ocultos o agrupaciones de datos sin necesidad de intervención humana. Su capacidad de descubrir similitudes y diferencias en la información la convierte en la solución ideal para análisis de datos exploratorios, estrategias de venta cruzada, segmentación de clientes y reconocimiento de imágenes.

Enlaces relacionados

Regresión lineal

Regresión logística

Analítica predictiva


Enfoques comunes de aprendizaje no supervisado

Los modelos de aprendizaje no supervisados se utilizan para tres tareas principales: agrupamiento, asociación y reducción de dimensionalidad. A continuación, definiremos cada método de aprendizaje y destacaremos los algoritmos y enfoques comunes para llevarlos a cabo de manera efectiva.

Agrupación en clústeres

La agrupación es una técnica de minería de datos que agrupa datos sin etiquetar en función de sus similitudes o diferencias. Los algoritmos de agrupación en clústeres se utilizan para procesar objetos de datos sin clasificar y sin procesar en grupos representados por estructuras o patrones en la información. Los algoritmos de agrupación en clústeres se pueden clasificar en unos pocos tipos, específicamente exclusivos, superpuestos, jerárquicos y probabilísticos.

Clústeres exclusivos y superpuestos

La agrupación en clústeres exclusiva es una forma de agrupación que estipula que un punto de datos solo puede existir en un clúster. Esto también se puede denominar agrupamiento "duro". El algoritmo de agrupación en clústeres de K-means es un ejemplo de agrupación en clústeres única.

  • Agrupación de K-means es un ejemplo común de un método de agrupamiento exclusivo en el que los puntos de datos se asignan a grupos k, donde K representa el número de agrupaciones según la distancia desde el centroide de cada grupo. Los puntos de datos más cercanos a un centroide específica se agruparán en la misma categoría. Un valor de K más grande será indicativo de agrupaciones más pequeñas con más granularidad, mientras que un valor de K más pequeño tendrá agrupaciones más grandes y menos granularidad. La agrupación de K-means se utiliza comúnmente en la segmentación del mercado, la agrupación de documentos, la segmentación de imágenes y la compresión de imágenes.

Los clústeres superpuestos difieren del clúster exclusivo en que permite que los puntos de datos pertenezcan a varios clústeres con grados de membresía. El agrupamiento "suave" o difuso de k-means es un ejemplo de agrupamiento superpuesto.

Agrupamiento jerárquico

El agrupamiento jerárquico, también conocido como análisis de agrupamiento jerárquico (HCA), es un algoritmo de agrupamiento no supervisado que se puede categorizar de dos formas: pueden ser aglomerados o divisivos. La agrupación aglomerativa se considera un "enfoque de abajo hacia arriba". Sus puntos de datos se aíslan inicialmente como agrupaciones separadas y luego se fusionan de forma iterativa sobre la base de la similitud hasta que se ha logrado un clúster. Normalmente se utilizan cuatro métodos diferentes para medir la similitud:

  1. Vínculo de Ward: este método establece que la distancia entre dos clústeres se define por el aumento en la suma de los cuadrados después de fusionar los clústeres.
  2. Vínculo promedio: este método se define por la distancia media entre dos puntos en cada clúster
  3. Vínculo completo (o máximo): este método se define por la distancia máxima entre dos puntos en cada clúster
  4. Vínculo único (o mínimo): este método se define por la distancia mínima entre dos puntos en cada clúster

La distancia euclidiana es la métrica más común utilizada para calcular estas distancias; sin embargo, otras métricas, como la distancia de Manhattan, también se citan en la literatura sobre agrupaciones.

El cúster divisivo se puede definir como lo opuesto al clúster aglomerativo. En su lugar, adopta un enfoque "de arriba hacia abajo". En este caso, un solo clúster de datos se divide en función de las diferencias entre los puntos de datos. La agrupación en clústeres divisoria no se utiliza comúnmente, pero aún vale la pena señalarla en el contexto del clúster jerárquico. Estos procesos de agrupación en clústeres generalmente se visualizan mediante un dendrograma, un diagrama en forma de árbol que documenta la combinación o división de puntos de datos en cada iteración.

Clúster probabilístico

Un modelo probabilístico es una técnica no supervisada que nos ayuda a resolver problemas de estimación de densidad o de clústeres "suave". En el clúster probabilístico, los puntos de datos se agrupan en función de la probabilidad de que pertenezcan a una distribución particular. El modelo de mezcla gaussiana (GMM) es uno de los métodos de clúster probabilístico más utilizados.

  • Modelos de mezcla gaussiana se clasifican como modelos mixtos, lo que significa que se componen de un número no especificado de funciones de distribución de probabilidad. Los GMM se aprovechan principalmente para determinar a qué distribución de probabilidad gaussiana, o normal, pertenece un punto de datos determinado. Si se conoce la media o la varianza, entonces podemos determinar a qué distribución pertenece un punto de datos determinado. Sin embargo, en los GMM, estas variables no se conocen, por lo que asumimos que existe una variable latente u oculta para agrupar puntos de datos de manera adecuada. Si bien no es necesario utilizar el algoritmo de maximización de expectativas (EM), se usa comúnmente para estimar las probabilidades de asignación para un punto de datos determinado a un clúster de datos en particular.   

Reglas de asociación

Una regla de asociación es un método basado en reglas para encontrar relaciones entre variables en un conjunto de datos determinado. Estos métodos se utilizan con frecuencia para el análisis de la canasta de mercado, lo que permite a las empresas comprender mejor las relaciones entre diferentes productos. Comprender los hábitos de consumo de los clientes permite a las empresas desarrollar mejores estrategias de venta cruzada y motores de recomendación. Se pueden ver ejemplos de esto en la lista de reproducción "Los clientes que compraron este artículo también compraron" de Amazon o en la lista de reproducción "Discover Weekly" de Spotify. Si bien se utilizan algunos algoritmos diferentes para generar reglas de asociación, como Apriori, Eclat y FP-Growth, el algoritmo Apriori es el más utilizado.

Algoritmos a priori

Los algoritmos a priori se han popularizado a través de análisis de cesta de compra, lo que ha dado lugar a diferentes motores de recomendación para plataformas de música y minoristas en línea. Se utilizan dentro de conjuntos de datos transaccionales para identificar conjuntos de artículos frecuentes, o colecciones de artículos, para identificar la probabilidad de consumir un producto determinado el consumo de otro producto. Por ejemplo, si pongo la radio de Black Sabbath en Spotify, comenzando con su canción "Orchid", una de las otras canciones de este canal probablemente será una canción de Led Zeppelin, como "Over the Hills and Far Away". Esto se basa en mis hábitos anteriores y en los de los demás. Los algoritmos a priori utilizan un árbol hash  para contar conjuntos de elementos, navegando por el conjunto de datos de una manera amplia.

Reducción de dimensionalidad

Si bien más datos generalmente arrojan resultados más precisos, también puede afectar el rendimiento de los algoritmos de machine learning (por ejemplo, sobreajuste) y también puede dificultar la visualización de conjuntos de datos. La reducción de la dimensionalidad es una técnica que se utiliza cuando el número de características o dimensiones de un conjunto de datos determinado es demasiado alto. Reduce la cantidad de entradas de datos a un tamaño manejable y al mismo tiempo preserva la integridad del conjunto de datos tanto como sea posible. Se usa comúnmente en la etapa de preprocesamiento de datos, y existen algunos métodos diferentes de reducción de dimensionalidad que se pueden usar, como:

Análisis de componentes principales

El análisis de componentes principales (PCA) es un tipo de algoritmo de reducción de dimensionalidad que se utiliza para reducir redundancias y comprimir conjuntos de datos mediante la extracción de características. Este método usa una transformación lineal para crear una nueva representación de datos, produciendo un conjunto de "componentes principales". El primer componente principal es la dirección que maximiza la varianza del conjunto de datos. Si bien el segundo componente principal también encuentra la varianza máxima en los datos, no está correlacionado por completo con el primer componente principal, lo que produce una dirección que es perpendicular u ortogonal al primer componente. Este proceso se repite en función del número de dimensiones, donde un siguiente componente principal es la dirección ortogonal a los componentes anteriores con la mayor variación.

Valor singular de descomposición

La descomposición de valores singulares (SVD) es otro enfoque de reducción de dimensionalidad que factoriza una matriz, A, en tres matrices de bajo rango. SVD se denota mediante la fórmula, A = USVT, donde U y V son matrices ortogonales. S es una matriz diagonal y los valores de S se consideran valores singulares de la matriz A. Similar a PCA, se usa comúnmente para reducir el ruido y comprimir datos como, por ejemplo, archivos de imagen.

Codificadores automáticos

Los codificadores automáticos aprovechan las redes neuronales para comprimir datos y luego recrear una nueva representación de la entrada de datos originales. Al mirar la imagen de abajo, puede ver que la capa oculta actúa específicamente como un cuello de botella para comprimir la capa de entrada antes de reconstruirla dentro de la capa de salida. La etapa de la capa de entrada a la capa oculta se denomina "codificación", mientras que la etapa de la capa oculta a la capa de salida se conoce como "decodificación".


Aplicaciones del aprendizaje no supervisado

Las técnicas de machine learning se han convertido en un método común para mejorar la experiencia del usuario de un producto y para probar sistemas para garantizar la calidad. El aprendizaje no supervisado proporciona una ruta exploratoria para ver datos, lo que permite a las empresas identificar patrones en grandes volúmenes de datos más rápidamente en comparación con la observación manual. Algunas de las aplicaciones más comunes del aprendizaje no supervisado en el mundo real son:

  • Secciones de noticias: Google News utiliza el aprendizaje no supervisado para categorizar artículos sobre la misma historia de varios medios de noticias en línea. Por ejemplo, los resultados de una elección presidencial podrían clasificarse bajo su etiqueta de noticias "estadounidenses".
  • Visión por computadora: los algoritmos de aprendizaje no supervisados se utilizan para tareas de percepción visual, como el reconocimiento de objetos.  
  • Imagenes medicas: el aprendizaje automático no supervisado proporciona funciones esenciales para los dispositivos de imágenes médicas, como la detección, clasificación y segmentación de imágenes, que se utilizan en radiología y patología para diagnosticar a los pacientes de forma rápida y precisa.
  • Detección de anomalías: los modelos de aprendizaje no supervisados pueden analizar grandes cantidades de datos y descubrir puntos de datos atípicos dentro de un conjunto de datos. Estas anomalías pueden generar conciencia sobre equipos defectuosos, errores humanos o brechas en la seguridad.
  • Personas del cliente: la definición de las personas de los clientes facilita la comprensión de los rasgos comunes y los hábitos de compra de los clientes comerciales. El aprendizaje no supervisado permite a las empresas crear mejores perfiles de compradores, lo que hace posible que las organizaciones alineen los mensajes de sus productos de manera más adecuada.
  • Motores de recomendaciones: al utilizar datos del comportamiento pasado de los consumidores, los algoritmos de IA pueden ayudar a descubrir tendencias de datos que se pueden utilizar para desarrollar estrategias de venta cruzada más eficaces. Esto se usa para que los minoristas en línea puedan hacer recomendaciones adicionales relevantes a los clientes durante el proceso de compra.

Aprendizaje no supervisado frente a supervisado frente a semi-supervisado

El aprendizaje no supervisado y el aprendizaje supervisado con frecuencia se discuten juntos. A diferencia de los algoritmos de aprendizaje no supervisados, los algoritmos de aprendizaje supervisados utilizan datos etiquetados. A partir de esos datos, predice resultados futuros o asigna datos a categorías específicas en función del problema de regresión o clasificación que está tratando de resolver. Si bien los algoritmos de aprendizaje supervisado tienden a ser más precisos que los modelos de aprendizaje no supervisados, requieren una intervención humana inicial para etiquetar los datos de manera adecuada. Sin embargo, estos conjuntos de datos etiquetados permiten que los algoritmos de aprendizaje supervisado eviten la complejidad computacional, ya que no necesitan un gran conjunto de datos de entrenamiento para producir los resultados esperados. Las técnicas comunes de regresión y clasificación son regresión lineal y logística, naïve bayes, algoritmo KNN y bosque aleatorio.

El aprendizaje semi-supervisado ocurre cuando solo se ha etiquetado una parte de los datos de entrada determinados. El aprendizaje no supervisado y semi-supervisado puede ser una alternativa más atractiva, ya que puede llevar mucho tiempo y ser costoso confiar en la experiencia del dominio para etiquetar los datos de manera adecuada para el aprendizaje supervisado.

Para obtener más detalles acerca de las diferencias entre estos enfoques, consulte "Aprendizaje supervisado o no supervisado: ¿Cuál es la diferencia?"


Desafíos del aprendizaje no supervisado

Si bien el aprendizaje no supervisado tiene muchos beneficios, pueden surgir algunos desafíos cuando permite que los modelos de machine learning se ejecuten sin ninguna intervención humana. Algunos de esos desafíos pueden incluir:

  • Complejidad computacional debido a un gran volumen de datos de entrenamiento
  • Tiempos de entrenamiento más prolongados
  • Mayor riesgo de resultados inexactos
  • Intervención humana para validar variables de salida
  • Falta de transparencia sobre la base en la que se agruparon los datos

 


IBM y el aprendizaje no supervisado

Los modelos de machine learning no supervisados son herramientas poderosas cuando trabaja con grandes cantidades de datos. IBM Watson Studio on IBM Cloud Pak for Data ofrece una solución de código abierto para científicos de datos y desarrolladores que buscan acelerar sus implementaciones de aprendizaje automático no supervisado. Escale sus modelos de aprendizaje en cualquier entorno de nube y beneficíese de los recursos y la experiencia de IBM para aprovechar al máximo sus modelos de aprendizaje automático no supervisado.

Para obtener más información sobre cómo IBM puede ayudarle a crear sus propios modelos de aprendizaje automático sin supervisión, explore  IBM Watson Studio.

Regístrese para obtener un IBMid y cree su cuenta de IBM Cloud.


Soluciones relacionadas

IBM Watson Studio

Cree y escale la IA confiable en cualquier nube. Automatice el ciclo de vida de la IA para ModelOps.


Cloud Pak for Data

Conecte los datos correctos a las personas correctas en el momento correcto, desde donde sea necesario.


Soluciones IBM Cloud

Híbrida. Abierta. Resiliente. Su plataforma y socio para la transformación digital.