¿Qué es el aprendizaje no supervisado?

Vista aérea del arroyo glaciar de Islandia

¿Qué es el aprendizaje no supervisado?

El aprendizaje no supervisado, también conocido como machine learning no supervisado, utiliza algoritmos de machine learning (ML) para analizar y agrupar conjuntos de datos sin etiquetar. Estos algoritmos descubren patrones ocultos o agrupaciones de datos sin necesidad de intervención humana.

La capacidad del aprendizaje no supervisado para descubrir similitudes y diferencias en la información lo convierte en la solución ideal para el análisis exploratorio de datos , las estrategias de venta cruzada, la segmentación de clientes y el reconocimiento de imágenes.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Enfoques comunes de aprendizaje no supervisado

Los modelos de aprendizaje no supervisado se utilizan para tres tareas principales: clustering, asociación y reducción de dimensionalidad. A continuación, definiremos cada método de aprendizaje y destacaremos algoritmos y enfoques comunes para llevarlos a cabo de manera efectiva.

Agrupación en clústeres

La agrupación en clústeres es una técnica de minería de datos que agrupa datos sin etiquetar en función de sus similitudes o diferencias. Los algoritmos de agrupación en clústeres se emplean para procesar objetos de datos sin procesar y sin clasificar en grupos representados por estructuras o patrones en la información. Los algoritmos de agrupación en clústeres se pueden clasificar en algunos tipos, específicamente exclusivos, superpuestos, jerárquicos y probabilísticos.

Agrupación en clústeres exclusiva y superpuesta

La agrupación en clústeres exclusiva es una forma de agrupación que estipula que un punto de datos sólo puede existir en un conglomerado. Esto también puede denominar agrupación en clústeres "dura". La agrupación en clústeres de K-means es un ejemplo común de método de clustering exclusivo en el que los puntos de datos se asignan a K grupos, donde K representa el número de clusters basado en la distancia desde el centroide de cada grupo. Los puntos de datos más cercanos a un centroide determinado se agruparán en la misma categoría. Un valor K mayor indica agrupaciones más pequeñas con más detalle, mientras que un valor K menor indica agrupaciones más grandes y menos detalle. La agrupación en clústeres de K-means se emplea habitualmente en la segmentación de mercados, la agrupación de documentos, la segmentación de imágenes y la compresión de imágenes.

Los clústeres superpuestos difieren de la agrupación en clústeres exclusivo en que permite que los puntos de datos pertenezcan a múltiples clústeres con grados separados de pertenencia. La agrupación en clústeres “suave” o fuzzy k-means es un ejemplo de agrupamiento superpuesto.

Agrupación en clústeres jerárquica

La agrupación en clústeres jerárquica, también conocido como análisis de clúster jerárquico (HCA), es un algoritmo de agrupación en clústeres no supervisado que se puede categorizar de dos maneras: aglomerativo o divisivo.

La agrupación en clústeres aglomerativos se considera un "enfoque ascendente". Sus puntos de datos se aíslan inicialmente como agrupaciones separadas y luego se fusionan de forma iterativa sobre la base de la similitud hasta que se logra un clúster. Se utilizan comúnmente cuatro métodos diferentes para medir la similitud:

  1. Vinculación de Ward: este método establece que la distancia entre dos clústeres se define por el incremento de la suma de cuadrados luego de fusionar los clústeres.

  2. Enlace promedio: este método se define por la distancia media entre dos puntos en cada clúster.

  3. Enlace completo (o máximo): este método se define por la distancia máxima entre dos puntos en cada clúster.

  4. Enlace único (o mínimo): este método se define por la distancia mínima entre dos puntos de cada clúster.

La distancia euclidiana es la métrica más común empleada para calcular estas distancias; sin embargo, otras métricas, como la distancia de Manhattan, también se citan en la literatura sobre agrupación en clústeres.

La agrupación en clústeres divisiva se puede definir como lo opuesto a la agrupación en clústeres aglomerativa; en su lugar, adopte un enfoque "de arriba hacia abajo". En este caso, un único clúster de datos se divide en función de las diferencias entre los puntos de datos. La agrupación clúster no se usa comúnmente, pero vale la pena señalarla en el contexto de la agrupación jerárquica. Estos procesos de agrupación en clústeres generalmente se visualizan mediante un dendrograma, un diagrama en forma de árbol que documenta la fusión o división de puntos de datos en cada iteración.

Agrupación en clústeres probabilística

Un modelo probabilístico es una técnica no supervisada que nos ayuda a resolver problemas de estimación de densidad o agrupación en clústeres “suave”. En la agrupación en clústeres probabilística, los puntos de datos se agrupan en función de la probabilidad de que pertenezcan a una distribución particular. El Modelo de Mezcla Gaussiana (GMM) es uno de los métodos de agrupación en clústeres probabilística más utilizados.

  • Los Modelos de Mezcla Gaussiana se clasifican como modelos de mezcla, lo que significa que están conformados por un número no especificado de funciones de distribución de probabilidad. Los GMM se aprovechan principalmente para determinar a qué distribución de probabilidad gaussiana o normal pertenece un punto de datos determinado. Si se conoce la media o la varianza, entonces podemos determinar a qué distribución pertenece un punto de datos dado. Sin embargo, en los GMM, estas variables no se conocen, por lo que suponemos que existe una variable latente u oculta para agrupar en clústeres los puntos de datos de manera adecuada. Si bien no es necesario emplear el algoritmo de maximización de expectativas (EM), se usa comúnmente para estimar las probabilidades de asignación de un punto de datos determinado a un clúster de datos en particular.

Reglamento de la asociación

Una regla de asociación es un método basado en reglas para buscar relaciones entre variables en un conjunto de datos determinado. Estos métodos se emplean con frecuencia para el análisis de la canasta de la compra, lo que permite a las empresas comprender mejor las relaciones entre los diferentes productos. Comprender los hábitos de consumo de los clientes permite a las empresas desarrollar mejores estrategias de venta cruzada y motores de recomendación. Algunos ejemplos de esto se pueden ver en "Los clientes que compraron este artículo de Amazon también compraron" o en la lista de reproducción "Discover Weekly" de Spotify. Si bien hay algunos algoritmos diferentes que se usan para generar reglas de asociación, como Apriori, Eclat y FP-Growth, el algoritmo Apriori es el más empleado.

Algoritmos a priori

Los algoritmos Apriori se popularizaron a través de análisis de canastas de mercado, para dar lugar a diferentes motores de recomendación para plataformas musicales y minoristas en línea. Se emplean en conjuntos de datos transaccionales para identificar conjuntos de artículos frecuentes, o colecciones de artículos, para identificar la probabilidad de consumir un producto dado el consumo de otro producto. Por ejemplo, si pongo la radio de Black Sabbath en Spotify, empezando por su canción "Orchid", es probable que otra de las canciones de este canal sea de Led Zeppelin, como "Over the Hills and Far Away". Esto se basa en mis hábitos de escucha anteriores y en los de otros. Los algoritmos Apriori emplean un árbol hash para contar los conjuntos de elementos y navegan a través del conjunto de datos de una manera "búsqueda en anchura".

Reducción de la dimensionalidad

Si bien más datos generalmente arrojan resultados más precisos, también pueden afectar el rendimiento de los algoritmos de machine learning (por ejemplo, sobreajuste) y también puede dificultar la visualización de conjuntos de datos. La reducción de la dimensionalidad es una técnica que se utiliza cuando el número de características o dimensiones en un conjunto de datos determinado es demasiado alto. Reduce el número de entradas de datos a un tamaño manejable y, al mismo tiempo, preserva la integridad del conjunto de datos tanto como sea posible. Se usa comúnmente en la etapa de preprocesamiento de datos, y existen algunos métodos diferentes de reducción de dimensionalidad que se pueden usar, como:

Análisis de componentes principales

El análisis de componentes principales (PCA) es un tipo de algoritmo de reducción de dimensionalidad que se utiliza para reducir las redundancias y comprimir conjuntos de datos mediante la extracción de características. Este método utiliza una transformación lineal para crear una nueva representación de datos, lo que produce un conjunto de "componentes principales". El primer componente principal es la dirección que maximiza la varianza del conjunto de datos. Si bien el segundo componente principal también encuentra la varianza máxima en los datos, no tiene ninguna correlación con el primer componente principal, lo que produce una dirección que es perpendicular u ortogonal al primer componente. Este proceso se repite en función del número de dimensiones, donde un siguiente componente principal es la dirección ortogonal a los componentes anteriores con la mayor variación.

Descomposición de valores singulares

La descomposición de valores singulares (SVD) es otro enfoque de reducción de dimensionalidad que factoriza una matriz, A, en tres matrices de rango bajo. La SVD se denota mediante la fórmula A = USVT, donde U y V son matrices ortogonales. S es una matriz diagonal y los valores S se consideran valores singulares de la matriz A. Al igual que PCA, se utiliza comúnmente para reducir el ruido y comprimir datos, como archivos de imagen.

Autocodificadores

Los autocodificadores aprovechan las redes neuronales para comprimir datos y luego recrear una nueva representación de la entrada de datos original. Al observar la imagen de abajo, puede ver que la capa oculta actúa específicamente como un cuello de botella para comprimir la capa de entrada antes de reconstruirse dentro de la capa de salida. La etapa desde la capa de entrada hasta la capa oculta se conoce como "codificación", mientras que la etapa desde la capa oculta hasta la capa de salida se conoce como "decodificación".

Aplicaciones de aprendizaje no supervisado

Las técnicas de machine learning se han convertido en un método común para mejorar la experiencia del usuario de un producto y probar los sistemas para garantizar la calidad. El aprendizaje no supervisado proporciona una ruta exploratoria para ver los datos, lo que permite a las empresas identificar patrones en grandes volúmenes de datos más rápidamente en comparación con la observación manual. Algunas de las aplicaciones más comunes del aprendizaje no supervisado en el mundo real son:

  • Secciones de noticias: Google News utiliza el aprendizaje no supervisado para categorizar artículos sobre la misma historia de diversos medios de noticias en línea. Por ejemplo, los resultados de una elección presidencial podrían ser categorizados bajo su etiqueta para noticias “estadounidenses”.

  • Visión por computadora: los algoritmos de aprendizaje no supervisado se emplean para tareas de percepción visual, como el reconocimiento de objetos.

  • Imágenes médicas: el machine learning no supervisado proporciona características esenciales a los dispositivos de imágenes médicas, como detección, clasificación y segmentación de imágenes, utilizadas en radiología y patología para diagnosticar a los pacientes de manera rápida y precisa.

  • Detección de anomalías: los modelos de aprendizaje no supervisado pueden explorar grandes cantidades de datos y descubrir puntos de datos atípicos dentro de un conjunto de datos. Estas anomalías pueden generar visibilidad sobre equipos defectuosos, errores humanos o fallos de seguridad.

  • Perfiles de los clientes: definir los perfiles de los clientes facilita la comprensión de los rasgos comunes y los hábitos de compra de los clientes empresariales. El aprendizaje no supervisado permite a las empresas crear mejores perfiles de buyer persona, para que las organizaciones puedan alinear los mensajes de sus productos de manera más adecuada.

  • Motores de recomendación: mediante datos de comportamiento de compra anteriores, el aprendizaje no supervisado puede ayudar a descubrir tendencias de datos que se pueden emplear para desarrollar estrategias de venta cruzada más efectivas. Se utiliza para hacer recomendaciones de complementos relevantes a los clientes durante el proceso de pago para los minoristas en línea.
Mixture of Experts | 28 de agosto, episodio 70

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Aprendizaje no supervisado, supervisado y semisupervisado

El aprendizaje no supervisado y el aprendizaje supervisado se analizan juntos con frecuencia. A diferencia de los algoritmos de aprendizaje no supervisado, los algoritmos de aprendizaje supervisado utilizan datos etiquetados. A partir de esos datos, predice resultados futuros o asigna datos a categorías específicas en función del problema de regresión o clasificación que está tratando de resolver.

Si bien los algoritmos de aprendizaje supervisado tienden a ser más precisos que los modelos de aprendizaje no supervisado, requieren una intervención humana por adelantado para etiquetar los datos de manera adecuada. Sin embargo, estos conjuntos de datos etiquetados permiten que los algoritmos de aprendizaje supervisado eviten la complejidad computacional, ya que no necesitan un gran conjunto de capacitación para producir los resultados previstos. Las técnicas comunes de regresión y clasificación son la regresión lineal y logística, el algoritmo Bayes ingenuo, el algoritmo KNN y el bosque aleatorio.

El aprendizaje semisupervisado se produce cuando solo se ha etiquetado una parte de los datos de entrada dados. El aprendizaje no supervisado y semisupervisado puede ser una alternativa más atractiva, ya que puede llevar mucho tiempo y ser costoso confiar en la experiencia del dominio para etiquetar los datos adecuadamente para el aprendizaje supervisado.

Para profundizar en las diferencias entre estos enfoques, consulte "Aprendizaje supervisado vs. no supervisado: ¿cuál es la diferencia?"

Desafíos del aprendizaje no supervisado

Aunque el aprendizaje no supervisado tiene muchos beneficios, pueden surgir algunos problemas cuando permite que los modelos de machine learning se ejecuten sin intervención humana. Algunos de estos retos pueden ser:

  • Complejidad computacional debido a un gran volumen de datos de entrenamiento

  • Tiempos de entrenamiento más largos

  • Mayor riesgo de resultados inexactos

  • Intervención humana para validar variables de resultados

  • Falta de transparencia en la base sobre la que se agruparon los datos
Soluciones relacionadas
IBM® watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo