Aprendizaje supervisado frente a aprendizaje no supervisado: ¿cuál es la diferencia?

Fractal que parece una sinapsis con muchas terminaciones nerviosas

Autor

Julianna Delua

SME, IBM Analytics, Data Science/Machine Learning

El mundo es cada día más "inteligente" y, para mantenerse al día con las expectativas de los consumidores, las empresas utilizan cada vez más algoritmos de machine learning para facilitar las cosas. Puede verlos en uso en dispositivos de usuarios finales (a través del reconocimiento facial para desbloquear teléfonos inteligentes) o para detectar fraudes con tarjetas de crédito (como activar alertas para compras inusuales).

Dentro de la inteligencia artificial (IA) y el machine learning, existen dos enfoques básicos: el aprendizaje supervisado y el aprendizaje no supervisado. La principal diferencia es que uno utiliza datos etiquetados para ayudar a predecir los resultados, mientras que el otro no. Sin embargo, hay algunos matices entre los dos enfoques y áreas clave en las que uno supera al otro. Esta publicación aclara las diferencias para que pueda elegir el mejor enfoque para su situación.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Qué es el aprendizaje supervisado?

El aprendizaje supervisado es un enfoque de machine learning que se define por el uso de conjuntos de datos etiquetados. Estos conjuntos de datos están diseñados para entrenar o "supervisar" algoritmos para clasificar datos o predecir resultados con precisión. Mediante entradas y salidas etiquetadas, el modelo puede medir su precisión y aprender con el tiempo.

En la minería de datos, el aprendizaje supervisado puede dividirse en dos tipos de problemas: clasificación y regresión.

  • Los problemas de clasificación utilizan un algoritmo para asignar con precisión los datos de prueba en categorías específicas, como separar manzanas de naranjas. O, en el mundo real, se pueden usar algoritmos de aprendizaje supervisado para clasificar el spam en una carpeta separada de su bandeja de entrada. Los clasificadores lineales, las máquinas de vectores de soporte, los árboles de decisión y los bosques aleatorios son tipos comunes de algoritmos de clasificación.

  • La regresión es otro tipo de método de aprendizaje supervisado que emplea un algoritmo para comprender la relación entre variables dependientes e independientes. Los modelos de regresión son útiles para predecir valores numéricos basados en diferentes puntos de datos, como las proyecciones de ingresos por ventas para un negocio determinado. Algunos algoritmos de regresión populares son la regresión lineal, la regresión logística y la regresión polinomial.
AI Academy

Ponga la IA a trabajar para servicio al cliente

Vea cómo la IA generativa puede satisfacer a los clientes con una experiencia más fluida y aumentar la productividad de la organización en estas tres áreas clave: autoservicio, agentes humanos y operaciones del centro de contacto.

¿Qué es el aprendizaje no supervisado?

El aprendizaje no supervisado utiliza algoritmos de machine learning para analizar y agrupar conjuntos de datos no etiquetados. Estos algoritmos descubren patrones ocultos en los datos sin necesidad de intervención humana (por lo tanto, son "no supervisados").

Los modelos de aprendizaje no supervisado se utilizan para tres tareas principales: agrupación en clústeres, asociación y reducción de dimensionalidad:

  • La agrupación en clústeres es una técnica de minería de datos que agrupa datos sin etiquetar en función de sus similitudes o diferencias. Por ejemplo, los algoritmos de agrupación en clústeres K-means asignan puntos de datos similares en grupos, donde el valor K representa el tamaño de la agrupación y la granularidad. Esta técnica es útil para la segmentación del mercado, la compresión de imágenes, etc.

  • La asociación es otro tipo de método de aprendizaje no supervisado que utiliza reglas diferentes para encontrar relaciones entre variables en un conjunto de datos dado. Estos métodos se utilizan con frecuencia para el análisis de la canasta de la compra y los motores de recomendación, en la línea de las recomendaciones "Los clientes que compraron este artículo también compraron".

  • La reducción de la dimensionalidad es una técnica de aprendizaje que se utiliza cuando el número de características (o dimensiones) en un conjunto de datos determinado es demasiado alto. Reduce el número de entradas de datos a un tamaño manejable y, al mismo tiempo, preserva la integridad de los datos. A menudo, esta técnica se utiliza en la etapa de preprocesamiento de datos, como cuando los autocodificadores eliminan el ruido de los datos visuales para mejorar la calidad de la imagen.

La principal diferencia: datos etiquetados

La principal distinción entre los dos enfoques es el uso de conjuntos de datos etiquetados. En pocas palabras, el aprendizaje supervisado utiliza datos de entrada y salida etiquetados, mientras que un algoritmo de aprendizaje no supervisado no lo hace.

En el aprendizaje supervisado, el algoritmo "aprende" del conjunto de datos de entrenamiento haciendo predicciones iterativas sobre los datos y ajustándose a la respuesta correcta. Si bien los modelos de aprendizaje supervisado tienden a ser más precisos que los modelos de aprendizaje no supervisado, requieren una intervención humana inicial para etiquetar los datos adecuadamente. Por ejemplo, un modelo de aprendizaje supervisado puede predecir cuánto durará su viaje en función de la hora del día, las condiciones climáticas, etc. Pero primero, debe entrenarlo para saber que el clima lluvioso prolonga el tiempo de conducción.

Los modelos de aprendizaje no supervisado, por el contrario, funcionan por sí solos para descubrir la estructura inherente de los datos no etiquetados. Tenga en cuenta que aún requieren cierta intervención humana para validar las variables de salida. Por ejemplo, un modelo de aprendizaje no supervisado puede identificar que los compradores en línea a menudo compran grupos de productos al mismo tiempo. Sin embargo, un analista de datos tendría que validar que tiene sentido que un motor de recomendaciones agrupe la ropa de bebé con un pedido de pañales, puré de manzana y vasitos para sorber.

Otras diferencias clave

  • Objetivos: en el aprendizaje supervisado, el objetivo es predecir los resultados de los nuevos datos. Usted sabe de antemano el tipo de resultados que puede esperar. Con un algoritmo de aprendizaje no supervisado, el objetivo es obtener insights de grandes volúmenes de datos nuevos. El propio machine learning determina qué es diferente o interesante del conjunto de datos.

  • Aplicaciones: los modelos de aprendizaje supervisado son ideales para la detección de spam, el análisis de sentimientos, el forecasting y las predicciones de precios, entre otras cosas. Por el contrario, el aprendizaje no supervisado es ideal para la detección de anomalías, los motores de recomendación, los perfiles de clientes y las imágenes médicas.

  • Complejidad: el aprendizaje supervisado es un método simple para el machine learning, generalmente calculado mediante programas como R o Python. En el aprendizaje no supervisado, se necesitan herramientas potentes para trabajar con grandes cantidades de datos no clasificados. Los modelos de aprendizaje no supervisado son computacionalmente complejos porque necesitan un gran conjunto de entrenamiento para producir los resultados previstos.

  • Inconvenientes: los modelos de aprendizaje supervisado pueden llevar mucho tiempo para entrenarse, y las etiquetas para las variables de entrada y salida requieren experiencia. Mientras tanto, los métodos de aprendizaje no supervisados pueden tener resultados muy imprecisos a menos que haya intervención humana para validar las variables de salida.

Aprendizaje supervisado frente a aprendizaje no supervisado: ¿cuál es mejor para usted?

Elegir el enfoque adecuado para su situación depende de cómo sus científicos de datos evalúen la estructura y el volumen de sus datos, así como el caso de uso. Para tomar su decisión, asegúrese de hacer lo siguiente:

  • Evalúe sus datos de entrada: ¿son datos etiquetados o no etiquetados? ¿Tiene expertos que puedan respaldar el etiquetado adicional?

  • Defina sus objetivos: ¿tiene un problema recurrente y bien definido que resolver? ¿O el algoritmo necesitará predecir nuevos problemas?

  • Revise sus opciones para algoritmos: ¿hay algoritmos con la misma dimensionalidad que necesita (número de características, atributos o características)? ¿Pueden respaldar su volumen y estructura de datos?

Clasificar big data puede ser un verdadero desafío en el aprendizaje supervisado, pero los resultados son muy precisos y confiables. Por el contrario, el aprendizaje no supervisado puede manejar grandes volúmenes de datos en tiempo real. Pero hay una falta de transparencia sobre cómo se agrupan los datos y un mayor riesgo de resultados inexactos. Aquí es donde entra en juego el aprendizaje semisupervisado.

Aprendizaje semisupervisado: lo mejor de ambos mundos

¿No puede decidir si usar el aprendizaje supervisado o no supervisado? El aprendizaje semisupervisado es un término medio, en el que se utiliza un conjunto de datos de entrenamiento con datos etiquetados y no etiquetados. Es particularmente útil cuando es difícil extraer características relevantes de los datos y cuando tiene un gran volumen de datos.

El aprendizaje semisupervisado es ideal para imágenes médicas, donde una pequeña cantidad de datos de entrenamiento puede conducir a una mejora significativa en la precisión. Por ejemplo, un radiólogo puede etiquetar un pequeño subconjunto de tomografías computarizadas para tumores o enfermedades para que la máquina pueda predecir con mayor precisión qué pacientes podrían requerir más atención médica.

Aprenda más sobre el aprendizaje supervisado y no supervisado

Los modelos de machine learning son una forma poderosa de obtener los insights de datos que mejoran nuestro mundo. Para aprender más sobre los algoritmos específicos que se utilizan con el aprendizaje supervisado y no supervisado, le recomendamos que profundice en los artículos de Learn Hub sobre estas técnicas. También recomendamos consultar la entrada en el blog que va un paso más allá, con una visión detallada del aprendizaje profundo y las redes neuronales.

 

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo