¿Qué es el aprendizaje supervisado?

Autores

Staff writer

Staff Editor, AI Models

IBM Think

¿Qué es el aprendizaje supervisado?

El aprendizaje supervisado es una técnica de machine learning que utiliza conjuntos de datos etiquetados para entrenar modelos de inteligencia artificial (IA) para identificar los patrones y relaciones subyacentes. El objetivo del proceso de aprendizaje es crear un modelo que pueda predecir resultados correctos sobre nuevos datos del mundo real.

Los conjuntos de datos etiquetados consisten en puntos de datos de muestra junto con los resultados o respuestas correctos. A medida que los datos de entrada se introducen en el algoritmo de machine learning, ajusta sus parámetros hasta que el modelo se haya ajustado adecuadamente. Los datos de entrenamiento etiquetados proporcionan una"verdad fundamental", enseñando explícitamente al modelo a identificar las relaciones entre las características y las etiquetas de datos.

El machine learning supervisado ayuda a las organizaciones a resolver diversos problemas del mundo real a escala, como clasificar el spam o predecir los precios de las acciones. Se puede utilizar para crear modelos de aprendizaje automático de alta precisión.

¿Qué son los datos de verdad fundamental?

Los datos reales se verifican contra resultados del mundo real, a menudo mediante anotaciones o mediciones humanas, y se utilizan para entrenar, validar y probar modelos. Como su nombre lo indica, se ha confirmado que los datos de verdad fundamental son ciertos: reflejan valores y resultados del mundo real. La verdad fundamental refleja los resultados ideales para cualquier dato de entrada dado.

El aprendizaje supervisado se basa en datos reales para enseñar a un modelo las relaciones entre entradas y salidas. Los conjuntos de datos etiquetados utilizados en el aprendizaje supervisado son datos reales. Los modelos entrenados aplican su comprensión de esos datos para hacer predicciones basadas en datos nuevos no vistos.

Boletín de la industria

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Cómo funciona el aprendizaje supervisado

Las técnicas de aprendizaje supervisado utilizan un conjunto de datos de entrenamiento etiquetado para comprender las relaciones entre los datos de entrada y salida. Los científicos de datos crean manualmente conjuntos de datos de entrenamiento de verdad fundamental que contienen datos de entrada junto con las etiquetas correspondientes. El aprendizaje supervisado entrena al modelo para aplicar los resultados correctos a datos no vistos en casos de uso del mundo real.

Durante el entrenamiento, el algoritmo del modelo procesa grandes conjuntos de datos para explorar posibles correlaciones entre entradas y salidas. Luego, el rendimiento del modelo se evalúa con datos de prueba para averiguar si se entrenó correctamente. La validación cruzada es el proceso de probar un modelo con una parte diferente del conjunto de datos.

La familia de algoritmos de descenso de gradiente, incluido el descenso de gradiente estocástico (SGD), son los algoritmos de optimización, o algoritmos de aprendizaje, más utilizados cuando se entrenan modelos de redes neuronales y otros modelos machine learning. El algoritmo de optimización del modelo evalúa la precisión a través de la función de pérdida: una ecuación que mide la discrepancia entre las predicciones del modelo y los valores reales.

La función de pérdida mide qué tan lejos están las predicciones de los valores reales. Su gradiente indica la dirección en la que se deben ajustar los parámetros del modelo para reducir el error. A lo largo del entrenamiento, el algoritmo de optimización actualiza los parámetros del modelo (sus reglas operativas o "configuraciones") para optimizar el modelo.

Debido a que los grandes conjuntos de datos suelen contener muchas características, los científicos de datos pueden simplificar esta complejidad mediante la reducción de la dimensionalidad. Esta técnica de ciencia de datos reduce el número de características a las más cruciales para predecir las etiquetas de los datos, lo que preserva la precisión y aumenta la eficiencia.

Un ejemplo de aprendizaje supervisado en acción

Como ejemplo de aprendizaje supervisado, considere un modelo de clasificación de imágenes creado para reconocer imágenes de vehículos y determinar qué tipo de vehículo son. Este modelo puede impulsar las pruebas de CAPTCHA que utilizan muchos sitios web para detectar bots de spam.

Para entrenar este modelo, los científicos de datos preparan un conjunto de datos de entrenamiento etiquetado que contiene numerosos ejemplos de vehículos junto con el tipo de vehículo correspondiente: automóvil, motocicleta, camión, bicicleta y otros. El algoritmo del modelo intenta identificar los patrones en los datos de entrenamiento que hacen que una entrada (imágenes de vehículos) reciba una salida designada (tipo de vehículo).

Las conjeturas del modelo se miden contra valores de datos reales en un conjunto de prueba para determinar si hizo predicciones precisas. En caso contrario, el ciclo de entrenamiento continúa hasta que el rendimiento del modelo alcance un nivel satisfactorio de precisión. El principio de generalización se refiere a la capacidad de un modelo para realizar predicciones apropiadas sobre datos nuevos de la misma distribución que sus datos de entrenamiento.

AI Academy

Ponga la IA a trabajar para servicio al cliente

Vea cómo la IA generativa puede satisfacer a los clientes con una experiencia más fluida y aumentar la productividad de la organización en estas tres áreas clave: autoservicio, agentes humanos y operaciones del centro de contacto.

Ir al episodio

Tipos de aprendizaje supervisado

Las tareas de aprendizaje supervisado se pueden dividir ampliamente en problemas de clasificación y regresión:

Clasificación

La clasificación en machine learning utiliza un algoritmo para ordenar los datos en categorías. Reconoce entidades específicas dentro del conjunto de datos e intenta establecer cómo deben etiquetarse o definirse esas entidades. Los algoritmos de clasificación comunes son clasificadores lineales, máquinas de vectores de soporte (SVM), árboles de decisión, k-vecino más cercano (KNN), regresión logística y bosque aleatorio.

Las redes neuronales se destacan en el manejo de problemas complejos de clasificación. Una red neuronal es una arquitectura de aprendizaje profundo que procesa datos de entrenamiento con capas de nodos que imitan el cerebro humano. Cada nodo se compone de entradas, ponderaciones, un sesgo (o umbral) y una salida. Si un valor de salida supera un umbral preestablecido, el nodo se "dispara" o activa, y pasa los datos a la siguiente capa de la red.

Regresión

La regresión se utiliza para comprender la relación entre variables dependientes e independientes. En los problemas de regresión, la salida es un valor continuo y los modelos intentan predecir la salida objetivo. Las tareas de regresión incluyen proyecciones de ingresos por ventas o planificación financiera.

Los algoritmos de regresión incluyen regresión lineal, regresión de lasso, regresión de cresta y regresión polinomial.

Aprendizaje en conjunto

El aprendizaje por conjuntos es un metaenfoque del aprendizaje supervisado en el que se entrenan varios modelos en la misma tarea de clasificación o regresión. Los resultados de todos los modelos del grupo se agregan para descubrir el mejor enfoque general para resolver el desafío.

Los algoritmos individuales dentro del modelo de conjunto más amplio se conocen como aprendices débiles o modelos base. Algunos aprendices débiles tienen un alto sesgo, mientras que otros tienen una alta varianza. En teoría, los resultados mitigan la compensación sesgo-varianza al combinar las mejores partes de cada uno.

Algoritmos de aprendizaje supervisado

Los algoritmos de optimización, como el descenso de gradiente, entrenan una amplia gama de algoritmos de machine learning que se destacan en tareas de aprendizaje supervisado.

Naive Bayes: Naive Bayes es un algoritmo de clasificación que adopta el principio de independencia condicional de clase del teorema de Bayes. Esto significa que la presencia de una característica no afecta la presencia de otra en la probabilidad de un resultado, y cada predictor tiene el mismo efecto en ese resultado.

Los clasificadores Naive Bayes incluyen multinomial, Bernoulli y Gaussian Naive Bayes. Esta técnica se emplea a menudo en la clasificación de textos, la identificación de spam y los sistemas de recomendación.

Regresión lineal: la regresión lineal se utiliza para identificar la relación entre una variable dependiente continua y una o más variables independientes. Por lo general, se utiliza para hacer predicciones sobre resultados futuros.

La regresión lineal expresa la relación entre variables como una línea recta. Cuando solo hay una variable independiente y una variable dependiente, se le conoce como regresión lineal simple. A medida que aumenta el número de variables independientes, la técnica se denomina regresión lineal múltiple.

Regresión no lineal: a veces, una salida no se puede reproducir a partir de entradas lineales. En estos casos, las salidas se deben modelar con una función no lineal. La regresión no lineal expresa una relación entre variables a través de una línea no lineal o curva. Los modelos no lineales pueden manejar relaciones complejas con muchos parámetros.

Regresión logística: la regresión logística maneja variables dependientes categóricas, cuando tienen resultados binarios, como verdadero o falso o positivo o negativo. Si bien los modelos de regresión lineal y logística buscan comprender las relaciones entre las entradas de datos, la regresión logística se utiliza principalmente para resolver problemas de clasificación binaria, como la identificación de spam.

Regresión polinómica: al igual que otros modelos de regresión, la regresión polinómica modela una relación entre las variables de un gráfico. Las funciones empleadas en la regresión polinómica expresan esta relación a través de un grado exponencial. La regresión polinomial es un caso especial de regresión en el que las características de entrada se elevan a potencias, lo que permite que los modelos lineales se ajusten a patrones no lineales.

Máquina de vectores de soporte (SVM): una máquina de vectores de soporte se utiliza tanto para la clasificación como para la regresión de datos. Dicho esto, generalmente maneja problemas de clasificación. Aquí, la SVM separa las clases de puntos de datos con un límite de decisión o hiperplano. El objetivo del algoritmo SVM es trazar el hiperplano que maximiza la distancia entre los grupos de puntos de datos.

K-vecino más cercano: k-vecino más cercano (KNN) es un algoritmo no paramétrico que clasifica los puntos de datos en función de su proximidad y asociación con otros datos disponibles. Este algoritmo supone que se pueden encontrar puntos de datos similares cerca unos de otros cuando se grafican matemáticamente.

Su facilidad de uso y bajo tiempo de cálculo lo hacen eficiente cuando se utiliza para motores de recomendación y reconocimiento de imágenes. Pero a medida que el conjunto de datos de prueba crece, el tiempo de procesamiento se alarga, lo que lo hace menos atractivo para las tareas de clasificación.

Bosque aleatorio: un bosque aleatorio es un algoritmo flexible de machine learning supervisado que se utiliza tanto para fines de clasificación como de regresión. El "bosque" hace referencia a una colección de árboles de decisión no correlacionados que se fusionan para reducir la varianza y aumentar la precisión.

Aprendizaje supervisado frente a otros métodos de aprendizaje

El aprendizaje supervisado no es el único método de aprendizaje para entrenar modelos de machine learning. Otros tipos de machine learning incluyen:

Aprendizaje no supervisado

Aprendizaje semisupervisado

Aprendizaje autosupervisado

Aprendizaje por refuerzo

Aprendizaje supervisado frente a aprendizaje no supervisado

La diferencia entre el aprendizaje supervisado y el aprendizaje no supervisado es que el machine learning no supervisado utiliza datos no etiquetados sin ninguna verdad fundamental objetiva. Se deja que el modelo descubra patrones y relaciones en los datos por sí solo. Muchos modelos de IA generativa se entrenan inicialmente con aprendizaje no supervisado y luego con aprendizaje supervisado para aumentar la experiencia en el dominio.

El aprendizaje no supervisado puede ayudar a resolver problemas de agrupación en clústeres o asociación en los que las propiedades comunes dentro de un conjunto de datos son inciertas. Los algoritmos de agrupación en clústeres comunes son jerárquicos, K-medias y modelos de mezclas gaussianas.

Ventajas del aprendizaje no supervisado

Análisis exploratorio: el aprendizaje no supervisado es útil cuando no se sabe “qué buscar”. Puede encontrar estructuras ocultas o anomalías en los datos que los humanos podrían no esperar.
Sin etiquetado de datos: la mayoría de los datos del mundo real no están etiquetados, y etiquetar los datos requiere mucho tiempo y esfuerzo.
Flexibilidad: los modelos de aprendizaje no supervisados pueden adaptarse rápidamente a nuevos datos debido a su capacidad para procesar datos de forma autónoma.
Escalabilidad: sin la necesidad de etiquetas de verdad fundamental, las técnicas de aprendizaje no supervisado son fácilmente escalables a conjuntos de datos masivos.

Contras del aprendizaje no supervisado

Resultados imprecisos: sin la base de la verdad fundamental, es menos claro de inmediato si un modelo de aprendizaje no supervisado se ha entrenado correctamente.
Sensibilidad: los conjuntos de datos ruidosos pueden afectar negativamente los resultados del entrenamiento. La ingeniería de características puede ayudar a normalizar los conjuntos de datos para un aprendizaje no supervisado más fluido.
Confianza en buenos datos: todo entrenamiento necesita buenos datos. Pero sin ninguna verdad fundamental objetiva, el sesgo u otros errores en los datos pueden dar lugar a modelos que refuercen esos malentendidos.

Aprendizaje supervisado frente a aprendizaje semisupervisado

El aprendizaje semisupervisado implica entrenar un modelo en una pequeña porción de datos de entrada etiquetados junto con una porción más grande de datos no etiquetados. Debido a que puede llevar mucho tiempo y ser costoso confiar en la experiencia del dominio para etiquetar los datos adecuadamente para el aprendizaje supervisado, el aprendizaje semisupervisado puede ser una alternativa atractiva.

Ventajas del aprendizaje semisupervisado

Menos dependiente del etiquetado: en comparación con el aprendizaje supervisado, el aprendizaje semisupervisado requiere menos etiquetado, lo que reduce las barreras de entrada para el entrenamiento de modelos.
Descubrimiento de patrones ocultos: al igual que el aprendizaje no supervisado, el uso de datos no etiquetados por parte del aprendizaje semisupervisado puede llevar al descubrimiento de patrones, relaciones y anomalías que de otro modo podrían pasar desapercibidas.
Más flexible: el aprendizaje semisupervisado crea una base a través de datos de verdad fundamental y luego los aumenta con conjuntos de datos sin etiquetar para hacer que los modelos sean más generalizables.

Contras del aprendizaje semisupervisado

Sensibilidad al ruido: los conjuntos de datos sin etiquetar con altos grados de ruido pueden alterar los resultados del entrenamiento, debilitando el rendimiento del modelo.
Sensibilidad al sesgo: si los conjuntos de datos no etiquetados no se analizan en busca de sesgos implícitos, esos sesgos pueden transferirse a los modelos que se están entrenando.
Más complejo: reunir datos etiquetados y no etiquetados en un solo proceso de entrenamiento puede implicar técnicas complejas de procesamiento de datos o requerir más recursos computacionales.

Aprendizaje supervisado frente a aprendizaje autosupervisado

El aprendizaje autosupervisado (SSL) a menudo se describe como un aprendizaje puente supervisado y no supervisado. En lugar de utilizar las etiquetas creadas manualmente de conjuntos de datos de aprendizaje supervisado, las tareas SSL se configuran para que el modelo pueda generar sus propias señales de supervisión (implícitas o pseudoetiquetas) y discernir la verdad fundamental de los datos no estructurados. Luego, la función de pérdida del modelo utiliza esas etiquetas en lugar de etiquetas reales para evaluar el rendimiento del modelo.

SSL se utiliza a menudo con el aprendizaje por transferencia, un proceso en el que se aplica un modelo previamente entrenado a una tarea posterior. El aprendizaje autosupervisado tiene un uso generalizado en tareas de visión artificial y procesamiento de lenguaje natural (PLN) que requieren grandes conjuntos de datos que son prohibitivamente costosos y requieren mucho tiempo para etiquetarlos.

Ventajas del aprendizaje autosupervisado

Eficiencia: en lugar de que los científicos de datos etiqueten los puntos de datos, SSL automatiza el proceso de etiquetado transfiriendo la tarea al modelo.
Escalabilidad: la menor dependencia de SSL en el etiquetado manual de datos se presta bien para escalar con grupos más grandes de datos sin etiquetar.
Baja dependencia del etiquetado: en los casos en que los datos de verdad fundamental etiquetados son escasos, SSL compensa el déficit a través de la comprensión generada por el modelo.
Versatilidad: los modelos autosupervisados aprenden características ricas y transferibles que se pueden ajustar para muchas tareas multimodales y específicas del dominio.

Contras del aprendizaje autosupervisado

Computación intensiva: procesar conjuntos de datos sin etiquetar y generar etiquetas requiere mucha potencia informática.
Complejo: el proceso de creación de tareas de pretexto para el aprendizaje supervisado (la fase inicial de aprendizaje) requiere un alto grado de experiencia.
Potencialmente poco confiable: como cualquier técnica de aprendizaje que elimina la supervisión humana, los resultados dependen de que los datos estén libres de exceso de ruido, sesgos implícitos y otros factores que pueden afectar negativamente la comprensión del modelo.

Aprendizaje supervisado frente a aprendizaje por refuerzo

El aprendizaje por refuerzo entrena a agentes autónomos, como robots y automóviles autónomos, para tomar decisiones a través de interacciones ambientales. El aprendizaje por refuerzo no utiliza datos etiquetados y también difiere del aprendizaje no supervisado en que enseña por prueba y error y recompensa, no mediante la identificación de patrones subyacentes dentro de los conjuntos de datos.

Ventajas del aprendizaje por refuerzo

Resuelve tareas complejas: el proceso de entrenamiento de prueba y error puede llevar a un modelo a descubrir cómo abordar desafíos estratégicos complejos.
No depende del etiquetado: los modelos aprenden experimentalmente, no teóricamente a través de la coincidencia de entradas con salidas.
Autocorrección: los modelos perfeccionan su propio comportamiento a medida que se equivocan durante el entrenamiento.
Adaptable: los modelos pueden adaptarse a la nueva información y a las circunstancias cambiantes en las que los resultados no están predefinidos.

Contras del aprendizaje por refuerzo

Propenso a resultados incongruentes: el aprendizaje por prueba y error puede parecer desordenado e impredecible, especialmente cuando se comienza a entrenar.
Necesidades de datos ambientales: el aprendizaje por refuerzo requiere que los modelos aprendan de las consecuencias de sus acciones, lo que a su vez requiere grandes cantidades de datos ambientales. Sin embargo, los agentes también pueden aprender en entornos simulados.
Hackeo de recompensas: los modelos pueden explotar lagunas en el algoritmo de recompensas para generar recompensas sin cumplir adecuadamente sus tareas.
Específico de la tarea: el aprendizaje por refuerzo sobresale en los modelos de entrenamiento para una función específica. Esos modelos pueden tener dificultades para transferir lo que han aprendido a nuevas tareas.

Casos de uso de aprendizaje supervisado en el mundo real

Los modelos de aprendizaje supervisado pueden crear y hacer avanzar aplicaciones empresariales, entre ellas:

Reconocimiento de imágenes y objetos: los algoritmos de aprendizaje supervisado se pueden utilizar para localizar, aislar y categorizar objetos a partir de videos o imágenes, lo que los hace útiles con tareas de visión artificial y análisis de imágenes.

Análisis predictivos: los modelos de aprendizaje supervisado crean sistemas de análisis predictivos para proporcionar insights. Esto permite a las empresas anticipar resultados en función de una variable de resultados y tomar decisiones basadas en datos, lo que a su vez ayuda a los líderes empresariales a justificar sus decisiones o a cambiar para el beneficio de la organización.

La regresión también permite a los proveedores de atención médica predecir resultados basados en los criterios del paciente y en datos históricos. Un modelo predictivo podría evaluar el riesgo de un paciente de padecer una enfermedad o condición específica con base en sus datos biológicos y de estilo de vida.

Análisis del sentimiento del cliente: las organizaciones pueden extraer y clasificar información importante de grandes volúmenes de datos, incluidos el contexto, la emoción y la intención, con una intervención humana mínima. El análisis de sentimiento proporciona una mejor comprensión de las interacciones con los clientes y puede utilizarse para mejorar los esfuerzos de interacción con la marca.

Segmentación de clientes: los modelos de regresión pueden predecir el comportamiento del cliente con base en diversos rasgos y tendencias históricas. Las empresas pueden usar modelos predictivos para segmentar su base de clientes y crear perfiles de compradores para mejorar los esfuerzos de marketing y el desarrollo de productos.

Detección de spam: la detección de spam es otro ejemplo de modelo de aprendizaje supervisado. Mediante algoritmos de clasificación supervisados, las organizaciones pueden entrenar bases de datos para reconocer patrones o anomalías en nuevos datos y así organizar de manera efectiva el spam y la correspondencia no relacionada con el spam.

Forecasting: los modelos regresivos sobresalen en el forecasting basado en tendencias históricas, lo cual los vuelve adecuados para su uso en las industrias. Las empresas también pueden usar la regresión para predecir las necesidades de inventario, estimar los salarios de los empleados y evitar posibles contratiempos en la cadena de suministro.

Motores de recomendación: con los modelos de aprendizaje supervisado en juego, los proveedores de contenido y los mercados en línea pueden analizar las opciones, preferencias y compras de los clientes y crear motores de recomendación que ofrezcan recomendaciones personalizadas con más probabilidades de generar conversiones.

Desafíos del aprendizaje supervisado

Aunque el aprendizaje supervisado puede ofrecer ventajas a las empresas, como insights profundos de datos y automatización mejorada, puede que no sea la mejor opción para todas las situaciones.

Limitaciones de personal: los modelos de aprendizaje supervisado pueden requerir ciertos niveles de experiencia para estructurarse con precisión.

Participación humana: los modelos de aprendizaje supervisado son incapaces de tener un autoaprendizaje. Los científicos de datos deben validar los resultados del rendimiento de los modelos.

Requisitos de tiempo: los conjuntos de datos de entrenamiento son grandes y deben etiquetarse manualmente, lo que hace que el proceso de aprendizaje supervisado requiera mucho tiempo.

Inflexibilidad: los modelos de aprendizaje supervisado tienen dificultades para etiquetar los datos fuera de los límites de sus conjuntos de datos de entrenamiento. Un modelo de aprendizaje no supervisado podría ser más capaz de manejar nuevos datos.

Sesgo: los conjuntos de datos corren el riesgo de tener una mayor probabilidad de error humano y sesgo, lo que da como resultado que los algoritmos aprendan incorrectamente. El sesgo puede surgir de conjuntos de datos de entrenamiento desequilibrados, prácticas de anotación deficientes o desigualdades históricas reflejadas en los datos.

Sobreajuste: el aprendizaje supervisado a veces puede dar lugar a un sobreajuste: cuando un modelo se adapta demasiado a su conjunto de datos de entrenamiento. Una alta precisión en el entrenamiento puede indicar un exceso de ajuste, en contraposición a un rendimiento generalmente bueno. Para evitar el sobreajuste, es necesario probar los modelos con datos diferentes de los datos de entrenamiento.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

¿Qué es el aprendizaje supervisado?

Autores

¿Qué es el aprendizaje supervisado?

¿Qué son los datos de verdad fundamental?

Las últimas tendencias de IA presentadas por expertos

¡Gracias! Ya está suscrito.

Cómo funciona el aprendizaje supervisado

Un ejemplo de aprendizaje supervisado en acción

Ponga la IA a trabajar para servicio al cliente

Tipos de aprendizaje supervisado

Clasificación

Regresión

Aprendizaje en conjunto

Algoritmos de aprendizaje supervisado

Aprendizaje supervisado frente a otros métodos de aprendizaje

Aprendizaje supervisado frente a aprendizaje no supervisado

Ventajas del aprendizaje no supervisado

Contras del aprendizaje no supervisado

Aprendizaje supervisado frente a aprendizaje semisupervisado

Ventajas del aprendizaje semisupervisado

Contras del aprendizaje semisupervisado

Aprendizaje supervisado frente a aprendizaje autosupervisado

Ventajas del aprendizaje autosupervisado

Contras del aprendizaje autosupervisado

Aprendizaje supervisado frente a aprendizaje por refuerzo

Ventajas del aprendizaje por refuerzo

Contras del aprendizaje por refuerzo

Casos de uso de aprendizaje supervisado en el mundo real

Desafíos del aprendizaje supervisado

Recursos