El aprendizaje supervisado es una técnica de machine learning que utiliza conjuntos de datos de entrada y salida etiquetados por humanos para entrenar modelos de inteligencia artificial. El modelo entrenado aprende las relaciones subyacentes entre entradas y salidas, lo que le permite predecir salidas correctas basadas en datos de entrada nuevos y no etiquetados del mundo real.
Los datos etiquetados consisten en puntos de datos de ejemplo junto con los resultados o respuestas correctas. A medida que los datos de entrada se introducen en el algoritmo de machine learning, este ajusta sus pesos hasta que el modelo se haya ajustado adecuadamente. Los datos de entrenamiento etiquetados enseñan explícitamente al modelo a identificar las relaciones entre las características y las etiquetas de datos.
El machine learning supervisado ayuda a las organizaciones a resolver diversos problemas del mundo real a escala, como clasificar el spam o predecir los precios de las acciones. Se puede utilizar para crear modelos de machine learning de alta precisión.
El aprendizaje supervisado utiliza un conjunto de datos de entrenamiento etiquetado para comprender las relaciones entre los datos de entrada y salida. Los científicos de datos crean manualmente conjuntos de datos de entrenamiento que contienen datos de entrada junto con las etiquetas correspondientes. El aprendizaje supervisado entrena al modelo para aplicar los resultados correctos a nuevos datos de entrada en casos de uso del mundo real.
Durante el entrenamiento, el algoritmo del modelo procesa grandes conjuntos de datos para explorar posibles correlaciones entre entradas y salidas. Luego, el rendimiento del modelo se evalúa con datos de prueba para averiguar si se entrenó correctamente. La validación cruzada es el proceso de probar un modelo con una parte diferente del conjunto de datos.
La familia de algoritmos de descenso de gradiente, incluido el descenso de gradiente estocástico (SGD), son los algoritmos de optimización, o algoritmos de aprendizaje, más utilizados cuando se entrenan modelos de redes neuronales y otros modelos machine learning. El algoritmo de optimización del modelo evalúa la precisión a través de la función de pérdida: una ecuación que mide la discrepancia entre las predicciones del modelo y los valores reales.
La pendiente, o gradiente, de la función de pérdida es la métrica principal del rendimiento del modelo. El algoritmo de optimización desciende el gradiente para minimizar su valor. A lo largo del entrenamiento, el algoritmo de optimización actualiza los parámetros del modelo (sus reglas operativas o "configuraciones") para optimizar el modelo.
Un proceso típico de aprendizaje supervisado podría verse así:
Como ejemplo de aprendizaje supervisado, considere un modelo de clasificación de imágenes creado para reconocer imágenes de vehículos y determinar qué tipo de vehículo son. Este modelo puede impulsar las pruebas de CAPTCHA que utilizan muchos sitios web para detectar bots de spam.
Para entrenar este modelo, los científicos de datos preparan un conjunto de datos de entrenamiento etiquetado que contiene numerosos ejemplos de vehículos junto con el tipo de vehículo correspondiente: automóvil, motocicleta, camión, bicicleta y otros. El algoritmo del modelo intenta identificar los patrones en los datos de entrenamiento que hacen que una entrada (imágenes de vehículos) reciba una salida designada (tipo de vehículo).
Las conjeturas del modelo se miden contra valores de datos reales en un conjunto de prueba para determinar si hizo predicciones precisas. En caso contrario, el ciclo de entrenamiento continúa hasta que el rendimiento del modelo alcance un nivel satisfactorio de precisión. El principio de generalización se refiere a la capacidad de un modelo para realizar predicciones apropiadas sobre datos nuevos de la misma distribución que sus datos de entrenamiento.
Las tareas de aprendizaje supervisado se pueden dividir ampliamente en problemas de clasificación y regresión:
La clasificación en machine learning utiliza un algoritmo para ordenar los datos en categorías. Reconoce entidades específicas dentro del conjunto de datos e intenta establecer cómo deben etiquetarse o definirse esas entidades. Los algoritmos de clasificación comunes son clasificadores lineales, máquinas de vectores de soporte (SVM), árboles de decisión, k-vecinos más cercanos y bosque aleatorio.
Las redes neuronales se destacan en el manejo de problemas complejos de clasificación. Una red neuronal es una arquitectura de aprendizaje profundo que procesa datos de entrenamiento con capas de nodo que imitan el cerebro humano. Cada nodo se compone de entradas, ponderaciones, un sesgo (o umbral) y una salida. Si un valor de salida supera un umbral preestablecido, el nodo se "dispara" o activa, y pasa los datos a la siguiente capa de la red.
La regresión se utiliza para comprender la relación entre variables dependientes e independientes. En los problemas de regresión, la salida es un valor continuo y los modelos intentan predecir la salida objetivo. Las tareas de regresión incluyen proyecciones de ingresos por ventas o planificación financiera. La regresión lineal, la regresión logística y la regresión polinomial son tres ejemplos de algoritmos de regresión.
Debido a que los grandes conjuntos de datos suelen contener muchas características, los científicos de datos pueden simplificar esta complejidad mediante la reducción de la dimensionalidad. Esta técnica de ciencia de datos reduce el número de características a las más cruciales para predecir las etiquetas de los datos, lo que preserva la precisión y aumenta la eficiencia.
Los algoritmos de optimización, como el descenso de gradiente, entrenan una amplia gama de algoritmos de machine learning que se destacan en tareas de aprendizaje supervisado.
Naive Bayes: Naive Bayes es un algoritmo de clasificación que adopta el principio de independencia condicional de clase del teorema de Bayes. Esto significa que la presencia de una característica no afecta la presencia de otra en la probabilidad de un resultado, y cada predictor tiene el mismo efecto en ese resultado.
Los clasificadores Naive Bayes incluyen multinomial, Bernoulli y Gaussian Naive Bayes. Esta técnica se emplea a menudo en la clasificación de textos, la identificación de spam y los sistemas de recomendación.
Regresión lineal: la regresión lineal se utiliza para identificar la relación entre una variable dependiente continua y una o más variables independientes. Por lo general, se utiliza para hacer predicciones sobre resultados futuros.
La regresión lineal expresa la relación entre variables como una línea recta. Cuando solo hay una variable independiente y una variable dependiente, se le conoce como regresión lineal simple. A medida que aumenta el número de variables independientes, la técnica se denomina regresión lineal múltiple.
Regresión no lineal: a veces, una salida no se puede reproducir a partir de entradas lineales. En estos casos, las salidas se deben modelar con una función no lineal. La regresión no lineal expresa una relación entre variables a través de una línea no lineal o curva. Los modelos no lineales pueden manejar relaciones complejas con muchos parámetros.
Regresión logística: la regresión logística maneja variables dependientes categóricas, cuando tienen resultados binarios, como verdadero o falso o positivo o negativo. Si bien los modelos de regresión lineal y logística buscan comprender las relaciones entre las entradas de datos, la regresión logística se utiliza principalmente para resolver problemas de clasificación binaria, como la identificación de spam.
Regresión polinómica: al igual que otros modelos de regresión, la regresión polinómica modela una relación entre las variables de un gráfico. Las funciones empleadas en la regresión polinómica expresan esta relación a través de un grado exponencial. La regresión polinómica es un subconjunto de la regresión no lineal.
Máquina de vectores de soporte (SVM): una máquina de vectores de soporte se utiliza tanto para la clasificación como para la regresión de datos. Dicho esto, generalmente maneja problemas de clasificación. Aquí, la SVM separa las clases de puntos de datos con un límite de decisión o hiperplano. El objetivo del algoritmo SVM es trazar el hiperplano que maximiza la distancia entre los grupos de puntos de datos.
K-vecino más cercano: k-vecino más cercano (KNN) es un algoritmo no paramétrico que clasifica los puntos de datos en función de su proximidad y asociación con otros datos disponibles. Este algoritmo supone que se pueden encontrar puntos de datos similares cerca unos de otros cuando se grafican matemáticamente.
Su facilidad de uso y bajo tiempo de cálculo lo hacen eficiente cuando se utiliza para motores de recomendación y reconocimiento de imágenes. Pero a medida que el conjunto de datos de prueba crece, el tiempo de procesamiento se alarga, lo que lo hace menos atractivo para las tareas de clasificación.
Bosque aleatorio: bosque aleatorio es un algoritmo flexible de machine learning supervisado que se utiliza tanto para fines de clasificación como de regresión. El "bosque" hace referencia a una colección de árboles de decisión no correlacionados que se fusionan para reducir la varianza y aumentar la precisión.
El aprendizaje supervisado no es el único método de aprendizaje para entrenar modelos de machine learning. Otros tipos de machine learning incluyen:
Aprendizaje no supervisado
Aprendizaje semisupervisado
Aprendizaje autosupervisado
Aprendizaje por refuerzo
La diferencia entre el aprendizaje supervisado y el aprendizaje no supervisado es que el machine learning no supervisado utiliza datos no etiquetados. Se deja que el modelo descubra patrones y relaciones en los datos por sí solo. Muchos modelos de IA generativa se entrenan inicialmente con aprendizaje no supervisado y luego con aprendizaje supervisado para aumentar la experiencia en el dominio.
El aprendizaje no supervisado puede ayudar a resolver problemas de agrupación en clústeres o asociación en los que las propiedades comunes dentro de un conjunto de datos son inciertas. Los algoritmos de agrupación en clústeres comunes son jerárquicos, K-medias y modelos de mezclas gaussianas.
El aprendizaje semisupervisado etiqueta una parte de los datos de entrada. Debido a que puede llevar mucho tiempo y ser costoso confiar en la experiencia del dominio para etiquetar los datos adecuadamente para el aprendizaje supervisado, el aprendizaje semisupervisado puede ser una alternativa atractiva.
El aprendizaje autosupervisado (SSL) imita el aprendizaje supervisado con datos no etiquetados. En lugar de utilizar las etiquetas creadas manualmente de los conjuntos de datos de aprendizaje supervisado, las tareas de SSL se configuran para que el modelo pueda generar etiquetas implícitas a partir de datos no estructurados. Luego, la función de pérdida del modelo utiliza esas etiquetas en lugar de etiquetas reales para evaluar el rendimiento del modelo.
El aprendizaje autosupervisado tiene un uso generalizado en tareas de visión artificial y procesamiento de lenguaje natural (PLN) que requieren grandes conjuntos de datos que son prohibitivamente costosos y requieren mucho tiempo para etiquetarlos.
El aprendizaje por refuerzo entrena a agentes autónomos, como robots y automóviles autónomos, para tomar decisiones a través de interacciones ambientales. El aprendizaje por refuerzo no utiliza datos etiquetados y también difiere del aprendizaje no supervisado en que enseña por prueba y error y recompensa, no mediante la identificación de patrones subyacentes dentro de los conjuntos de datos.
Los modelos de aprendizaje supervisado pueden crear y hacer avanzar aplicaciones empresariales, entre ellas:
Reconocimiento de imágenes y objetos: los algoritmos de aprendizaje supervisado se pueden utilizar para localizar, aislar y categorizar objetos a partir de videos o imágenes, lo que los hace útiles con tareas de visión artificial y análisis de imágenes.
Análisis predictivos: los modelos de aprendizaje supervisado crean sistemas de análisis predictivos para proporcionar insights. Esto permite a las empresas anticipar resultados en función de una variable de resultados y tomar decisiones basadas en datos, lo que a su vez ayuda a los líderes empresariales a justificar sus decisiones o a cambiar para el beneficio de la organización.
La regresión también permite a los proveedores de atención médica predecir resultados basados en los criterios del paciente y en datos históricos. Un modelo predictivo podría evaluar el riesgo de un paciente de padecer una enfermedad o condición específica con base en sus datos biológicos y de estilo de vida.
Análisis del sentimiento del cliente: las organizaciones pueden extraer y clasificar información importante de grandes volúmenes de datos, incluidos el contexto, la emoción y la intención, con una intervención humana mínima. El análisis de sentimiento proporciona una mejor comprensión de las interacciones con los clientes y puede utilizarse para mejorar los esfuerzos de interacción con la marca.
Segmentación de clientes: los modelos de regresión pueden predecir el comportamiento del cliente con base en diversos rasgos y tendencias históricas. Las empresas pueden usar modelos predictivos para segmentar su base de clientes y crear perfiles de compradores para mejorar los esfuerzos de marketing y el desarrollo de productos.
Detección de spam: la detección de spam es otro ejemplo de modelo de aprendizaje supervisado. Mediante algoritmos de clasificación supervisados, las organizaciones pueden entrenar bases de datos para reconocer patrones o anomalías en nuevos datos y así organizar de manera efectiva el spam y la correspondencia no relacionada con el spam.
Forecasting: los modelos regresivos sobresalen en el forecasting basado en tendencias históricas, lo cual los vuelve adecuados para su uso en las industrias. Las empresas también pueden usar la regresión para predecir las necesidades de inventario, estimar los salarios de los empleados y evitar posibles contratiempos en la cadena de suministro.
Motores de recomendación: con los modelos de aprendizaje supervisado en juego, los proveedores de contenido y los mercados en línea pueden analizar las opciones, preferencias y compras de los clientes y crear motores de recomendación que ofrezcan recomendaciones personalizadas con más probabilidades de generar conversiones.
Aunque el aprendizaje supervisado puede ofrecer ventajas a las empresas, como insights profundos de datos y automatización mejorada, puede que no sea la mejor opción para todas las situaciones.
Limitaciones de personal: los modelos de aprendizaje supervisado pueden requerir ciertos niveles de experiencia para estructurarse con precisión.
Participación humana: los modelos de aprendizaje supervisado son incapaces de tener un autoaprendizaje. Los científicos de datos deben validar los resultados del rendimiento de los modelos.
Requisitos de tiempo: los conjuntos de datos de entrenamiento son grandes y deben etiquetarse manualmente, lo que hace que el proceso de aprendizaje supervisado requiera mucho tiempo.
Inflexibilidad: los modelos de aprendizaje supervisado tienen dificultades para etiquetar los datos fuera de los límites de sus conjuntos de datos de entrenamiento. Un modelo de aprendizaje no supervisado podría ser más capaz de manejar nuevos datos.
Sesgo: los conjuntos de datos corren el riesgo de tener una mayor probabilidad de error humano y sesgo, lo que da como resultado que los algoritmos aprendan incorrectamente.
Sobreajuste: el aprendizaje supervisado a veces puede dar lugar a un sobreajuste: cuando un modelo se adapta demasiado a su conjunto de datos de entrenamiento. Una alta precisión en el entrenamiento puede indicar un exceso de ajuste, en contraposición a un rendimiento generalmente bueno. Para evitar el sobreajuste, es necesario probar los modelos con datos diferentes de los datos de entrenamiento.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.