Es el uso de conjuntos de datos etiquetados para entrenar algoritmos que clasifiquen datos o predigan resultados de forma precisa. A medida que los datos se introducen en el modelo, este ajusta sus ponderaciones hasta que dicho modelo se haya ajustado adecuadamente, como parte del proceso de validación cruzada.
El aprendizaje supervisado, también conocido como machine learning supervisado, es una subcategoría del machine learning y la inteligencia artificial.
El aprendizaje supervisado permite a las organizaciones resolver una amplia variedad de problemas del mundo real a escala como, por ejemplo, la clasificación de spam en una carpeta distinta de la bandeja de entrada.
Watson Studio
SPSS Statistics
El aprendizaje supervisado utiliza un conjunto de datos de entrenamiento para enseñar a los modelos a generar la salida deseada.
Este conjunto de datos incluye datos de entrada y resultados correctos, que permiten que el modelo aprenda con el tiempo. El algoritmo mide su precisión a través de la función de pérdida, ajustándose hasta que el error se haya minimizado lo suficiente.
El aprendizaje supervisado puede clasificarse en dos tipos de problemas durante la minería de datos:
Clasificación
La clasificación utiliza un algoritmo para asignar con precisión datos de prueba en categorías específicas.
Reconoce entidades específicas dentro del conjunto de datos e intenta sacar algunas conclusiones sobre cómo esas entidades deben etiquetarse o definirse. Los algoritmos de clasificación comunes son clasificadores lineales, máquinas de vectores de soporte (SVM), árboles de decisión, k vecinos más cercanos y bosques aleatorios, que se describen con más detalle a continuación.
La regresión se utiliza para comprender la relación entre variables dependientes e independientes.
Se utiliza comúnmente para hacer proyecciones, como los ingresos por ventas de un negocio determinado. Regresión lineal, regresión logística y regresión polinomial son algoritmos de regresión populares.
Se utilizan varios algoritmos y técnicas de cálculo en los procesos de machine learning supervisados.
A continuación, se muestran breves explicaciones de algunos de los métodos de aprendizaje más utilizados, normalmente calculados mediante el uso de programas como R o Python:
Redes neuronales
Las redes neuronales, que se utilizan principalmente para los algoritmos de deep learning, procesan los datos de entrenamiento imitando la interconectividad del cerebro humano a través de capas de nodos.
Cada nodo se compone de entradas, pesos, un sesgo (o umbral) y una salida. Si esa salida excede un umbral dado, "dispara" (o activa) el nodo, pasando datos a la siguiente capa en la red. Las redes neuronales aprenden esta función de mapeo a través del aprendizaje supervisado, ajustándose en función de la función de pérdida a través del proceso de descenso de gradiente.
Cuando la función de costo es igual o cercana a cero, podemos confiar en la precisión del modelo para obtener la respuesta correcta.
Naive bayes
Naive Bayes es un enfoque de clasificación que adopta el principio de independencia condicional de clase del Teorema de Bayes.
Esto significa que la presencia de una característica no afecta la presencia de otra en la probabilidad de un resultado dado, y cada predictor tiene el mismo efecto en ese resultado. Hay tres tipos de clasificadores bayesianos ingenuos: multinominal, de Bernoulli y Gaussiano.
Esta técnica se utiliza principalmente en la clasificación de texto, la identificación de spam y los sistemas de recomendación.
Regresión lineal
La regresión lineal se utiliza para identificar la relación entre una variable dependiente y una o más variables independientes, y normalmente se aprovecha para hacer predicciones sobre resultados futuros.
Cuando solo hay una variable independiente y una variable dependiente, se conoce como regresión lineal simple. A medida que aumenta el número de variables independientes, se denomina regresión lineal múltiple. Para cada tipo de regresión lineal, esta clasificación busca trazar una línea de mejor ajuste, que se calcula mediante el método de mínimos cuadrados.
Sin embargo, a diferencia de otros modelos de regresión, esta línea es recta cuando se traza en un gráfico.
Regresión logística
Mientras que la regresión lineal se utiliza cuando las variables dependientes son continuas, la regresión logística se selecciona cuando la variable dependiente es categórica, lo que significa que tienen resultados binarios, como "verdadero" y "falso" o "sí" y "no".
Si bien ambos modelos de regresión buscan comprender las relaciones entre las entradas de datos, la regresión logística se utiliza principalmente para resolver problemas de clasificación binaria, como la identificación de spam.
Máquinas de vectores de soporte (SVM)
Una máquina de vectores de soporte es un popular modelo de aprendizaje supervisado desarrollado por Vladimir Vapnik, que se utiliza tanto para la clasificación como para la regresión de datos.
Dicho esto, generalmente se aprovecha para problemas de clasificación, construyendo un hiperplano donde la distancia entre dos clases de puntos de datos es máxima. Este hiperplano se conoce como el límite de decisión, que separa las clases de puntos de datos (por ejemplo, naranjas frente a manzanas) en ambos lados del plano.
K vecino más cercano (KNN)
El algoritmo K vecino más cercano, también conocido como algoritmo KNN, es un algoritmo no paramétrico que clasifica puntos de datos en función de su proximidad y asociación con otros datos disponibles.
Este algoritmo asume que se pueden encontrar puntos de datos similares cerca unos de otros. Como resultado, busca calcular la distancia entre puntos de datos, generalmente a través de la distancia euclidiana, y luego asigna una categoría basada en la categoría o promedio más frecuente.
Su facilidad de uso y su bajo tiempo de cálculo lo convierten en el algoritmo preferido por los científicos de datos, pero a medida que crece el conjunto de datos de prueba, el tiempo de procesamiento se alarga, haciéndolo menos atractivo para las tareas de clasificación. KNN se utiliza normalmente para motores de recomendación y reconocimiento de imágenes.
Bosque aleatorio
El bosque aleatorio es otro algoritmo de machine learning supervisado flexible que se utiliza tanto para fines de clasificación como de regresión. El "bosque" hace referencia a una colección de árboles de decisión no correlacionados, que luego se fusionan para reducir la varianza y crear predicciones de datos más precisas.
Machine learning no supervisado y machine learning supervisado suelen formar parte del mismo debate. A diferencia del aprendizaje supervisado, el aprendizaje no supervisado utiliza datos sin etiquetar. A partir de esos datos, descubre patrones que ayudan a resolver problemas de agrupación o asociación.
Esto es particularmente útil cuando los expertos en la materia no están seguros de las propiedades comunes dentro de un conjunto de datos. Los algoritmos de agrupamiento comunes son los modelos de mezcla gaussiana, k-medias y jerárquicos.
El aprendizaje semi-supervisado ocurre cuando solo se ha etiquetado una parte de los datos de entrada. El aprendizaje no supervisado y semi-supervisado puede ser una alternativa más atractiva, ya que puede llevar mucho tiempo y ser costoso confiar en la experiencia del dominio para etiquetar los datos de manera adecuada para el aprendizaje supervisado.
Para obtener más detalles acerca de las diferencias entre estos enfoques, consulte "Aprendizaje supervisado o no supervisado: ¿Cuál es la diferencia?"
Los modelos de aprendizaje supervisado se pueden utilizar para crear y promover una serie de aplicaciones comerciales, incluidas las siguientes:
Reconocimiento de imágenes y objetos
Los algoritmos de aprendizaje supervisado se pueden usar para ubicar, aislar y categorizar objetos de videos o imágenes, lo que los hace útiles cuando se aplican a diversas técnicas de visión por computadora y análisis de imágenes.
Analítica predictiva
Un caso de uso generalizado para los modelos de aprendizaje supervisado es la creación de sistemas de análisis predictivo para proporcionar conocimientos profundos sobre varios puntos de datos comerciales.
Esto permite a las empresas anticipar ciertos resultados en función de una variable de salida determinada, lo que ayuda a los líderes empresariales a justificar sus decisiones o realizar cambios en beneficio de la organización.
Análisis de opinión del cliente
Mediante el uso de algoritmos de machine learning supervisado, las organizaciones pueden extraer y clasificar piezas importantes de información de grandes volúmenes de datos, incluido el contexto, la emoción y la intención, con muy poca intervención humana.
Esto puede ser increíblemente útil para comprender mejor las interacciones con los clientes y puede usarse para mejorar los esfuerzos de participación de la marca.
Detección de spam
La detección de spam es otro ejemplo de modelo de aprendizaje supervisado. Mediante el uso de algoritmos de clasificación supervisados, las organizaciones pueden entrenar bases de datos para reconocer patrones o anomalías en nuevos datos para organizar correspondencias relacionadas con correo no deseado de manera efectiva.
Aunque el aprendizaje supervisado puede ofrecer ventajas a las empresas, como insights profundos de datos y automatización mejorada, existen algunos desafíos al crear modelos sustentables de aprendizaje supervisado. Los siguientes son algunos de estos desafíos:
Cree y escale IA confiable en cualquier nube. Automatice el ciclo de vida de la IA para ModelOps.
Conecte los datos correctos con las personas adecuadas, en el momento preciso y en cualquier lugar.
Híbridas. Abiertas. Resilientes. Su plataforma y asociado para la transformación digital.
En este artículo, exploraremos los conceptos básicos de dos enfoques de ciencia de datos: supervisado y no supervisado.
Explore algunos enfoques de aprendizaje supervisado, como máquinas de vectores de soporte y clasificadores probabilísticos