La clasificación ha sido tradicionalmente un tipo de machine learning supervisado, lo que significa que utiliza datos etiquetados para entrenar modelos. En el aprendizaje supervisado, cada punto de datos de los datos de entrenamiento contiene variables de entrada (también conocidas como variables o características independientes) y una variable de salida o etiqueta.
En el entrenamiento de clasificación, el trabajo del modelo es comprender las relaciones entre las características y las etiquetas de clase, y luego aplicar esos criterios a futuros conjuntos de datos. Los modelos de clasificación utilizan las características de cada punto de datos junto con su etiqueta de clase para decodificar qué características definen cada clase. En términos matemáticos, el modelo considera cada punto de datos como una tupla x. Una tupla es una secuencia numérica ordenada que se representa como x = (x1,x2,x3…xn).
Cada valor de la tupla es una característica del punto de datos. Al asignar datos de entrenamiento con esta ecuación, un modelo aprende qué características están asociadas con cada etiqueta de clase.
El propósito del entrenamiento es minimizar los errores durante el modelado predictivo. Los algoritmos de descenso de gradiente entrenan modelos minimizando la brecha entre los resultados predichos y reales. Posteriormente, los modelos se pueden ajustar con más entrenamiento para realizar tareas más específicas.
Los enfoques de aprendizaje no supervisado para resolver problemas de clasificación han sido un foco clave de la investigación reciente. Los métodos de aprendizaje no supervisados permiten que los modelos descubran patrones en datos no etiquetados por sí mismos. La falta de etiquetas es lo que diferencia el aprendizaje no supervisado del aprendizaje supervisado.
Mientras tanto, el aprendizaje semisupervisado combina datos etiquetados y no etiquetados para entrenar modelos con fines de clasificación y regresión. En situaciones en las que no es factible obtener grandes conjuntos de datos etiquetados, el aprendizaje semisupervisado es una alternativa viable.