El aprendizaje supervisado es una técnica de machine learning que utiliza conjuntos de datos etiquetados para entrenar modelos de IA para identificar los patrones subyacentes en todos los puntos de datos. Los datos etiquetados incluyen características y etiquetas, salidas correspondientes que el modelo utiliza para comprender la relación entre los dos.
Muchas empresas contratan grandes equipos de anotadores de datos humanos, que a veces son asistidos por máquinas. Estos anotadores a menudo requieren experiencia en el dominio para garantizar que los datos estén etiquetados correctamente. Por ejemplo, al etiquetar datos legales, los anotadores pueden necesitar experiencia en derecho. El proceso de utilizar anotadores humanos para ayudar a garantizar un etiquetado adecuado a veces se denomina "humano en el bucle".
Un ejemplo clásico de aprendizaje supervisado es la detección de spam. Para enseñar a un modelo a identificar el spam, uno podría exponerlo a un conjunto de datos compuesto por miles de correos electrónicos, cada uno etiquetado por humanos como "spam" o "no spam". El modelo revisaría los correos electrónicos, notando varios patrones. Por ejemplo, los correos electrónicos que tienen la palabra "gratis" en la línea de asunto tienen más probabilidades de ser spam. El modelo calcularía la probabilidad estadística de que la palabra "gratis" en la línea de asunto corresponda a la etiqueta "spam". Luego, cuando se le da un nuevo correo electrónico sin etiqueta, el modelo puede aplicar ese cálculo, junto con muchos otros, para determinar si el nuevo correo electrónico es spam o no.
Este tipo de machine learning se denomina "supervisado" porque implica supervisión humana para etiquetar todos esos datos.