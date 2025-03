A diferencia del aprendizaje semisupervisado (y totalmente supervisado), los algoritmos de aprendizaje no supervisado no utilizan ni funciones de pérdida ni datos etiquetados. El aprendizaje no supervisado evita cualquier contexto de "verdad básica" con respecto al cual se puede medir y optimizar la precisión del modelo.

Un enfoque semisupervisado cada vez más común, especialmente para modelos de lenguaje de gran tamaño, es "preentrenar" modelos a través de tareas no supervisadas que requieren que el modelo aprenda representaciones significativas de conjuntos de datos no etiquetados. Cuando dichas tareas implican una función de "verdad básica" y pérdida (sin anotación manual de datos), se denominan aprendizaje autosupervisado. Después de un "ajuste fino supervisado" posterior en una pequeña cantidad de datos etiquetados, los modelos preentrenados a menudo pueden lograr un rendimiento comparable al de los modelos totalmente supervisados.

Aunque los métodos de aprendizaje no supervisado pueden ser útiles en muchos escenarios, esa falta de contexto puede hacerlos poco adecuados para la clasificación por sí solos. Tomemos, por ejemplo, cómo un algoritmo de agrupamiento típico (agrupación de puntos de datos en un número predeterminado de grupos en función de su proximidad entre sí) trataría el conjunto de datos en forma de media luna.