La mayoría de los modelos de aprendizaje profundo de última generación previstos para hacer clasificación o regresión se entrenan a través de aprendizaje supervisado, que requiere muchos ejemplos etiquetados de clases de datos relevantes. Los modelos “aprenden” haciendo predicciones en un conjunto de datos de entrenamiento etiquetado; las etiquetas de datos proporcionan tanto el rango de respuestas posibles como las respuestas correctas (o la verdad fundamental) para cada ejemplo de entrenamiento. Aquí, “aprender”, significa ajustar las ponderaciones del modelo para minimizar la diferencia entre las predicciones del modelo y esa verdad fundamental (ground truth). Este proceso requiere suficientes muestras etiquetadas para muchas rondas de entrenamiento y actualizaciones.
Si bien el aprendizaje supervisado es eficaz, no es práctico en algunos escenarios del mundo real. Anotar grandes cantidades de muestras de datos es costoso y requiere mucho tiempo, y en casos como enfermedades raras y especies recién descubiertas, los ejemplos pueden ser escasos o inexistentes. Considere las tareas de reconocimiento de imágenes: según un estudio, los humanos son capaces de reconocer aproximadamente 30 000 categorías individuales de objetos.1 No es factible, en términos de tiempo, costo y recursos computacionales, que los modelos de inteligencia artificial se acerquen ni remotamente a las capacidades humanas si deben capacitarse explícitamente en datos etiquetados para cada clase.
La necesidad de que los modelos de aprendizaje automático puedan generalizar rápidamente a una gran cantidad de categorías semánticas con una sobrecarga de entrenamiento mínima ha dado lugar al aprendizaje n-shot: un subconjunto del aprendizaje automático que también incluye aprendizaje few-shot(FSL, siglas en inglés de few-shot learning) y aprendizaje one-shot. El aprendizaje few-shot suele utilizar métodos basados en el aprendizaje por transferenciay el metaaprendizaje para entrenar a los modelos a fin de que reconozcan rápidamente nuevas clases con solo unos cuantos ejemplos de entrenamiento etiquetados o, en el aprendizaje one-shot, un solo ejemplo etiquetado.
El aprendizaje zero-shot, como todo el aprendizaje n-shot, no se refiere a ningún algoritmo específico o arquitectura de red neuronal, sino a la naturaleza del propio problema de aprendizaje: en ZSL, el modelo no se entrena en ejemplos etiquetados de las clases no vistas anteriormente (o clases nuevas) sobre las que se le pide que haga predicciones después del entrenamiento.
La configuración de este problema no tiene en cuenta si esa clase estaba presente (aunque sin etiquetar) en los datos de entrenamiento. Por ejemplo, algunos LLM son adecuados para tareas de ZSL, ya que están preentrenados mediante aprendizaje autosupervisado en un corpus descomunal de texto que puede contener referencias incidentales o conocimiento sobre clases de datos no vistas anteriormente. Sin ejemplos etiquetados a los que recurrir, todos los métodos ZSL se basan en el uso de dicho conocimiento auxiliar para hacer predicciones.
Dada su versatilidad y amplia gama de casos de uso, el aprendizaje zero-shot se ha convertido en un área de investigación cada vez más notable en la ciencia de datos, particularmente en los campos de la visión artificial y el procesamiento de lenguaje natural (PLN).