La mayoría de los modelos de deep learning de última generación para clasificación o regresión se entrenan mediante aprendizaje supervisado, lo que requiere muchos ejemplos etiquetados de clases de datos relevantes. Los modelos "aprenden" haciendo predicciones en un conjunto de datos de entrenamiento etiquetado; las etiquetas de datos proporcionan tanto la gama de posibles respuestas como las respuestas correctas (o la verdad fundamental) para cada ejemplo de entrenamiento. "Learning", aquí, significa ajustar las ponderaciones del modelo para minimizar la diferencia entre las predicciones del modelo y esa verdad del terreno. Este proceso requiere suficientes muestras etiquetadas para muchas rondas de entrenamiento y actualizaciones.
Si bien el aprendizaje supervisado es potente, no es práctico en algunos escenarios del mundo real. Anotar grandes cantidades de muestras de datos es costoso y requiere mucho tiempo, y en casos como enfermedades raras y especies recién descubiertas, los ejemplos pueden ser escasos o inexistentes. Considere las tareas de reconocimiento de imágenes: según un estudio, los humanos pueden reconocer aproximadamente 30 000 categorías de objetos distinguibles individualmente.1 No es factible, en términos de tiempo, coste y recursos computacionales, que los modelos de inteligencia artificial se acerquen de forma remota a las capacidades humanas si deben entrenarse explícitamente con datos etiquetados para cada clase.
La necesidad de que los modelos de machine learning puedan generalizarse rápidamente a un gran número de categorías semánticas con una sobrecarga mínima de formación ha dado lugar al aprendizaje n-shot: un subconjunto de machine learning que también incluye aprendizaje few-shot (FSL) y aprendizaje one-shot. Por lo general, el aprendizaje few-shot utiliza métodos basados en el aprendizaje por transferencia y el metaaprendizaje para entrenar modelos que reconozcan rápidamente nuevas clases con solo unos pocos ejemplos de entrenamiento etiquetados o, en el aprendizaje único, un solo ejemplo etiquetado.
El aprendizaje zero-shot, como todo el aprendizaje n-shot, no se refiere a ningún algoritmo específico o arquitectura de red neuronal, sino a la naturaleza del problema de aprendizaje en sí: en ZSL, el modelo no está entrenado en ningún ejemplo de las clases no vistas para hacer predicciones posteriores.
Esta configuración del problema no tiene en cuenta si esa clase estaba presente (aunque no estaba etiquetada) en los datos de entrenamiento. Por ejemplo, algunos modelos de lenguaje de gran tamaño (LLM) son adecuados para tareas ZSL, ya que están preentrenados a través del aprendizaje autosupervisado en un corpus masivo de textos que puede contener referencias incidentales o conocimientos sobre clases de datos no vistas. Sin ejemplos etiquetados sobre los que dibujar, los métodos ZSL dependen del uso de dicho conocimiento auxiliar para realizar predicciones.
Dada su versatilidad y su amplia gama de casos de uso, el aprendizaje zero-shot se ha convertido en un área cada vez más notable de investigación en ciencia de datos, especialmente en los campos de visión artificial y procesamiento del lenguaje natural (PLN).