A maioria dos modelos de deep learning de ponta para classificação ou regressão são treinados por meio de aprendizado supervisionado, que exige muitos exemplos rotulados de classes de dados relevantes. Os modelos "aprendem" fazendo previsões em um conjunto de dados de treinamento rotulados. Os rótulos de dados apresentam o intervalo de respostas possíveis e as respostas corretas (ou verdade fundamental) para cada exemplo de treinamento. Aqui, "aprender" significa ajustar os pesos do modelo para minimizar a diferença entre as previsões do modelo e essa verdade fundamental. Esse processo exige amostras rotuladas suficientes para muitas rodadas de treinamento e atualizações.
Embora poderoso, o aprendizado supervisionado é impraticável em alguns cenários do mundo real. A anotação de grandes quantidades de amostras de dados é dispendiosa e demorada e, em casos como doenças raras e espécies recentemente descobertas, os exemplos podem ser escassos ou inexistentes. Consideremos tarefas de reconhecimento de imagem: de acordo com um estudo, os humanos podem reconhecer aproximadamente 30.000 categorias de objetos individualmente distinguíveis.1 Não é viável, em termos de tempo, custo e recursos computacionais, que os modelos de inteligência artificial se aproximem remotamente das capacidades humanas se tiverem de ser explicitamente treinados em dados rotulados para cada classe.
A necessidade de modelos de aprendizado de máquina serem capazes de generalizar rapidamente para um grande número de categorias semânticas com sobrecarga mínima de treinamento deu origem ao n-shot aprendizado: um subconjunto do aprendizado de máquina que também inclui o aprendizado few-shot (FSL) e aprendizado one-shot. O aprendizado few-shot normalmente utiliza métodos baseados em aprendizado de transferência e meta-aprendizado para treinar modelos para reconhecer rapidamente novas classes com apenas alguns exemplos de treinamento rotulados ou, no aprendizado one-shot, um único exemplo rotulado.
O aprendizado zero-shot, como todo aprendizado n-shot, não se refere a nenhum algoritmo específico ou arquitetura de rede neural, mas à natureza do próprio problema de aprendizado: no ZSL, o modelo não é treinado em nenhum exemplo rotulado das classes invisíveis para as quais ele é solicitado a fazer previsões após o treinamento.
Essa configuração do problema não leva em consideração se essa classe estava presente (embora não rotulada) nos dados de treinamento. Por exemplo, alguns grandes modelos de linguagem (LLMs) são adequados para tarefas ZSL, pois são treinados previamente por meio de aprendizado autossupervisionado em um enorme corpus de texto que pode conter referências incidentais ou conhecimento sobre classes de dados invisíveis. Sem exemplos rotulados para se basear, todos os métodos ZSL dependem do uso desse conhecimento auxiliar para fazer previsões.
Dada a sua versatilidade e ampla gama de casos de uso, o aprendizado zero-shot tornou-se uma área de pesquisa cada vez mais notável em ciência de dados, particularmente nos campos de Computer Vision e processamento de linguagem natural (NLP).