Minha IBM

Efetue login

O que é ew-shot learning?

O few-shot learning é uma framework de aprendizado de máquina na qual um modelo de IA aprende a fazer previsões precisas ao treinar em um número muito pequeno de exemplos rotulados. Normalmente, ele é usado para treinar modelos para tarefas de classificação, quando dados de treinamento adequados são escassos.

O ew-shot learning (FSL) é um subconjunto do que às vezes é chamado de n-shot learning, uma categoria de inteligência artificial que também inclui o one-shot learning (no qual há apenas um exemplo rotulado de cada classe a ser aprendido) e zero-shot learning (em que não há nenhum exemplo rotulado). Enquanto o one-shot learning é essencialmente apenas uma variante desafiadora do FSL, o zero-shot learning é um problema de aprendizado distinto que necessita de suas próprias metodologias exclusivas.a

 Em princípio, o FSL visa imitar a capacidade humana de aprender com um mero punhado de exemplos. Isso contrasta com o aprendizado supervisionado convencional, que normalmente usa muitas centenas (ou milhares) de pontos de dados rotulados em muitas rodadas de treinamento para ensinar modelos de IA a reconhecer classes de dados. Embora o aprendizado supervisionado seja poderoso e impraticável em algumas situações do mundo real: obter exemplos rotulados geralmente é difícil devido aos custos proibitivos, à experiência específica do domínio necessária para anotar dados corretamente ou, em cenários como caligrafia única, doenças raras ou ameaças de extinção e recém-descobertas espécies — a escassez de amostras existentes.

Embora alguns algoritmos específicos e arquiteturas de redes neurais tenham obtido sucesso notável em tarefas de FSL, o few-shot learning é definido pela natureza do problema de aprendizado e não pelo uso de qualquer método ou estrutura de modelo específico.- Os métodos de few-shot learning variam muito, desde a adaptação de modelos pré-treinados para uso em tarefas semelhantes até o uso de modelos generativos para criar novas amostras e métodos de meta-aprendizado que treinam modelos para generalizar bem para novos problemas de classificação e diferentes classes de dados, em vez de executar uma tarefa específica.

As últimas notícias e insights sobre IA  

Descubra insights selecionadas por especialistas sobre IA, nuvem e outros assuntos no boletim informativo semanal Think.

Assine hoje mesmo

Como funciona a classificação few-shot?

Embora o few-shot learning possa utilizar uma ampla variedade de algoritmos ou arquiteturas de rede neural, a maioria dos métodos é criada em torno do aprendizado de transferência ou meta-aprendizado (ou uma combinação de ambos).

Embora o few-shot learning também possa ser aplicado a tarefas de regressão (ou mesmo ao aprendizado por reforço), a maior parte da literatura do FSL concentra-se em casos de uso de classificação. Alguns métodos do FSL podem ser usados juntamente com outras soluções que lidam com a escassez de dados rotulados: por exemplo, em métodos de aprendizado semissupervisionado que incorporam informações de grandes quantidades de dados não rotulados juntamente com informações de few-shot learning nas amostras rotuladas limitadas disponíveis.¹

Transferir aprendizado

Os métodos baseados em transferência de aprendizado se concentram na adaptação de um modelo pré-treinado para aprender novas tarefas ou classes de dados inéditas.

Quando poucas amostras rotuladas estão disponíveis, usar o aprendizado supervisionado para treinar um modelo a partir do zero, especialmente um com um grande número de parâmetros, como as redes neurais convolucionais (CNNs) normalmente usadas em visão computacional ou as redes baseadas em transformadores usadas no processamento de linguagem natural (NLP), muitas vezes leva ao overfitting: o modelo pode ter um bom desempenho em dados de teste, mas ruim em dados do mundo real. Porém, reunir uma quantidade de dados suficientemente grande para evitar o overfitting costuma ser um gargalo no treinamento do modelo.

O aprendizado por transferência oferece uma solução prática: aproveitar recursos e representações úteis que um modelo treinado já aprendeu. Uma abordagem simples é ajustar um modelo de classificação para executar a mesma tarefa para uma nova classe por meio de aprendizado supervisionado em um pequeno número de exemplos rotulados. Abordagens mais complexas ensinam novas habilidades por meio do design de tarefas relevantes a jusante, geralmente tarefasde meta-aprendizado, para um modelo que foi pré-treinado por meio de tarefas de pretexto autossupervisionadas: isso é cada vez mais comum em PLN, particularmente no contexto de modelos de base.

Abordagens mais complexas de aprendizado por transferência adaptam uma rede neural treinada por meio de alterações na arquitetura da rede: por exemplo, substituindo ou retreinando as camadas externas de uma rede neural, onde ocorre a classificação final, enquanto mantêm as camadas internas onde ocorre a extração de recursos. Congelar (ou regularizar alterações de outro modo) nos pesos do modelo para todas as camadas, exceto as mais externas, pode garantir que as atualizações subsequentes não resultem no “esquecimento catastrófico" do conhecimento já aprendido. Isso permite um aprendizado muito acelerado em um contexto de few-shot.

O aprendizado de transferência é mais bem-sucedido quando o treinamento inicial do modelo é relevante para a nova tarefa. Por exemplo, um modelo treinado em certas espécies de pássaros generalizará bem para espécies de pássaros invisíveis após ajuste fino com apenas algumas amostras rotuladas, porque os pesos aprendidos dos filtros que a CNN usa para convoluções já estão otimizados para capturar recursos relevantes para classificação de aves (como plumagem, bicos, tamanho da asa etc.), mas usar o few-shot learning para ensinar o mesmo modelo a reconhecer veículos produzirá um desempenho menos satisfatório.

Abordagem em nível de dados

Uma solução alternativa para o problema de amostras limitadas de dados rotulados é gerar amostras adicionais de treinamento. Isso é particularmente útil quando exemplos reais de uma determinada classe de dados são extremamente escassos, como pode ser o caso ao lidar com doenças raras ou espécies exóticas.

A geração de dados, por meio de modelos generativos, como as redes adversárias generativas (GANs) ou autocodificadores variacionais (VAEs), pode produzir amostras suficientes que se assemelhem às amostras originais rotuladas para realizar o aprendizado supervisionado convencional, desde que as amostras originais tenham diversidade suficiente para evitar o overfitting.

O aumento de dados, o processo de criação de novas amostras ao aplicar diferentes transformações às amostras originais, pode ser combinado com outros métodos: por exemplo, pode ser usado para criar amostras correspondentes para uso em meta-aprendizado de métricas em um processo semelhante ao aprendizado autossupervisionado contrastante.

meta-aprendizado

Diferentemente do aprendizado supervisionado ou do ajuste fino, em que um classificador é treinado nas tarefas exatas para as quais será usado e o conjunto de treinamento contém as mesmas classes nas quais o modelo será testado, o meta-aprendizado adota uma abordagem mais ampla e indireta. Enquanto as abordagens baseadas no aprendizado de transferência adaptam modelos pré-treinados, os métodos de meta-aprendizado geralmente treinam sistemas de ponta a ponta do zero. 

De acordo com Santoro et al, “meta-aprendizado” refere-se a cenários em que múltiplas tarefas são usadas para treinar um modelo tanto a curto como a longo prazo. Dentro de cada tarefa, o modelo aprende rapidamente a fazer previsões relevantes para o domínio limitado daquela tarefa específica; entre as tarefas, o modelo acumula conhecimento gradualmente, capturando a forma como os padrões e a estrutura das tarefas variam entre os domínios-alvo. Este processo de duas camadas é frequentemente descrito como o modelo “aprender a aprender”. ²

Por exemplo, o objetivo de muitos métodos de meta-aprendizado proeminentes é treinar uma função de modelo, em vários episódios de treinamento, para produzir uma previsão para o grau de semelhança entre pontos de dados de quaisquer classes, incluindo classes que o modelo ainda não viu, para então usar o aprendizado desse processo para resolver tarefas posteriores (como problemas de classificação especificamente definidos).

Algumas abordagens de meta-aprendizado funcionam em um nível mais abstrato, treinando modelos para serem fáceis de treinar. No aprendizado supervisionado tradicional, os parâmetros de um modelo (como pesos e vieses) são o que é "aprendido", enquanto os hiperparâmetrosdo modelo, como a taxa de aprendizado ou como os parâmetros são inicializados, são configurados antes do treinamento e não fazem parte do processo de aprendizado. O meta-aprendizado pode aproximar os benefícios do aprendizado de transferência aprendendo pontos de partida ideais: inicializações de parâmetros ou outras opções de hiperparâmetros que se generalizarão bem em diferentes conjuntos de dados em uma quantidade mínima de etapas de treinamento.

Classificação N-way-K-shot

Embora uma ampla variedade de arquiteturas de modelos de aprendizado de máquina possa ser usada para few-shot learning, a estrutura de treinamento e avaliação FSL geralmente segue uma estrutura N-way-K-shot , na qual N representa o número de classes e K representa o número de exemplos (ou "disparos") fornecidos para cada classe.

 Na classificação N-way-K-shot, o modelo passa por múltiplos episódios de treinamento. Cada episódio de treinamento consiste em uma ou mais tarefas de treinamento. Os modelos são avaliados por meio de tarefas de teste, cuja estrutura reflete a das tarefas de treinamento. Cada tarefa de treinamento (e tarefa de teste) compreende dois conjuntos de dados:

O conjunto de suporte contém K amostras de treinamento rotuladas para cada uma das N classes. O modelo usa essas amostras de suporte para aprender representações generalizadas para cada classe. Por exemplo, o conjunto de dados para uma tarefa de classificação 3-way-2-shot contém 3 classes de imagens e fornece 2 exemplos de cada uma. Quando K= 1, a tarefa é de aprendizado único. Quando K= 0, o problema é o zero-shot learning,que normalmente requer soluções exclusivas.
O conjunto de consultas contém um ou mais novos exemplos para cada uma das classes N . Usando representações aprendidas do conjunto de suporte, o modelo prevê a classificação para cada exemplo no conjunto de consultas. Uma função de perda mede a divergência ("perda") entre as previsões do modelo e as previsões "corretas"; Após cada episódio de treinamento, os parâmetros do modelo são ajustados — otimizados — para minimizar a perda.

Como o objetivo do meta-aprendizado é treinar modelos para generalizar bem dados não vistos, em vez de reconhecer classes específicas de dados, cada tarefa de treinamento normalmente inclui classes de dados diferentes daquelas usadas em qualquer tarefa de treinamento anterior.

Para testar a capacidade do modelo de fazer previsões precisas de similaridade para classes até então invisíveis, o conjunto de suporte e o conjunto de consulta usados para teste devem conter classes de dados totalmente novas às quais o modelo ainda não foi exposto em tarefas de treinamento.

Meta-aprendizado baseado em métricas

Os algoritmos de meta-aprendizado baseado em métricas operam em princípio semelhante ao dos K-vizinhos mais próximos: em vez de prever a classificação ao modelar diretamente o limite de decisão entre as classes, as abordagens baseadas em métricas geram um valor contínuo (como uma incorporação vetorial) para representar uma determinada amostra de dados e fazem inferências ao aprender uma função que mede alguma métrica de distância que represente a semelhança entre esse valor e o valor das diferentes amostras ou classes com as quais está sendo comparada.

Algoritmos FSL baseados em métricas

Redes siamesas

Um desenvolvimento relativamente inicial em algoritmos baseados em métricas, as redes siamesas resolvem problemas de classificação binária usando aprendizado contrastivo: mostradas duas amostras, as redes siamesas preveem se é um par positivo (correspondente) ou negativo (não correspondente). A função de perda do modelo é usada para minimizar a distância entre incorporações de vetores de pares positivos e maximizar a distância entre incorporações de pares negativos. Os modelos de perda de tripletos são bastante semelhantes: dada uma amostra "âncora" e duas amostras adicionais, uma correspondente e outra não, o modelo prevê qual é uma correspondência positiva e qual é negativa.

Em ambos os métodos, é importante que as amostras de treinamento sejam relativamente difíceis de distinguir umas das outras – caso contrário, o modelo não será forçado a aprender parâmetros que produzam incorporações mais eficazes. O aumento de dados é frequentemente usado quando as amostras correspondentes são escassas.

Redes correspondentes

Enquanto as redes siamesas só podem resolver tarefas de classificação binária, as redes correspondentes podem realizar a classificação de várias vias. Como tal, é considerado um dos primeiros algoritmos de few-shot learning dedicados. 

As redes correspondentes geram uma incorporação para cada amostra nos conjuntos de suporte e consulta usando uma rede neural apropriada (como uma CNN para tarefas de imagem ou LLM para tarefas de linguagem natural) e preveem a classificação medindo a distância de cosseno entre a incorporação da amostra de consulta e a das amostras de suporte disponíveis.

Redes prototípicas

Redes prototípicas calculam as funcionalidades médias de todas as amostras disponíveis para cada classe, a fim de calcular um protótipo para cada classe. Então, a classificação de um determinado ponto de dados é determinada por sua proximidade relativa com os protótipos de cada classe. Diferentemente das redes correspondentes, as redes prototípicas usam a distância euclidiana em vez da distância de cosseno.

Foram propostos muitos refinamentos nessa abordagem: por exemplo, Zhu e Koniusz propuseram utilizar a propagação de rótulos para melhorar o processo de prototipagem.³

Redes de relacionamento

Uma rede de relações (RN) opera com o mesmo princípio geral das redes de correspondência e prototípicas. Os RNs também utilizam um módulo de incorporação que aprende a computar incorporações para imagens de entrada e protótipos de classe, mas, diferentemente desses dois algoritmos, que predefinem a função de distância usada para comparar incorporações, os RNs adicionam um módulo de relação que aprende uma função de distância não linear que melhor se adapta aos problemas de classificação específicos em questão.

Mistura de Especialistas | Podcast

Decodificando a IA: resumo semanal das notícias

Junte-se a nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Assista aos episódios

Meta-aprendizado baseado em otimização

O deep learning tradicionalmente requer muitas atualizações iterativas dos parâmetros do modelo por meio de retropropagação e gradiente descendente, o que, por sua vez, depende de uma grande quantidade de exemplos rotulados para preencher os lotes de treinamento. Treinar eficientemente uma rede neural a partir do zero para um few-shot learning requer uma maneira de otimizar os pesos do modelo em apenas algumas etapas de atualização.

Métodos FSL baseados em otimização

As abordagens de meta-aprendizado baseadas em otimização, também conhecidas como meta-aprendizado baseado em gradiente (GMBL), visam aprender os parâmetros iniciais do modelo ou hiperparâmetros para uma rede neural que pode ser ajustada com eficiência para tarefas relevantes. Eles alcançam isso otimizando o processo de gradiente descendente, ou seja, meta-otimizando o próprio processo de otimização.

Meta-aprendizado independente de modelo (MAML)

O MAML está entre as abordagens baseadas em otimização mais proeminentes e serviu de base para uma série de abordagens derivadas de sua metodologia principal. Como o próprio nome sugere, o meta-aprendizado agnóstico de modelo não se concentra em uma tarefa ou arquitetura de modelo de IA específica: ele pode ser usado em qualquer modelo que aprenda por meio de gradiente descendente.

O MAML envolve dois níveis diferentes de atualizações de parâmetros em um conjunto de tarefas variadas de treinamento de FSL, p(T). Em cada episódio de treinamento, uma nova tarefa T_i é amostrada aleatoriamente de p(T); o gradiente descendente, realizado em K etapas de tamanho α, é usado para otimizar um vetor de parâmetros de modelo específicos da tarefa (θ'_i) após cada tarefa de treinamento. Em vários episódios de treinamento, um conjunto de metaparâmetros (θ) é otimizado ao aplicar o gradiente descendente, em metaetapas de tamanho β, a esses parâmetros específicos da tarefa θ'_i. Em outras palavras, enquanto o gradiente descendente comum calcula derivadas para otimizar os parâmetros de um modelo para uma determinada tarefa, o MAML calcula as derivadas das derivadas (ou "derivadas de segunda ordem") para otimizar os parâmetros iniciais de um modelo para a otimização específica da tarefa subsequente.

De acordo com o artigo original, o objetivo é "encontrar parâmetros de modelo que sejam sensíveis às mudanças na tarefa, de modo que pequenas mudanças nos parâmetros produzam grandes melhorias na função de perda de qualquer tarefa extraída de p(T)". Isso traz benefícios semelhantes aos do aprendizado por transferência, ao mesmo tempo em que evita a necessidade de grandes quantidades de dados rotulados para pré-treinamento.

As adaptações propostas para MAML incluem:

MAML de primeira ordem (FOMAML): a dependência do MAML em derivadas de segunda ordem é computacionalmente cara e requer muita memória. O FOMAML simplifica o processo através de uma série de suposições que permitem a meta-otimização usando apenas derivadas de primeira ordem.
Reptile: Reptile apresenta um ponto intermediário entre a sofisticação do MAML e a simplicidade do FOMAML: ele usa derivadas de primeira ordem, mas implementa regras únicas sobre como os parâmetros são atualizados.⁴
Otimizando o tamanho da etapa: variantes como Meta-SGD⁵ e Alpha MAML⁶ adicionam a capacidade de otimizar o tamanho e a direção da etapa para α e β. Da mesma forma, o MAML++⁷ introduz uma série de modificações para aumentar a estabilidade e a eficiência computacional.

Meta-aluno do LTSM

As abordagens de meta-aprendizado podem fazer uso de redes de memória de curto longo prazo (LSTM) baseadas em RNN para treinar um modelo de meta-aprendiz para capturar tanto o conhecimento de curto prazo de cada tarefa de treinamento quanto o conhecimento de longo prazo comum a cada tarefa. Então, esse meta-aprendiz é usado para treinar um classificador de rede neural.

Otimização de incorporação latente (LEO)

Em vez de instanciar e atualizar explicitamente um conjunto exclusivo de metaparâmetros de modelos θ, a otimização de incorporação latente aprende uma distribuição generativa de parâmetros de modelos específicos da tarefa de maneira semelhante aos autocodificadores variacionais (VAEs), que servem ao mesmo propósito. Então, a otimização de gradiente pode ser executada dentro desse espaço de incorporação aprendido e de baixa dimensão.

Casos de uso de few-shot learning

As técnicas de few-shot learning têm uma ampla variedade de aplicações, já que muitos setores e campos de pesquisa podem se beneficiar da capacidade de aprender de forma rápida e eficaz com relativamente poucos exemplos.

Visão computacional

Enquanto muitos algoritmos FSL proeminentes foram originalmente desenvolvidos para (ou comprovados em) tarefas de classificação de imagem, FSL também pode ser usado para problemas de visão computacional mais complexos.

Embora a detecção de objetos seja um problema significativamente mais complexo do que a classificação de imagens, já que os objetos devem ser não apenas classificados, mas também localizados com precisão, ela geralmente considera a classificação de imagens como um pré-requisito. Dessa forma, muitas ideias usadas para classificação podem ser adotadas para detecção de objetos few-shot.⁸

Da mesma forma, várias arquiteturas de modelos foram propostas para segmentação semântica few-shot. ⁹

Robótica

O FSL pode permitir que os robôs se adaptem rapidamente a novos ambientes e novas tarefas por meio de tarefas de classificação de few-shot¹⁰ e aprendizado de reforço.¹¹

Processamento de linguagem natural

O FSL mostrou resultados promissores para o processamento de linguagem natural (NLP), particularmente por meio do aprendizado de transferência: é uma maneira intuitiva de adaptar grandes modelos de linguagem (LLMs), pré-treinados em um enorme corpus de dados não rotulados, a tarefas específicas, como classificação de texto e sentimento análise de dados que pode exigir compreensão contextual específica.

Setor de saúde

O potencial da FSL de adaptar rapidamente um modelo a classes de dados raras e invisíveis é particularmente promissor para áreas médicas, nas quais a raridade de certas condições ou a experiência necessária para anotar dados médicos com precisão (como ressonância magnética ou ecocardiografia) podem tornar a aquisição de um grande número de amostras rotuladas é proibitivamente difícil.

Tenha acesso ao poder da IA generativa + ML

Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.

Soluções relacionadas

IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai

Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA

Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA

Recursos

Aumente seu conhecimento especializado em ML

Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.

Tenha acesso ao poder da IA generativa + ML

Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.

Coloque a IA para trabalhar: como gerar ROI com a IA generativa

Quer ter mais retorno sobre seus investimentos em IA? Saiba como o dimensionamento da IA generativa em áreas importantes promove mudanças, ajudando suas melhores mentes a criar e oferecer soluções novas e inovadoras.

Como escolher o modelo de base certo

Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.

Explore o IBM Granite

O IBM Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagens, código, séries temporais e proteções.

Como prosperar nesta nova era da IA com confiança e convicção

Aprofunde-se nos três elementos críticos de uma estratégia de IA forte: gerar vantagem competitiva, escalar a IA em toda a empresa e avançar na IA confiável.

Relatório “IA em ação”

Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.

Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai

Agende uma demonstração em tempo real

Notas de rodapé

¹ "Realistic Evaluation of Deep Semi-Supervised Learning Algorithms", arXiv, 17 de junho de 2019
² "A survey on semi-supervised learning", Springer, 15 de novembro de 2019
³ "Transductive active learning – A new semi-supervised learning approach based on iteratively refined generative models to capture structure in data", Information Sciences (Volume 293), 18 de setembro de 2014
⁴ "Semantic Segmentation with Active Semi-Supervised Learning", arXiv, 16 de outubro de 2022
⁵ "Semi-supervised learning by Entropy Minimization", Advances in Neural Information Processing Systems 17, 2004
⁶ "Density-based semi-supervised clustering", Data Mining and Knowledge Discovery, novembro de 2010
⁷ "Semi-Supervised Learning with Ladder Networks", arXiv, 24 de novembro de 2015
⁸ "Learning with Pseudo-Ensembles", arXiv, 16 de dezembro de 2014
⁹ "Temporal Ensembling for Semi-Supervised Learning", arXiv, 15 de março de 2017
¹⁰ "Improved Techniques for Training GANs", arXiv, 10 de junho de 2016