O meta-aprendizado, também chamado de "aprender a aprender", é uma subcategoria do aprendizado de máquina que treina modelos de inteligência artificial (IA) para entender e se adaptar a novas tarefas por conta própria. O objetivo principal do meta-aprendizado é fornecer às máquinas a habilidade de aprender a aprender.
Diferentemente do aprendizado supervisionado convencional, em que os modelos são treinados para resolver uma tarefa específica usando um conjunto de dados de treinamento definido, o processo de meta-aprendizado envolve uma variedade de tarefas, cada uma com seu próprio conjunto de dados associado. Com base nesses vários eventos de aprendizado, os modelos adquirem a capacidade de generalização entre tarefas, podendo se adaptar com rapidez a novos cenários, mesmo com poucos dados.
Os algoritmos de meta-aprendizado são treinados com base nas previsões e metadados de outros algoritmos de aprendizado de máquina. Os algoritmos de meta-aprendizado geram previsões próprias e informações que servem para melhorar o desempenho e os resultados de outros algoritmos de aprendizado de máquina.
O meta-aprendizado envolve duas fases principais: o metatreinamento e o metateste. Em ambas as fases, um modelo aprendiz de base ajusta e atualiza seus parâmetros conforme aprende. O conjunto de dados utilizado é dividido em um conjunto de apoio para metatreinamento e um conjunto de teste para metatestes.
Na fase de metatreinamento, o modelo de aprendizado de base é fornecido com uma ampla gama de tarefas. O objetivo do modelo é descobrir padrões comuns entre essas tarefas e adquirir um amplo conhecimento que possa ser empregado na resolução de tarefas novas.
Durante a fase de metateste, o desempenho do modelo aprendiz de base é avaliado por meio de tarefas que ele não tinha recebido durante o treinamento. A eficácia do modelo é medida pela qualidade e rapidez com que ele se adapta a essas novas tarefas usando o conhecimento adquirido e a compreensão generalizada.
Há três abordagens típicas de meta-aprendizado. Veja a seguir como cada abordagem funciona e seus diferentes tipos:
O meta-aprendizado baseado em métricas concentra-se no aprendizado de uma função que calcula uma métrica de distância, que corresponde a uma medida da similaridade entre dois pontos de dados. Essa abordagem é semelhante ao algoritmo dos k vizinhos mais próximos (KNN), que utiliza a proximidade para fazer classificações ou previsões.
Uma rede neural convolucional siamesa consiste em redes neurais convolucionais gêmeas idênticas que compartilham parâmetros e pesos. As atualizações de parâmetros são espelhadas nas duas redes. As duas redes são conectadas por uma função de perda que calcula uma métrica de distância (normalmente similaridade em pares).
O conjunto de dados de treinamento é composto por pares de amostras correspondentes e não correspondentes. Com isso, as redes neurais convolucionais siamesas aprendem a calcular a similaridade em pares, maximizando a distância euclidiana entre pares não correspondentes ou diferentes e minimizando a distância entre pares correspondentes ou semelhantes.
As redes correspondentes aprendem a prever a classificação medindo uma métrica de distância conhecida como similaridade de cosseno entre duas amostras.
Uma rede de relações aprende uma métrica de distância não linear profunda para comparar itens. A rede classifica os itens calculando as pontuações de relação, que representam a semelhança entre os itens.3
As redes prototípicas calculam a média de todas as amostras de uma classe para criar um protótipo para ela. Assim, a rede aprende um espaço métrico, onde as tarefas de classificação são realizadas por meio do cálculo da distância euclidiana ao quadrado entre um ponto de dados específico e a representação do protótipo de uma classe.
O meta-aprendizado baseado em modelos envolve o aprendizado dos parâmetros de um modelo, o que pode favorecer o aprendizado rápido a partir de dados esparsos.
Uma rede neural aprimorada pela memória (MANN) é equipada com um módulo de memória externo para permitir o armazenamento estável e a codificação e recuperação rápidas das informações.
No meta-aprendizado, as MANNs podem ser treinadas para aprender uma técnica geral para os tipos de representações a serem armazenadas na memória externa e um método para usar essas representações para fazer previsões. As MANNs demonstraram ter um bom desempenho em tarefas de regressão e classificação.
O MetaNet (abreviação de metarredes - Meta Networks) é um modelo de meta-aprendizado que pode ser aplicado no aprendizado por imitação e aprendizado por reforço. Assim como os MANNs, as metarredes também possuem memória externa.
A MetaNet é composta por um aprendiz base e um meta-aprendiz trabalhando em níveis espaciais separados. O meta-aprendiz adquire conhecimento geral por meio de diferentes tarefas em um metaespaço. O aprendiz base recebe uma tarefa de input e envia metadados sobre o espaço da tarefa atual para o meta-aprendiz. Com base nessas informações, o meta-aprendiz faz uma parametrização rápida para atualizar os pesos em ambos os espaços.
O deep learning geralmente exige várias atualizações iterativas dos parâmetros do modelo por meio de retropropagação e do algoritmo de otimização de gradiente descendente.
No meta-aprendizado baseado em otimização, às vezes chamado de meta-aprendizado baseado em gradiente, o algoritmo aprende quais parâmetros iniciais do modelo ou hiperparâmetros de redes neurais profundas podem ser ajustados com eficiência para tarefas relevantes. Isso geralmente significa metaotimização, ou seja, a otimização do próprio algoritmo de otimização.
Esse método de meta-aprendizado baseado em otimização utiliza uma arquitetura popular de rede neural recorrente chamada de redes de memória de longo e curto prazo (LSTM) para treinar um meta-aprendiz a adquirir conhecimento de longo prazo compartilhado entre tarefas e conhecimento de curto prazo em cada tarefa.
Assim, o meta-aprendiz otimiza outro classificador de rede neural de aprendiz. Ele aprende uma inicialização dos parâmetros do aprendiz para convergência rápida de treinamento e como atualizar esses parâmetros de forma eficiente com um pequeno conjunto de treinamento, ajudando o aprendiz a se adaptar a novas tarefas com rapidez.
Como o próprio nome indica, esse algoritmo de meta-aprendizado baseado em otimização é independente de modelos. Isso o torna compatível com qualquer modelo treinado usando gradiente descendente e adequado para resolver vários problemas de aprendizado, como classificação, regressão e aprendizado por reforço.
A ideia central por trás do MAML é treinar os parâmetros iniciais do modelo de modo que algumas atualizações de gradiente resultem em aprendizado rápido sobre uma nova tarefa. O objetivo é determinar os parâmetros do modelo que são sensíveis a alterações em uma tarefa, de modo que pequenas alterações nesses parâmetros levem a grandes melhorias na função de perda da tarefa. A meta-otimização entre tarefas é feita usando gradiente descendente estocástico (SGD).
Ao contrário do gradiente descendente, que calcula derivadas para otimizar os parâmetros de um modelo para uma determinada tarefa, o MAML calcula derivadas de segunda ordem para otimizar os parâmetros iniciais de um modelo para a otimização específica da tarefa. Uma versão modificada do meta-aprendizado independente de modelo, conhecida como MAML de primeira ordem ou FOMAML, omite as derivadas de segunda ordem para um processo menos dispendioso em termos computacionais.
O Reptile é um algoritmo de meta-aprendizado baseado em gradiente de primeira ordem semelhante ao FOMAML. Ele coleta repetidamente amostras de uma tarefa, treina nessa tarefa por meio de várias etapas de gradiente descendente e migra o peso do modelo para os novos parâmetros.
Para demonstrarmos ainda mais a versatilidade do meta-aprendizado, veja algumas maneiras pelas quais ele pode ser usado dentro do próprio domínio do aprendizado de máquina:
O aprendizado de máquina automatizado (AutoML) permite a automação de tarefas no pipeline de aprendizado de máquina. As técnicas de meta-aprendizado são adequadas para o AutoML, sobretudo quando se trata da otimização de hiperparâmetros e seleção de modelos.
O ajuste de hiperparâmetros para modelos de aprendizado de máquina normalmente é feito manualmente. Os algoritmos de meta-aprendizado ajudam a automatizar esse procedimento, aprendendo a otimizar hiperparâmetros ou identificando aqueles que são ideais para uma determinada tarefa.
Os algoritmos de meta-aprendizado também podem aprender como escolher o modelo mais apropriado (e até mesmo os parâmetros e a arquitetura desse modelo) para resolver uma tarefa específica. Isso ajuda a automatizar o processo de seleção de modelos.
O few-shot learning é uma framework de aprendizado de máquina que treina um modelo de IA com um pequeno número de exemplos. A maioria dos métodos de few-shot learning é criada em torno do meta-aprendizado, em que os modelos se adaptam a novas tarefas que recebem dados de treinamento escassos.
Um mecanismo de recomendação depende de algoritmos de aprendizado de máquina para encontrar padrões nos dados de comportamento do usuário e recomendar itens relevantes de acordo com esses padrões. Os sistemas de meta-aprendizado podem aprender modelos de recomendação para gerar sugestões mais precisas e relevantes que personalizem melhor a experiência do usuário.
O meta-aprendizado favorece a transferência de aprendizado, que adapta um modelo pré-treinado para aprender novas tarefas ou classes de dados inéditas.
O meta-aprendizado pode ser usado em diferentes áreas do setor de tecnologia, entre as quais:
O meta-aprendizado pode ser empregado em tarefas de visão computacional , que incluem reconhecimento facial, classificação de imagens, segmentação de imagens, detecção de objetos e rastreamento de objetos.
O meta-aprendizado pode ser usado para tarefas de processamento de linguagem natural , como modelagem de linguagem, classificação de sentimentos, reconhecimento de fala e classificação de texto.
O meta-aprendizado ajuda robôs a aprenderem novas tarefas com rapidez e a se adaptarem a ambientes dinâmicos. Pode ser empregado em uma série de tarefas, como a ação de agarrar, navegação, manipulação e movimento.
O meta-aprendizado tem muito potencial. Veja algumas de suas vantagens:
O meta-aprendizado pode ser usado para criar modelos de IA mais generalizados que aprendem a realizar muitas tarefas relacionadas. Devido a essa flexibilidade, os sistemas de meta-aprendizado se adaptam com rapidez a novas tarefas e campos diferentes.
O meta-aprendizado permite o aprendizado com poucas amostras, podendo dispensar grandes volumes de dados. Isso pode ser particularmente útil para domínios em que a coleta e a preparação dos dados sejam trabalhosas e demoradas.
Graças à sua eficiência de dados e aprendizagem rápida, o meta-aprendizado pode acelerar o processo de treinamento e reduzir seus custos.
Apesar das promessas do meta-aprendizado, ele também apresenta desafios. Veja aqui alguns deles:
Às vezes, a quantidade de dados para treinar os modelos de IA é insuficiente, sobretudo em domínios especializados. Ou, casa haja dados disponíveis, a qualidade pode não ser adequada para treinar algoritmos de meta-aprendizado com eficiência.
Uma variabilidade insuficiente entre as tarefas no conjunto de apoio para o metatreinamento pode levar ao overfitting. Isso significa que o algoritmo de metaaprendizado pode ser aplicável apenas a tarefas específicas, sem conseguir realizar uma generalização eficaz em um amplo espectro de tarefas.
Por outro lado, a variabilidade em excesso entre as tarefas no conjunto de apoio para o metatreinamento pode levar ao subajuste. Isso significa que o algoritmo de meta-aprendizado pode não ser capaz de usar seu conhecimento na solução de outra tarefa e pode ter dificuldade para se adaptar a novas situações. Portanto, é fundamental ter um equilíbrio na variabilidade das tarefas.
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.
Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.
Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.
Quer ter mais retorno sobre seus investimentos em IA? Saiba como o dimensionamento da IA generativa em áreas importantes promove mudanças, ajudando suas melhores mentes a criar e oferecer soluções novas e inovadoras.
Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.
1 "SigNet: Convolutional Siamese Network for Writer Independent Offline Signature Verification", arXiv, 30 de setembro de 2017.
2 "Matching Networks for One Shot Learning", arXiv, 29 de dezembro de 2017.
3 "Learning to Compare: Relation Network for Few-Shot Learning", arXiv, 27 de março de 2018.
4 "Prototypical Networks for Few-shot Learning", arXiv, 19 de junho de 2017.
5 "Meta-Learning with Memory-Augmented Neural Networks", Proceedings of the 33rd International Conference on Machine Learning, 19 de junho de 2016.
6 "Meta Networks", arXiv, 8 de junho de 2017.
7 "Optimization as a Model for Few-Shot Learning", OpenReview, 22 de julho de 2022.
8 "Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks", arXiv, 18 de julho de 2017.
9 "On First-Order Meta-Learning Algorithms", arXiv, 22 de outubro de 2018.
10 "Meta Learning for Natural Language Processing: A Survey", arXiv, 2 de julho de 2022.
11 "Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning", arXiv, 30 de julho de 2020.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io