Diferentemente do aprendizado supervisionado ou do ajuste fino, em que um classificador é treinado nas tarefas exatas para as quais será usado e o conjunto de treinamento contém as mesmas classes nas quais o modelo será testado, o meta-aprendizado adota uma abordagem mais ampla e indireta. Enquanto as abordagens baseadas no aprendizado de transferência adaptam modelos pré-treinados, os métodos de meta-aprendizado geralmente treinam sistemas de ponta a ponta do zero.
De acordo com Santoro et al, “meta-aprendizado” refere-se a cenários em que múltiplas tarefas são usadas para treinar um modelo tanto a curto como a longo prazo. Dentro de cada tarefa, o modelo aprende rapidamente a fazer previsões relevantes para o domínio limitado daquela tarefa específica; entre as tarefas, o modelo acumula conhecimento gradualmente, capturando a forma como os padrões e a estrutura das tarefas variam entre os domínios-alvo. Este processo de duas camadas é frequentemente descrito como o modelo “aprender a aprender”. 2
Por exemplo, o objetivo de muitos métodos de meta-aprendizado proeminentes é treinar uma função de modelo, em vários episódios de treinamento, para produzir uma previsão para o grau de semelhança entre pontos de dados de quaisquer classes, incluindo classes que o modelo ainda não viu, para então usar o aprendizado desse processo para resolver tarefas posteriores (como problemas de classificação especificamente definidos).
Algumas abordagens de meta-aprendizado funcionam em um nível mais abstrato, treinando modelos para serem fáceis de treinar. No aprendizado supervisionado tradicional, os parâmetros de um modelo (como pesos e vieses) são o que é "aprendido", enquanto os hiperparâmetrosdo modelo, como a taxa de aprendizado ou como os parâmetros são inicializados, são configurados antes do treinamento e não fazem parte do processo de aprendizado. O meta-aprendizado pode aproximar os benefícios do aprendizado de transferência aprendendo pontos de partida ideais: inicializações de parâmetros ou outras opções de hiperparâmetros que se generalizarão bem em diferentes conjuntos de dados em uma quantidade mínima de etapas de treinamento.