El metaaprendizaje es una subcategoría del machine learning que capacita a los modelos de inteligencia artificial (IA) para que comprendan y se adapten a nuevas tareas por sí mismos. El objetivo principal del metaaprendizaje es proporcionar a las máquinas la habilidad para aprender a aprender.
A diferencia del aprendizaje supervisado convencional, en el que los modelos se capacitan para resolver una tarea específica empleando un conjunto de datos de entrenamiento definido, el proceso de metaaprendizaje implica una variedad de tareas, cada una con su propio conjunto de datos asociado. A partir de estos múltiples eventos de aprendizaje, los modelos adquieren la capacidad de generalizar entre tareas, lo que les permite adaptarse rápidamente a nuevos escenarios incluso con pocos datos.
Los algoritmos de metaaprendizaje se entrenan con las predicciones y los metadatos de otros algoritmos de machine learning. Los algoritmos de metaaprendizaje luego generan predicciones propias e información que se puede utilizar para mejorar el rendimiento y los resultados de otros algoritmos de machine learning.
El metaaprendizaje implica dos etapas clave: meta entrenamiento y meta prueba.
En ambas etapas, un modelo de aprendizaje base ajusta y actualiza sus parámetros a medida que aprende. El conjunto de datos empleado se divide en un conjunto de soporte para meta entrenamiento y un conjunto de prueba para meta pruebas.
En la fase de meta entrenamiento, el modelo base de aprendizaje recibe una amplia gama de tareas. El objetivo del modelo es descubrir patrones comunes entre estas tareas y adquirir un amplio conocimiento que se pueda aplicar para resolver nuevas tareas.
Durante la fase de meta pruebas, el rendimiento del modelo base de aprendizaje se evalúa asignándole tareas que no encontró cuando se capacitó. La efectividad del modelo se mide por qué tan bien y qué tan rápido se adapta a estas nuevas tareas empleando su conocimiento aprendido y su comprensión generalizada.
Hay tres enfoques típicos para el metaaprendizaje:
Así es como funciona cada enfoque y sus diferentes tipos:
El metaaprendizaje basado en métricas se centra en el aprendizaje de una función que calcula una métrica de distancia, que es la medida de la similitud entre dos puntos de datos. Este enfoque es similar al algoritmo k-vecinos más cercanos (KNN), que emplea la proximidad para realizar clasificaciones o predicciones.
Una red neuronal consta de redes neuronales convolucionales gemelas idénticas que comparten parámetros y ponderaciones. Las actualizaciones de parámetros se duplican en las dos redes. Ambas redes están unidas por una función de pérdida que calcula una métrica de distancia (normalmente similitud por pares).1
El conjunto de datos de entrenamiento se compone de pares de muestras coincidentes y no coincidentes. Luego, las neural networks siamesas convolucionales aprenden a calcular la similitud por pares, maximizando la distancia euclidiana entre pares no coincidentes o diferentes y minimizando la distancia entre pares coincidentes o similares.1
Las redes de coincidencia aprenden a predecir la clasificación midiendo una métrica de distancia conocida como similitud de coseno entre dos muestras.2
Una red de relaciones aprende una métrica de distancia no lineal profunda para comparar elementos. La red clasifica los elementos calculando puntajes de relación, que representan la similitud entre los elementos.3
Las redes prototípicas calculan la media de todas las muestras de una clase para crear un prototipo para esa clase. Luego, la red aprende un espacio métrico, donde las tareas de clasificación se realizan calculando la distancia euclidiana al cuadrado entre un punto de datos particular y la representación prototipo de una clase.4
El metaaprendizaje basado en modelos implica aprender los parámetros de un modelo, lo que puede facilitar el aprendizaje rápido a partir de datos dispersos.
Una Neural Network aumentada por la memoria (MANN) está equipada con un módulo de memoria externa que permite un almacenamiento estable y una codificación y recuperación rápidas de la información5
En el metaaprendizaje, los MANN pueden entrenarse para aprender una técnica general para los tipos de representaciones que se almacenarán en la memoria externa y un método para usar esas representaciones para hacer predicciones. Se demostró que los MANN funcionan bien en tareas de regression y clasificación.5
MetaNet (abreviatura de Meta Networks) es un modelo de metaaprendizaje que se puede aplicar en el aprendizaje por imitación y en el aprendizaje por refuerzo. Al igual que las MANN, las Meta Redes también tienen memoria externa.6
MetaNet se compone de un aprendiz base y un meta aprendiz que trabajan en niveles espaciales separados. El meta aprendiz adquiere conocimientos generales sobre diferentes tareas dentro de un meta espacio. El aprendiz base toma una tarea de entrada y envía meta información sobre el espacio de tareas actual al meta aprendiz. A partir de esta información, el meta aprendiz realiza una parametrización rápida para actualizar los pesos en ambos espacios.6
El aprendizaje profundo suele requerir múltiples actualizaciones iterativas de los parámetros del modelo a través de la retropropagación y el algoritmo de optimización de descenso del gradiente.
En el metaaprendizaje basado en la optimización, a veces llamado metaaprendizaje basado en gradientes, el algoritmo aprende qué parámetros iniciales del modelo o hiperparámetros de neural networks se pueden ajustar de manera eficiente para tareas relevantes. Esto suele suponer una metaoptimización, es decir, optimizar el propio algoritmo de optimización.
Este método de metaaprendizaje basado en la optimización utiliza la arquitectura popular de la red neuronal recurrente llamada redes de memoria largo-corto plazo (LSTM) para capacitar al metaaprendizaje a adquirir conocimientos a largo plazo compartidos entre las tareas y conocimientos a corto plazo de cada tarea.
Aprende una inicialización de los parámetros del aprendiz para una rápida convergencia de entrenamiento y cómo actualizar esos parámetros de manera eficiente dado un pequeño conjunto de entrenamiento, ayudando al aprendiz a adaptarse rápidamente a las nuevas tareas.7
Como su nombre lo indica, este algoritmo de metaaprendizaje basado en optimización es independiente del modelo. Esto lo hace compatible con cualquier modelo capacitado mediante descenso de gradiente y adecuado para resolver diversos problemas de aprendizaje, como la clasificación, la regression y el aprendizaje por refuerzo.8
La idea central detrás de MAML es entrenar los parámetros iniciales del modelo de manera que unas pocas actualizaciones de gradiente den como resultado un rápido aprendizaje en una nueva tarea. El objetivo es determinar los parámetros del modelo que son sensibles a los cambios en una tarea, de modo que cambios menores en esos parámetros conduzcan a mejoras importantes en la función de pérdida de la tarea. La meta optimización en todas las tareas se realiza mediante el descenso de gradiente estocástico (SGD).8
A diferencia del descenso de gradiente, que calcula derivadas para optimizar los parámetros de un modelo para una determinada tarea, MAML calcula segundas derivadas para optimizar los parámetros iniciales de un modelo para la optimización específica de la tarea. Una versión modificada del metaaprendizaje independiente del modelo, conocida como MAML de primer orden o FOMAML, omite las segundas derivadas para un proceso menos costoso desde el punto de vista computacional.8
Reptile es un algoritmo de metaaprendizaje basado en gradientes de primer orden similar a FOMAML. Muestrea repetidamente una tarea, se entrena en esa tarea a través de muchos pasos de descenso de gradiente y mueve el peso del modelo hacia los nuevos parámetros.9
Para demostrar aún más la versatilidad del metaaprendizaje, aquí hay algunas formas en que se puede emplear dentro del propio ámbito del machine learning:
El machine learning automatizado (AutoML) permite automatizar tareas en el proceso de aprendizaje automático. Las técnicas de metaaprendizaje son muy convenientes para el AutoML, especialmente cuando se trata de la optimización de hiperparámetros y la selección de modelos.
El ajuste de los hiperparámetros para los modelos de aprendizaje automático generalmente se realiza manualmente. Los algoritmos de metaaprendizaje pueden ayudar a automatizar este procedimiento aprendiendo a optimizar los hiperparámetros o identificando los hiperparámetros ideales para una determinada tarea.
Los algoritmos de metaaprendizaje también pueden aprender a elegir el modelo más apropiado (e incluso los parámetros y la arquitectura de ese modelo) para resolver una tarea específica. Esto ayuda a automatizar el proceso de selección de modelos.
El aprendizaje few-shot es un marco de machine learning que entrena un modelo de IA en un pequeño número de ejemplos. La mayoría de los métodos de aprendizaje few-shot se basan en el metaaprendizaje, en el que los modelos se adaptan a nuevas tareas dada la escasez de datos de entrenamiento.
Un motor de recomendaciones se basa en algoritmos de machine learning para encontrar patrones en los datos de comportamiento del usuario y recomendar elementos relevantes basados en esos patrones. Los sistemas de metaaprendizaje pueden aprender modelos de recomendación para generar sugerencias más precisas y relevantes que personalicen mejor las experiencias de los usuarios.
El metaaprendizaje puede ayudar a facilitar el aprendizaje por transferencia, que adapta un modelo previamente capacitado para aprender nuevas tareas o clases de datos nunca antes vistas.
El metaaprendizaje se puede aplicar a diferentes áreas de la industria tecnológica, algunas de las cuales incluyen:
El meta aprendizaje puede emplearse en tareas de visión por computadora, como el reconocimiento facial, la clasificación de imágenes, la segmentación de imágenes, la detección de objetos y el seguimiento de objetos.
El metaaprendizaje se puede utilizar para tareas de procesamiento de lenguaje natural , como el modelado del lenguaje, la clasificación de sentimientos, el reconocimiento de voz y la clasificación de textos.10
El metaaprendizaje puede ayudar a los robots a aprender rápidamente nuevas tareas y adaptarse a entornos dinámicos. Se puede aplicar en una serie de tareas, como agarrar, navegar, manipular y mover.11
El metaaprendizaje tiene mucho potencial. Estas son algunos de sus beneficios:
El metaaprendizaje se puede emplear para crear modelos de IA más generalizados que puedan aprender a realizar muchas tareas relacionadas. Debido a esta flexibilidad, pueden adaptarse rápidamente a nuevas tareas y diferentes dominios.
El metaaprendizaje permite aprender a partir de unas pocas muestras, lo que podría eliminar la necesidad de grandes volúmenes de conjuntos de datos. Esto puede ser especialmente útil en ámbitos en los que la recopilación y preparación de datos puede requerir mucho trabajo y tiempo.
Debido a su eficiencia de datos y aprendizaje rápido, el metaaprendizaje puede resultar en un proceso de entrenamiento más rápido y costos de entrenamiento reducidos.
A pesar de la promesa del metaaprendizaje, también presenta desafíos. Estos son algunos de ellos:
A veces, la cantidad de datos para capacitar modelos de IA es insuficiente, especialmente para dominios de nicho. O, si hay datos disponibles, es posible que la calidad no sea adecuada para capacitar de manera eficiente los algoritmos de metaaprendizaje.
No tener suficiente variabilidad entre las tareas en el conjunto de soporte para el meta entrenamiento puede llevar a un sobreajuste. Esto significa que un algoritmo de metaaprendizaje solo podría ser aplicable a tareas específicas sin poder generalizar de manera efectiva en un amplio espectro de tareas.
Por el contrario, tener demasiada variabilidad entre las tareas en el conjunto de soporte para el meta entrenamiento puede derivarse en un desajuste. Esto significa que un algoritmo de metaaprendizaje podría no ser capaz de emplear su conocimiento para resolver otra tarea y podría tener dificultades para adaptarse a nuevos escenarios. Por lo tanto, un equilibrio en la variabilidad de las tareas es clave.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1 "SigNet: Convolutional Siamese Network for Writer Independent Offline Signature Verification", arXiv, 30 de septiembre de 2017.
2 "Matching Networks for One Shot Learning", arXiv, 29 de diciembre de 2017.
3 "Learning to Compare: Relation Network for Few-Shot Learning", arXiv, 27 de marzo de 2018.
4 "Redes prototípicas para el aprendizaje de pocas instantáneas", arXiv, 19 de junio de 2017.
5 "Meta-Learning with Memory-Augmented Neural Networks", Proceedings of the 33rd International Conference on Machine Learning, 19 de junio de 2016.
6 "Meta Networks", arXiv, 8 de junio de 2017.
7 "Optimización como modelo para el aprendizaje de pocos intentos", OpenReview, 22 de julio de 2022.
8 "Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks", arXiv, 18 de julio de 2017.
9 "Sobre algoritmos de metaaprendizaje de primer orden", arXiv, 22 de octubre de 2018.
10 "Meta Learning for Natural Language Processing: A Survey", arXiv, 2 de julio de 2022.
11 "Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning", arXiv, 30 de julio de 2020.