¿Qué es el meta aprendizaje?

Autores

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es el meta aprendizaje?

El meta aprendizaje, también llamado "aprender a aprender", es una subcategoría del machine learning que capacita a los modelos de inteligencia artificial (IA) para que comprendan y se adapten a nuevas tareas por sí mismos. El objetivo principal del meta aprendizaje es proporcionar a las máquinas la habilidad para aprender a aprender.

A diferencia del aprendizaje supervisado convencional, donde los modelos se entrenan para resolver una tarea específica utilizando un conjunto de datos de entrenamiento definido, el proceso de metaaprendizaje implica una variedad de tareas, cada una con su propio conjunto de datos asociado. A partir de estos múltiples eventos de aprendizaje, los modelos adquieren la capacidad de generalizar entre tareas, lo que les permite adaptarse rápidamente a nuevos escenarios incluso con pocos datos.

Los algoritmos de metaaprendizaje se entrenan con las predicciones y los metadatos de otros algoritmos de machine learning. Los algoritmos de metaaprendizaje luego generan predicciones propias e información que se puede utilizar para mejorar el rendimiento y los resultados de otros algoritmos de machine learning.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funciona el meta aprendizaje

El meta aprendizaje implica dos etapas clave: meta entrenamiento y meta prueba. En ambas etapas, un modelo de aprendizaje base ajusta y actualiza sus parámetros a medida que aprende. El conjunto de datos empleado se divide en un conjunto de soporte para meta entrenamiento y un conjunto de prueba para meta pruebas.

Meta entrenamiento

En la fase de meta entrenamiento, el modelo base de aprendizaje recibe una amplia gama de tareas. El objetivo del modelo es descubrir patrones comunes entre estas tareas y adquirir un amplio conocimiento que se pueda aplicar para resolver nuevas tareas.

Meta pruebas

Durante la fase de meta pruebas, el rendimiento del modelo base de aprendizaje se evalúa asignándole tareas que no encontró cuando se capacitó. La efectividad del modelo se mide por qué tan bien y qué tan rápido se adapta a estas nuevas tareas empleando su conocimiento aprendido y su comprensión generalizada.

Diagrama que representa al aprendiz base y al meta aprendiz haciendo predicciones

Enfoques comunes de meta aprendizaje

Hay tres enfoques típicos para el meta aprendizaje. Así es como funciona cada enfoque y sus diferentes tipos:

Metaaprendizaje basado en métricas

El metaaprendizaje basado en métricas se centra en el aprendizaje de una función que calcula una métrica de distancia, que es la medida de la similitud entre dos puntos de datos. Este enfoque es similar al algoritmo k-vecinos más cercanos (KNN), que emplea la proximidad para realizar clasificaciones o predicciones.

Neural Network convolucional siamesa

Una red neuronal consta de redes neuronales convolucionales gemelas idénticas que comparten parámetros y ponderaciones. Las actualizaciones de parámetros se duplican en las dos redes. Ambas redes están unidas por una función de pérdida que calcula una métrica de distancia (normalmente similitud por pares).1

El conjunto de datos de entrenamiento se compone de pares de muestras coincidentes y no coincidentes. Luego, las neural networks siamesas convolucionales aprenden a calcular la similitud por pares, maximizando la distancia euclidiana entre pares no coincidentes o diferentes y minimizando la distancia entre pares coincidentes o similares.1

Redes coincidentes

Las redes de coincidencia aprenden a predecir la clasificación midiendo una métrica de distancia conocida como similitud de coseno entre dos muestras.2

Red de relaciones

Una red de relaciones aprende una métrica de distancia no lineal profunda para comparar elementos. La red clasifica los elementos calculando puntajes de relación, que representan la similitud entre los elementos.3

Redes prototípicas

Las redes prototípicas calculan la media de todas las muestras de una clase para crear un prototipo para esa clase. Luego, la red aprende un espacio métrico, donde las tareas de clasificación se realizan calculando la distancia euclidiana al cuadrado entre un punto de datos particular y la representación prototipo de una clase.4

Meta aprendizaje basado en modelos

El meta aprendizaje basado en modelos implica aprender los parámetros de un modelo, lo que puede facilitar el aprendizaje rápido a partir de datos dispersos.

Neural Networks con memoria aumentada

Una Neural Network aumentada por la memoria (MANN) está equipada con un módulo de memoria externa que permite un almacenamiento estable y una codificación y recuperación rápidas de la información5

En el meta aprendizaje, los MANN pueden entrenarse para aprender una técnica general para los tipos de representaciones que se almacenarán en la memoria externa y un método para usar esas representaciones para hacer predicciones. Se demostró que los MANN funcionan bien en tareas de regression y clasificación.5

Meta Networks

MetaNet (abreviatura de Meta Networks) es un modelo de meta aprendizaje que se puede aplicar en el aprendizaje por imitación y en el aprendizaje por refuerzo. Al igual que las MANN, las Meta Redes también tienen memoria externa.6

MetaNet se compone de un aprendiz base y un meta aprendiz que trabajan en niveles espaciales separados. El meta aprendiz adquiere conocimientos generales sobre diferentes tareas dentro de un meta espacio. El aprendiz base toma una tarea de entrada y envía meta información sobre el espacio de tareas actual al meta aprendiz. A partir de esta información, el meta aprendiz realiza una parametrización rápida para actualizar los pesos en ambos espacios.6

Metaaprendizaje basado en la optimización

El aprendizaje profundo suele requerir múltiples actualizaciones iterativas de los parámetros del modelo a través de la retropropagación y el algoritmo de optimización de descenso del gradiente. En el metaaprendizaje basado en la optimización, a veces llamado meta aprendizaje basado en gradientes, el algoritmo aprende qué parámetros iniciales del modelo o hiperparámetros de neural networks se pueden ajustar de manera eficiente para tareas relevantes. Esto suele suponer una metaoptimización, es decir, optimizar el propio algoritmo de optimización.

Meta aprendiz LSTM

Este método de metaaprendizaje basado en la optimización utiliza la arquitectura popular de la red neuronal recurrente llamada redes de memoria largo-corto plazo (LSTM) para capacitar al metaaprendizaje a adquirir conocimientos a largo plazo compartidos entre las tareas y conocimientos a corto plazo de cada tarea. Aprende una inicialización de los parámetros del aprendiz para una rápida convergencia de entrenamiento y cómo actualizar esos parámetros de manera eficiente dado un pequeño conjunto de entrenamiento, ayudando al aprendiz a adaptarse rápidamente a las nuevas tareas.7

Meta aprendizaje independiente del modelo (MAML)

Como su nombre lo indica, este algoritmo de meta aprendizaje basado en optimización es independiente del modelo. Esto lo hace compatible con cualquier modelo capacitado mediante descenso de gradiente y adecuado para resolver diversos problemas de aprendizaje, como la clasificación, la regression y el aprendizaje por refuerzo.8

La idea central detrás de MAML es entrenar los parámetros iniciales del modelo de manera que unas pocas actualizaciones de gradiente den como resultado un rápido aprendizaje en una nueva tarea. El objetivo es determinar los parámetros del modelo que son sensibles a los cambios en una tarea, de modo que cambios menores en esos parámetros conduzcan a mejoras importantes en la función de pérdida de la tarea. La meta optimización en todas las tareas se realiza mediante el descenso de gradiente estocástico (SGD).8

A diferencia del descenso de gradiente, que calcula derivadas para optimizar los parámetros de un modelo para una determinada tarea, MAML calcula segundas derivadas para optimizar los parámetros iniciales de un modelo para la optimización específica de la tarea. Una versión modificada del meta aprendizaje independiente del modelo, conocida como MAML de primer orden o FOMAML, omite las segundas derivadas para un proceso menos costoso desde el punto de vista computacional.8

Reptile

Reptile es un algoritmo de meta aprendizaje basado en gradientes de primer orden similar a FOMAML. Muestrea repetidamente una tarea, se entrena en esa tarea a través de muchos pasos de descenso de gradiente y mueve el peso del modelo hacia los nuevos parámetros.9

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Casos de uso de meta aprendizaje en aprendizaje automático

Para demostrar aún más la versatilidad del meta aprendizaje, aquí hay algunas formas en que se puede emplear el meta aprendizaje dentro del propio ámbito del machine learning:

Machine learning automatizado (AutoML)

El machine learning automatizado (AutoML) permite automatizar tareas en el proceso de aprendizaje automático. Las técnicas de metaaprendizaje son muy convenientes para el AutoML, especialmente cuando se trata de la optimización de hiperparámetros y la selección de modelos.

El ajuste de los hiperparámetros para los modelos de aprendizaje automático generalmente se realiza manualmente. Los algoritmos de meta aprendizaje pueden ayudar a automatizar este procedimiento aprendiendo a optimizar los hiperparámetros o identificando los hiperparámetros ideales para una determinada tarea.

Los algoritmos de meta aprendizaje también pueden aprender a elegir el modelo más apropiado (e incluso los parámetros y la arquitectura de ese modelo) para resolver una tarea específica. Esto ayuda a automatizar el proceso de selección de modelos.

Few-shot learning

El aprendizaje few-shot es un marco de machine learning que entrena un modelo de IA en un pequeño número de ejemplos. La mayoría de los métodos de aprendizaje few-shot se basan en el metaaprendizaje, en el que los modelos se adaptan a nuevas tareas dada la escasez de datos de entrenamiento.

Motores de recomendación

Un motor de recomendaciones se basa en algoritmos de machine learning para encontrar patrones en los datos de comportamiento del usuario y recomendar elementos relevantes basados en esos patrones. Los sistemas de metaaprendizaje pueden aprender modelos de recomendación para generar sugerencias más precisas y relevantes que personalicen mejor las experiencias de los usuarios.

Transferir aprendizaje

El meta aprendizaje puede ayudar a facilitar el aprendizaje por transferencia, que adapta un modelo previamente capacitado para aprender nuevas tareas o clases de datos nunca antes vistas.

Aplicaciones del meta aprendizaje

El meta aprendizaje se puede aplicar a diferentes áreas de la industria tecnológica, algunas de las cuales incluyen:

Visión artificial
Procesamiento del lenguaje natural

El metaaprendizaje se puede utilizar para tareas de procesamiento de lenguaje natural , como el modelado del lenguaje, la clasificación de sentimientos, el reconocimiento de voz y la clasificación de textos.10

Robótica

El meta aprendizaje puede ayudar a los robots a aprender rápidamente nuevas tareas y adaptarse a entornos dinámicos. Se puede aplicar en una serie de tareas, como agarrar, navegar, manipular y mover.11

Beneficios del meta aprendizaje

El meta aprendizaje tiene mucho potencial. Estas son algunos de sus beneficios:

Adaptabilidad

El meta aprendizaje se puede emplear para crear modelos de IA más generalizados que puedan aprender a realizar muchas tareas relacionadas. Debido a esta flexibilidad, los sistemas de meta aprendizaje pueden adaptarse rápidamente a nuevas tareas y diferentes dominios.

Uso eficiente de los datos

El meta aprendizaje permite aprender a partir de unas pocas muestras, lo que podría eliminar la necesidad de grandes volúmenes de conjuntos de datos. Esto puede ser especialmente útil en ámbitos en los que la recopilación y preparación de datos puede requerir mucho trabajo y tiempo.

Reducción del tiempo y los costos de entrenamiento

Debido a su eficiencia de datos y aprendizaje rápido, el meta aprendizaje puede resultar en un proceso de entrenamiento más rápido y costos de entrenamiento reducidos.

Desafíos del meta aprendizaje

A pesar de la promesa del meta aprendizaje, también presenta desafíos. Estos son algunos de ellos:

Falta de datos

A veces, la cantidad de datos para capacitar modelos de IA es insuficiente, especialmente para dominios de nicho. O, si hay datos disponibles, es posible que la calidad no sea adecuada para capacitar de manera eficiente los algoritmos de meta aprendizaje.

Sobreajuste

No tener suficiente variabilidad entre las tareas en el conjunto de soporte para el meta entrenamiento puede llevar a un sobreajuste. Esto significa que un algoritmo de meta aprendizaje solo podría ser aplicable a tareas específicas sin poder generalizar de manera efectiva en un amplio espectro de tareas.

Subajuste

Por el contrario, tener demasiada variabilidad entre las tareas en el conjunto de soporte para el meta entrenamiento puede derivarse en un desajuste. Esto significa que un algoritmo de meta aprendizaje podría no ser capaz de emplear su conocimiento para resolver otra tarea y podría tener dificultades para adaptarse a nuevos escenarios. Por lo tanto, un equilibrio en la variabilidad de las tareas es clave.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo