Qué es el metaaprendizaje?

Autores

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Qué es el metaaprendizaje?

El metaaprendizaje, también llamado "aprender a aprender", es una subcategoría del machine learning que entrena a los modelos de inteligencia artificial (IA) para que comprendan y se adapten a nuevas tareas por sí mismos. El objetivo principal del metaaprendizaje es proporcionar a las máquinas la habilidad para aprender a aprender.

A diferencia del aprendizaje supervisado convencional, en el que los modelos se entrenan para resolver una tarea específica utilizando un conjunto de datos de entrenamiento definido, el proceso de metaaprendizaje implica una variedad de tareas, cada una con su propio conjunto de datos asociado. A partir de estos múltiples eventos de aprendizaje, los modelos obtienen la capacidad de generalizar entre tareas, lo que les permite adaptarse rápidamente a escenarios novedosos incluso con pocos datos.

Los algoritmos de metaaprendizaje se entrenan con las predicciones y los metadatos de otros algoritmos de machine learning. Los algoritmos de metaaprendizaje luego generan sus propias predicciones e información que puede usarse para mejorar el rendimiento y los resultados de otros algoritmos de machine learning.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funciona el metaaprendizaje

El metaaprendizaje implica dos etapas clave: metaentrenamiento y metapruebas. Para ambas etapas, un modelo base de aprendizaje ajusta y actualiza sus parámetros a medida que aprende. El conjunto de datos utilizado se divide en un conjunto de soporte para metaentrenamiento y un conjunto de prueba para metapruebas.

Metaentrenamiento

En la fase de metaentrenamiento, se suministra al modelo de aprendizaje base una amplia gama de tareas. El objetivo del modelo es descubrir patrones comunes entre estas tareas y adquirir amplios conocimientos que puedan aplicarse en la resolución de nuevas tareas.

Metapruebas

Durante la fase de metapruebas, el rendimiento del modelo base de aprendizaje se evalúa asignándole tareas a las que no se enfrentó cuando se entrenó. La eficacia del modelo se mide por lo bien y lo rápido que se adapta a estas nuevas tareas utilizando su conocimiento aprendido y su comprensión generalizada.

Diagrama que representa al alumno base y al metaalumno haciendo predicciones

Enfoques comunes de metaaprendizaje

Hay tres enfoques típicos para el metaaprendizaje. A continuación se explica cómo funciona cada enfoque y sus diferentes tipos:

Metaaprendizaje basado en métricas

El metaaprendizaje basado en métricas se centra en el aprendizaje de una función que calcula una métrica de distancia, que es una medida de la similitud entre dos puntos de datos. Este enfoque es similar al algoritmo k-vecinos más cercanos (KNN), que utiliza la proximidad para hacer clasificaciones o predicciones.

Red neuronal convolucional siamesa

Una red neuronal convolucional siamesa consta de redes neuronales convolucionales gemelas idénticas que comparten parámetros y ponderaciones. Las actualizaciones de parámetros se reflejan en las dos redes. Ambas redes están unidas por una función de pérdida que calcula una métrica de distancia (normalmente similitud por pares).1

El conjunto de datos de entrenamiento se compone de pares de muestras coincidentes y no coincidentes. A continuación, las redes neuronales convolucionales siamesas aprenden a calcular la similitud por pares, maximizando la distancia euclidiana entre pares no coincidentes o diferentes y minimizando la distancia entre pares coincidentes o similares.1

Redes coincidentes

Las redes coincidentes aprenden a predecir la clasificación midiendo una métrica de distancia conocida como similitud de cosenos entre dos muestras.2

Red de relación

Una red de relaciones aprende una métrica de distancia no lineal profunda para comparar elementos. La red clasifica los elementos calculando puntuaciones de relación, que representan la similitud entre elementos.3

Redes prototípicas

Las redes prototípicas calculan la media de todas las muestras de una clase para crear un prototipo para esa clase. A continuación, la red aprende un espacio métrico, en el que las tareas de clasificación se realizan calculando la distancia euclidiana al cuadrado entre un punto de datos concreto y la representación prototipo de una clase.4

Metaaprendizaje basado en modelos

El metaaprendizaje basado en modelos implica el aprendizaje de los parámetros de un modelo, lo que puede facilitar el aprendizaje rápido de datos dispersos.

Redes neuronales con memoria aumentada

Una red neuronal con memoria aumentada (MANN) está equipada con un módulo de memoria externo que permite un almacenamiento estable y una codificación y recuperación rápidas de la información.5

En el metaaprendizaje, las MANN pueden ser entrenados para aprender una técnica general para los tipos de representaciones que se almacenan en la memoria externa y un método para usar esas representaciones para hacer predicciones. Se ha demostrado que las MANN tienen un buen rendimiento en tareas de regresión y clasificación.5

Metaredes

MetaNet (abreviatura de Meta Networks) es un modelo de metaaprendizaje que se puede aplicar en el aprendizaje por imitación y el aprendizaje por refuerzo. Al igual que las MANN, las metaredes también tienen memoria externa.6

MetaNet se compone de un aprendiz base y un metaalumno que trabajan en niveles de espacio separados. El metaalumno adquiere conocimientos generales a través de diferentes tareas dentro de un metaespacio. El alumno base toma una tarea de entrada y envía metainformación sobre el espacio de tareas actual al metaalumno. Basándose en esta información, el metaalumno realiza una parametrización rápida para actualizar las ponderaciones dentro de ambos espacios.6

Metaaprendizaje basado en la optimización

El deep learning suele requerir múltiples actualizaciones iterativas de los parámetros del modelo a través de la retropropagación y el algoritmo de optimización del descenso del gradiente. En el metaaprendizaje basado en la optimización, a veces llamado metaaprendizaje basado en gradientes, el algoritmo aprende qué parámetros iniciales del modelo o hiperparámetros de las redes neuronales se pueden ajustar de manera eficiente para las tareas relevantes. Esto suele suponer una metaoptimización, es decir, optimizar el propio algoritmo de optimización.

Metaaprendizaje LSTM

Este método de metaaprendizaje basado en la optimización utiliza la arquitectura popular de la red neuronal recurrente llamada redes de memoria largo-corto plazo (LSTM) para capacitar al metaaprendizaje a adquirir conocimientos a largo plazo compartidos entre las tareas y conocimientos a corto plazo de cada tarea. El metaalumno optimiza entonces otro clasificador de redes neuronales. Aprende a inicializar los parámetros del alumno para una rápida convergencia del entrenamiento y a actualizar esos parámetros de forma eficiente con un conjunto de entrenamiento pequeño, lo que ayuda al alumno a adaptarse rápidamente a las nuevas tareas.7

Aprendizaje de modelos agnósticos (MAML)

Como su nombre indica, este algoritmo de metaaprendizaje basado en la optimización es independiente del modelo. Esto hace que sea compatible con cualquier modelo entrenado mediante el descenso de gradientes y es adecuado para resolver varios problemas de aprendizaje, como la clasificación, la regresión y el aprendizaje por refuerzo.8

La idea central detrás del MAML es entrenar los parámetros iniciales del modelo de manera que algunas actualizaciones de gradiente resulten en un aprendizaje rápido en una nueva tarea. El objetivo es determinar los parámetros del modelo que son sensibles a los cambios en una tarea, de modo que cambios menores en esos parámetros conduzcan a mejoras importantes en la función de pérdida de la tarea. La metaoptimización entre tareas se realiza mediante el descenso de gradiente estocástico (SGD).8

A diferencia del descenso de gradiente, que computa derivadas para optimizar los parámetros de un modelo para una tarea determinada, MAML computa segundas derivadas para optimizar los parámetros iniciales de un modelo para la optimización específica de la tarea. Una versión modificada del metaaprendizaje agnóstico de modelos, conocida como MAML de primer orden o FOMAML, omite las segundas derivadas para conseguir un proceso menos costeso desde el punto de vista computacional.8

Reptile

Reptile es un algoritmo de metaaprendizaje basado en gradientes de primer orden similar a FOMAML. Toma muestras repetidamente de una tarea, entrena en esa tarea a través de muchos escalones de descenso en gradiente y mueve la ponderación del modelo hacia los nuevos parámetros.9

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Casos de uso de metaaprendizaje en machine learning

Para demostrar aún más la versatilidad del metaaprendizaje, he aquí algunas formas de utilizarlo dentro del propio ámbito del machine learning:

Machine learning automatizado (AutoML)

El machine learning automatizado (AutoML) permite la automatización de tareas en el proceso de machine learning. Las técnicas de metaaprendizaje son adecuadas para AutoML, especialmente cuando se trata de optimización de hiperparámetros y selección de modelos.

El ajuste detallado de los hiperparámetros para los modelos de machine learning suele realizarse manualmente. Los algoritmos de metaaprendizaje pueden ayudar a automatizar este procedimiento aprendiendo a optimizar los hiperparámetros o identificando los hiperparámetros ideales para una tarea determinada.

Los algoritmos de metaaprendizaje también pueden aprender a elegir el modelo más apropiado, e incluso los parámetros y la arquitectura de ese modelo, para resolver una tarea específica. Esto ayuda a automatizar el proceso de selección de modelos.

Aprendizaje few-shot

El aprendizaje few-shot es un marco de machine learning que entrena un modelo de IA en un pequeño número de ejemplos. La mayoría de los métodos de aprendizaje few-shot se basan en el metaaprendizaje, en el que los modelos se adaptan a nuevas tareas dada la escasez de datos de entrenamiento.

Motores de recomendación

Un motor de recomendaciones se basa en algoritmos de machine learning para encontrar patrones en los datos de comportamiento del usuario y recomendar elementos relevantes en función de esos patrones. Los sistemas de metaaprendizaje pueden aprender modelos de recomendación para generar sugerencias más precisas y relevantes que personalicen mejor las experiencias de los usuarios.

Aprendizaje por transferencia

El metaaprendizaje puede ayudar a facilitar el aprendizaje por transferencia, que adapta un modelo preentrenado para aprender nuevas tareas o clases de datos nunca antes vistas.

Aplicaciones del metaaprendizaje

El metaaprendizaje se puede aplicar a diferentes áreas de la industria de la tecnología, algunas de las cuales incluyen:

Computer vision

El metaaprendizaje se puede emplear para tareas de visión artificial, que incluyen el reconocimiento facial, la clasificación de imágenes, la segmentación de imágenes, la detección de objetos y el seguimiento de objetos.

Procesamiento del lenguaje natural

El metaaprendizaje se puede utilizar para tareas de procesamiento del lenguaje natural, como el modelado del lenguaje, la clasificación de sentimientos, el reconocimiento de voz y la clasificación de textos.10

Robótica

El metaaprendizaje puede ayudar a los robots a aprender rápidamente nuevas tareas y adaptarse a entornos dinámicos. Se puede aplicar en una serie de tareas como el agarre, el desplazamiento, la manipulación y el movimiento.11

Beneficios del metaaprendizaje

El metaaprendizaje tiene mucho potencial. Estas son algunas de sus ventajas:

Adaptabilidad

El metaaprendizaje se puede utilizar para crear modelos de IA más generalizados que puedan aprender a realizar muchas tareas relacionadas. Debido a esta flexibilidad, los sistemas de metaaprendizaje pueden adaptarse rápidamente a nuevas tareas y diferentes dominios.

Uso eficaz de los datos

El metaaprendizaje permite aprender a partir de unas pocas muestras, lo que podría eliminar la necesidad de grandes volúmenes de conjuntos de datos. Esto puede resultar especialmente útil en los dominios en los que recopilar y preparar datos puede requerir mucho trabajo y mucho tiempo.

Disminución del tiempo y el coste de la formación

Debido a su eficiencia de datos y su rápido aprendizaje, el metaaprendizaje puede dar lugar a un proceso de formación más rápido y a reducir los costes de formación.

Retos del metaaprendizaje

A pesar de la promesa del metaaprendizaje, también presenta desafíos. Estos son algunos de ellos:

Falta de datos

A veces, la cantidad de datos para entrenar modelos de IA es insuficiente, sobre todo para dominios nicho. O, si se dispone de datos, puede que su calidad no sea la adecuada para entrenar eficazmente algoritmos de metaaprendizaje.

Sobreajuste

No tener suficiente variabilidad entre las tareas en el conjunto de soporte para el metaentrenamiento puede provocar un sobreajuste. Esto significa que un algoritmo de metaaprendizaje solo podría ser aplicable a tareas específicas sin poder generalizarse eficazmente en un amplio espectro de tareas.

Infraajuste

Por el contrario, tener demasiada variabilidad entre las tareas en el conjunto de soporte para el metaentrenamiento puede resultar en un infraajuste. Esto significa que un algoritmo de metaaprendizaje podría no ser capaz de usar su conocimiento para resolver otra tarea y podría tener dificultades para adaptarse a nuevos escenarios. Por lo tanto, el equilibrio en la variabilidad de las tareas es clave.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo