Las últimas tendencias en IA, presentadas por expertos
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
El aprendizaje por transferencia es una técnica de machine learning en la que los conocimientos adquiridos a través de una tarea o conjunto de datos se utilizan para mejorar el rendimiento del modelo en otra tarea relacionada o en un conjunto de datos diferente1. En otras palabras, el aprendizaje por transferencia utiliza lo aprendido en un entorno para mejorar la generalización en otro entorno2.
El aprendizaje por transferencia tiene muchas aplicaciones, desde resolver problemas de regresión en ciencia de datos hasta entrenar modelos de deep learning. De hecho, resulta especialmente atractivo para estos últimos dada la gran cantidad de datos necesarios para crear redes neuronales profundas.
Los procesos de aprendizaje tradicionales construyen un nuevo modelo para cada nueva tarea, basado en los datos etiquetados disponibles. Esto se debe a que los algoritmos tradicionales de machine learning asumen que los datos de entrenamiento y de prueba proceden del mismo espacio de características, por lo que si la distribución de datos cambia, o el modelo entrenado se aplica a un nuevo conjunto de datos, los usuarios deben volver a entrenar un nuevo modelo desde cero, incluso si se intenta una tarea similar a la del primer modelo (por ejemplo, un clasificador de análisis de sentimiento de reseñas de películas frente a reseñas de canciones). Sin embargo, los algoritmos de aprendizaje por transferencia toman como punto de partida modelos o redes ya entrenados. Después aplica los conocimientos del modelo adquiridos en una tarea o datos de origen inicial (p. ej. clasificar las reseñas de películas) en función de una tarea o datos objetivo nuevos, aunque relacionados (p. ej. clasificar reseñas de canciones)3.
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Por supuesto, la transferencia de conocimientos de un dominio a otro no puede compensar el impacto negativo de los datos de mala calidad. Las técnicas de preprocesamiento y la ingeniería de características, como el aumento de datos y la extracción de características, siguen siendo necesarias cuando se utiliza el aprendizaje por transferencia.
No se trata tanto de que haya desventajas inherentes al aprendizaje por transferencia como de que existan posibles consecuencias negativas derivadas de su aplicación incorrecta. El aprendizaje por transferencia funciona mejor cuando se cumplen tres condiciones:
Cuando no se cumplen estas condiciones, el aprendizaje por transferencia puede afectar negativamente al rendimiento del modelo. En la literatura se habla de transferencia negativa. La investigación en curso propone una variedad de pruebas para determinar si los conjuntos de datos y las tareas cumplen las condiciones anteriores y, por lo tanto, no darán lugar a una transferencia negativa5. La transferencia a distancia es un método desarrollado para corregir la transferencia negativa que resulta de una disimilitud demasiado grande en las distribuciones de datos de los conjuntos de datos de origen y de destino6.
Tenga en cuenta que no existe una métrica estándar generalizada para determinar la similitud entre las tareas para el aprendizaje por transferencia. Sin embargo, algunos estudios proponen diferentes métodos de evaluación para predecir las similitudes entre los conjuntos de datos y las tareas de machine learning, lo que limita la viabilidad del aprendizaje por transferencia7.
Hay tres prácticas o subentornos adyacentes del aprendizaje por transferencia. Su distinción entre s, así como el aprendizaje por transferencia en general, se debe en gran medida a los cambios en la relación entre el dominio de origen, el dominio de destino y las tareas que deben realizarse8.
El aprendizaje por transferencia es distinto del ajuste fino. Es cierto que ambos reutilizan modelos de machine learning preexistentes en lugar de entrenar nuevos modelos. Pero las similitudes terminan en gran medida ahí. El ajuste fino se refiere al proceso de entrenamiento adicional de un modelo en un conjunto de datos de una tarea específica para mejorar el rendimiento en la tarea inicial específica para la que se construyó el modelo. Por ejemplo, se puede crear un modelo de detección de objetos de propósito general utilizando conjuntos de imágenes masivos como COCO o ImageNet y, a continuación, entrenar el modelo resultante en un conjunto de datos más pequeño y etiquetado específico para la detección de coches. De esta manera, un usuario ajusta un modelo de detección de objetos para la detección de automóviles. Por el contrario, el aprendizaje por transferencia significa que los usuarios adaptan un modelo a un nuevo problema relacionado y no al mismo problema.
Hay muchas aplicaciones de aprendizaje de transferencia en entornos reales de machine learning e inteligencia artificial. Los desarrolladores y los científicos de datos pueden utilizar el aprendizaje por transferencia para ayudar en una gran cantidad de tareas y combinarlo con otros enfoques de aprendizaje, como el aprendizaje por refuerzo.
Un problema destacado que afecta al aprendizaje por transferencia en PLN es la falta de coincidencia de características. Los rasgos de distintos ámbitos pueden tener significados y, por tanto, connotaciones diferentes (p.ej. light hace referencia en inglés al peso y a la óptica). Esta disparidad en las representaciones de características afecta a las tareas de clasificación de sentimientos, los modelos de lenguaje, etc. Los modelos basados en el deep learning, en particular, la incrustación de palabras, resultan prometedores para corregir esto, puesto que pueden captar adecuadamente las relaciones semánticas y las orientaciones para las tareas de adaptación de dominios12.
Dada las dificultades para adquirir suficientes datos etiquetados manualmente para diversas tareas de visión artificial, una gran cantidad de investigaciones examinan las aplicaciones del aprendizaje por transferencia con redes neuronales convolucionales (CNN). Un ejemplo notable es ResNet, una arquitectura de modelo previamente entrenada que demuestra un rendimiento mejorado en las tareas de clasificación de imágenes y detección de objetos13. Investigaciones recientes analizan el famoso conjunto de datos ImageNet para el aprendizaje por transferencia, argumentando que (en contra de la sabiduría popular en materia de visión artificial) solo se necesitan pequeños subconjuntos de este conjunto de datos para entrenar modelos fiables y generalizables14. Muchos tutoriales de aprendizaje por transferencia para visión por computador utilizan tanto ResNet como ImageNet con la librería keras de TensorFlow.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.