¿Qué es un modelo previamente entrenado?

Un profesor explicando un modelo a un grupo de estudiantes

Autor

Cole Stryker

Staff Editor, AI Models

IBM Think

Un modelo previamente entrenado es un modelo de machine learning que se entrenó previamente en un gran conjunto de datos para una tarea específica (generalmente de propósito general) y luego se puede reutilizar o ajustar para una tarea diferente pero relacionada. Los modelos previamente entrenados ahorran tiempo, datos y recursos computacionales a los equipos de desarrollo en comparación con el entrenamiento de un modelo desde cero.

Al requerir amplios recursos, infraestructura y experiencia, los modelos previamente entrenados suelen ser creados por una combinación de grandes empresas tecnológicas, instituciones académicas, organizaciones sin fines de lucro y comunidades de código abierto. En dominios como aprendizaje profundo, donde los modelos requieren millones de parámetros, los modelos previamente entrenados proporcionan un punto de partida que permite a los profesionales evitar "reinventar la rueda" cada vez que crean una aplicación de machine learning.

¿Qué es el entrenamiento de modelos?

El entrenamiento de modelos "enseña" a un modelo de machine learning a optimizar el rendimiento en un conjunto de datos de tareas de muestra relevantes para los casos de uso. Estos datos de entrenamiento deben parecer a los problemas reales que se le plantearán al modelo, para que éste pueda aprender los patrones y las relaciones de los datos con el fin de hacer predicciones precisas sobre nuevos datos.

Este proceso de aprendizaje implica ajustar los parámetros de un modelo, los pesos y sesgos en las funciones matemáticas que componen sus algoritmos de machine learning subyacentes . Dichos ajustes están destinados a generar resultados más precisos.

Matemáticamente hablando, el objetivo de este proceso es minimizar una función de pérdida que cuantifica el error de los resultados del modelo. Cuando el resultado cae por debajo de un determinado umbral, el modelo se considera "entrenado". En el aprendizaje por refuerzo, el objetivo se invierte: los parámetros del modelo se optimizan para maximizar una función de recompensa en lugar de minimizar una función de pérdida.

El entrenamiento del modelo implica un ciclo de recopilación y preprocesamiento de datos, alimentación de esos datos de entrenamiento al modelo, medición de pérdidas, optimización de parámetros y pruebas de rendimiento en datos de validación. Este flujo de trabajo se repite hasta que se logran resultados satisfactorios. El entrenamiento también podría implicar el ajuste de hiperparámetros (opciones estructurales que influyen en el proceso de aprendizaje, pero que no son "aprendibles" en sí mismas) en un proceso llamado ajuste de hiperparámetros.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

El valor de un modelo preentrenado

El principal beneficio de un modelo previamente entrenado es que, en lugar de comenzar desde cero, los desarrolladores pueden usar modelos que ya han aprendido características generales, como la estructura del lenguaje o las formas visuales, y ajustarlos en conjuntos de datos más pequeños y específicos del dominio. El ajuste fino es uno de varios tipos de aprendizaje por transferencia, un término general para las técnicas que adaptan los modelos previamente entrenados para nuevos usos.

El uso de un modelo previamente entrenado acelera el desarrollo y permite a las entidades más pequeñas, como las startups, que pueden no tener acceso a suficiente computación, datos o infraestructura, experimentar con modelos de última generación. Es como comprar un atuendo listo para usar y luego adaptarlo para que se adapte al marco individual del usuario.

El uso de modelos previamente entrenados significa que los profesionales tienen acceso a arquitecturas que ya han sido validadas, probadas y puntuadas en escenarios del mundo real. Esto reduce el riesgo y ayuda a garantizar la confiabilidad. Los modelos populares previamente entrenados vienen con una amplia documentación, tutoriales y código que se pueden usar para adaptar modelos para proyectos individuales.

Los modelos de lenguaje grande (LLM) preentrenados se están empleando en innumerables organizaciones para avanzar en el procesamiento de lenguaje natural (PLN) caso de uso como respuesta a preguntas, análisis de sentimientos, segmentación semántica, IA generativa y más. Esta larga lista de LLM incluye muchas de las opciones más populares. Otros modelos de IA se especializan en visión artificial, como la detección de objetos y los modelos de clasificación de imágenes.

Uno de los primeros y más influyentes recursos para los modelos basados en imágenes es ImageNet, un conjunto de datos masivo que se convirtió en el punto de referencia de la industria para la visión artificial. Arquitecturas como ResNet e Inception, entrenadas en ImageNet, son fundamentales en los flujos de trabajo de visión artificial . Estos modelos se destacan en la extracción de características, identificando los bordes, texturas y formas que son útiles para clasificar nuevas imágenes.

AI Academy

Elija el modelo de IA adecuado para su caso de uso

Más grande no siempre es mejor cuando se trata de modelos de IA. Aprenda a encontrar la solución que mejor se adapte a las necesidades de su empresa. A continuación, obtenga la guía que le ayudará a pasar a la acción.

Dónde encontrar modelos previamente entrenados

Hay una serie de centros y bibliotecas de modelos donde las organizaciones alojan modelos previamente entrenados. Estos son algunos de los más comunes:

  • Centro de PyTorch es un repositorio de modelos pre-capacitados diseñado para facilitar la reproducibilidad de la investigación y simplificar el uso de modelos pre-capacitados dentro del ecosistema PyTorch de Python.

  • TensorFlow Hub es un repositorio de modelos entrenados listos para ajustar y desplegar en cualquier lugar. Los modelos BERT y Faster R-CNN (redes neuronales convolucionales) se pueden reutilizar con solo unas pocas líneas de código.

  • Hugging Face Models se centra en NLP y modelos de visión, proporcionando acceso a modelos de última generación como BERT, GPT y más, junto con herramientas y tutoriales para inferencia y entrenamiento. La familia IBM® Granite de modelos previamente entrenados se puede encontrar en Hugging Face. Estos modelos son abiertos, eficaces y confiables, así como optimizados para casos de uso empresarial. Granite incluye modelos para lenguaje, visión, voz y series temporales, entre otras aplicaciones.

  • Kaggle es una plataforma para la ciencia de datos y el aprendizaje automático, que ofrece un espacio para concursos, conjuntos de datos y una comunidad para la colaboración y el aprendizaje.

  • GitHub es una plataforma de desarrollo patentada que permite a los desarrolladores crear, almacenar, administrar y compartir su código. Muchos investigadores y empresas publican modelos previamente entrenados en repositorios aquí con código, ponderaciones y documentación.

  • NVIDIA NGC Catalog ofrece modelos optimizados preentrenados para la aceleración de GPU, incluyendo visión por computadora, imágenes médicas e IA del habla.

  • OpenAI Modelsproporciona sus modelos de transformadores generativos pre-entrenados, también conocidos como GPT, como el ChatGPT chatbot, Codex y DALL-E, vía API El acceso se basa en la nube en lugar de mediante descarga directa, a través de plataformas como la API de OpenAI o Azure OpenAI.

  • KerasHub es una biblioteca de modelos previamente entrenada que pretende ser simple, flexible y rápida, proporcionando implementaciones Keras 3 de arquitecturas populares.

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM watsonx en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai Explorar los modelos de IA de IBM Granite