Un modelo preentrenado es un modelo de machine learning que se ha entrenado previamente con un gran conjunto de datos para una tarea específica (normalmente de uso general) y que después se puede reutilizar o ajustar para una tarea diferente, pero relacionada. Los modelos preentrenados ahorran tiempo, datos y recursos computacionales a los equipos de desarrollo en comparación con entrenar un modelo desde cero.
Los modelos preentrenados, que requieren muchos recursos, infraestructura y experiencia, suelen crearse mediante una combinación de grandes empresas tecnológicas, instituciones académicas, organizaciones sin ánimo de lucro y comunidades de código abierto. En ámbitos como el deep learning, donde los modelos requieren millones de parámetros, los modelos preentrenados ofrecen un punto de partida que permite a los profesionales evitar "reinventar la rueda" cada vez que desarrollan una aplicación de machine learning.
El entrenamiento de modelos enseña a un modelo de machine learning a optimizar su rendimiento en un conjunto de datos de entrenamiento con tareas de muestra relevantes para los casos de uso finales. Estos datos deben parecerse a los problemas del mundo real a los que se enfrentará el modelo para que pueda aprender los patrones y relaciones de los datos y realizar predicciones precisas sobre nuevos datos.
Este proceso de aprendizaje consiste en ajustar los parámetros del modelo, así como los pesos y sesgos de las funciones matemáticas que conforman sus algoritmos subyacentes de machine learning. El objetivo de estos ajustes es obtener outputs más precisos.
Matemáticamente hablando, el objetivo de este proceso es minimizar una función de pérdida que cuantifica el error de los outputs del modelo. Cuando el output cae por debajo de un umbral determinado, se considera que el modelo está "entrenado". En el aprendizaje por refuerzo, el objetivo es inverso: se optimizan los parámetros del modelo para maximizar una función de recompensa en lugar de minimizar una función de pérdida.
El entrenamiento de modelos implica un ciclo de recopilación y preprocesamiento de datos, introducción de esos datos de entrenamiento en el modelo, medición de pérdidas, optimización de parámetros y prueba del rendimiento con datos de validación. Este flujo de trabajo se repite hasta obtener resultados satisfactorios. El entrenamiento también puede implicar el ajuste de hiperparámetros (opciones estructurales que influyen en el proceso de aprendizaje, pero que no son "aprendibles") en un proceso denominado ajuste de hiperparámetros.
Boletín del sector
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
El principal beneficio de los modelos preentrenados es que los desarrolladores pueden utilizar modelos que ya han aprendido características generales, como la estructura del lenguaje o las formas visuales, y afinarlos a conjuntos de datos más pequeños y específicos de cada dominio, en lugar de empezar desde cero. El afinado es uno de los varios tipos de aprendizaje por transferencia, un término genérico que engloba las técnicas que adaptan modelos previamente entrenados para nuevos usos.
El uso de un modelo preentrenado acelera el desarrollo y permite que entidades más pequeñas, como las startups, que pueden no tener acceso a suficientes recursos informáticos, datos o infraestructura, experimenten con modelos de última generación. Es como comprar un traje confeccionado y luego mandarlo a arreglar para que se adapte al cuerpo de quien lo va a llevar.
El uso de modelos preentrenados significa que los profesionales tienen acceso a arquitecturas que ya han sido validadas, comparadas y probadas en escenarios reales. Esto reduce el riesgo y ayuda a garantizar la fiabilidad. Los modelos preentrenados más populares incluyen documentación exhaustiva, tutoriales y código que se pueden utilizar para adaptar los modelos a proyectos individuales.
Los modelos de lenguaje de gran tamaño (LLM) preentrenados se utilizan en innumerables organizaciones para desarrollar casos de uso del procesamiento del lenguaje natural (PLN), como la respuesta a preguntas, el análisis de sentimientos, la segmentación semántica, la IA generativa y mucho más. En esta larga lista de LLM se incluyen muchas de las opciones más populares. Otros modelos de IA se especializan en visión artificial, como los modelos de detección de objetos y clasificación de imágenes.
Uno de los recursos más antiguos e influyentes para los modelos basados en imágenes es ImageNet, un enorme conjunto de datos que se ha convertido en el punto de referencia del sector para la visión artificial. Arquitecturas como ResNet e Inception, entrenadas en ImageNet, son fundamentales en los flujos de trabajo de visión artificial. Estos modelos destacan en la extracción de características, ya que identifican los bordes, las texturas y las formas que resultan útiles para clasificar nuevas imágenes.
Existen varios centros y bibliotecas de modelos en los que las organizaciones alojan modelos preentrenados. Estos son algunos de los más comunes:
PyTorch Hub es un repositorio de modelos preentrenados diseñado para facilitar la reproducibilidad de la investigación y simplificar el uso de dichos modelos dentro del ecosistema PyTorch de Python.
TensorFlow Hub es un repositorio de modelos entrenados listos para ajustar e implementar en cualquier lugar. Los modelos BERT y Faster R-CNN (redes neuronales convolucionales) se pueden reutilizar con solo unas pocas líneas de código.
Hugging Face Models se centra en modelos de procesamiento del lenguaje natural (PLN) y visión, y proporciona acceso a modelos de última generación, como BERT, GPT y otros, junto con herramientas y tutoriales para la inferencia y el entrenamiento. La familia de modelos preentrenados IBM® Granite se puede encontrar en Hugging Face.Estos modelos son abiertos, eficaces, fiables y están optimizados para casos de uso empresarial. Granite incluye modelos de lenguaje, visión, habla y series temporales, entre otras aplicaciones.
Kaggle es una plataforma dedicada a la ciencia de datos y el machine learning que ofrece un espacio para concursos, conjuntos de datos y una comunidad para la colaboración y el aprendizaje.
GitHub es una plataforma de desarrollo que permite a los programadores crear, almacenar, gestionar y compartir su código. Muchos investigadores y empresas publican modelos preentrenados con código, pesos y documentación en repositorios de esta plataforma.
El catálogo NGC de NVIDIA ofrece modelos preentrenados optimizados para la aceleración por GPU en áreas como la visión artificial, las imágenes médicas y la IA del habla.
OpenAI Models ofrece sus modelos generativos de transformadores preentrenados, también conocidos como GPT, como el chatbot ChatGPT, Codex y DALL-E, a través de una API. El acceso se realiza a través de la nube, en lugar de mediante descarga directa, mediante plataformas como OpenAI API o Azure OpenAI.
KerasHub es una biblioteca de modelos preentrenados que pretende ser sencilla, flexible y rápida, y que proporciona implementaciones de la versión 3 de Keras de arquitecturas populares.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.