¿Qué son los modelos fundacionales?

¿Qué son los modelos fundacionales?

Los modelos fundacionales son modelos de IA entrenados en vastos e inmensos conjuntos de datos y pueden cumplir una amplia gama de tareas generales. Sirven como base o bloques de construcción para crear aplicaciones más especializadas.

Su flexibilidad y tamaño masivo los diferencian de los modelos de machine learning tradicionales, que se entrena en conjuntos de datos más pequeños para realizar tareas específicas, como la detección de objetos o el forecasting de tendencias. Mientras tanto, los modelos fundacionales emplean el aprendizaje por transferencia para aplicar el conocimiento aprendido de una tarea a otra. Esto los hace aptos para dominios más amplios, incluida la visión artificial, el procesamiento de lenguaje natural (NLP) y el reconocimiento de voz.

Investigadores del Center for Research on Foundation Models y Institute for Human-Centered Artificial Intelligence de la Universidad de Stanford acuñaron el término "modelo fundacional" en un documento de 2021. Caracterizan estos modelos como un “cambio de paradigma” y describen el razonamiento detrás de su denominación: “[Un] modelo fundacional es en sí mismo incompleto, pero sirve como base común a partir de la cual se construyen muchos modelos específicos de tareas a través de la adaptación. También elegimos el término '"fundacional" para connotar la importancia de la estabilidad arquitectónica, la seguridad y la protección: los cimientos mal construidos son una receta para el desastre y los cimientos bien ejecutados son una base confiable para futuras aplicaciones".1

¿Cómo funcionan los modelos fundacionales?

La creación de un modelo fundacional a menudo implica una serie de pasos similares al desarrollo de un modelo convencional de machine learning:

  1. Recopilación de datos
  2. Elegir la modalidad
  3. Definir la arquitectura del modelo
  4. Capacitación
  5. Evaluación

1. Recopilación de datos

El primer paso es recopilar un enorme corpus de datos de diversas fuentes. Este amplio espectro de datos no etiquetados y no estructurados permite a los modelos fundacionales inferir patrones, reconocer relaciones, discernir el contexto y generalizar su conocimiento.

2. Elegir la modalidad

La modalidad se refiere al tipo de datos que un modelo puede procesar, incluidos audio, imágenes, código de software, texto y video. Los modelos fundacionales pueden ser unimodales o multimodales. Los modelos unimodales están diseñados para manejar un solo tipo de datos, como recibir entradas de texto y generar salidas de texto. Los modelos multimodales pueden combinar información de múltiples modalidades, como tomar una instrucción de texto y crear una imagen o producir transcripciones escritas a partir de una grabación de voz.

3. Definición de la arquitectura del modelo

Muchos modelos fundacionales emplean una arquitectura de aprendizaje profundo, que utiliza redes neuronales para imitar el proceso de toma de decisiones del cerebro humano.

Un tipo de modelo de aprendizaje profundo conocido como modelo transformador ha sido una arquitectura elegida para los modelos fundacionales, particularmente aquellos para PLN como la línea de modelos de transformadores generativos preentrenados (GPT). Aquí hay una breve descripción general de la arquitectura transformadora:

  • Los codificadores transforman las secuencias de entrada en representaciones numéricas llamadas incrustaciones, que capturan la semántica y la posición de los tokens en la secuencia de entrada.

  • Un mecanismo de autoatención permite a los transformers "centrar su atención" en los tokens más importantes de la secuencia de entrada, independientemente de su posición.

  • Los decodificadores utilizan este mecanismo de autoatención y las incrustaciones de los codificadores para generar la secuencia de salida estadísticamente más probable.

Los modelos de difusión son otra arquitectura implementada en los modelos fundacionales. Las redes neuronales basadas en la difusión "difunden" gradualmente los datos de entrenamiento con ruido aleatorio y luego aprenden a revertir ese proceso de difusión para reconstruir los datos originales. Los modelos de difusión se utilizan principalmente en modelos fundacionales de texto a imagen como Imagen de Google, DALL-E de OpenAI (comenzando con DALL-E 2) y Stable Diffusion de Stability IA.

4. Entrenamiento

El entrenamiento suele implicar un aprendizaje autosupervisado, en el que los modelos fundacionales aprenden correlaciones inherentes en datos no etiquetados. Por lo tanto, el entrenamiento se realiza a través de múltiples iteraciones, con ponderaciones del modelo ajustadas para minimizar los errores de predicción e hiperparámetros ajustados para encontrar las variables de configuración óptimas para el entrenamiento. Los métodos de regularización también se pueden aplicar para corregir el sobreajuste (cuando un modelo se ajusta demasiado o incluso exactamente a sus datos de entrenamiento) y para mejorar la capacidad de generalización de un modelo fundacional.

5. Evaluación

El rendimiento de un modelo fundacional se puede validar mediante el uso de puntos de referencia estandarizados. Los resultados de estas evaluaciones pueden informar mejoras adicionales u optimizaciones de rendimiento.

Adaptación de modelos fundacionales

Desarrollar un modelo fundacional desde cero puede ser un proceso costoso, computacionalmente intensivo y lento. Es por eso que las empresas podrían considerar adaptar los modelos fundacionales existentes para sus necesidades particulares. Se puede acceder a estos modelos a través de una interfaz de programación de aplicaciones (API) o mediante una copia local del modelo.

Aquí hay dos enfoques comunes para la adaptación:

Refinamiento

Durante el ajuste, un modelo fundacional preentrenado adapta sus conocimientos generales a una tarea en particular. Esto implica un mayor entrenamiento mediante el uso del aprendizaje supervisado en un conjunto de datos más pequeño, específico del dominio o específico de la tarea que incluye ejemplos etiquetados. Los parámetros del modelo se actualizan para optimizar su rendimiento en la tarea.

Debido a que el ajuste altera los parámetros de un modelo, podría afectar el rendimiento del modelo en otras tareas. Crear un conjunto de datos etiquetado también es un proceso tedioso.

Prompting

Este método implica proporcionar una instrucción para adaptar un modelo fundacional a una determinada tarea. La instrucción se presenta en forma de indicaciones relacionadas con la tarea o ejemplos relevantes para la tarea que guían un modelo, lo que le permite obtener contexto y generar un resultado plausible, una capacidad conocida como aprendizaje en contexto.

Si bien las instrucciones no requieren entrenar un modelo ni cambiar sus parámetros, pueden ser necesarios varios intentos para obtener la instrucción correcta que condiciona un modelo para comprender el contexto y hacer predicciones adecuadas.

Casos de uso del modelo fundacional

La adaptabilidad y la naturaleza de propósito general de los modelos fundacionales significa que se pueden implementar para diversas aplicaciones del mundo real: 

  • Visión artificial

  • Procesamiento del lenguaje natural

  • Atención médica

  • Robótica

  • Generación de código de software

Visión artificial

Los modelos fundacionales se pueden utilizar para generar y clasificar imágenes y para detectar, identificar y describir objetos. DALL-E, Imagen y Stable Diffusion son ejemplos de modelos fundacionales de texto a imagen.

Procesamiento de lenguaje natural

Los modelos de lenguaje grandes (LLM) son una clase de modelos fundacionales que se destacan en PLN y comprensión del lenguaje natural. Sus capacidades abarcan la respuesta a preguntas, el resumen de textos, la transcripción, la traducción y los subtítulos de videos, entre otros.

Estos son algunos modelos fundacionales populares en el espacio del PLN:

  • BERT (Representaciones de codificador bidireccional de transformadores) fue uno de los primeros modelos fundacionales. Lanzado por Google en 2018, este sistema de IA de código abierto se entrenó solo con un corpus de texto sin formato.2

  • BLOOM es un modelo lingüístico multilingüe de acceso abierto entrenado en 46 idiomas. Es el resultado de un esfuerzo de colaboración entre Hugging Face y BigScience, una comunidad de investigadores de IA.3

  • Claude es la familia de modelos fundacionales de Anthropic con capacidades avanzadas de razonamiento y procesamiento multilingüe.

  • GPT, el modelo fundacional de OpenAI, es la columna vertebral de ChatGPT, el chatbot de IA generativa de la empresa. GPT-3.5 impulsa la versión gratuita de ChatGPT, mientras que GPT-4 está detrás de la versión premium. La serie GPT-4 también es el modelo de IA generativa que admite el asistente de IA Copilot de Microsoft.

  • Granite es la serie insignia de IBM de modelos fundacionales de LLM basados en la arquitectura transformadora solo con decodificador. El modelo de chat Granite 13b está optimizado para casos de uso de diálogo y funciona bien con agentes virtuales y aplicaciones de chat. Mientras que el modelo multilingüe Granite está entrenado para comprender y generar texto en inglés, alemán, español, francés y portugués.

  • PaLM 2 es el modelo lingüístico de próxima generación de Google con capacidades multilingües y de razonamiento mejoradas.

Atención médica

Dentro del campo de la atención médica, los modelos fundacionales pueden ayudar en una variedad de tareas. Desde la creación de resúmenes de las visitas de los pacientes y la búsqueda de bibliografía médica hasta la respuesta a las preguntas de los pacientes, la vinculación de los pacientes con los ensayos clínicos y la facilitación del descubrimiento de fármacos. El modelo de lenguaje Med-PaLM 2, por ejemplo, puede responder preguntas médicas, y Google está diseñando una versión multimodal que puede sintetizar información a partir de imágenes médicas.4

Robótica

En el ámbito de la robótica, los modelos fundacionales pueden ayudar a los robots a adaptarse rápidamente a nuevos entornos y generalizar en diversas tareas, escenarios y realizaciones de máquinas. Por ejemplo, el modelo de lenguaje multimodal incorporado PaLM-E transfiere conocimientos de los dominios lingüísticos y visuales de PaLM a los sistemas robóticos y se entrena con datos de sensores de robots.5

Generación de código de software

Los modelos fundacionales pueden ayudar a completar, depurar, explicar y generar código en diferentes lenguajes de programación. Estos modelos fundacionales de texto a código incluyen Claude de Anthropic, Codey y PaLM 2 de Google y la familia de modelos Granite Code de IBM entrenados en 116 lenguajes de programación.

Con tantas opciones, ¿cómo pueden las organizaciones elegir el modelo fundacional adecuado para el desarrollo de IA? Aquí hay un marco de selección de modelos de IA de seis pasos que puede ayudar:

Beneficios de los modelos fundacionales

Construir sobre modelos fundacionales puede conducir a la automatización y la innovación para las empresas. Estas son otras ventajas que las empresas pueden obtener de los modelos fundacionales:

Tiempo de creación de valor y tiempo a escala: adoptar modelos existentes elimina las fases de desarrollo y preentrenamiento, lo que permite a las empresas personalizar y desplegar rápidamente modelos ajustados.

Acceso a los datos: las organizaciones no necesitan recopilar grandes cantidades de datos para el entrenamiento previo que podrían no tener los medios para adquirir.

Precisión y rendimiento de referencia: los modelos fundacionales ya se han evaluado en cuanto a precisión y rendimiento, lo que ofrece un punto de partida de alta calidad.

Costo reducido: las empresas no necesitarán gastar en los recursos necesarios para crear un modelo fundacional desde cero.

Desafíos de los modelos fundacionales

Al igual que otros modelos de IA, los modelos fundacionales siguen lidiando con los riesgos de la IA. Este es un factor a tener en cuenta para las empresas que consideran los modelos fundacionales como la tecnología que sustenta sus flujos de trabajo internos o aplicaciones comerciales de IA.

Sesgo: un modelo puede aprender del sesgo humano presente en los datos de entrenamiento, y ese sesgo puede filtrarse a los resultados de los modelos ajustados.

Costos computacionales: el uso de modelos fundacionales existentes aún requiere una cantidad significativa de memoria, hardware avanzado como GPU (unidades de procesamiento de gráficos) y otros recursos computacionales para ajustar, desplegar y mantener.

Privacidad de datos y propiedad intelectual: los modelos fundacionales pueden entrenarse con datos obtenidos sin el consentimiento o conocimiento de sus propietarios. Tenga cuidado al introducir datos en algoritmos para evitar infringir los derechos de autor de otros o exponer información comercial de identificación personal o de propiedad exclusiva.

Costo ambiental: entrenar y ejecutar modelos fundacionales a gran escala implica cálculos que consumen mucha energía y contribuyen a aumentar las emisiones de carbono y el consumo de agua.

Alucinaciones: verificar los resultados de los modelos fundacionales de IA es esencial para asegurarse de que están produciendo resultados correctos.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables que pueden desbloquear nuevos ingresos, reducir costos y aumentar la productividad, luego use nuestra guía para investigar a profundidad.

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas mediante la incorporación de IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM watsonx en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Explore watsonx.ai Explore las soluciones de IA
Notas de pie de página

1 On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models and Stanford Institute for Human-Centered Artificial Intelligence, 2021

2 Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing, Google Research, 2 de noviembre de 2018

3 BigScience Large Open-science Open-access Multilingual Language Model, Hugging Face, 6 de julio de 2022

4 Med-PaLM, Google Research, consultado el 8 de octubre de 2024

5 PaLM-E: An embodied multimodal language model, Google Research, 10 de marzo de 2023