¿Qué son los modelos fundacionales?

¿Qué son los modelos fundacionales?

Los modelos fundacionales son modelos de inteligencia artificial (IA) entrenados en vastos e inmensos conjuntos de datos y pueden realizar una amplia gama de tareas generales. Sirven como base o bloques de construcción para crear aplicaciones más especializadas.

Su flexibilidad y su enorme tamaño los diferencian de los modelos tradicionales de machine learning, que se entrenan con conjuntos de datos más pequeños para realizar tareas específicas, como la detección de objetos o la previsión de tendencias. Mientras tanto, los modelos fundacionales emplean el aprendizaje por transferencia para aplicar el conocimiento aprendido de una tarea a otra. Esto los hace aptos para dominios más amplios, como la visión artificial, el procesamiento del lenguaje natural (PLN) y el reconocimiento de voz.

Investigadores del Center for Research on Foundation Models y del Institute for Human-Centered Artificial Intelligence de la Universidad de Stanford acuñaron el término "modelos fundacionales" en un artículo publicado en 2021. Caracterizan estos modelos como un "cambio de paradigma" y describen el razonamiento detrás de su denominación: "[Un] modelo fundacional es en sí mismo incompleto, pero sirve como base común a partir de la cual se construyen muchos modelos específicos de tareas mediante la adaptación. También elegimos el término "fundacional" para connotar la importancia de la estabilidad arquitectónica, la seguridad y la protección: bases mal construidas son una receta para el desastre, mientras que unas bases bien ejecutadas son un cimiento fiable para futuras aplicaciones"1.

¿Cómo funcionan los modelos fundacionales?

La creación de un modelo fundacional suele implicar una serie de pasos similares a los de desarrollar un modelo de machine learning convencional:

  1. Recopilar datos
  2. Elegir la modalidad
  3. Definición de la arquitectura del modelo
  4. Formación
  5. Evaluación

1. Recopilar datos

El primer paso es recopilar un enorme corpus de datos de diversas fuentes. Este amplio espectro de datos no estructurados y sin etiquetar permite a los modelos fundacionales inferir patrones, reconocer relaciones, discernir el contexto y generalizar sus conocimientos.

2. Elegir la modalidad

La modalidad se refiere al tipo de datos que un modelo puede procesar, incluidos audio, imágenes, código de software, texto y vídeo. Los modelos fundacionales pueden ser unimodales o multimodales. Los modelos unimodales están diseñados para gestionar un único tipo de datos, como recibir entradas de texto y generar output de texto. Los modelos multimodales pueden combinar información de múltiples modalidades, como tomar una instrucción y crear una imagen o producir transcripciones escritas a partir de una grabación de voz.

3. Definir la arquitectura del modelo

Muchos modelos fundacionales emplean una arquitectura de deep learning, que utiliza redes neuronales multicapa para imitar el proceso de toma de decisiones del cerebro humano.

Un tipo de modelo de deep learning conocido como modelo transformador ha sido una arquitectura elegida para los modelos fundacionales, en particular los de PLN como la línea de modelos de transformadores generativos preentrenados (GPT). He aquí una breve descripción de la arquitectura del transformador:

  • Los codificadores transforman las secuencias de entrada en representaciones numéricas llamadas embeddings que capturan la semántica y la posición de los tokens en la secuencia de entrada.

  • Un mecanismo de autoatención permite a los transformadores "centrar su atención" en los tokens más importantes de la secuencia de entrada, independientemente de su posición.

  • Los decodificadores utilizan este mecanismo de autoatención y las incrustaciones de los codificadores para generar la secuencia de salida estadísticamente más probable.

Los modelos de difusión son otra arquitectura implementada en los modelos fundacionales. Las redes neuronales basadas en la difusión "difunden" gradualmente los datos de entrenamiento con ruido aleatorio y, a continuación, aprenden a invertir ese proceso de difusión para reconstruir los datos originales. Los modelos de difusión se utilizan principalmente en modelos fundacionales de texto a imagen como Imagen de Google, DALL-E de OpenAI (a partir de DALL-E 2) y Stable Diffusion de Stability AI.

4. Entrenar

El entrenamiento suele implicar un aprendizaje autosupervisado, en el que los modelos fundacionales aprenden correlaciones inherentes en datos no etiquetados. Por lo tanto, el entrenamiento se realiza a lo largo de varias iteraciones, con las ponderaciones del modelo ajustadas para minimizar los errores de predicción y los hiperparámetros ajustados para encontrar las variables de configuración óptimas para el entrenamiento. Los métodos de regularización también se pueden aplicar para corregir el sobreajuste (cuando un modelo se ajusta demasiado o incluso exactamente a sus datos de entrenamiento) y para mejorar la capacidad de generalización de un modelo fundacional.

5. Evaluar

El rendimiento de un modelo fundacional se puede validar utilizando puntos de referencia estandarizados. Los resultados de estas evaluaciones pueden informar nuevas mejoras u optimizaciones del rendimiento.

Adaptación de modelos fundacionales

Desarrollar un modelo fundacional desde cero puede ser un proceso costoso, computacionalmente intensivo y lento. Por eso, las empresas podrían considerar la posibilidad de adaptar los modelos fundacionales existentes a sus necesidades particulares. Se puede acceder a estos modelos a través de una interfaz de programación de aplicaciones (API) o utilizando una copia local del modelo.

A continuación se presentan dos enfoques comunes para la adaptación:

afinado

Durante el fine-tuning, un modelo fundacional preentrenado adapta su conocimiento general a una tarea concreta. Esto implica una formación adicional mediante el uso del aprendizaje supervisado en un conjunto de datos más pequeño, específico del dominio o de la tarea, que incluye ejemplos etiquetados. Los parámetros del modelo se actualizan para optimizar su rendimiento en la tarea.

Dado que el fine-tuning altera los parámetros de un modelo, puede afectar al rendimiento del modelo en otras tareas. Crear un conjunto de datos etiquetados también es un proceso tedioso.

Para consultar

Este método implica proporcionar una instrucción para adaptar un modelo fundacional a una tarea determinada. La indicación se presenta en forma de instrucciones relacionadas con la tarea o ejemplos relevantes para la tarea que guían al modelo, lo que le permite adquirir contexto y generar un resultado plausible, una capacidad conocida como aprendizaje en contexto.

Aunque las instrucciones no requieren entrenar un modelo ni cambiar sus parámetros, pueden ser necesarios varios intentos para obtener la instrucción adecuada que acondicione un modelo para comprender el contexto y hacer predicciones adecuadas.

Casos de uso del modelos fundacionales

La adaptabilidad y la naturaleza de propósito general de los modelos fundacionales significa que pueden implementarse para diversas aplicaciones del mundo real: 

  • Visión artificial

  • Procesamiento del lenguaje natural

  • Atención médica

  • Robótica

  • Generación de código de software

Visión artificial

Los modelos fundacionales se pueden utilizar para generar y clasificar imágenes y para detectar, identificar y describir objetos. DALL-E, Imagen y Stable Diffusion son ejemplos de modelos fundacionales de texto a imagen.

Procesamiento del lenguaje natural

Los modelos de lenguaje de gran tamaño (LLM) son una clase de modelos fundacionales que destacan en PLN y comprensión del lenguaje natural (CLN). Sus capacidades abarcan la respuesta a preguntas, el resumen de textos, la transcripción, la traducción y los subtítulos de vídeo, entre otros.

Estos son algunos modelos fundacionales populares en el espacio del PLN:

  • BERT (Representaciones de codificador bidireccional de transformadores) fue uno de los primeros modelos fundacionales. Lanzado por Google en 2018, este sistema de IA de código abierto se entrenó solo con un corpus de texto sin formato2.

  • BLOOM es un modelo DE LENGUAJE multilingüe de acceso abierto entrenado en 46 idiomas. Es el resultado de un esfuerzo de colaboración entre Hugging Face y BigScience, una comunidad de investigadores de IA3.

  • Claude es la familia de modelos fundacionales de Anthropic con capacidades avanzadas de razonamiento y procesamiento multilingüe.

  • GPT, el modelo fundacional de OpenAI, es la columna vertebral de ChatGPT, el chatbot de IA generativa de la empresa. GPT-3.5 impulsa la versión gratuita de ChatGPT, mientras que GPT-4 está detrás de la versión premium. La serie GPT-4 es también el modelo de IA generativa compatible con el asistente de IA Copilot de Microsoft.

  • Granite es la serie insignia de IBM de modelos fundacionales LLM basados en la arquitectura del transformador. El modelo de chat Granite 13b está optimizado para casos de uso y funciona bien con agentes virtuales y aplicaciones de chat. Mientras que el modelo multilingüe Granite está entrenado para comprender y generar texto en inglés, alemán, español, francés y portugués,

  • PaLM 2 es el modelo de lenguaje de próxima generación de Google con capacidades multilingües y de razonamiento mejoradas.

Sanidad

En sanidad, los modelos fundacionales pueden ayudar en una amplia gama de tareas. Desde crear resúmenes de las consultas de los pacientes y buscar bibliografía médica hasta responder a las preguntas de los pacientes, emparejar a los pacientes con ensayos clínicos y facilitar el descubrimiento de fármacos. El modelo de lenguaje Med-PaLM 2, por ejemplo, puede responder a preguntas médicas, y Google está diseñando una versión multimodal que puede sintetizar información a partir de imágenes médicas4.

Robótica

En el ámbito de la robótica, los modelos fundacionales pueden ayudar a los robots a adaptarse rápidamente a nuevos entornos y a generalizar en diversas tareas, escenarios y realizaciones de máquinas. Por ejemplo, el modelo de lenguaje multimodal incorporado PaLM-E transfiere el conocimiento de los dominios lingüísticos y visuales de PaLM a los sistemas robóticos y se entrena con datos de sensores de robots5.

Generación de código de software

Los modelos fundacionales pueden ayudar a completar, depurar, explicar y generar código en diferentes lenguajes de programación. Estos modelos fundacionales de texto a código incluyen Claude de Anthropic, Codey y PaLM 2 de Google y la familia de modelos Granite Code de IBM entrenados en 116 lenguajes de programación.

Con tantas opciones, ¿cómo pueden las organizaciones elegir el modelo fundacional adecuado para el desarrollo de la IA? Este es un marco de selección de modelos de IA de seis pasos que puede ayudar:

Beneficios de los modelos fundacionales

Basarse en modelos fundacionales puede conducir a la automatización y la innovación para las empresas. Estas son otras ventajas que las empresas pueden obtener de los modelos fundacionales:

Aceleración del tiempo de obtención de valor y de escalado: la adopción de los modelos existentes elimina las fases de desarrollo y preentrenamiento, lo que permite a las empresas personalizar e implementar rápidamente modelos ajustados.

Acceso a los datos: las organizaciones no necesitan recopilar grandes cantidades de datos para el entrenamiento previo que podrían no tener los medios para adquirir.

Precisión y rendimiento de referencia: los modelos fundacionales ya se han evaluado en cuanto a precisión y rendimiento, lo que ofrece un punto de partida de alta calidad.

Coste reducido: las empresas no tendrán que gastar en los recursos necesarios para crear un modelo fundacional desde cero.

Desafíos de los modelos fundacionales

Al igual que otros modelos de IA, los modelos fundacionales siguen lidiando con los riesgos de la IA. Este es un factor a tener en cuenta para las empresas que consideran los modelos fundacionales como la tecnología que sustenta sus flujos de trabajo internos o aplicaciones comerciales de IA.

Sesgo: un modelo puede aprender del sesgo humano presente en los datos de entrenamiento, y ese sesgo puede filtrarse a los outputs de los modelos ajustados.

Costes computacionales: el uso de modelos fundacionales existentes aún requiere una cantidad significativa de memoria, hardware avanzado como GPU (unidades de procesamiento gráfico) y otros recursos computacionales para afinar, implementar y mantener.

Protección de datos y propiedad intelectual: los modelos fundacionales pueden entrenarse con datos obtenidos sin el consentimiento o el conocimiento de sus propietarios. Tenga cuidado al introducir datos en los algoritmos para evitar infringir los derechos de autor de terceros o exponer información empresarial de identificación personal o de propiedad exclusiva.

Peaje medioambiental: entrenar y ejecutar modelos fundacionales a gran escala implica cálculos que consumen mucha energía y contribuyen a aumentar las emisiones de carbono y el consumo de agua.

Alucinaciones: verificar los resultados de los modelos fundacionales de IA es esencial para asegurarse de que están produciendo outputs objetivamente correctos.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables capaces de desbloquear nuevos ingresos, reducir costes y aumentar la productividad, y utilice nuestra guía para profundizar más en el tema.

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM en la cartera de IBM watsonx para escalar la IA generativa para su negocio con confianza.

Explore watsonx.ai Explore las soluciones de IA
Notas a pie de página

1 On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models and Stanford Institute for Human-Centered Artificial Intelligence. 2021.

2 Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. Google Research. 2 de noviembre de 2018.

3 BigScience Large Open-science Open-access Multilingual Language Model. Hugging Face. 6 de julio de 2022.

4 Med-PaLM. Google Research. Consultado el 8 de octubre de 2024.

5 PaLM-E: An embodied multimodal language model. Google Research. 10 de marzo de 2023.