Las últimas tendencias de IA presentadas por expertos
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
Los modelos fundacionales son modelos de IA entrenados en vastos e inmensos conjuntos de datos y pueden cumplir una amplia gama de tareas generales. Sirven como base o bloques de construcción para crear aplicaciones más especializadas.
Su flexibilidad y tamaño masivo los diferencian de los modelos de machine learning tradicionales, que se entrena en conjuntos de datos más pequeños para realizar tareas específicas, como la detección de objetos o el forecasting de tendencias. Mientras tanto, los modelos fundacionales emplean el aprendizaje por transferencia para aplicar el conocimiento aprendido de una tarea a otra. Esto los hace aptos para dominios más amplios, incluida la visión artificial, el procesamiento de lenguaje natural (NLP) y el reconocimiento de voz.
Investigadores del Center for Research on Foundation Models y Institute for Human-Centered Artificial Intelligence de la Universidad de Stanford acuñaron el término "modelo fundacional" en un documento de 2021. Caracterizan estos modelos como un “cambio de paradigma” y describen el razonamiento detrás de su denominación: “[Un] modelo fundacional es en sí mismo incompleto, pero sirve como base común a partir de la cual se construyen muchos modelos específicos de tareas a través de la adaptación. También elegimos el término '"fundacional" para connotar la importancia de la estabilidad arquitectónica, la seguridad y la protección: los cimientos mal construidos son una receta para el desastre y los cimientos bien ejecutados son una base confiable para futuras aplicaciones".1
La creación de un modelo fundacional a menudo implica una serie de pasos similares al desarrollo de un modelo convencional de machine learning:
El primer paso es recopilar un enorme corpus de datos de diversas fuentes. Este amplio espectro de datos no etiquetados y no estructurados permite a los modelos fundacionales inferir patrones, reconocer relaciones, discernir el contexto y generalizar su conocimiento.
La modalidad se refiere al tipo de datos que un modelo puede procesar, incluidos audio, imágenes, código de software, texto y video. Los modelos fundacionales pueden ser unimodales o multimodales. Los modelos unimodales están diseñados para manejar un solo tipo de datos, como recibir entradas de texto y generar salidas de texto. Los modelos multimodales pueden combinar información de múltiples modalidades, como tomar una instrucción de texto y crear una imagen o producir transcripciones escritas a partir de una grabación de voz.
Muchos modelos fundacionales emplean una arquitectura de aprendizaje profundo, que utiliza redes neuronales para imitar el proceso de toma de decisiones del cerebro humano.
Un tipo de modelo de aprendizaje profundo conocido como modelo transformador ha sido una arquitectura elegida para los modelos fundacionales, particularmente aquellos para PLN como la línea de modelos de transformadores generativos preentrenados (GPT). Aquí hay una breve descripción general de la arquitectura transformadora:
Los codificadores transforman las secuencias de entrada en representaciones numéricas llamadas incrustaciones, que capturan la semántica y la posición de los tokens en la secuencia de entrada.
Un mecanismo de autoatención permite a los transformers "centrar su atención" en los tokens más importantes de la secuencia de entrada, independientemente de su posición.
Los decodificadores utilizan este mecanismo de autoatención y las incrustaciones de los codificadores para generar la secuencia de salida estadísticamente más probable.
Los modelos de difusión son otra arquitectura implementada en los modelos fundacionales. Las redes neuronales basadas en la difusión "difunden" gradualmente los datos de entrenamiento con ruido aleatorio y luego aprenden a revertir ese proceso de difusión para reconstruir los datos originales. Los modelos de difusión se utilizan principalmente en modelos fundacionales de texto a imagen como Imagen de Google, DALL-E de OpenAI (comenzando con DALL-E 2) y Stable Diffusion de Stability IA.
El entrenamiento suele implicar un aprendizaje autosupervisado, en el que los modelos fundacionales aprenden correlaciones inherentes en datos no etiquetados. Por lo tanto, el entrenamiento se realiza a través de múltiples iteraciones, con ponderaciones del modelo ajustadas para minimizar los errores de predicción e hiperparámetros ajustados para encontrar las variables de configuración óptimas para el entrenamiento. Los métodos de regularización también se pueden aplicar para corregir el sobreajuste (cuando un modelo se ajusta demasiado o incluso exactamente a sus datos de entrenamiento) y para mejorar la capacidad de generalización de un modelo fundacional.
El rendimiento de un modelo fundacional se puede validar mediante el uso de puntos de referencia estandarizados. Los resultados de estas evaluaciones pueden informar mejoras adicionales u optimizaciones de rendimiento.
Desarrollar un modelo fundacional desde cero puede ser un proceso costoso, computacionalmente intensivo y lento. Es por eso que las empresas podrían considerar adaptar los modelos fundacionales existentes para sus necesidades particulares. Se puede acceder a estos modelos a través de una interfaz de programación de aplicaciones (API) o mediante una copia local del modelo.
Aquí hay dos enfoques comunes para la adaptación:
Durante el ajuste, un modelo fundacional preentrenado adapta sus conocimientos generales a una tarea en particular. Esto implica un mayor entrenamiento mediante el uso del aprendizaje supervisado en un conjunto de datos más pequeño, específico del dominio o específico de la tarea que incluye ejemplos etiquetados. Los parámetros del modelo se actualizan para optimizar su rendimiento en la tarea.
Debido a que el ajuste altera los parámetros de un modelo, podría afectar el rendimiento del modelo en otras tareas. Crear un conjunto de datos etiquetado también es un proceso tedioso.
Este método implica proporcionar una instrucción para adaptar un modelo fundacional a una determinada tarea. La instrucción se presenta en forma de indicaciones relacionadas con la tarea o ejemplos relevantes para la tarea que guían un modelo, lo que le permite obtener contexto y generar un resultado plausible, una capacidad conocida como aprendizaje en contexto.
Si bien las instrucciones no requieren entrenar un modelo ni cambiar sus parámetros, pueden ser necesarios varios intentos para obtener la instrucción correcta que condiciona un modelo para comprender el contexto y hacer predicciones adecuadas.
La adaptabilidad y la naturaleza de propósito general de los modelos fundacionales significa que se pueden implementar para diversas aplicaciones del mundo real:
Visión artificial
Procesamiento del lenguaje natural
Atención médica
Robótica
Generación de código de software
Los modelos fundacionales se pueden utilizar para generar y clasificar imágenes y para detectar, identificar y describir objetos. DALL-E, Imagen y Stable Diffusion son ejemplos de modelos fundacionales de texto a imagen.
Los modelos de lenguaje grandes (LLM) son una clase de modelos fundacionales que se destacan en PLN y comprensión del lenguaje natural. Sus capacidades abarcan la respuesta a preguntas, el resumen de textos, la transcripción, la traducción y los subtítulos de videos, entre otros.
Estos son algunos modelos fundacionales populares en el espacio del PLN:
BERT (Representaciones de codificador bidireccional de transformadores) fue uno de los primeros modelos fundacionales. Lanzado por Google en 2018, este sistema de IA de código abierto se entrenó solo con un corpus de texto sin formato.2
BLOOM es un modelo lingüístico multilingüe de acceso abierto entrenado en 46 idiomas. Es el resultado de un esfuerzo de colaboración entre Hugging Face y BigScience, una comunidad de investigadores de IA.3
Claude es la familia de modelos fundacionales de Anthropic con capacidades avanzadas de razonamiento y procesamiento multilingüe.
GPT, el modelo fundacional de OpenAI, es la columna vertebral de ChatGPT, el chatbot de IA generativa de la empresa. GPT-3.5 impulsa la versión gratuita de ChatGPT, mientras que GPT-4 está detrás de la versión premium. La serie GPT-4 también es el modelo de IA generativa que admite el asistente de IA Copilot de Microsoft.
Granite es la serie insignia de IBM de modelos fundacionales de LLM basados en la arquitectura transformadora solo con decodificador. El modelo de chat Granite 13b está optimizado para casos de uso de diálogo y funciona bien con agentes virtuales y aplicaciones de chat. Mientras que el modelo multilingüe Granite está entrenado para comprender y generar texto en inglés, alemán, español, francés y portugués.
PaLM 2 es el modelo lingüístico de próxima generación de Google con capacidades multilingües y de razonamiento mejoradas.
Dentro del campo de la atención médica, los modelos fundacionales pueden ayudar en una variedad de tareas. Desde la creación de resúmenes de las visitas de los pacientes y la búsqueda de bibliografía médica hasta la respuesta a las preguntas de los pacientes, la vinculación de los pacientes con los ensayos clínicos y la facilitación del descubrimiento de fármacos. El modelo de lenguaje Med-PaLM 2, por ejemplo, puede responder preguntas médicas, y Google está diseñando una versión multimodal que puede sintetizar información a partir de imágenes médicas.4
En el ámbito de la robótica, los modelos fundacionales pueden ayudar a los robots a adaptarse rápidamente a nuevos entornos y generalizar en diversas tareas, escenarios y realizaciones de máquinas. Por ejemplo, el modelo de lenguaje multimodal incorporado PaLM-E transfiere conocimientos de los dominios lingüísticos y visuales de PaLM a los sistemas robóticos y se entrena con datos de sensores de robots.5
Los modelos fundacionales pueden ayudar a completar, depurar, explicar y generar código en diferentes lenguajes de programación. Estos modelos fundacionales de texto a código incluyen Claude de Anthropic, Codey y PaLM 2 de Google y la familia de modelos Granite Code de IBM entrenados en 116 lenguajes de programación.
Con tantas opciones, ¿cómo pueden las organizaciones elegir el modelo fundacional adecuado para el desarrollo de IA? Aquí hay un marco de selección de modelos de IA de seis pasos que puede ayudar:
Construir sobre modelos fundacionales puede conducir a la automatización y la innovación para las empresas. Estas son otras ventajas que las empresas pueden obtener de los modelos fundacionales:
Tiempo de creación de valor y tiempo a escala: adoptar modelos existentes elimina las fases de desarrollo y preentrenamiento, lo que permite a las empresas personalizar y desplegar rápidamente modelos ajustados.
Acceso a los datos: las organizaciones no necesitan recopilar grandes cantidades de datos para el entrenamiento previo que podrían no tener los medios para adquirir.
Precisión y rendimiento de referencia: los modelos fundacionales ya se han evaluado en cuanto a precisión y rendimiento, lo que ofrece un punto de partida de alta calidad.
Costo reducido: las empresas no necesitarán gastar en los recursos necesarios para crear un modelo fundacional desde cero.
Al igual que otros modelos de IA, los modelos fundacionales siguen lidiando con los riesgos de la IA. Este es un factor a tener en cuenta para las empresas que consideran los modelos fundacionales como la tecnología que sustenta sus flujos de trabajo internos o aplicaciones comerciales de IA.
Sesgo: un modelo puede aprender del sesgo humano presente en los datos de entrenamiento, y ese sesgo puede filtrarse a los resultados de los modelos ajustados.
Costos computacionales: el uso de modelos fundacionales existentes aún requiere una cantidad significativa de memoria, hardware avanzado como GPU (unidades de procesamiento de gráficos) y otros recursos computacionales para ajustar, desplegar y mantener.
Privacidad de datos y propiedad intelectual: los modelos fundacionales pueden entrenarse con datos obtenidos sin el consentimiento o conocimiento de sus propietarios. Tenga cuidado al introducir datos en algoritmos para evitar infringir los derechos de autor de otros o exponer información comercial de identificación personal o de propiedad exclusiva.
Costo ambiental: entrenar y ejecutar modelos fundacionales a gran escala implica cálculos que consumen mucha energía y contribuyen a aumentar las emisiones de carbono y el consumo de agua.
Alucinaciones: verificar los resultados de los modelos fundacionales de IA es esencial para asegurarse de que están produciendo resultados correctos.
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
Acelere la entrega de software con Bob, su socio de IA para un desarrollo seguro y consciente de la intención.
Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.
Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.
1 On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models and Stanford Institute for Human-Centered Artificial Intelligence, 2021
2 Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing, Google Research, 2 de noviembre de 2018
3 BigScience Large Open-science Open-access Multilingual Language Model, Hugging Face, 6 de julio de 2022
4 Med-PaLM, Google Research, consultado el 8 de octubre de 2024
5 PaLM-E: An embodied multimodal language model, Google Research, 10 de marzo de 2023