Las últimas tendencias en IA, presentadas por expertos
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Los modelos fundacionales son modelos de inteligencia artificial (IA) entrenados en vastos e inmensos conjuntos de datos y pueden realizar una amplia gama de tareas generales. Sirven como base o bloques de construcción para crear aplicaciones más especializadas.
Su flexibilidad y su enorme tamaño los diferencian de los modelos tradicionales de machine learning, que se entrenan con conjuntos de datos más pequeños para realizar tareas específicas, como la detección de objetos o la previsión de tendencias. Mientras tanto, los modelos fundacionales emplean el aprendizaje por transferencia para aplicar el conocimiento aprendido de una tarea a otra. Esto los hace aptos para dominios más amplios, como la visión artificial, el procesamiento del lenguaje natural (PLN) y el reconocimiento de voz.
Investigadores del Center for Research on Foundation Models y del Institute for Human-Centered Artificial Intelligence de la Universidad de Stanford acuñaron el término "modelos fundacionales" en un artículo publicado en 2021. Caracterizan estos modelos como un "cambio de paradigma" y describen el razonamiento detrás de su denominación: "[Un] modelo fundacional es en sí mismo incompleto, pero sirve como base común a partir de la cual se construyen muchos modelos específicos de tareas mediante la adaptación. También elegimos el término "fundacional" para connotar la importancia de la estabilidad arquitectónica, la seguridad y la protección: bases mal construidas son una receta para el desastre, mientras que unas bases bien ejecutadas son un cimiento fiable para futuras aplicaciones"1.
La creación de un modelo fundacional suele implicar una serie de pasos similares a los de desarrollar un modelo de machine learning convencional:
El primer paso es recopilar un enorme corpus de datos de diversas fuentes. Este amplio espectro de datos no estructurados y sin etiquetar permite a los modelos fundacionales inferir patrones, reconocer relaciones, discernir el contexto y generalizar sus conocimientos.
La modalidad se refiere al tipo de datos que un modelo puede procesar, incluidos audio, imágenes, código de software, texto y vídeo. Los modelos fundacionales pueden ser unimodales o multimodales. Los modelos unimodales están diseñados para gestionar un único tipo de datos, como recibir entradas de texto y generar output de texto. Los modelos multimodales pueden combinar información de múltiples modalidades, como tomar una instrucción y crear una imagen o producir transcripciones escritas a partir de una grabación de voz.
Muchos modelos fundacionales emplean una arquitectura de deep learning, que utiliza redes neuronales multicapa para imitar el proceso de toma de decisiones del cerebro humano.
Un tipo de modelo de deep learning conocido como modelo transformador ha sido una arquitectura elegida para los modelos fundacionales, en particular los de PLN como la línea de modelos de transformadores generativos preentrenados (GPT). He aquí una breve descripción de la arquitectura del transformador:
Los codificadores transforman las secuencias de entrada en representaciones numéricas llamadas embeddings que capturan la semántica y la posición de los tokens en la secuencia de entrada.
Un mecanismo de autoatención permite a los transformadores "centrar su atención" en los tokens más importantes de la secuencia de entrada, independientemente de su posición.
Los decodificadores utilizan este mecanismo de autoatención y las incrustaciones de los codificadores para generar la secuencia de salida estadísticamente más probable.
Los modelos de difusión son otra arquitectura implementada en los modelos fundacionales. Las redes neuronales basadas en la difusión "difunden" gradualmente los datos de entrenamiento con ruido aleatorio y, a continuación, aprenden a invertir ese proceso de difusión para reconstruir los datos originales. Los modelos de difusión se utilizan principalmente en modelos fundacionales de texto a imagen como Imagen de Google, DALL-E de OpenAI (a partir de DALL-E 2) y Stable Diffusion de Stability AI.
El entrenamiento suele implicar un aprendizaje autosupervisado, en el que los modelos fundacionales aprenden correlaciones inherentes en datos no etiquetados. Por lo tanto, el entrenamiento se realiza a lo largo de varias iteraciones, con las ponderaciones del modelo ajustadas para minimizar los errores de predicción y los hiperparámetros ajustados para encontrar las variables de configuración óptimas para el entrenamiento. Los métodos de regularización también se pueden aplicar para corregir el sobreajuste (cuando un modelo se ajusta demasiado o incluso exactamente a sus datos de entrenamiento) y para mejorar la capacidad de generalización de un modelo fundacional.
El rendimiento de un modelo fundacional se puede validar utilizando puntos de referencia estandarizados. Los resultados de estas evaluaciones pueden informar nuevas mejoras u optimizaciones del rendimiento.
Desarrollar un modelo fundacional desde cero puede ser un proceso costoso, computacionalmente intensivo y lento. Por eso, las empresas podrían considerar la posibilidad de adaptar los modelos fundacionales existentes a sus necesidades particulares. Se puede acceder a estos modelos a través de una interfaz de programación de aplicaciones (API) o utilizando una copia local del modelo.
A continuación se presentan dos enfoques comunes para la adaptación:
Durante el fine-tuning, un modelo fundacional preentrenado adapta su conocimiento general a una tarea concreta. Esto implica una formación adicional mediante el uso del aprendizaje supervisado en un conjunto de datos más pequeño, específico del dominio o de la tarea, que incluye ejemplos etiquetados. Los parámetros del modelo se actualizan para optimizar su rendimiento en la tarea.
Dado que el fine-tuning altera los parámetros de un modelo, puede afectar al rendimiento del modelo en otras tareas. Crear un conjunto de datos etiquetados también es un proceso tedioso.
Este método implica proporcionar una instrucción para adaptar un modelo fundacional a una tarea determinada. La indicación se presenta en forma de instrucciones relacionadas con la tarea o ejemplos relevantes para la tarea que guían al modelo, lo que le permite adquirir contexto y generar un resultado plausible, una capacidad conocida como aprendizaje en contexto.
Aunque las instrucciones no requieren entrenar un modelo ni cambiar sus parámetros, pueden ser necesarios varios intentos para obtener la instrucción adecuada que acondicione un modelo para comprender el contexto y hacer predicciones adecuadas.
La adaptabilidad y la naturaleza de propósito general de los modelos fundacionales significa que pueden implementarse para diversas aplicaciones del mundo real:
Visión artificial
Procesamiento del lenguaje natural
Atención médica
Robótica
Generación de código de software
Los modelos fundacionales se pueden utilizar para generar y clasificar imágenes y para detectar, identificar y describir objetos. DALL-E, Imagen y Stable Diffusion son ejemplos de modelos fundacionales de texto a imagen.
Los modelos de lenguaje de gran tamaño (LLM) son una clase de modelos fundacionales que destacan en PLN y comprensión del lenguaje natural (CLN). Sus capacidades abarcan la respuesta a preguntas, el resumen de textos, la transcripción, la traducción y los subtítulos de vídeo, entre otros.
Estos son algunos modelos fundacionales populares en el espacio del PLN:
BERT (Representaciones de codificador bidireccional de transformadores) fue uno de los primeros modelos fundacionales. Lanzado por Google en 2018, este sistema de IA de código abierto se entrenó solo con un corpus de texto sin formato2.
BLOOM es un modelo DE LENGUAJE multilingüe de acceso abierto entrenado en 46 idiomas. Es el resultado de un esfuerzo de colaboración entre Hugging Face y BigScience, una comunidad de investigadores de IA3.
Claude es la familia de modelos fundacionales de Anthropic con capacidades avanzadas de razonamiento y procesamiento multilingüe.
GPT, el modelo fundacional de OpenAI, es la columna vertebral de ChatGPT, el chatbot de IA generativa de la empresa. GPT-3.5 impulsa la versión gratuita de ChatGPT, mientras que GPT-4 está detrás de la versión premium. La serie GPT-4 es también el modelo de IA generativa compatible con el asistente de IA Copilot de Microsoft.
Granite es la serie insignia de IBM de modelos fundacionales LLM basados en la arquitectura del transformador. El modelo de chat Granite 13b está optimizado para casos de uso y funciona bien con agentes virtuales y aplicaciones de chat. Mientras que el modelo multilingüe Granite está entrenado para comprender y generar texto en inglés, alemán, español, francés y portugués,
PaLM 2 es el modelo de lenguaje de próxima generación de Google con capacidades multilingües y de razonamiento mejoradas.
En sanidad, los modelos fundacionales pueden ayudar en una amplia gama de tareas. Desde crear resúmenes de las consultas de los pacientes y buscar bibliografía médica hasta responder a las preguntas de los pacientes, emparejar a los pacientes con ensayos clínicos y facilitar el descubrimiento de fármacos. El modelo de lenguaje Med-PaLM 2, por ejemplo, puede responder a preguntas médicas, y Google está diseñando una versión multimodal que puede sintetizar información a partir de imágenes médicas4.
En el ámbito de la robótica, los modelos fundacionales pueden ayudar a los robots a adaptarse rápidamente a nuevos entornos y a generalizar en diversas tareas, escenarios y realizaciones de máquinas. Por ejemplo, el modelo de lenguaje multimodal incorporado PaLM-E transfiere el conocimiento de los dominios lingüísticos y visuales de PaLM a los sistemas robóticos y se entrena con datos de sensores de robots5.
Los modelos fundacionales pueden ayudar a completar, depurar, explicar y generar código en diferentes lenguajes de programación. Estos modelos fundacionales de texto a código incluyen Claude de Anthropic, Codey y PaLM 2 de Google y la familia de modelos Granite Code de IBM entrenados en 116 lenguajes de programación.
Con tantas opciones, ¿cómo pueden las organizaciones elegir el modelo fundacional adecuado para el desarrollo de la IA? Este es un marco de selección de modelos de IA de seis pasos que puede ayudar:
Basarse en modelos fundacionales puede conducir a la automatización y la innovación para las empresas. Estas son otras ventajas que las empresas pueden obtener de los modelos fundacionales:
Aceleración del tiempo de obtención de valor y de escalado: la adopción de los modelos existentes elimina las fases de desarrollo y preentrenamiento, lo que permite a las empresas personalizar e implementar rápidamente modelos ajustados.
Acceso a los datos: las organizaciones no necesitan recopilar grandes cantidades de datos para el entrenamiento previo que podrían no tener los medios para adquirir.
Precisión y rendimiento de referencia: los modelos fundacionales ya se han evaluado en cuanto a precisión y rendimiento, lo que ofrece un punto de partida de alta calidad.
Coste reducido: las empresas no tendrán que gastar en los recursos necesarios para crear un modelo fundacional desde cero.
Al igual que otros modelos de IA, los modelos fundacionales siguen lidiando con los riesgos de la IA. Este es un factor a tener en cuenta para las empresas que consideran los modelos fundacionales como la tecnología que sustenta sus flujos de trabajo internos o aplicaciones comerciales de IA.
Sesgo: un modelo puede aprender del sesgo humano presente en los datos de entrenamiento, y ese sesgo puede filtrarse a los outputs de los modelos ajustados.
Costes computacionales: el uso de modelos fundacionales existentes aún requiere una cantidad significativa de memoria, hardware avanzado como GPU (unidades de procesamiento gráfico) y otros recursos computacionales para afinar, implementar y mantener.
Protección de datos y propiedad intelectual: los modelos fundacionales pueden entrenarse con datos obtenidos sin el consentimiento o el conocimiento de sus propietarios. Tenga cuidado al introducir datos en los algoritmos para evitar infringir los derechos de autor de terceros o exponer información empresarial de identificación personal o de propiedad exclusiva.
Peaje medioambiental: entrenar y ejecutar modelos fundacionales a gran escala implica cálculos que consumen mucha energía y contribuyen a aumentar las emisiones de carbono y el consumo de agua.
Alucinaciones: verificar los resultados de los modelos fundacionales de IA es esencial para asegurarse de que están produciendo outputs objetivamente correctos.
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Acelere la entrega de software con Bob, su socio de IA para un desarrollo seguro y consciente de la intención.
Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.
Ponga la IA al servicio de su negocio con la experiencia líder del sector y el portfolio de soluciones de IA de IBM.
1 On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models and Stanford Institute for Human-Centered Artificial Intelligence. 2021.
2 Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. Google Research. 2 de noviembre de 2018.
3 BigScience Large Open-science Open-access Multilingual Language Model. Hugging Face. 6 de julio de 2022.
4 Med-PaLM. Google Research. Consultado el 8 de octubre de 2024.
5 PaLM-E: An embodied multimodal language model. Google Research. 10 de marzo de 2023.