Fiel a su nombre, los modelos de IA generativa generan texto, imágenes, código u otras respuestas con base en la instrucción de un usuario. Las organizaciones que las emplean correctamente pueden obtener innumerables beneficios—desde una mayor eficacia operativa y una mejor toma de decisiones hasta la rápida creación de contenidos de marketing. Pero, ¿qué hace posible la funcionalidad generativa de estos modelos—y, en última instancia, sus beneficios para la organización—?
Ahí es donde entra en escena el modelo fundacional. Es el motor subyacente que proporciona a los modelos generativos las capacidades mejoradas de razonamiento y aprendizaje profundo de las que carecen los modelos tradicionales de machine learning. Junto con los almacenes de datos, los modelos fundacionales permiten crear y personalizar herramientas de IA generativa para organizaciones de industrias que buscan optimizar la atención al cliente, marketing, Recursos Humanos (incluyendo la adquisición de talento) y funciones de TI.
También conocido como transformador, un modelo fundacional es un algoritmo de IA entrenado en grandes cantidades de datos amplios. El término "modelo fundacional" fue acuñado por el Stanford Institute for Human-Centered Artificial Intelligence en 2021.
Un modelo fundacional se basa en una arquitectura de modelo de neural networks para procesar información de forma muy parecida a como lo hace el cerebro humano. Los modelos fundacionales se pueden entrenar para realizar tareas como la clasificación de datos, la identificación de objetos dentro de imágenes (visión artificial) y el procesamiento de lenguaje natural (PLN) (comprensión y generación de texto) con un alto grado de precisión. También pueden realizar un aprendizaje autosupervisado para generalizar y aplicar sus conocimientos a nuevas tareas.
En lugar de dedicar tiempo y esfuerzo a entrenar un modelo desde cero, los científicos de datos pueden utilizar modelos fundacionales previamente entrenados como puntos de partida para crear o personalizar modelos de IA generativa para un caso de uso específico. Por ejemplo, un modelo fundacional podría utilizarse como base para un modelo de IA generativa que luego se ajusta con conjuntos de datos de fabricación adicionales para ayudar a descubrir formas más seguras y rápidas de fabricar un tipo de producto.
Un tipo específico de modelo fundacional conocido como modelo de lenguaje extenso (LLM) se entrena con grandes cantidades de datos de texto para tareas de NLP. BERT (Representaciones de codificador bidireccional de transformadores) es uno de los primeros modelos fundacionales LLM desarrollados. Un modelo de código abierto, Google creó BERT en 2018. Se entrenó previamente en un gran corpus de datos en inglés con autosupervisión y se puede utilizar para una variedad de tareas, tales como:
Un modelo fundacional utilizado para IA generativa difiere de un modelo de machine learning tradicional porque se puede entrenar en grandes cantidades de datos sin etiquetar para soportar aplicaciones que generan contenido o realizan tareas.
Mientras tanto, un modelo tradicional de machine learning generalmente se entrena para realizar una sola tarea utilizando datos etiquetados, como usar imágenes etiquetadas de automóviles para entrenar el modelo y luego reconocer automóviles en imágenes sin etiquetar.
watsonx.ai studio de IBM es una suite de modelos fundacionales de lenguaje y código, cada uno con un nombre de código relacionado con la geología, que se puede personalizar para una variedad de tareas empresariales. Todos los modelos watsonx.ai se entrenan en el data lake curado y centrado en la empresa de IBM.
Slate se refiere a una familia de modelos de solo codificador que, aunque no son generativos, son rápidos y eficaces para muchas tareas empresariales de NLP.
Los modelos de Granite se basan en una arquitectura tipo GPT de solo decodificador para tareas generativas.
Los modelos de Sandstone utilizan una arquitectura de codificador-decodificador y son muy adecuados para realizar ajustes en tareas específicas.
Los modelos de Obsidian utilizan una nueva arquitectura modular desarrollada por IBM Research, que proporciona una alta eficiencia de inferencia y niveles de rendimiento en una variedad de tareas.
Sin un acceso seguro a conocimiento confiable y específico del dominio, los modelos fundacionales serían mucho menos confiables y beneficiosos para las aplicaciones de IA empresarial. Afortunadamente, los almacenes de datos sirven como repositorios de datos seguros y permiten que los modelos fundacionales a escala tanto en términos de tamaño como de datos de entrenamiento.
Los almacenes de datos adecuados para la IA generativa centrada en el negocio se basan en una arquitectura de lakehouse abierta, que combina las cualidades de un data lake y un almacén de datos. Esta arquitectura ofrece ahorros gracias al almacenamiento de objetos de bajo costo y permite compartir grandes volúmenes de datos a través de formatos de tablas abiertas como Apache Iceberg, creado para analytics de alto rendimiento y procesamiento de datos a gran escala.
Los modelos fundacionales pueden consultar volúmenes muy grandes de datos específicos del dominio en un contenedor escalable y rentable. Y debido a que estos tipos de almacenes de datos combinados con la nube permiten una escalabilidad prácticamente ilimitada, las brechas de conocimiento de un modelo fundacional se estrechan o incluso se eliminan con el tiempo con la adición de más datos. Cuanto más brechas se cierren, más confiable será el modelo fundacional y mayor será su alcance.
Los almacenes de datos proporcionan a los científicos de datos un almacenamiento que pueden utilizar para recopilar y limpiar los datos utilizados para entrenar y ajustar los modelos fundacionales. Y los almacenes de datos que se benefician de las infraestructuras de nube e híbrida de los proveedores externos para procesar una gran cantidad de datos son críticos para la eficiencia de costo de la IA generativa.
Cuando los modelos fundacionales acceden a la información a través de almacenes de datos y se ajustan en la forma en que utilizan esta información para realizar diferentes tareas y generar respuestas, las herramientas de IA generativa resultantes pueden ayudar a las organizaciones a lograr beneficios tales como:
Los científicos de datos pueden usar modelos preentrenados para desplegar herramientas de IA en una variedad de situaciones de misión crítica.
Los desarrolladores pueden escribir, probar y documentar más rápido utilizando herramientas de IA que generan fragmentos de código personalizados.
Los ejecutivos pueden recibir resúmenes generados por IA de informes extensos, mientras que los nuevos empleados reciben versiones concisas del material de incorporación y otras garantías.
Las organizaciones pueden utilizar herramientas de IA generativa para la automatización de diversas tareas, entre ellas:
Los equipos de marketing pueden emplear herramientas de IA generativa para ayudar a crear contenidos sobre una amplia gama de temas. También pueden traducir con rapidez y precisión material publicitario a varios idiomas.
Los líderes empresariales y otros stakeholders pueden realizar análisis asistidos por IA para interpretar grandes cantidades de datos no estructurados, lo que les permite comprender mejor el mercado, el sentimiento de la reputación, etc.
Para ayudar a las organizaciones a multiplicar el impacto de la IA en todo su negocio, IBM ofrece watsonx, nuestra cartera de productos de IA. La cartera comprende tres poderosos productos:
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.