Fieles a su nombre, los modelos de IA generativa generan texto, imágenes, código u otras respuestas basadas en la instrucción de un usuario. Las organizaciones que los utilizan correctamente pueden obtener innumerables beneficios, desde una mayor eficiencia operativa y una mejor toma de decisiones hasta la rápida creación de contenidos de marketing. Pero, ¿qué hace posible la funcionalidad generativa de estos modelos y, en última instancia, sus beneficios para la organización?
Ahí es donde entra en escena el modelo fundacional. Es el motor subyacente el que proporciona a los modelos generativos las capacidades mejoradas de razonamiento y deep learning de las que carecen los modelos tradicionales de machine learning. Junto con los almacenes de datos, los modelos fundacionales permiten crear y personalizar herramientas de IA generativa para organizaciones de todos los sectores que buscan optimizar las funciones de atención al cliente, marketing, RR. HH. (incluida la adquisición de talento) y TI.
También conocido como transformador, un modelo fundacional es un algoritmo de IA entrenado con grandes cantidades de datos amplios. El término "modelo fundacional" fue acuñado por el Stanford Institute for Human-Centered Artificial Intelligence en 2021.
Un modelo fundacional se basa en una arquitectura de modelo de red neuronal para procesar la información de forma muy parecida a como lo hace el cerebro humano. Los modelos fundacionales pueden entrenarse para realizar tareas como la clasificación de datos, la identificación de objetos dentro de imágenes (visión artificial) y el procesamiento del lenguaje natural (comprensión y generación de texto) con un alto grado de precisión. También pueden realizar un aprendizaje autosupervisado para generalizar y aplicar sus conocimientos a nuevas tareas.
En lugar de dedicar tiempo y esfuerzo a entrenar un modelo desde cero, los científicos de datos pueden utilizar modelos fundacionales preentrenados como puntos de partida para crear o personalizar modelos de IA generativa para un caso de uso específico. Por ejemplo, un modelo fundacional puede servir de base para un modelo de IA generativa que luego se perfeccione con conjuntos de datos de fabricación adicionales para ayudar a descubrir formas más seguras y rápidas de fabricar un tipo de producto.
Un tipo específico de modelo fundacional conocido como modelos de lenguaje de gran tamaño (LLM) se entrena con grandes cantidades de datos de texto para tareas de PLN. BERT (Bi-directional Encoder Representations from Transformers) es uno de los primeros modelos fundacionales de LLM desarrollados. Un modelo de código abierto, Google creó BERT en 2018. Se entrenó previamente en un gran corpus de datos en inglés con autosupervisión y se puede utilizar para una variedad de tareas como:
Un modelo fundacional utilizado para la IA generativa difiere de un modelo tradicional de machine learning porque puede entrenarse con grandes cantidades de datos sin etiquetar para dar soporte a aplicaciones que generan contenido o realizan tareas.
Mientras tanto, un modelo tradicional de machine learning se entrena normalmente para realizar una única tarea utilizando datos etiquetados, como por ejemplo utilizando imágenes etiquetadas de coches para entrenar al modelo para que luego reconozca coches en imágenes sin etiquetar.
El estudio watsonx.ai de IBM es un conjunto de modelos fundacionales de lenguaje y código, cada uno con un nombre de código relacionado con la geología, que se puede personalizar para una serie de tareas empresariales. Todos los modelos de watsonx.ai se entrenan en el data lake seleccionado y centrado en la empresa de IBM.
Slate se refiere a una familia de modelos de solo codificador, que si bien no son generativos, son rápidos y efectivos para muchas tareas de PNL empresarial.
Los modelos Granite se basan en una arquitectura similar a GPT de solo decodificador para tareas generativas.
Los modelos Sandstone utilizan una arquitectura de codificador-decodificador y son muy adecuados para realizar ajustes en tareas específicas.
Los modelos Obsidian utilizan una nueva arquitectura modular desarrollada por IBM Research, que proporciona una alta eficiencia de inferencia y niveles de rendimiento en una variedad de tareas.
Sin un acceso seguro a conocimientos fiables y específicos de un dominio, los modelos fundacionales serían mucho menos fiables y beneficiosos para las aplicaciones de IA empresariales. Afortunadamente, los almacenes de datos sirven como repositorios de datos seguros y permiten a los modelos fundacionales escalar tanto en términos de tamaño como de datos de entrenamiento.
Los almacenes de datos adecuados para la IA generativa centrada en el negocio se basan en una arquitectura de lakehouse abierta, que combina las cualidades de un data lake y un almacén de datos. Esta arquitectura permite ahorrar gracias al almacenamiento de objetos de bajo coste y compartir grandes volúmenes de datos mediante formatos de tabla abiertos como Apache Iceberg, creado para análisis de alto rendimiento y procesamiento de datos a gran escala.
Los modelos fundacionales pueden consultar volúmenes muy grandes de datos específicos de un dominio en un contenedor escalable y rentable. Y como estos tipos de almacenes de datos combinados con la nube permiten una escalabilidad prácticamente ilimitada, las lagunas de conocimiento de un modelo fundacional se reducen o incluso eliminan con el tiempo con la adición de más datos. Cuantas más brechas se cierren, más fiable será un modelo fundacional y mayor será su alcance.
Los almacenes de datos proporcionan a los científicos de datos un repositorio que pueden usar para recopilar y limpiar los datos utilizados para entrenar y afinar los modelos fundacionales. Y los almacenes de datos que se benefician de las infraestructuras de nube y nube híbrida de proveedores externos para procesar una gran cantidad de datos son crítico para la eficiencia de coste de la IA generativa.
Cuando los modelos fundacionales acceden a la información a través de almacenes de datos y se ajustan en la forma en que utilizan esta información para realizar diferentes tareas y generar respuestas, las herramientas de IA generativa resultantes pueden ayudar a las organizaciones a lograr beneficios como:
Los científicos de datos pueden usar modelos preentrenados para implementar de manera eficiente herramientas de IA en una variedad de situaciones de misión crítica.
Los desarrolladores pueden escribir, probar y documentar más rápido utilizando herramientas de IA que generan fragmentos de código personalizados.
Los ejecutivos pueden recibir resúmenes generados por IA de informes extensos, mientras que los nuevos empleados reciben versiones concisas del material de incorporación y otros materiales colaterales.
Las organizaciones pueden utilizar herramientas de IA generativa para la automatización de diversas tareas, entre ellas:
Los equipos de marketing pueden utilizar herramientas de IA generativa para ayudar a crear contenido sobre una amplia gama de temas. También pueden traducir de forma rápida y precisa el material de marketing a varios idiomas.
Los líderes empresariales y otras partes interesadas pueden realizar análisis asistidos por IA para interpretar grandes cantidades de datos no estructurados y así entender mejor el mercado, la confianza reputacional, etc.
Para ayudar a las organizaciones a multiplicar el impacto de la IA en su negocio, IBM ofrece watsonx, nuestro portfolio de productos de IA. El portfolio comprende tres potentes productos:
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.