Estamos al borde de la revolución de la IA. Durante la última década, el deep learning surgió de una colisión sísmica entre la disponibilidad de datos y la pura potencia de cálculo, permitiendo una serie de capacidades impresionantes de AI. Pero nos enfrentamos a un desafío paradójico: la automatización requiere mucha mano de obra. Parece una broma, pero no lo es, como sabrá cualquiera que haya intentado resolver problemas empresariales con la IA.
Las herramientas de IA tradicionales, si bien son potentes, pueden resultar caras, lentas y difíciles de usar. Los datos deben recopilarse, curarse y etiquetarse laboriosamente con anotaciones específicas para cada tarea para entrenar modelos de IA. La creación de un modelo requiere habilidades especializadas y difíciles de encontrar, y cada nueva tarea requiere repetir el proceso. Como resultado, las empresas se han centrado principalmente en automatizar tareas con abundantes datos y alto valor empresarial, dejando todo lo demás sobre la mesa. Pero esto está empezando a cambiar.
La aparición de los transformadores y los métodos de aprendizaje autosupervisado nos ha permitido acceder a enormes cantidades de datos sin etiquetar, lo que ha allanado el camino para grandes modelos preentrenados, a veces denominados "modelos fundacionales". Estos grandes modelos han reducido el coste y la mano de obra que implica la automatización.
Los modelos fundacionales proporcionan una base potente y versátil para una variedad de aplicaciones de IA. Podemos utilizar modelos fundacionales para realizar tareas rápidamente con datos anotados limitados y un esfuerzo mínimo; en algunos casos, solo necesitamos describir la tarea en cuestión para convencer al modelo de que la resuelva.
Pero estas potentes tecnologías también introducen nuevos riesgos y desafíos para las empresas. Muchos de los modelos actuales se basan en conjuntos de datos de calidad y procedencia desconocidas, lo que lleva a respuestas ofensivas, sesgadas o incorrectas desde el punto de vista fáctico. Los modelos más grandes son caros, requieren mucha energía para entrenar y operar, y son complejos de implementar.
En IBM hemos estado desarrollando un enfoque que aborda los principales retos del uso de modelos fundacionales para la empresa. Hoy anunciamos watsonx.ai, la puerta de entrada de IBM a las últimas herramientas y tecnologías de IA del mercado actual. Como prueba de la rapidez con la que avanza este campo, algunas herramientas sólo tienen unas semanas de vida y estamos añadiendo otras nuevas mientras escribo.
Lo que incluye watsonx.ai (parte de la amplia oferta watsonx de IBM anunciada esta semana) es variado y seguirá evolucionando, pero nuestra promesa general es la misma: proporcionar productos de automatización seguros y listos para su uso empresarial.
Forma parte de nuestro trabajo continuo en IBM para acelerar el recorrido de nuestros clientes y obtener valor de este nuevo paradigma en IA. A continuación, describiré nuestro trabajo para crear una suite de modelos fundacionales de nivel empresarial entrenados en IBM, incluido nuestro enfoque de las arquitecturas de datos y modelos. También describiré nuestro nuevo portfolio y herramientas que permiten a las empresas crear e implementar soluciones basadas en modelos fundacionales utilizando un amplio catálogo de modelos de código abierto, además del nuestro.
La calidad de los datos importa. Un modelo de IA entrenado con datos sesgados o tóxicos tenderá naturalmente a producir outputs sesgados o tóxicos. Este problema se agrava en la era de los modelos fundacionales, donde los datos utilizados para entrenar modelos suelen provenir de muchas fuentes y son tan abundantes que ningún ser humano podría revisarlos razonablemente por completo.
Dado que los datos son el combustible que impulsa los modelos fundacionales, en IBM nos hemos centrado en seleccionar meticulosamente todo lo que entra en nuestros modelos. Hemos desarrollado herramientas de IA para filtrar agresivamente nuestros datos en busca de odio y blasfemias, restricciones de licencia y sesgos. Cuando se identifican datos objetables, los eliminamos, volvemos a entrenar el modelo y repetimos.
La conservación de datos es una tarea que nunca termina del todo. Continuamos desarrollando y perfeccionando nuevos métodos para mejorar la calidad de los datos y los controles, con el fin de cumplir una serie de requisitos legales y reglamentarios en constante evolución. Hemos creado un marco integral para rastrear los datos sin procesar que se han limpiado, los métodos que se utilizaron y los modelos que ha tocado cada punto de datos.
Continuamos recopilando datos de alta calidad para ayudar a afrontar algunos de los retos empresariales más urgentes en diversos ámbitos como finanzas, derecho, ciberseguridad y sostenibilidad. Actualmente estamos apuntando a más de 1 terabyte de texto curado para entrenar nuestros modelos fundacionales, mientras añadimos código de software curado, datos de satélite y datos y registros de eventos de redes de TI.
IBM Research también está desarrollando técnicas para infundir confianza a lo largo del ciclo de vida del modelo fundacional, para mitigar el sesgo y mejorar la seguridad del modelo. Nuestro trabajo en esta área incluye FairIJ, que identifica puntos de datos sesgados en los datos utilizados para ajustar un modelo, de modo que puedan editarse. Otros métodos, como la reprogramación de la equidad, nos permiten mitigar los sesgos de un modelo incluso después de haberlo entrenado.
El nuevo estudio watsonx.ai de IBM ofrece un conjunto de modelos fundacionales destinados a ofrecer valor empresarial. Se han incorporado a una gama de productos de IBM que estarán disponibles para los clientes de IBM en los próximos meses.
Conscientes de que no existe una solución única para todos, estamos desarrollando una familia de modelos fundacionales de lenguaje y código de distintos tamaños y arquitecturas. Cada familia de modelos tiene un nombre en clave relacionado con la geología (Granite, Sandstone, Obsidian y Slate) que reúne las innovaciones de vanguardia de IBM Research y la comunidad de investigación abierta. Cada modelo se puede personalizar para una serie de tareas empresariales.
Nuestros modelos Granite se basan en una arquitectura similar a GPT de solo decodificador para tareas generativas. Los Sandstone utilizan una arquitectura de codificador-decodificador y son muy adecuados para realizar ajustes en tareas específicas, intercambiables con los populares modelos T5 de Google. Los Obsidian utilizan una nueva arquitectura modular desarrollada por IBM Research, proporcionando una alta eficiencia de inferencia y niveles de rendimiento en una variedad de tareas. Slate se refiere a una familia de modelos de solo codificador (basados en RoBERTa), que, aunque no son generativos, son rápidos y efectivos para muchas tareas de PNL empresarial. Todos los modelos de watsonx.ai se entrenan en el data lake curado y centrado en la empresa de IBM, en nuestro superordenador de IA nativo de la nube diseñado a medida, Vela.
La eficiencia y la sostenibilidad son principios básicos de diseño para watsonx.ai. En IBM Research, hemos inventado nuevas tecnologías para un entrenamiento eficiente de modelos, incluido nuestro algoritmo “LiGO”, que recicla modelos pequeños y los "convierte" en modelos más grandes. Este método puede ahorrar entre un 40 % y un 70 % del tiempo, el coste y las emisiones de carbono necesarios para entrenar un modelo. Para mejorar la velocidad de inferencia, estamos aprovechando nuestra profunda experiencia en cuantización, o reducción de modelos de aritmética de coma flotante de 32 puntos a formatos de bits enteros mucho más pequeños. Reducir la precisión del modelo de IA aporta enormes beneficios de eficiencia sin sacrificar la precisión. Esperamos ejecutar pronto estos modelos comprimidos en nuestro chip optimizado para IA, el IBM AIU.
La pieza final del puzzle del modelo fundacional es crear software fácil de usar para ajustar e implementar modelos. La pila de inferencia híbrida de IBM, basada en OpenShift, se ha optimizado para el entrenamiento y el servicio de modelos fundacionales. Las empresas pueden aprovechar la flexibilidad de OpenShift para ejecutar modelos desde cualquier lugar, incluso en las instalaciones.
Hemos creado una suite de herramientas en watsonx.ai que proporcionan a los clientes una interfaz de usuario fácil de usar y bibliotecas aptas para los desarrolladores para crear soluciones basadas en modelos fundacionales. Nuestro Prompt Lab permite a los usuarios realizar rápidamente tareas de IA con solo unos pocos ejemplos etiquetados. El Tuning Studio permite una personalización rápida y robusta del modelo utilizando tus propios datos, basada en técnicas de ajuste fino eficientes y de última generación desarrolladas por IBM Research.
Además de los propios modelos de IBM, watsonx.ai proporciona acceso fluido a un amplio catálogo de modelos de código abierto para que las empresas experimenten e iteren rápidamente. En una nueva asociación con Hugging Face, IBM ofrecerá miles de modelos fundacionales, conjuntos de datos y bibliotecas de código abierto de Hugging Face en watsonx.ai. Hugging Face, a su vez, ofrecerá todos los modelos y herramientas propietarios y de acceso abierto de IBM en watsonx.ai.
Para probar un nuevo modelo, simplemente selecciónelo en un menú desplegable. Puede obtener más información sobre el estudio aquí.
Los modelos fundacionales están cambiando el panorama de la IA, y el progreso en los últimos años no ha hecho más que acelerarse. En IBM nos complace ayudar a trazar las fronteras de este campo en rápida evolución y traducir la innovación en valor empresarial real.
Descubra 4 estrategias para escalar la IA con una sólida base de datos.
Descubra cómo pueden los CEO equilibrar el valor que la IA generativa es capaz de crear frente a la inversión que exige y los riesgos que introduce.
Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.
Conozca un enfoque ágil de la IA que permite a las organizaciones innovar con rapidez y reducir el riesgo de fracaso.
Aprenda a incorporar la IA generativa, el machine learning y los modelos fundacionales en sus operaciones empresariales para mejorar el rendimiento.
¿Quiere obtener un mayor rendimiento de sus inversiones en IA? Descubra cómo escalar la IA generativa en áreas clave impulsa el cambio ayudando a sus mentes más brillantes a crear y ofrecer nuevas soluciones innovadoras.
Conozca la historia de la IA y explore lo que depara el futuro a las empresas que se plantean adoptarla.
Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.