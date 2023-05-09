Estamos en la frontera de una revolución de la IA. Durante la última década, el aprendizaje profundo surgió de una colisión sísmica de la disponibilidad de datos y la pura potencia de cálculo, permitiendo una serie de capacidades impresionantes de IA. Pero nos hemos enfrentado a un reto paradójico: la automatización requiere mucha mano de obra. Suena como una broma, pero no lo es, como puede saber cualquiera que haya intentado resolver problemas de negocios con IA.
Las herramientas tradicionales de IA, aunque potentes, pueden ser costosas, llevar mucho tiempo y difíciles de usar. Los datos deben recopilarse laboriosamente, curarse y etiquetarse con anotaciones específicas de la tarea para entrenar modelos de IA. La creación de un modelo requiere habilidades especializadas y difíciles de encontrar, y cada nueva tarea requiere repetir el proceso. Como resultado, las empresas se han centrado principalmente en automatizar tareas con abundantes datos y alto valor empresarial, dejando todo lo demás sobre la mesa. Pero esto está empezando a cambiar.
La aparición de transformadores y métodos de aprendizaje autosupervisados nos ha permitido aprovechar grandes cantidades de datos sin etiquetar, allanando el camino para grandes modelos preentrenados, a veces llamados “modelosfundacionales”. Estos modelos de gran tamaño han reducido el costo y la mano de obra que implica la automatización.
Los modelos fundacionales proporcionan una base potente y versátil para una variedad de aplicaciones de IA. Podemos utilizar modelos fundacionales para realizar tareas rápidamente con datos anotados limitados y un esfuerzo mínimo; en algunos casos, solo necesitamos describir la tarea en cuestión para convencer al modelo de que la resuelva.
Pero estas potentes tecnologías también introducen nuevos riesgos y desafíos para las empresas. Muchos de los modelos actuales están entrenados en conjuntos de datos de calidad y procedencia desconocidas, lo que lleva a respuestas ofensivas, con sesgo o objetivamente incorrectas. Los modelos más grandes son costosos, consumen mucha energía para entrenar y ejecutar, y complejos de desplegar.
En IBM hemos estado desarrollando un enfoque que aborda los desafíos principales para el uso de modelos fundacionales para empresas. Hoy, anunciamos watsonx.ai, la puerta de entrada de IBM a las últimas herramientas y tecnologías de IA del mercado actual. Como prueba de lo rápido que avanza este campo, algunas herramientas tienen solo unas semanas de antigüedad y, mientras escribo estas líneas, estamos añadiendo otras nuevas.
Lo que se incluye en watsonx.ai, parte de las soluciones más grandes de watsonx de IBM anunciadas esta semana, es variado, y seguirá evolucionar, pero nuestra promesa general es la misma: proporcionar productos de automatización seguros y listos para la empresa.
Es parte de nuestro trabajo continuo en IBM acelerar el recorrido de nuestros clientes para obtener valor de este nuevo paradigma en IA. A continuación, describiré nuestro trabajo para crear una suite de modelos fundacionales de nivel empresarial y entrenados en IBM, incluido nuestro enfoque de las arquitecturas de datos y modelos. También voy a describir nuestra nueva cartera y herramientas que permiten a las empresas crear y desplegar soluciones basadas en modelos fundacionales utilizando un amplio catálogo de modelos de código abierto, además de los nuestros.
La calidad de los datos importa. Un modelo de IA entrenado con datos con sesgo o tóxicos tenderá naturalmente a producir resultados con sesgo o tóxicos. Este problema se agrava en la era de los modelos fundacionales, donde los datos empleados para capacitar modelos suelen provenir de muchas fuentes y son tan abundantes que ningún ser humano podría revisarlos razonablemente por completo.
Dado que los datos son el combustible que impulsa los modelos fundacionales, en IBM nos hemos centrado en curar meticulosamente todo lo que entra en nuestros modelos. Hemos desarrollado herramientas de IA para filtrar agresivamente nuestros datos en busca de odio y blasfemias, restricciones de licencia y sesgos. Cuando se identifican datos objetables, los eliminamos, volvemos a entrenar el modelo y repetimos.
La curaduría de datos es una tarea que nunca termina del todo. Continuamos desarrollando y perfeccionando nuevos métodos para mejorar la calidad y los controles de los datos, a fin de cumplir con un conjunto cambiante de requisitos legales y normativos. Hemos creado una infraestructura de extremo a extremo para rastrear los datos sin procesar que se han limpiado, los métodos que se utilizaron y los modelos que cada punto de datos ha tocado.
Continuamos recopilando datos de alta calidad para ayudar a afrontar algunos de los retos empresariales más urgentes en diversos ámbitos como finanzas, derecho, ciberseguridad y sustentabilidad. Actualmente estamos apuntando a más de 1 terabyte de texto curado para entrenar nuestros modelos fundacionales, mientras agregamos código de software curado, datos de satellite y datos y registros de eventos de redes de TI.
La investigación de IBM también está desarrollando técnicas para infundir confianza a lo largo del ciclo de vida del modelo fundacional, para mitigar el sesgo y mejorar la seguridad del modelo. Nuestro trabajo en esta área incluye FairIJ, que identifica puntos de datos con sesgo en los datos utilizados para ajustar un modelo, para que puedan ser editados. Otros métodos, como la reprogramación equitativa, nos permiten mitigar los sesgos en un modelo incluso después de haberlo entrenado.
El nuevo estudio watsonx.ai de IBM ofrece una suite de modelos fundacionales destinados a ofrecer valor empresarial. Se han incorporado a una gama de productos de IBM que estarán disponibles para los clientes de IBM en los próximos meses.
Reconociendo que un tamaño no se ajusta a todos, estamos construyendo una familia de modelos fundacionales de lenguaje y código de diferentes tamaños y arquitecturas. Cada familia de modelos tiene un nombre en clave relacionado con la geología (Granite, Sandstone, Obsidian y Slate) que reúne las innovaciones de vanguardia de IBM y la comunidad de investigación abierta. Cada modelo se puede personalizar para una amplia gama de tareas empresariales.
Nuestros modelos de Granite se basan en una arquitectura tipo GPT de solo decodificador para tareas generativas. Los modelosSandstone utilizan una arquitectura de codificador-decodificador y son muy adecuados para realizar ajustes en tareas específicas, intercambiables con los populares modelos T5 de Google. Modelos Obsidian utilizan una nueva arquitectura modular desarrollada por IBM® Research, proporcionando alta eficiencia de inferencia y niveles de rendimiento en una variedad de tareas. Slate se refiere a una familia de modelos solo codificadores (basados en RoBERTa), que, aunque no son generativos, son rápidos y eficaces para muchas tareas empresariales de PLN. Todos los modelos de watsonx.ai se entrenan en el lago de datos curado y centrado en la empresa de IBM, en nuestra supercomputadora de IA nativa de la nube diseñada a medida, Vela.
La eficiencia y la sustentabilidad son principios básicos de diseño para watsonx.ai. En IBM Investigación, hemos inventado nuevas tecnologías para el entrenamiento eficiente de modelos, incluyendo nuestro algoritmo “LiGO” que recicla modelos pequeños y “crece” en modelos más grandes. Este método puede ahorrar entre un 40 % y un 70 % del tiempo, el costo y los resultados de carbono necesarios para entrenar un modelo. Para mejorar las velocidades de inferencia, estamos aprovechando nuestra profunda experiencia en cuantificación o reduciendo modelos de aritmética de punto flotante de 32 puntos a formatos de bits enteros mucho más pequeños. Reducir la precisión de los modelos de IA aporta enormes beneficios en términos de eficiencia sin sacrificar la exactitud. Esperamos ejecutar pronto estos modelos comprimidos en nuestro chip optimizado para IA,IBM AIU.
La pieza final del rompecabezas del modelo fundacional es crear un software fácil de usar para afinar y desplegar modelos. La pila de inferencia híbrida y nativa de la nube de IBM, basada en RedHat OpenShift, se optimizó para entrenar y servir modelos fundacionales. Las empresas pueden aprovechar la flexibilidad de OpenShift para ejecutar modelos desde cualquier lugar, incluso on premises.
Creamos una suite de herramientas en watsonx.ai que ofrecen a los clientes una interfaz de usuario fácil de usar y bibliotecas para desarrolladores que construyen soluciones basadas en modelos fundacionales. Nuestro Prompt Lab permite a los usuarios realizar rápidamente tareas de IA con solo unos pocos ejemplos etiquetados. El Tuning Studio permite una personalización rápida y robusta del modelo empleando tus propios datos, basada en técnicas de ajuste fino eficientes y de última generación desarrolladas por IBM Research.
Además de los propios modelos de IBM, watsonx.ai proporciona acceso fluido a un amplio catálogo de modelos de código abierto para que las empresas experimenten e iteren rápidamente. En una nueva asociación con Hugging Face, IBM ofrecerá miles de modelos fundacionales, conjuntos de datos y bibliotecas de código abierto de Hugging Face en watsonx.ai. Hugging Face, a su vez, ofrecerá todos los modelos y herramientas patentados y de acceso abierto de IBM en watsonx.ai.
Para probar un nuevo modelo, simplemente selecciónelo de un menú desplegable. Puede Aprenda más sobre el estudio aquí.
Los modelos fundacionales están cambiando el ámbito de la IA, y el progreso en los últimos años no ha hecho más que acelerarse. En IBM nos complace ayudar a trazar las fronteras de este campo en rápida evolución y traducir la innovación en valor empresarial real.
Unlock 4 strategies to scale AI with a strong data foundation.
Learn how CEOs can balance the value generative AI can create against the investment it demands and the risks it introduces.
We surveyed 2,000 organizations about their AI initiatives to discover what's working, what's not and how you can get ahead.
Learn an agile AI approach that enables organizations to innovate quickly and reduce the risk of failure.
Learn how to incorporate generative AI, machine learning and foundation models into your business operations for improved performance.
Want to get a better return on your AI investments? Learn how scaling gen AI in key areas drives change by helping your best minds build and deliver innovative new solutions.
Learn about the history of AI and explore what the future holds for enterprises considering AI adoption.
Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.