Diseño de IA para negocios: modelos fundacionales de Granite de IBM

Imagen generada digitalmente de un semiconductor futurista de color púrpura brillante y datos digitales fluyendo.

Es un momento emocionante para la IA empresarial. A medida que aplicamos la tecnología más ampliamente en áreas que van desde la atención al cliente hasta los recursos humanos y la modernización del código, la inteligencia artificial (IA) nos ayuda a trabajar de manera más inteligente, no más difícil. Y como apenas estamos en los inicios de la revolución de la IA empresarial, el potencial para mejorar la productividad y la creatividad es enorme.

Pero la IA hoy en día es un campo increíblemente dinámico, y las plataformas de IA deben reflejar ese dinamismo, incorporando los últimos avances para satisfacer las demandas de hoy y de mañana. Es por eso que en IBM Continuamos agregar nuevas capacidades potentes a IBM watsonx, nuestra cartera de productos de IA.

Hoy anunciamos nuestra última incorporación: una nueva familia de modelos fundacionales construidos por IBM que estará disponible en watsonx.ai, nuestro estudio para IA generativa, modelos fundacionales y aprendizaje automático. Denominados colectivamente "Granite", estos modelos fundacionales de varios tamaños aplican IA generativa tanto al lenguaje como al código. Y así como el Granite es un material resistente y multipropósito con muchos usos en la construcción y la fabricación, en IBM creemos que estos modelos Granite ofrecerán un valor duradero a su negocio.

Pero ahora echemos un vistazo bajo el capó y expliquemos un poco cómo los creamos y cómo le ayudarán a llevar la IA al siguiente nivel en su negocio.

Los modelos fundacionales Granite de IBM están orientados a las compañías

Desarrollados por IBM investigación, los modelos Granite® — Granite.13b.instruct y Granite.13b.chat — utilizan una arquitectura de "Decodificador", que es lo que sustenta la capacidad de los grandes modelos de lenguaje actuales para predecir la siguiente palabra en una secuencia.

Con 13 000 millones de modelos de parámetros, los modelos Granite son más eficientes que los modelos más grandes, ya que se ajustan a una sola GPU V100-32GB. También pueden tener un impacto menor en el entorno y, al mismo tiempo, desempeñarse bien en tareas especializadas del dominio empresarial, como resumir, responder preguntas y clasificar. Son ampliamente aplicables en todas las industrias y respaldan otras tareas de NLP, como la generación de contenido, la extracción de información y la generación aumentada por recuperación (un infraestructura/marco para mejorar la calidad de la respuesta al vincular el modelo a fuentes externas de conocimiento) y el reconocimiento de entidades nombradas (identificar y extraer información clave en un texto).

En IBM nos centramos en la creación de modelos dirigidos a las empresas. La familia de modelos Granite no es diferente, por lo que los entrenamos en una variedad de conjuntos de datos, por un total de 7 TB antes del preprocesamiento, 2.4 TB después del preprocesamiento, para producir 1 billón de tokens, la colección de caracteres que tiene significado semántico para un modelo. Nuestra selección de conjuntos de datos se centró en las necesidades de los usuarios empresariales e incluye datos de los siguientes dominios:

  • Internet: datos genéricos de lenguaje no estructurado tomados de la Internet pública
  • Académico: datos técnicos de lenguaje no estructurado, centrados en ciencia y tecnología
  • Código: conjuntos de datos de código no estructurados que cubren una variedad de lenguajes de programación
  • Legal: datos lingüísticos no estructurados relevantes para la empresa tomados de opiniones legales y otras presentaciones públicas
  • Finanzas: datos no estructurados relevantes para la empresa tomados de documentos e informes financieros publicados públicamente

Al entrenar modelos en conjuntos de datos especializados en empresas, ayudamos a garantizar que nuestros modelos estén familiarizados con el lenguaje especializado y la jerga de estas industrias y tomen decisiones basadas en el conocimiento relevante de la industria.

Los modelos fundacionales Granite de IBM están diseñados para generar confianza.

En los negocios, la confianza es su licencia para operar. “Confíe en nosotros” no es un argumento, especialmente cuando se trata de IA. Como una de las primeras empresas en desarrollar IA empresarial, el enfoque de IBM para el desarrollo de IA se guía por principios básicos basados en compromisos de confianza y transparencia. Los productos IBM watsonx le permiten ir más allá de ser un usuario de IA y convertirse en un creador de valor de IA. Cuenta con un proceso integral para construir y probar modelos fundacionales e IA generativa—comenzando con la recogida de datos y terminando en puntos de control para el seguimiento responsable de los despliegues de modelos y aplicaciones—centrado en la gobernanza, evaluación, mitigación de sesgos y cumplimiento.

Dado que los modelos Granite estarán disponibles para que los clientes se adapten a sus propias aplicaciones, cada conjunto de datos que se utiliza en el entrenamiento se somete a un proceso definido de revisión de gobernanza, riesgo y cumplimiento (GRC). Hemos desarrollado procedimientos de gobernanza para incorporar datos en IBM Data Pile que son coherentes con los principios de ética de IA de IBM. Abordar los criterios de GRC para los datos abarca todo el ciclo de vida de los datos de entrenamiento. Nuestro objetivo es establecer un enlace auditable desde un modelo fundacional entrenado hasta la versión específica del conjunto de datos en la que se entrenó el modelo.

Gran parte de la atención de los medios se ha centrado (con razón) en el riesgo de que la IA generativa produzca resultados de odio o difamatorios. En IBM sabemos que las empresas no pueden permitirse el lujo de asumir tales riesgos, por lo que nuestros modelos Granite se entrenan con datos analizados por nuestro propio detector de HAP, un modelo de lenguaje entrenado por IBM para detectar y eliminar contenido de odio y profano (de ahí “HAP”), que se compara con modelos internos y públicos. Después de asignar un puntaje a cada oración en un documento, se ejecutan analytics sobre las oraciones y puntajes para explorar la distribución, lo que determina el porcentaje de oraciones para filtrar.

Además de esto, aplicamos una amplia gama de otras medidas de calidad. Buscamos y eliminamos la duplicación que mejora la calidad de los resultados y utilizamos filtros de calidad de documentos para eliminar aún más los documentos de baja calidad que no son adecuados para el entrenamiento. También desplegamos salvaguardas de protección de datos periódicas y continuas, incluida la supervisión de sitios web conocidos por piratear materiales o publicar otro material ofensivo, y evitar esos sitios web. 

Y debido a que el ámbito de la tecnología de IA generativa cambia constantemente, nuestro proceso de extremo a extremo evolucionará y mejorará continuamente, dando a las empresas Resultados en los que pueden confiar.

Los modelos de base Granite de IBM están diseñados para empoderarte

La clave de la visión de IBM sobre la IA empresarial es la noción de empoderamiento. Cada organización desplegará los modelos Granite para cumplir sus propios objetivos, y cada empresa tiene sus propias regulaciones que cumplir, ya sean leyes, normas sociales, estándares de la industria, demandas del mercado o requisitos arquitectónicos. Creemos que las empresas deben estar capacitadas para personalizar sus modelos de acuerdo con sus propios valores (dentro de los límites), dondequiera que residan sus cargas de trabajo, utilizando las herramientas de watsonx.

Pero eso no es todo. Haga lo que haga en watsonx, conservará la propiedad de sus datos. No utilizamos sus datos para entrenar nuestros modelos; conserva el control de los modelos que construye y puede llevarlos a cualquier parte.

Modelos fundacionales de Granite: solo el comienzo

Los modelos iniciales de Granite son solo el comienzo: se planean más en otros idiomas y también se están preparando otros modelos entrenados por IBM. Mientras tanto, Continuamos agregando modelos de código abierto a watsonx. Recientemente anunciamos que IBM ahora ofrece el modelo Llama 2-chat de 70 mil millones de parámetros de Meta para seleccionar clientes para acceso anticipado y planeamos que esté ampliamente disponible a finales de septiembre. Además, IBM alojará StarCoder, un gran modelo de lenguaje para código, que incluye más de 80 lenguajes de programación, commits de Git, issues de GitHub y Jupyter Notebooks.

Además de los nuevos modelos, IBM también está lanzando nuevas capacidades complementarias en el estudio watsonx.ai. A finales de este mes llegará la primera iteración de nuestro Tuning Studio, que incluirá el ajuste rápido, una forma eficiente y de bajo costo para que los clientes adapten los modelos fundacionales a sus tareas posteriores únicas mediante el entrenamiento de modelos con sus propios datos confiables. También lanzaremos nuestro generador de datos sintéticos, que ayudará a los usuarios a crear conjuntos de datos tabulares artificiales a partir de esquemas de datos personalizados o conjuntos de datos internos. Esta característica permitirá a los usuarios extraer insights para el entrenamiento y ajuste de modelos de IA o simulaciones de escenarios con riesgo reducido, aumentando la toma de decisiones y acelerando el tiempo de comercialización.

La incorporación de los modelos fundacionales Granite y otras capacidades a watsonx abre nuevas y emocionantes posibilidades en la IA empresarial. Con nuevos modelos y nuevas herramientas vienen nuevas ideas y nuevas soluciones. ¿Y lo mejor de todo? Solo estamos comenzando.

 

Autor

Dinesh Nirmal

SVP

IBM Software

Notas de pie de página

Las declaraciones sobre la dirección e intención futuras de IBM están sujetas a cambios o eliminaciones sin previo aviso y representan solo metas y objetivos.