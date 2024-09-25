Artificial Intelligence Open source AI for the Enterprise Tecnología

Los modelos Meta Llama 3.2 ya están disponibles en watsonx, incluidos los modelos multimodales de 11B y 90B

Vista aérea de un equipo colaborando

IBM anuncia la disponibilidad de múltiples modelos Llama 3.2 en watsonx.ai, el estudio empresarial de IBM para desarrolladores de IA, tras el lanzamiento de la colección Llama 3.2 de modelos de lenguaje de gran tamaño (LLM) multilingües preentrenados y ajustados con instrucciones en MetaConnect hoy.

Lo más notable es que Llama 3.2 marca la primera incursión de Meta en la IA multimodal: el lanzamiento incluye dos modelos, en tamaños de 11B y 90B, que pueden tomar imágenes como entrada. Los modelos Llama 3.2 90B Vision y 11B Vision ajustados a las instrucciones están disponibles de inmediato en watsonx.ai a través de SaaS.

También llegan en watsonx.ai los modelos Llama más pequeños hasta la fecha: dos LLM de entrada y salida de texto en tamaños de 1B y 3B. Todos los modelos Llama 3.2 soportan larga longitud de contexto (hasta 128K tokens) y están optimizados para inferencias rápidas y eficientes con atención de consulta agrupada. Meta ha especificado que los idiomas inglés, alemán, francés, italiano, portugués, hindi, español y tailandés son oficialmente compatibles, pero señala que Llama 3.2 se entrenó (y los desarrolladores pueden afinar los modelos de Llama 3.2 para) idiomas adicionales más allá de esos 8.

Estas últimas incorporaciones de Meta se unen a la amplia biblioteca de modelos fundacionales disponibles en watsonx.ai, en consonancia con la estrategia abierta y multimodelo de IBM hacia la IA generativa

"Al poner a disposición nuestros últimos modelos Llama 3.2 en watsonx, un grupo mucho más amplio de empresas puede beneficiarse de estas innovaciones e implementar nuestros modelos más recientes sin complicaciones, en sus propios términos y en entornos de nube híbrida", afirma Ahmad Al-Dahle, jefe de IA generativa en Meta. "En Meta creemos que es esencial adaptar las soluciones de IA a las necesidades específicas de cada organización y capacitarlas para escalar las implementaciones de Llama con facilidad. Nuestra asociación con IBM, una organización que comparte nuestro compromiso con la apertura, la seguridad, la confianza y la transparencia, nos permite hacer precisamente eso".

Siga leyendo para obtener más detalles sobre la colección Llama 3.2, incluidas las nuevas capacidades multimodales, las nuevas oportunidades de implementación en dispositivos móviles y otros dispositivos periféricos, las características de seguridad actualizadas y mucho más.

 

Los primeros modelos Llama multimodales

A diferencia de sus predecesores LLM de solo texto de la serie Llama, Llama 3.2 11B y Llama 3.2 90B han ampliado sus capacidades para incluir casos de uso de entrada de imagen y salida de texto, como la comprensión a nivel de documento, la interpretación de cuadros y gráficos y el subtitulado de imágenes. Los desarrolladores tienen ahora acceso a potentes modelos de razonamiento visual que se acercan a las capacidades avanzadas de los modelos cerrados, al tiempo que ofrecen toda la flexibilidad y personalización de los modelos abiertos.

Los nuevos LLM multimodales de visión Llama 3.2 pueden razonar sobre imágenes de alta resolución de hasta 1120x1120 píxeles, lo que permite su uso para tareas de visión artificial como clasificación, detección e identificación de objetos, transcripción de imagen a texto (incluida la escritura a mano) mediante reconocimiento óptico de caracteres (OCR), preguntas y respuestas contextuales, extracción y procesamiento de datos, comparación de imágenes y asistencia visual personal.  

Dar instrucciones a Llama en watsonx para que deduzca qué deportes practica una chica basándose en su foto (en la que aparece sosteniendo una pelota de baloncesto y llevando un tutú)

Este enfoque de la multimodalidad tiene 3 beneficios clave.

  • Afinación simplificada: no modifica los parámetros del modelo base, lo que permite conservar sus conocimientos generales y garantizar que se mantengan los notables avances logrados con el lanzamiento de Llama 3.1. Llama 3.2 11B y 90B mostraron ligeras mejoras en las pruebas de matemáticas, razonamiento y conocimientos generales de referencia en comparación con sus homólogos Llama 3.1 8B y 70B. Presumiblemente, esto también simplifica el proceso de afinado de los modelos multimodales de Llama 3.2, lo que permite personalizar el rendimiento del lenguaje sin temor a consecuencias no deseadas en las capacidades de razonamiento de imágenes.

  • Entrenamiento altamente eficiente: es notablemente eficiente en comparación con los típicos paradigmas de entrenamiento multimodal, que a menudo deben actualizar muchos miles de millones de parámetros del modelo. Los investigadores detrás de LLaMa-Adapter V2, por ejemplo, observaron que sus parámetros centrados en la imagen representan solo el 0,04 % de todo el modelo. El entrenamiento previo de Llama 3.2-Vision en un conjunto de datos de 6 mil millones de pares de imágenes y texto requirió 2,02 millones de horas de GPU combinadas para ambos modelos, mucho menos que los 7,0 millones de horas de GPU dedicadas al entrenamiento previo de Llama 3.1 70B solo.

  • Velocidad y eficiencia de costes: permite a los modelos Llama 3.2 aprovechar recursos informáticos adicionales para el razonamiento de imágenes solo cuando la entrada lo requiera. Esto subraya el compromiso de Meta con la velocidad de generación de outputs y la eficiencia de costes líderes en los sectores, lo que permite implementaciones eficientes a gran escala y aplicaciones en tiempo real para casos de uso sensibles al tiempo, como los chatbots y la generación de contenido dinámico.

Ambos modelos obtienen buenos resultados en las pruebas de referemcoa multimodales habituales para los modelos de lenguaje visual (VLM), acercándose a las puntuaciones máximas de los modelos de código abierto y, a menudo, rivalizando con los modelos de código cerrado más avanzados. Por ejemplo, el modelo Llama 3.2 90B-Vision, ajustado según instrucciones, iguala al GPT-4o de OpenAI en la comprensión de gráficos (ChartQA) y supera a Claude 3 Opus de Anthropic y a Gemini 1.5 Pro de Google en la interpretación de diagramas científicos (AI2D).1

Del mismo modo, Llama 3.2 11B-Vision logró puntuaciones de referencia competitivas para su categoría de peso, superando a Gemini 1.5 Flash 8B en preguntas y respuestas visuales de documentos (DocVQA), superando a Claude 3 Haiku y Claude 3 Sonnet en AI2D, ChartQA y razonamiento matemático visual (MathVista), y siguiendo el ritmo de Pixtral 12B y Qwen2-VL 7B en preguntas y respuestas visuales generales (VQAv2).2
 

Modelos Llama ligeros que pueden funcionar en casi cualquier lugar
 

La colección Llama 3.2 también incluye variantes con parámetros 1B y 3B, que representan los modelos Llama más pequeños hasta el momento.

Su tamaño reducido de modelo y, en consecuencia, los modestos requisitos de computación y memoria permiten ejecutar Llama localmente en la mayoría de los hardwares, incluidos dispositivos edge y otros dispositivos móviles. Esto da a Llama 3.2 1B y Llama 3.2 3B el potencial de precipitar una ola de innovación en aplicaciones locales e IA agéntica.  Si bien son muchas las ventajas de estos modelos compactos y eficaces, quizá las dos más importantes sean:

  • La oportunidad de ejecutar localmente con una latencia muy baja incluso en hardware modesto, incluidos smartphones

  • La correspondiente capacidad para preservar la privacidad de los usuarios y eludir los problemas de ciberseguridad al eliminar la necesidad de transmitir datos personales o de propiedad confidencial a servidores fuera del dispositivo

Ejecutándose de manera local, estos modelos ligeros de Llama 3.2 pueden servir como agentes rentables para coordinar aplicaciones en el dispositivo, como la RAG, el resumen multilingüe y la delegación de subtareas. También se pueden utilizar para reducir el coste de implementación de modelos de seguridad como Llama Guard, cuya nueva versión multimodal también se incluye en la versión de hoy de Meta y está disponible en watsonx.

Los dos nuevos modelos Llama ligeros superan su peso en los puntos de referencia de rendimiento, especialmente en los relacionados con tareas clave de IA agéntica. Por ejemplo, Llama 3.2 3B coincide con el Llama 3.1 8B más grande en el uso de herramientas (BFCL v2) y lo supera en resumen (TLDR9+), y el 1B también rivaliza tanto en tareas de resumen como de reescritura. En una indicación reveladora de lo lejos que han llegado los LLM abiertos en poco tiempo, Llama 3.2 3B superó significativamente al GPT-4 original en el punto de referencia MATH.
 

¿Por qué utilizar modelos Llama en IBM watsonx?

Con la disponibilidad cada vez mayor de potentes modelos de IA, crear una ventaja competitiva utilizando únicamente soluciones estándar será cada vez más difícil. Los modelos abiertos Llama compiten incluso con los modelos más potentes en cuanto a los puntos de referencia de rendimiento y, además, ofrecen personalización, transparencia y flexibilidad que no son posibles con los modelos cerrados.

  • Personalización: al proporcionar acceso directo a los pesos de sus modelos y a su arquitectura, Llama permite a los desarrolladores adaptar los modelos a sus necesidades, dominios y casos de uso específicos. Los modelos Llama 3.2 preentrenados estarán disponibles para afinado o entrenamiento continuo en el Watsonx Tuning Studio en las próximas semanas.

  • Flexibilidad: como todos los modelos fundacionales disponibles en IBM watsonx, los modelos Llama pueden implementarse en cualquier entorno, ya sea en la nube, en local o en entornos híbridos. A diferencia de otros proveedores que confinan a los usuarios a una nube pública específica, watsonx permite a los desarrolladores aprovechar al máximo la flexibilidad de Llama 3.2.

  • Seguridad y protección: el enfoque responsable de Meta hacia la innovación en IA continúa generando una amplia gama de salvaguardas importantes. La colección Llama 3.2 incluye un modelo Llama Guard 3 actualizado, Llama-Guard-3-11B-Vision, que proporciona un conjunto de barreras de inferencia de entrada-salida (input-output) compatibles con la nueva funcionalidad multimodal de Llama. IBM watsonx mejora aún más la IA responsable con barreras de IA dinámicas y sólidas medidas de seguridad, privacidad y protección.

  • Transparencia: a diferencia de la caja negra ofrecida por los modelos de código cerrado, el ecosistema Llama proporciona visibilidad total, control y explicabilidad, especialmente cuando se combina con la robusta solución de gobierno de la IA de IBM para gestionar y monitorizar la IA en toda una organización.
     

Primeros pasos con Llama 3.2

El soporte para Llama 3.2 forma parte del compromiso de IBM de promover la innovación de código abierto en IA y proporcionar a nuestros clientes acceso a los mejores modelos abiertos de watsonx, incluidos modelos de terceros y la familia de modelos IBM Granite.

IBM watsonx ayuda a los clientes a personalizar de verdad la implementación de modelos de código abierto como Llama, desde la flexibilidad total de los entornos de implementación hasta los flujos de trabajo intuitivos para el ajuste fino, el prompt engineering y la Integración con las aplicaciones. Cree de manera sencilla aplicaciones de IA personalizadas para su empresa, gestione todas las fuentes de datos y acelere los flujos de trabajo de IA responsable, todo en una sola plataforma.

Los siguientes modelos están disponibles hoy en IBM watsonx.ai:

  • Llama-3.2-90B-Vision-Instruct (entrada de texto e imagen)
  • Llama-3.2-11B-Vision-Instruct (entrada de texto e imágenes)
  • Llama-3.2-3B-Instruct (solo texto)
  • Llama-3.2-1B-Instruct (solo texto)
  • Llama-Guard-3-11B-Vision (entrada de texto e imagen)

A ellos se unirán los modelos Llama 3.2 preentrenados en las próximas semanas. Todos los modelos "-Instruct" se han sometido a una afinación supervisada (SFT) y al aprendizaje por refuerzo con feedback humano (RLHF) para una mejor alineación con los casos de uso comunes y las preferencias humanas de ayuda y seguridad, respectivamente.
 

Pruebe Llama 3.2 en watsonx.ai →

 

Notas a pie de página

Las evaluaciones de referencia citadas para modelos propietarios se extraen de las cifras autoinformadas de Anthropic el 20 de junio de 2024 (para Claude 3.5 Sonnet y Claude 3 Opus) y el 4 de marzo de 2024 (para Claude 3 Sonnet y Haiku), de OpenAI el 13 de mayo de 2024 (para modelos GPT) y Google Deepmind en mayo y septiembre de 2024 (para modelos Gemini). Anthropic informó de las pruebas de IA2D para Gemini 1.5 Pro.

2 Las evaluaciones de referencia citadas para Pixtral y Qwen-VL se extraen de los números informados por Mistral IA.

Tutoriales y recursos de Llama 3.2

IA multimodal con Llama 3.2 en watsonx
Tutorial

Empiece ahora
Las tendencias en IA más importantes en 2024
Artículo

Leer ahora
Demostración interactiva demostración interactiva
Demostración

Descubra la plataforma
IA generativa + ML para la empresa
Guía

Regístrese para descargarlo
Dé el siguiente paso

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para constructores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

 Explore watsonx.ai Solicite una demostración en directo