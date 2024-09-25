IBM anuncia la disponibilidad de múltiples modelos Llama 3.2 en watsonx.ai, el estudio empresarial de IBM para desarrolladores de IA, tras el lanzamiento de la colección Llama 3.2 de modelos de lenguaje de gran tamaño (LLM) multilingües preentrenados y ajustados con instrucciones en MetaConnect hoy.
Lo más notable es que Llama 3.2 marca la primera incursión de Meta en la IA multimodal: el lanzamiento incluye dos modelos, en tamaños de 11B y 90B, que pueden tomar imágenes como entrada. Los modelos Llama 3.2 90B Vision y 11B Vision ajustados a las instrucciones están disponibles de inmediato en watsonx.ai a través de SaaS.
También llegan en watsonx.ai los modelos Llama más pequeños hasta la fecha: dos LLM de entrada y salida de texto en tamaños de 1B y 3B. Todos los modelos Llama 3.2 soportan larga longitud de contexto (hasta 128K tokens) y están optimizados para inferencias rápidas y eficientes con atención de consulta agrupada. Meta ha especificado que los idiomas inglés, alemán, francés, italiano, portugués, hindi, español y tailandés son oficialmente compatibles, pero señala que Llama 3.2 se entrenó (y los desarrolladores pueden afinar los modelos de Llama 3.2 para) idiomas adicionales más allá de esos 8.
Estas últimas incorporaciones de Meta se unen a la amplia biblioteca de modelos fundacionales disponibles en watsonx.ai, en consonancia con la estrategia abierta y multimodelo de IBM hacia la IA generativa
"Al poner a disposición nuestros últimos modelos Llama 3.2 en watsonx, un grupo mucho más amplio de empresas puede beneficiarse de estas innovaciones e implementar nuestros modelos más recientes sin complicaciones, en sus propios términos y en entornos de nube híbrida", afirma Ahmad Al-Dahle, jefe de IA generativa en Meta. "En Meta creemos que es esencial adaptar las soluciones de IA a las necesidades específicas de cada organización y capacitarlas para escalar las implementaciones de Llama con facilidad. Nuestra asociación con IBM, una organización que comparte nuestro compromiso con la apertura, la seguridad, la confianza y la transparencia, nos permite hacer precisamente eso".
Siga leyendo para obtener más detalles sobre la colección Llama 3.2, incluidas las nuevas capacidades multimodales, las nuevas oportunidades de implementación en dispositivos móviles y otros dispositivos periféricos, las características de seguridad actualizadas y mucho más.
A diferencia de sus predecesores LLM de solo texto de la serie Llama, Llama 3.2 11B y Llama 3.2 90B han ampliado sus capacidades para incluir casos de uso de entrada de imagen y salida de texto, como la comprensión a nivel de documento, la interpretación de cuadros y gráficos y el subtitulado de imágenes. Los desarrolladores tienen ahora acceso a potentes modelos de razonamiento visual que se acercan a las capacidades avanzadas de los modelos cerrados, al tiempo que ofrecen toda la flexibilidad y personalización de los modelos abiertos.
Los nuevos LLM multimodales de visión Llama 3.2 pueden razonar sobre imágenes de alta resolución de hasta 1120x1120 píxeles, lo que permite su uso para tareas de visión artificial como clasificación, detección e identificación de objetos, transcripción de imagen a texto (incluida la escritura a mano) mediante reconocimiento óptico de caracteres (OCR), preguntas y respuestas contextuales, extracción y procesamiento de datos, comparación de imágenes y asistencia visual personal.
Este enfoque de la multimodalidad tiene 3 beneficios clave.
Ambos modelos obtienen buenos resultados en las pruebas de referemcoa multimodales habituales para los modelos de lenguaje visual (VLM), acercándose a las puntuaciones máximas de los modelos de código abierto y, a menudo, rivalizando con los modelos de código cerrado más avanzados. Por ejemplo, el modelo Llama 3.2 90B-Vision, ajustado según instrucciones, iguala al GPT-4o de OpenAI en la comprensión de gráficos (ChartQA) y supera a Claude 3 Opus de Anthropic y a Gemini 1.5 Pro de Google en la interpretación de diagramas científicos (AI2D).1
Del mismo modo, Llama 3.2 11B-Vision logró puntuaciones de referencia competitivas para su categoría de peso, superando a Gemini 1.5 Flash 8B en preguntas y respuestas visuales de documentos (DocVQA), superando a Claude 3 Haiku y Claude 3 Sonnet en AI2D, ChartQA y razonamiento matemático visual (MathVista), y siguiendo el ritmo de Pixtral 12B y Qwen2-VL 7B en preguntas y respuestas visuales generales (VQAv2).2
La colección Llama 3.2 también incluye variantes con parámetros 1B y 3B, que representan los modelos Llama más pequeños hasta el momento.
Su tamaño reducido de modelo y, en consecuencia, los modestos requisitos de computación y memoria permiten ejecutar Llama localmente en la mayoría de los hardwares, incluidos dispositivos edge y otros dispositivos móviles. Esto da a Llama 3.2 1B y Llama 3.2 3B el potencial de precipitar una ola de innovación en aplicaciones locales e IA agéntica. Si bien son muchas las ventajas de estos modelos compactos y eficaces, quizá las dos más importantes sean:
Ejecutándose de manera local, estos modelos ligeros de Llama 3.2 pueden servir como agentes rentables para coordinar aplicaciones en el dispositivo, como la RAG, el resumen multilingüe y la delegación de subtareas. También se pueden utilizar para reducir el coste de implementación de modelos de seguridad como Llama Guard, cuya nueva versión multimodal también se incluye en la versión de hoy de Meta y está disponible en watsonx.
Los dos nuevos modelos Llama ligeros superan su peso en los puntos de referencia de rendimiento, especialmente en los relacionados con tareas clave de IA agéntica. Por ejemplo, Llama 3.2 3B coincide con el Llama 3.1 8B más grande en el uso de herramientas (BFCL v2) y lo supera en resumen (TLDR9+), y el 1B también rivaliza tanto en tareas de resumen como de reescritura. En una indicación reveladora de lo lejos que han llegado los LLM abiertos en poco tiempo, Llama 3.2 3B superó significativamente al GPT-4 original en el punto de referencia MATH.
Con la disponibilidad cada vez mayor de potentes modelos de IA, crear una ventaja competitiva utilizando únicamente soluciones estándar será cada vez más difícil. Los modelos abiertos Llama compiten incluso con los modelos más potentes en cuanto a los puntos de referencia de rendimiento y, además, ofrecen personalización, transparencia y flexibilidad que no son posibles con los modelos cerrados.
El soporte para Llama 3.2 forma parte del compromiso de IBM de promover la innovación de código abierto en IA y proporcionar a nuestros clientes acceso a los mejores modelos abiertos de watsonx, incluidos modelos de terceros y la familia de modelos IBM Granite.
IBM watsonx ayuda a los clientes a personalizar de verdad la implementación de modelos de código abierto como Llama, desde la flexibilidad total de los entornos de implementación hasta los flujos de trabajo intuitivos para el ajuste fino, el prompt engineering y la Integración con las aplicaciones. Cree de manera sencilla aplicaciones de IA personalizadas para su empresa, gestione todas las fuentes de datos y acelere los flujos de trabajo de IA responsable, todo en una sola plataforma.
Los siguientes modelos están disponibles hoy en IBM watsonx.ai:
A ellos se unirán los modelos Llama 3.2 preentrenados en las próximas semanas. Todos los modelos "-Instruct" se han sometido a una afinación supervisada (SFT) y al aprendizaje por refuerzo con feedback humano (RLHF) para una mejor alineación con los casos de uso comunes y las preferencias humanas de ayuda y seguridad, respectivamente.
