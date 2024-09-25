IBM anuncia la disponibilidad de múltiples modelos Llama 3.2 en watsonx.ai, el estudio empresarial de IBM para desarrolladores de IA, tras el lanzamiento de la colección Llama 3.2 de modelos de lenguaje grandes (LLM) multilingües preentrenados y ajustados con instrucciones en MetaConnect hoy.
En particular, Llama 3.2 marca la primera incursión de Meta en la IA multimodal: el lanzamiento incluye dos modelos, en tamaños de 11B y 90B, que pueden tomar imágenes como entrada. Los modelos Llama 3.2 90B Vision y 11B Vision, ajustados para instrucciones, están disponibles de inmediato en watsonx.ai a través de SaaS.
También llegan a watsonx.ai los modelos Llama más pequeños hasta la fecha: dos LLM de entrada y salida de texto en tamaños 1B y 3B. Todos los modelos de Llama 3.2 admiten una longitud de contexto larga (hasta 128K tokens) y están optimizados para una inferencia rápida y eficiente con atención de consultas agrupadas. Meta ha especificado que los idiomas inglés, alemán, francés, italiano, portugués, hindi, español y tailandés son oficialmente compatibles, pero señala que Llama 3.2 se entrenó en otros idiomas adicionales a esos 8, y los desarrolladores pueden ajustar los modelos de Llama 3.2.
Estas últimas incorporaciones de Meta se unen a la amplia biblioteca de modelos fundacionales disponibles en watsonx.ai, en consonancia con la estrategia abierta y multimodelo de IBM hacia la IA generativa.
"Al poner a disposición nuestros últimos modelos Llama 3.2 en watsonx, un grupo mucho más amplio de empresas puede beneficiarse de estas innovaciones y desplegar nuestros modelos más recientes sin complicaciones, en sus propios términos y en entornos de nube híbrida", afirma Ahmad Al-Dahle, jefe de IA generativa en Meta. “En Meta, creemos que es esencial adaptar las soluciones de IA a las necesidades específicas de cada organización y empoderarlas para escalar los despliegues de Llama con facilidad. Nuestra asociación con IBM, una organización que comparte nuestro compromiso con la apertura, la seguridad, la confianza y la transparencia, nos permite hacer precisamente eso”.
Siga leyendo para obtener más detalles de la colección Llama 3.2, incluidas nuevas capacidades multimodales, nuevas oportunidades de despliegue en dispositivos móviles y otros dispositivos perimetrales, características de seguridad actualizadas y más.
A diferencia de sus predecesores LLM de solo texto en la serie Llama, Llama 3.2 11B y Llama 3.2 90B han ampliado sus capacidades para incluir casos de uso de entrada de imagen y salida de texto, como comprensión a nivel de documento, interpretación de cuadros y gráficos y leyendas de imágenes. Los desarrolladores ahora tienen acceso a potentes modelos de razonamiento visual que se acercan a las capacidades avanzadas de los modelos cerrados, al tiempo que ofrecen toda la flexibilidad y personalización de los modelos abiertos.
Los nuevos LLM multimodales de visión Llama 3.2 pueden razonar sobre imágenes de alta resolución de hasta 1120x1120 píxeles, lo que permite su uso para tareas de visión artificial, como clasificación, detección e identificación de objetos, transcripción de imagen a texto (incluida la escritura a mano) a través del reconocimiento óptico de caracteres (OCR), preguntas y respuestas contextuales, extracción y procesamiento de datos, comparación de imágenes y asistencia visual personal.
Este enfoque de la multimodalidad tiene 3 beneficios clave.
Ambos modelos funcionan bien en los puntos de referencia multimodales comunes para los modelos de lenguaje de visión (VLM), acercándose a las puntuaciones más altas para los modelos abiertos y, a menudo, rivalizando con los modelos cerrados de última generación. Por ejemplo, la instrucción ajustada Llama 3.2 90B-Vision coincide con GPT-4o de OpenAI en comprensión de gráficos (ChartQA) y supera tanto a Claude 3 Opus de Anthropic como a Gemini 1.5 Pro de Google en interpretación de diagramas científicos (AI2D).1
Del mismo modo, Llama 3.2 11B-Vision logró puntuaciones de punto de referencia competitivas para su categoría de peso, superando a Gemini 1.5 Flash 8B en preguntas y respuestas visuales de documentos (DocVQA), superando a Claude 3 Haiku y Claude 3 Sonnet en AI2D, ChartQA y razonamiento matemático visual (MathVista), y siguiendo el ritmo de Pixtral 12B y Qwen2-VL 7B en preguntas y respuestas visuales generales (VQAv2).2
La colección Llama 3.2 también incluye variantes con parámetros 1B y 3B, que representan los modelos Llama más pequeños hasta el momento.
Su pequeño tamaño de modelo y los requerimientos de cómputo y memoria correspondientes modestos permiten que Llama se ejecute localmente en la mayoría del hardware, incluso en dispositivos móviles y otros dispositivos periféricos. Esto le da a Llama 3.2 1B y Llama 3.2 3B el potencial de precipitar una ola de innovación en aplicaciones locales e IA agéntica. Si bien existen muchas ventajas en estos modelos compactos y de alto rendimiento, quizás las dos más importantes son:
Al ejecutarse localmente, estos modelos ligeros de Llama 3.2 pueden servir como agentes rentables para coordinar aplicaciones en el dispositivo, como RAG, resumen multilingüe y delegación de subtareas. También se pueden utilizar para reducir el costo de implementar modelos de seguridad como Llama Guard, una nueva versión multimodal que también se incluye en el lanzamiento de hoy de Meta y está disponible en watsonx.
Los dos nuevos modelos ligeros de Llama superan su peso en los puntos de referencia de rendimiento, particularmente en aquellos relacionados con tareas clave de IA agéntica. Por ejemplo, Llama 3.2 3B coincide con el Llama 3.1 8B más grande en el uso de herramientas (BFCL v2) y lo supera en resumen (TLDR9+), y el 1B también rivaliza tanto en tareas de resumen como de reescritura. En una indicación reveladora de lo lejos que han llegado los LLM abiertos en poco tiempo, Llama 3.2 3B superó significativamente al GPT-4 original en el punto de referencia MATH.
Con la disponibilidad cada vez mayor de potentes modelos de IA, será cada vez más difícil crear una ventaja competitiva utilizando únicamente soluciones estándar. Los modelos abiertos de Llama rivalizan incluso con los modelos más potentes en cuanto a rendimiento, al tiempo que ofrecen personalización, transparencia y flexibilidad que no son posibles con los modelos cerrados.
El soporte para Llama 3.2 es parte del compromiso de IBM de promover la innovación de código abierto en IA y proporcionar a nuestros clientes acceso a los mejores modelos abiertos de su clase en watsonx, incluidos modelos de terceros y la familia de modelos IBM Granite.
IBM watsonx ayuda a los clientes a personalizar realmente la implementación de modelos de código abierto como Llama 3.2, desde la flexibilidad total de los entornos de despliegue hasta los flujos de trabajo intuitivos para el ajuste, la ingeniería rápida y la integración con aplicaciones empresariales. Cree oportunamente aplicaciones de IA personalizadas para su negocio, gestione todas las fuentes de datos y acelere los flujos de trabajo de IA responsables, todo en una sola plataforma.
Los siguientes modelos están disponibles hoy en IBM watsonx.ai:
En las próximas semanas se unirán los modelos Llama 3.2 preentrenados. Todos los modelos "-Instruct" se han sometido a un ajuste supervisado (SFT) y al aprendizaje por refuerzo con feedback humano (RLHF) para una mejor alineación con los casos de uso comunes y las preferencias humanas de ayuda y seguridad, respectivamente.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM® watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.