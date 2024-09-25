IBM annonce la disponibilité de plusieurs modèles Llama 3.2 sur watsonx.ai, Le studio d'entreprise d'IBM destiné aux développeurs d'IA, suite au lancement de la collection Llama 3.2 de modèles linguistiques multilingues (LLM) pré-entraînés et optimisés pour l'instruction lors de la conférence MetaConnect plus tôt dans la journée.
Llama 3.2 marque notamment la première incursion de Meta dans le domaine de l'IA multimodale : la version comprend deux modèles, de taille 11B et 90B, qui peuvent prendre des images en entrée. Les modèles Llama 3.2 90B Vision et 11B Vision, avec réglage des instructions, sont immédiatement disponibles dans watsonx.ai via SaaS.
Les plus petits modèles Llama à ce jour font également leur apparition sur watsonx.ai : deux LLM (modèles de langage) de type « text-in, text-out » (entrée texte, sortie texte) de taille 1B et 3B. Tous les modèles Llama 3.2 supportent des contextes de grande longueur (jusqu'à 128 000 tokens) et sont optimisés pour une inférence rapide et efficace avec l'attention portée aux requêtes groupées. Meta a spécifié que l’anglais, l’allemand, le français, l’italien, le portugais, l’hindi, l’espagnol et le thaï sont officiellement pris en charge, mais précise que Llama 3.2 a été entraîné, et que les développeurs pourraient optimiser les modèles Llama 3.2 pour, d’autres langues que ces 8.
Ces dernières nouveautés de Meta rejoignent la vaste bibliothèque de modèles de fondation disponibles dans watsonx.ai, conformément à la stratégie ouverte et multi-modèles d’IBM en matière d’IA générative
« En rendant nos derniers modèles Llama 3.2 disponibles sur watsonx, un vivier beaucoup plus large d’entreprises peut tirer avantage de ces innovations et déployer nos nouveaux modèles sans tracas, selon leurs propres termes, et dans des environnements cloud hybride », explique Ahmad Al-Dahle, responsable de l’IA générative chez Meta. « Chez Meta, nous pensons qu'il est essentiel d'adapter les solutions d'IA aux besoins spécifiques de chaque organisation et de leur donner les moyens d'étendre facilement les déploiements de Llama. Notre partenariat avec IBM, une entreprise qui partage notre engagement en faveur de l’ouverture, de la sûreté, de la sécurité, de la confiance et de la transparence, nous permet d’atteindre cet objectif. »
Lisez la suite pour en savoir plus sur la collection Llama 3.2, notamment sur les nouvelles capacités multimodales, les nouvelles possibilités de déploiement sur mobile et edge, les fonctionnalités de sécurité mises à jour et bien plus encore.
Contrairement à leurs prédécesseurs LLM de la série Llama, qui ne proposent que du texte, Llama 3.2 11B et Llama 3.2 90B ont étendu leurs fonctionnalités pour inclure des cas d'utilisation liés à l'entrée d'images et à la sortie de texte, tels que la compréhension au niveau du document, l'interprétation de tableaux et de graphiques et le sous-titrage des images. Les développeurs ont désormais accès à de puissants modèles de raisonnement visuel qui utilisent les fonctionnalités avancées des modèles fermés, tout en offrant la flexibilité et la personnalisation totales des modèles ouverts.
Les nouveaux LLM multimodaux Llama 3.2 Vision peuvent raisonner sur des images haute résolution allant jusqu'à 1 120 x 1 120 pixels, ce qui permet de les utiliser pour des tâches de vision par ordinateur, notamment la classification, la détection et l'identification d'objets, la transcription image-texte (y compris l'écriture manuscrite) par reconnaissance optique de caractères (OCR), le Q&A contextuel, l'extraction et le traitement de données, la comparaison d'images et l'assistance visuelle personnalisée.
Cette approche de la multimodalité présente trois avantages clés.
Les deux modèles obtiennent de bons résultats dans les benchmarks de référence multimodaux courants pour les modèles vision-langage (VLM), se rapprochant des meilleurs scores pour les modèles ouverts et rivalisant souvent avec les modèles fermés les plus récents. Par exemple, le modèle Llama 3.2 90B-Vision, dont les instructions ont été réglées, égale le modèle GPT-4o d'OpenAI en matière de compréhension des graphiques (ChartQA) et surpasse à la fois le modèle Claude 3 Opus d'Anthropic et le modèle Gemini 1.5 Pro de Google en matière d'interprétation des diagrammes scientifiques (AI2D).1
De même, Llama 3.2 11B-Vision a obtenu des scores de référence compétitifs pour sa catégorie en battant Gemini 1.5 Flash 8B sur les questions-réponses visuelles sur des documents (DocVQA), surpassant Claude 3 Haiku et Claude 3 Sonnet sur AI2D, ChartQA et le raisonnement mathématique visuel (MathVista), et se maintenant au niveau de Pixtral 12B et Qwen2-VL 7B sur les questions-réponses visuelles générales (VQAv2). ChartQA et le raisonnement mathématique visuel (MathVista), et en restant au niveau de Pixtral 12B et Qwen2-VL 7B sur les questions-réponses visuelles générales (VQAv2).2
La collection Llama 3.2 comprend également des variantes avec des paramètres 1B et 3B, qui représentent les plus petits modèles Llama à ce jour.
Leur petite taille et leurs besoins modestes en calcul et en mémoire permettent à Llama de fonctionner localement sur la plupart des matériels, y compris sur les appareils mobiles et autres appareils edge. Llama 3.2 1B et Llama 3.2 3B ont ainsi le potentiel de précipiter une vague d'innovation dans les applications locales et l'IA agentique. Bien que ces modèles compacts et performants présentent de nombreux avantages, les deux plus importants sont peut-être :
Exécutés localement, ces modèles Llama 3.2 légers peuvent servir d'agents économiques pour coordonner les applications sur appareil, notamment le RAG, la synthèse multilingue et la délégation de sous-tâches. Ils peuvent également être utilisés pour réduire le coût de la mise en œuvre de modèles de sécurité tels que Llama Guard,dont une nouvelle version multimodale est également incluse dans le communiqué de Meta publié aujourd'hui et disponible sur watsonx.
Les deux nouveaux modèles Llama légers surpassent leurs performances attendues dans les tests de performance, en particulier ceux liés aux tâches clés de l'IA agentique. Par exemple, Llama 3.2 3B égale le plus grand Llama 3.1 8B en termes d'utilisation d'outils (BFCL v2) et le surpasse en termes de résumé (TLDR9+), le 1B rivalisant également avec lui sur les tâches de résumé et de réécriture. Pour montrer à quel point les LLM ouverts ont évolué en peu de temps, Llama 3.2 3B a surpassé de manière significative le GPT-4 d'origine sur le benchmark de référence MATH.
Compte tenu de la disponibilité toujours croissante des puissants modèles d'IA, il deviendra de plus en plus difficile de créer un avantage concurrentiel à l'aide de solutions prêtes à l'emploi seules. Les modèles ouverts Llama rivalisent même avec les modèles les plus puissants en termes de performances, tout en offrant une personnalisation, une transparence et une flexibilité impossibles à obtenir avec les modèles fermés.
La prise en charge de Llama 3.2 s'inscrit dans le cadre de l'engagement d'IBM à promouvoir l'innovation open source dans le domaine de l'IA et à fournir à nos clients l'accès aux meilleurs modèles ouverts de watsonx, y compris les modèles tiers et la famille de modèles IBM Granite.
IBM watsonx permet aux clients de personnaliser véritablement la mise en œuvre de modèles open source comme Llama 3.2, allant d’une flexibilité totale des environnements de déploiement à des flux de travail intuitifs pour l'affinage, le prompt engineering et l'intégration avec des applications. Créez facilement des applications d’IA adaptées aux besoins de votre entreprise, gérez toutes vos sources de données et accélérez vos workflows d’IA responsable, le tout sur une seule et même plateforme.
Les modèles suivants sont disponibles aujourd’hui chez IBM watsonx.ai :
Ils seront rejoints dans les semaines à venir par les modèles Llama 3.2 pré-entraînés. Les modèles « -Instruct » ont tous subi un réglage supervisé (SFT) et un apprentissage par renforcement avec des commentaires humains (RLHF) pour un meilleur alignement avec les cas d’utilisation courants et les préférences humaines en matière d’utilité et de sécurité, respectivement.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio professionnel de nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.