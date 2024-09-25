Artificial Intelligence Open source AI for the Enterprise Technologie

Les modèles Meta Llama 3.2 sont désormais disponibles sur watsonx, y compris les modèles multimodaux 11B et 90B.

IBM annonce la disponibilité de plusieurs modèles Llama 3.2 sur watsonx.ai, Le studio d'entreprise d'IBM destiné aux développeurs d'IA, suite au lancement de la collection Llama 3.2 de modèles linguistiques multilingues (LLM) pré-entraînés et optimisés pour l'instruction lors de la conférence MetaConnect plus tôt dans la journée.

Llama 3.2 marque notamment la première incursion de Meta dans le domaine de l'IA multimodale : la version comprend deux modèles, de taille 11B et 90B, qui peuvent prendre des images en entrée. Les modèles Llama 3.2 90B Vision et 11B Vision, avec réglage des instructions, sont immédiatement disponibles dans watsonx.ai via SaaS.

Les plus petits modèles Llama à ce jour font également leur apparition sur watsonx.ai : deux LLM (modèles de langage) de type « text-in, text-out » (entrée texte, sortie texte) de taille 1B et 3B. Tous les modèles Llama 3.2 supportent des contextes de grande longueur (jusqu'à 128 000 tokens) et sont optimisés pour une inférence rapide et efficace avec l'attention portée aux requêtes groupées. Meta a spécifié que l’anglais, l’allemand, le français, l’italien, le portugais, l’hindi, l’espagnol et le thaï sont officiellement pris en charge, mais précise que Llama 3.2 a été entraîné, et que les développeurs pourraient optimiser les modèles Llama 3.2 pour, d’autres langues que ces 8.

Ces dernières nouveautés de Meta rejoignent la vaste bibliothèque de modèles de fondation disponibles dans watsonx.ai, conformément à la stratégie ouverte et multi-modèles d’IBM en matière d’IA générative

« En rendant nos derniers modèles Llama 3.2 disponibles sur watsonx, un vivier beaucoup plus large d’entreprises peut tirer avantage de ces innovations et déployer nos nouveaux modèles sans tracas, selon leurs propres termes, et dans des environnements cloud hybride », explique Ahmad Al-Dahle, responsable de l’IA générative chez Meta. « Chez Meta, nous pensons qu'il est essentiel d'adapter les solutions d'IA aux besoins spécifiques de chaque organisation et de leur donner les moyens d'étendre facilement les déploiements de Llama. Notre partenariat avec IBM, une entreprise qui partage notre engagement en faveur de l’ouverture, de la sûreté, de la sécurité, de la confiance et de la transparence, nous permet d’atteindre cet objectif. »

Lisez la suite pour en savoir plus sur la collection Llama 3.2, notamment sur les nouvelles capacités multimodales, les nouvelles possibilités de déploiement sur mobile et edge, les fonctionnalités de sécurité mises à jour et bien plus encore.

 

Les premiers modèles Llama multimodaux

Contrairement à leurs prédécesseurs LLM de la série Llama, qui ne proposent que du texte, Llama 3.2 11B et Llama 3.2 90B ont étendu leurs fonctionnalités pour inclure des cas d'utilisation liés à l'entrée d'images et à la sortie de texte, tels que la compréhension au niveau du document, l'interprétation de tableaux et de graphiques et le sous-titrage des images. Les développeurs ont désormais accès à de puissants modèles de raisonnement visuel qui utilisent les fonctionnalités avancées des modèles fermés, tout en offrant la flexibilité et la personnalisation totales des modèles ouverts.

Les nouveaux LLM multimodaux Llama 3.2 Vision peuvent raisonner sur des images haute résolution allant jusqu'à 1 120 x 1 120 pixels, ce qui permet de les utiliser pour des tâches de vision par ordinateur, notamment la classification, la détection et l'identification d'objets, la transcription image-texte (y compris l'écriture manuscrite) par reconnaissance optique de caractères (OCR), le Q&A contextuel, l'extraction et le traitement de données, la comparaison d'images et l'assistance visuelle personnalisée.  

Demander à Llama dans watsonx de déduire quel sport pratique une jeune fille, à partir de sa photo (sur laquelle elle tient un ballon de basket et porte un tutu).

Cette approche de la multimodalité présente trois avantages clés.

  • Réglage simplifié : les paramètres du LLM de base restent inchangés, ce qui permet de préserver les connaissances générales du modèle et de garantir le maintien des avancées remarquables réalisées avec la version Llama 3.1. Llama 3.2 11B et 90B ont démontré de légères améliorations dans les domaines des mathématiques, du raisonnement et des connaissances générales par rapport à leurs homologues Llama 3.1 8B et 70B. Cela simplifie également vraisemblablement le processus de mise au point des modèles multimodaux Llama 3.2, permettant une personnalisation des performances linguistiques sans crainte de conséquences imprévues sur les capacités de raisonnement sur les images.

  • Entraînement très efficace : il est remarquablement efficace par rapport aux paradigmes d’entraînement multimodaux classiques, qui doivent souvent mettre à jour de nombreux milliards de paramètres de modèle. Les chercheurs à l'origine de LLAMA-Adapter V2, par exemple, ont remarqué que leurs paramètres de focalisation sur l'image ne représentaient que 0,04 % de l'ensemble du modèle. L’entraînement préalable de Llama 3.2-Vision sur un ensemble de données de 6 milliards de paires d’images et de textes a nécessité un total combiné de 2,02 millions d’heures GPU pour les deux modèles, bien moins de calcul que les 7,0 millions d’heures GPU consacrées au pré-entraînement de Llama 3.1 70B seul.

  • Gain de vitesse et réduction des coûts : il permet aux modèles Llama 3.2 d’exploiter des ressources de calcul supplémentaires pour le raisonnement sur les images uniquement lorsque l’entrée le requiert. Cela souligne l'engagement de Meta envers une vitesse de production et une rentabilité de pointe, permettant des déploiements efficaces à grande échelle et des applications en temps réel pour des cas d’utilisation sensibles au temps, tels que chatbot et la génération de contenu dynamique.

Les deux modèles obtiennent de bons résultats dans les benchmarks de référence multimodaux courants pour les modèles vision-langage (VLM), se rapprochant des meilleurs scores pour les modèles ouverts et rivalisant souvent avec les modèles fermés les plus récents. Par exemple, le modèle Llama 3.2 90B-Vision, dont les instructions ont été réglées, égale le modèle GPT-4o d'OpenAI en matière de compréhension des graphiques (ChartQA) et surpasse à la fois le modèle Claude 3 Opus d'Anthropic et le modèle Gemini 1.5 Pro de Google en matière d'interprétation des diagrammes scientifiques (AI2D).1

De même, Llama 3.2 11B-Vision a obtenu des scores de référence compétitifs pour sa catégorie en battant Gemini 1.5 Flash 8B sur les questions-réponses visuelles sur des documents (DocVQA), surpassant Claude 3 Haiku et Claude 3 Sonnet sur AI2D, ChartQA et le raisonnement mathématique visuel (MathVista), et se maintenant au niveau de Pixtral 12B et Qwen2-VL 7B sur les questions-réponses visuelles générales (VQAv2). ChartQA et le raisonnement mathématique visuel (MathVista), et en restant au niveau de Pixtral 12B et Qwen2-VL 7B sur les questions-réponses visuelles générales (VQAv2).2
 

Modèles Llama légers pouvant fonctionner pratiquement partout
 

La collection Llama 3.2 comprend également des variantes avec des paramètres 1B et 3B, qui représentent les plus petits modèles Llama à ce jour.

Leur petite taille et leurs besoins modestes en calcul et en mémoire permettent à Llama de fonctionner localement sur la plupart des matériels, y compris sur les appareils mobiles et autres appareils edge. Llama 3.2 1B et Llama 3.2 3B ont ainsi le potentiel de précipiter une vague d'innovation dans les applications locales et l'IA agentique.  Bien que ces modèles compacts et performants présentent de nombreux avantages, les deux plus importants sont peut-être :

  • La possibilité de fonctionner localement avec une très faible latence, même sur du matériel modeste, y compris des smartphones

  • La capacité correspondante à préserver la confidentialité des utilisateurs et à éviter les préoccupations liées à la cybersécurité en éliminant la nécessité de transmettre des données sensibles exclusives ou personnelles à des serveurs externes à l'appareil.

Exécutés localement, ces modèles Llama 3.2 légers peuvent servir d'agents économiques pour coordonner les applications sur appareil, notamment le RAG, la synthèse multilingue et la délégation de sous-tâches. Ils peuvent également être utilisés pour réduire le coût de la mise en œuvre de modèles de sécurité tels que Llama Guard,dont une nouvelle version multimodale est également incluse dans le communiqué de Meta publié aujourd'hui et disponible sur watsonx.

Les deux nouveaux modèles Llama légers surpassent leurs performances attendues dans les tests de performance, en particulier ceux liés aux tâches clés de l'IA agentique. Par exemple, Llama 3.2 3B égale le plus grand Llama 3.1 8B en termes d'utilisation d'outils (BFCL v2) et le surpasse en termes de résumé (TLDR9+), le 1B rivalisant également avec lui sur les tâches de résumé et de réécriture. Pour montrer à quel point les LLM ouverts ont évolué en peu de temps, Llama 3.2 3B a surpassé de manière significative le GPT-4 d'origine sur le benchmark de référence MATH.
 

Pourquoi utiliser les modèles Llama dans IBM Watsonx ?

Compte tenu de la disponibilité toujours croissante des puissants modèles d'IA, il deviendra de plus en plus difficile de créer un avantage concurrentiel à l'aide de solutions prêtes à l'emploi seules. Les modèles ouverts Llama rivalisent même avec les modèles les plus puissants en termes de performances, tout en offrant une personnalisation, une transparence et une flexibilité impossibles à obtenir avec les modèles fermés.

  • Personnalisation : en fournissant un accès direct aux poids et à l'architecture de ses modèles, Llama permet aux développeurs d'adapter les modèles à vos besoins, domaines et cas d'utilisation spécifiques. Les modèles Llama 3.2 pré-entraînés seront disponibles pour un réglage ou un pré-entraînement continu dans le watsonx Tuning Studio dans les semaines à venir.

  • Flexibilité : comme tous les modèles de fondation disponibles dans IBM watsonx, les modèles Llama peuvent être déployés dans n’importe quel environnement, qu’il s’agisse du cloud, d’environnements sur site ou d’environnements hybrides. Contrairement à d’autres fournisseurs qui limitent les utilisateurs à un cloud public spécifique, Watsonx permet aux développeurs de profiter pleinement de la flexibilité de Llama 3.2.

  • Sûreté et sécurité : l'approche responsable de Meta en matière d'innovation dans le domaine de l'IA continue de produire un large éventail de garanties importantes. La collection Llama 3.2 comprend un modèle Llama Guard 3 mis à jour, Llama-Guard-3-11B-Vision, qui fournit un ensemble de garde-fous d'inférence d'entrée-sortie compatibles avec la nouvelle fonctionnalité multimodale de Llama. IBM Watsonx renforce encore une IA responsable grâce à des garde-fous dynamiques et des mesures robustes de sécurité, de confidentialité et de protection.

  • Transparence : contrairement à la boîte noire offerte par les modèles à code source fermé, l'écosystème Llama offre une visibilité, un contrôle et une explicabilité complets, en particulier lorsqu'il est associé à la solution robuste de gouvernance de l'IA d'IBM pour gérer et surveiller l'IA au sein d'une entreprise.
     

Premiers pas avec Llama 3.2

La prise en charge de Llama 3.2 s'inscrit dans le cadre de l'engagement d'IBM à promouvoir l'innovation open source dans le domaine de l'IA et à fournir à nos clients l'accès aux meilleurs modèles ouverts de watsonx, y compris les modèles tiers et la famille de modèles IBM Granite.

IBM watsonx permet aux clients de personnaliser véritablement la mise en œuvre de modèles open source comme Llama 3.2, allant d’une flexibilité totale des environnements de déploiement à des flux de travail intuitifs pour l'affinage, le prompt engineering et l'intégration avec des applications. Créez facilement des applications d’IA adaptées aux besoins de votre entreprise, gérez toutes vos sources de données et accélérez vos workflows d’IA responsable, le tout sur une seule et même plateforme.

Les modèles suivants sont disponibles aujourd’hui chez IBM watsonx.ai :

  • Llama-3.2-90B-Vision-Instruct (entrée de texte et d'image)
  • Llama-3.2-11B-Vision-Instruct (saisie de texte et d'image)
  • Llama-3.2-3B-Instruct (texte uniquement)
  • Llama-3.2-1B-Instruct (texte uniquement)
  • Llama-Guard-3-11B-Vision (entrée de texte et d'image)

Ils seront rejoints dans les semaines à venir par les modèles Llama 3.2 pré-entraînés. Les modèles « -Instruct » ont tous subi un réglage supervisé (SFT) et un apprentissage par renforcement avec des commentaires humains (RLHF) pour un meilleur alignement avec les cas d’utilisation courants et les préférences humaines en matière d’utilité et de sécurité, respectivement.
 

Notes de bas de page

Les évaluations de référence citées pour les modèles propriétaires sont tirées des chiffres autodéclarés d’Anthropic du 20 juin 2024 (pour Claude 3.5 Sonnet et Claude 3 Opus) et du 4 mars 2024 (pour Claude 3 Sonnet et Haiku),d’OpenAI le 13 mai 2024 (pour les modèles GPT) et Google Deepmind en mai et septembre 2024 (pour les modèles Gemini). Les tests AI2D pour Gemini 1.5 Pro ont été rapportés par Anthropic.

2 Les évaluations de référence citées pour Pixtral et Qwen-VL sont tirées des chiffres rapportés par Mistral IA.

