Dans ce tutoriel, vous découvrirez comment appliquer le modèle multimodal Pixtral 12B de Mistral AI, désormais disponible sur watsonx.ai pour des tâches multimodales telles que le sous-titrage d’images et la réponse aux questions portant sur des images.
En septembre 2024, Mistral AI a lancé Pixtral 12B, un grand modèle de langage (LLM) open-source sous licence Apache 2.0.
Avec ses 12 milliards de paramètres, le modèle multimodal est construit sur le LLM Nemo 12B de Mistral AI. Pixtral 12B comporte deux composants : un encodeur de vision pour tokeniser les images, et un décodeur transformer multimodal pour prédire le token textuel suivant à partir d’une séquence de texte et d’images. L’encodeur de vision possède 400 millions de paramètres et prend en charge des tailles d’image variables.
Le modèle excelle dans de multiples cas d’utilisation, notamment la compréhension des graphes, des diagrammes, des graphiques et des documents en haute résolution, ce qui lui permet de répondre aux questions relatives aux documents, de suivre des instructions ou d’accomplir des tâches de génération augmentée par récupération (RAG). De plus, Pixtral 12B possède une fenêtre contextuelle de 128 000 tokens, qui permet de consommer plusieurs images simultanément.
En termes de benchmarks, Pixtral 12B surpasse divers modèles, notamment Qwen2-VL, Gemini-1.5 Flash 8B et Claude-3 Haiku. Pour certains benchmarks, notamment DocVQA (ANLS) et VQAv2 (VQA Match), le modèle surpasse GPT-4o et Claude-3.5 Sonnet d’OpenAI.
En plus de pouvoir s’exécuter sur watsonx.ai, le modèle est également disponible via Hugging Face, sur Le Chat, le chatbot de Mistral, ou via un point de terminaison d’API par le biais de La Plateforme de Mistral.
Regardez cette vidéo YouTube d’IBM Technology pour découvrir les instructions de configuration des étapes 1 et 2.
Bien que vous puissiez utiliser d’autres outils, ce tutoriel est le mieux adapté à un Jupyter Notebook. Les Jupyter Notebooks sont largement utilisés dans la science des données pour combiner du code avec diverses sources de données comme le texte, les images et les visualisations de données.
Ce tutoriel vous explique comment configurer un compte IBM pour utiliser un Jupyter Notebook.
Connectez-vous à watsonx.ai à l’aide de votre compte IBM Cloud. Veuillez noter que Pixtral 12B est actuellement disponible uniquement dans les régions IBM Europe de Francfort et de Londres.
Créez un projet watsonx.ai.
Vous pouvez obtenir l’ID de votre projet à partir de ce dernier. Cliquez sur l’onglet Manage (Gérer). Ensuite, copiez l’ID du projet à partir de la section Details (Détails) de la page General (Général). Vous aurez besoin de cet ID pour ce tutoriel.
Créez un Jupyter Notebook.
Cette étape ouvrira un environnement de notebook où vous pourrez copier le code de ce tutoriel pour effectuer le réglage de prompt sur votre propre environnement. Vous pouvez également télécharger ce notebook localement sur votre système et le charger dans votre projet watsonx.ai en tant qu’actif. Ce Jupyter Notebook, ainsi que les jeux de données utilisés, se trouvent sur GitHub.
Pour éviter les conflits de dépendance des paquets Python, nous vous recommandons de configurer un environnement virtuel.
Nous avons besoin de quelques bibliothèques et modules pour ce tutoriel. Assurez-vous d’importer les bibliothèques suivantes ; s’ils ne sont pas installés, vous pouvez résoudre ce problème en exécutant rapidement une commande pip install.
Entrez les WATSONX_EU_APIKEY et WATSONX_EU_PROJECT_ID que vous avez créés lors des étapes 1 et 2, en exécutant la cellule suivante. Nous allons également définir l’URL qui servira de point de terminaison d’API.
Nous pouvons utiliser la classe Credentials pour encapsuler nos identifiants transmis.
Dans ce tutoriel, nous utiliserons plusieurs images pour des applications d’IA multimodale telles que le sous-titrage d’images et la détection d’objets. Les images que nous utiliserons sont accessibles par le biais des URL suivantes. Nous pouvons stocker ces URL dans une liste pour les encoder de manière itérative.
Pour mieux comprendre nos entrées de données, affichons les images.
Output:
url_image_0
url_image_1
url_image_2
url_image_3
Pour encoder ces images d’une manière qui soit compréhensible pour le LLM, nous le ferons en octets, puis nous les décoderons en représentation UTF-8.
Maintenant que nos images peuvent être transmises au LLM, configurons une fonction pour nos appels d’API watsonx. La fonction augment_api_request_body prend la requête utilisateur et l’image comme paramètres, et complète le corps de la requête d’API. Nous utiliserons cette fonction dans chaque itération.
Instancions l’interface du modèle à l’aide de la classe ModelInference. Dans ce tutoriel, nous utiliserons le modèle mistralai/pixtral-12b.
Nous pouvons maintenant parcourir nos images en boucle pour voir les descriptions de texte produites par le modèle en réponse à la requête « Que se passe-t-il dans cette image ? »
Output:
L’image représente un champ de fleurs éclatant en pleine floraison sous un ciel bleu limpide, avec un soleil radieux, créant une scène paisible et pittoresque.
L’image montre une personne assise à une table utilisant un ordinateur portable et tenant une carte bancaire. Il y a des pommes dans une coupe sur la table à côté de l’ordinateur portable.
Une personne se tient à côté d’une voiture recouverte d’une épaisse couche de neige, tenant un parapluie rouge pour se protéger de la neige qui tombe.
L’image représente un workflow de traitement et de stockage des données, probablement pour le machine learning ou l’analyse de données. Le flux commence par le chargement des données sources (comme des documents HTML ou XML), la transformation des données dans un format approprié, leur intégration dans des vecteurs numériques, le stockage de ces vecteurs dans une base de données, et enfin la récupération des données lorsque nécessaire.
Le modèle Pixtral 12B a permis de légender chaque image avec un niveau de détail très élevé.
Maintenant que nous avons démontré la capacité du modèle à sous-titrer les images, posons-lui quelques questions qui impliquent la détection d’objets. Concernant la deuxième image, qui représente une femme faisant des achats en ligne, nous demanderons au modèle : « Qu’est-ce que la femme a dans sa main ? »
Sortie : La femme tient une carte bancaire dans sa main.
Le modèle a correctement identifié l’objet dans la main de la femme. Passons maintenant à la question sur l’image de la voiture recouverte de neige.
Sortie : La voiture est probablement coincée dans la neige épaisse, ce qui rend son déplacement difficile, voire impossible.
Cette réponse démontre la valeur de l’IA multimodale dans des domaines tels que l’assurance. Le modèle a pu détecter le problème lié à la voiture bloquée dans la neige. Ce peut être un outil puissant pour améliorer le temps de traitement des demandes d’indemnisation.
Interrogeons maintenant le modèle sur les étapes représentées dans l’organigramme.
Sortie : Le schéma illustre un workflow comportant plusieurs étapes : « Chargement », « Transformation », « Intégration », « Stockage » et « Récupération ». Cette séquence représente probablement un workflow de traitement et de stockage des données, leur transformation en embeddings vectoriels pour un stockage et une récupération efficaces.
Excellent ! Le modèle a pu identifier des objets dans les images suite aux requêtes utilisateur. Nous vous encourageons à tester d’autres requêtes afin de mieux démontrer les performances du modèle.
Dans ce tutoriel, vous avez utilisé le modèle Pixtral 12B pour effectuer des opérations multimodales, notamment le sous-titrage d’images et la réponse aux questions portant sur des images.
