Créer un système de questions-réponses PowerPoint pour l’analyse d’images par IA avec le modèle Granite Vision

Avec l’évolution des technologies pilotées par l’IA, l’analyse d’images devient de plus en plus sophistiquée, ce qui permet d’obtenir des informations plus approfondies à partir de données visuelles. Grâce aux avancées des modèles de machine learning, l’IA peut traiter les images téléchargées, extraire des métadonnées et prendre en charge la modération de contenu à grande échelle. Ces outils d’analyse contribuent également à la modélisation prédictive pour des applications telles que la tarification, l’optimisation visuelle et la génération d’images, rendant les workflows plus rentables et plus efficaces. En intégrant des approches fondées sur les données, l’IA améliore l’automatisation et la prise de décision, offrant de nouvelles possibilités d’interprétation visuelle intelligente.

Cas d’utilisation

Grâce aux progrès rapides de la vision par ordinateur et de l’IA avancée, les entreprises et les chercheurs exploitent les technologies basées sur l’image pour un large éventail d’applications. De la classification des images et de l’OCR (reconnaissance optique de caractères) à la segmentation et à l’analyse vidéo, les outils alimentés par l’IA transforment la façon dont nous extrayons et analysons les informations visuelles.

Dans des secteurs comme les médias sociaux, l’IA améliore la modération du contenu en analysant les images au niveau du pixel, garantissant ainsi la conformité et améliorant l’engagement. Les entreprises peuvent également utiliser l’API Vision pour automatiser le traitement des documents, en convertissant fichiers numérisés, les fichiers Excel et les rapports en données structurées. Ces applications rationalisent les workflows, améliorent l’efficacité et permettent aux entreprises d’extraire des informations pertinentes à partir de jeux de données à grande échelle.

Ces cas d’utilisation soulignent le rôle croissant de l’analyse d’images alimentée par l’IA dans les secteurs. Dans ce tutoriel, nous nous concentrons sur l’application de ces fonctionnalités aux présentations PowerPoint, permettant des questions-réponses interactives sur le texte et les images grâce à des modèles avancés de vision par ordinateur et d’IA.

Questions-réponses interactives alimentées par l’IA pour les présentations

Les grands modèles de langage (LLM) ont révolutionné le machine learning en permettant d’obtenir des informations importantes à partir de vastes jeux de données de texte non structuré. Cependant, les LLM traditionnels ont souvent du mal à analyser les images, ce qui rend difficile l’extraction d’informations à partir des graphiques, diagrammes et autres éléments visuels contenus dans les présentations.

Le grand modèle de langage (LLM) IBM Granite Vision 3.2 comble cette lacune en intégrant des outils d’IA à des algorithmes avancés de détection d’objets, ce qui permet aux utilisateurs d’automatiser l’analyse multimodale. Ce tutoriel montre comment rationaliser votre workflow en utilisant l’IA pour extraire et analyser le texte et les images des fichiers PowerPoint (.pptx). Ce système de questions-réponses interactif vous permettra d’améliorer les informations tirées des présentations.

Dans ce tutoriel, vous apprendrez à construire un système piloté par l’IA capable de répondre en temps réel aux questions des utilisateurs à partir de diapositives PowerPoint, en utilisant le texte et les images comme contexte. Ce tutoriel vous guidera lors des étapes suivantes :

Traitement PowerPoint : extraire des textes et des images des fichiers .pptx pour une analyse alimentée par l’IA.

Questions-réponses textuelles : utiliser Granite Vision pour générer des réponses à partir du texte extrait des diapositives.

Questions-réponses basées sur les images : demander à l’IA d’analyser les images, les graphiques et les diagrammes contenues dans les diapositives.

Formulation optimisée des questions : apprenez à formuler des questions efficaces pour obtenir des réponses exactes et pertinentes de la part de l’IA.

Technologies utilisées

Ce tutoriel s’appuie sur les technologies d’IA de pointe suivantes :

1. IBM Granite Vision : un puissant modèle de langage-vision (VLM) qui traite le texte et les images.

2. Python-PPTX : une bibliothèque pour extraire des textes et des images à partir de fichiers PowerPoint.

3. Transformers : un cadre pour traiter efficacement les entrées des modèles d’IA.

Ce que vous allez accomplir

À la fin de ce tutoriel, vous pourrez :

1. Extraire et traiter le contenu PowerPoint (texte et images).

2. Utiliser le modèle Granite Vision 3.2 pour les questions-réponses pilotées par l’IA portant sur le contenu des diapositives.

3. Poser à l’IA des questions pertinentes sur le texte et les images.

4. Améliorer l’interaction des utilisateurs avec les présentations grâce aux explications alimentées par l’IA.

Ce tutoriel s’adresse aux développeurs d’IA, aux chercheurs, aux créateurs de contenu et aux professionnels qui souhaitent améliorer leurs présentations avec des informations pilotées par l’IA.

Vidéo

Prérequis

Vous devez disposer d’un compte IBM Cloud pour créer un projet watsonx.ai.

Étapes

Étape 1. Configurer votre environnement

Bien que vous puissiez faire votre choix parmi plusieurs outils, ce tutoriel vous guide pas à pas pour configurer un compte IBM à l’aide d’un Jupyter Notebook.

Connectez-vous à watsonx.ai en utilisant votre compte IBM Cloud.

2. Créez un projet watsonx.ai. Vous pouvez obtenir l’ID de votre projet à partir de ce dernier. Cliquez sur l’onglet Manage (Gérer). Ensuite, copiez l’ID du projet à partir de la section Details (Détails) de la page General (Général). Vous aurez besoin de cet ID pour ce tutoriel.

3. Créez un Jupyter Notebook.

4. Téléchargez le fichier PPTX en tant qu’actif dans watsonx.ai

Cette étape ouvre un environnement de notebook dans lequel vous pourrez copier le code de ce tutoriel. Vous pouvez également télécharger ce notebook localement sur votre système et le charger dans votre projet watsonx.ai en tant qu’actif. Ce tutoriel est également disponible sur GitHub.

Remarque : ce tutoriel requiert une infrastructure GPU pour exécuter le code. Il est donc recommandé d’utiliser watsonx.ai comme illustré dans ce tutoriel.

Étape 2 : Installer les dépendances requises

Afin de pouvoir extraire et traiter le contenu PowerPoint, nous devons installer les bibliothèques Python nécessaires :

transformers  donne accès à IBM Granite Vision et à d’autres modèles d’IA.

torch : cadre d’apprentissage profond nécessaire au bon fonctionnement du modèle.

python-pptx : bibliothèque pour extraire des textes et des images à partir de fichiers PowerPoint (.pptx).

Exécutez les commandes suivantes pour installer et mettre à jour ces paquets :

!pip install --upgrade transformers
!pip install --upgrade torch
!pip install python-pptx
!pip install botocore
!pip install ibm-cos-sdk

Étape 3 : Importer les bibliothèques requises

Lors de cette étape, nous importons les bibliothèques nécessaires pour traiter les fichiers PowerPoint, gérer les images et interagir avec le modèle IBM Granite Vision :

  1. os et io : pour la gestion des fichiers et les opérations d’entrée/de sortie.
  2. torch : assure la compatibilité avec les modèles d’IA.
  3. pptx.Présentation : extrait le texte et les images des fichiers PowerPoint (.pptx).
  4. PIL. Image : traite les images extraites des diapositives.
  5. transformers : charge IBM Granite Vision pour les questions-réponses alimentées par l’IA
  6. botocore.client.Config et ibm_boto3 : gère l’accès au stockage cloud (IBM Cloud Object Storage).
import os
import io
import torch
from pptx import Presentation
from PIL import Image
from io import BytesIO
from transformers import AutoProcessor, AutoModelForVision2Seq
from botocore.client import Config
import ibm_boto3

Étape 4 : Se connecter à IBM Cloud Object Storage

Lors de cette étape, nous établissons une connexion à IBM Cloud Object Storage pour accéder aux fichiers PowerPoint stockés dans le cloud et les récupérer.

Vous pouvez profiter du support python, fourni via un fork de la bibliothèque boto3 avec des fonctionnalités pour tirer le meilleur parti d’IBM® Cloud Object Storage. Consultez la documentation officielle pour obtenir ces identifiants.

ibm_boto3.client : crée un client pour interagir avec IBM Cloud Object Storage.

ibm_api_key_id : votre clé d’API IBM Cloud pour l’authentification.

ibm_auth_endpoint : le point de terminaison d’authentification pour IBM Cloud.

endpoint_url : le point de terminaison spécifique du stockage d’objets cloud (COS).

# IBM COS credentials
cos_client = ibm_boto3.client(
    service_name='s3',
    ibm_api_key_id='Enter your API Key',
    ibm_auth_endpoint='[Enter your auth end-point url]',
    config=Config(signature_version='oauth'),
    endpoint_url='[Enter your end-point url]'
)

Remarque : lorsque vous téléchargez un fichier en tant qu’actif dans watsonx.ai, il est automatiquement stocké dans IBM Cloud Object Storage. Lorsque vous importez le fichier dans un Jupyter Notebook, watsonx.ai génère et insère les identifiants nécessaires (clé d’API, point de terminaison d’authentification et point de terminaison de stockage) dans votre notebook. Les identifiants IBM Cloud Object Storage fournis permettent un accès sécurisé pour récupérer les fichiers stockés, ainsi qu’une intégration fluide entre les actifs watsonx.ai et l’environnement du notebook pour un traitement ultérieur.

En configurant cette connexion, nous pourrons facilement importer et traiter les présentations PowerPoint stockées dans IBM Cloud à des fins d’analyse alimentée par l’IA.

Étape 5 : Définir les paramètres de stockage

Lors de cette étape, nous spécifions le compartiment IBM Cloud Object Storage et les détails du fichier pour localiser et récupérer la présentation PowerPoint (.pptx) à des fins de traitement.

Consultez ce document officiel pour obtenir les détails de configuration des compartiments via l’interface utilisateur IBM Cloud.

bucket : le nom du compartiment IBM Cloud Object Storage dans lequel le fichier est stocké.

object_key : le nom exact du fichier de présentation PowerPoint à consulter

bucket = 'Enter your bucket key'
object_key = 'Application Integration client presentation.PPTX [You can replace this with your PPT name]'

Étape 6 : Récupérer le fichier PowerPoint depuis IBM Cloud Object Storage

Lors de cette étape, nous téléchargeons le fichier PowerPoint (.pptx) à partir d’IBM Cloud Object Storage pour le traiter localement.

cos_client.get_object() : extrait le fichier à partir du compartiment et de la clé d’objet spécifiés.

streaming_body.read() : lit le contenu du fichier dans un flux d’octets en vue d’un traitement ultérieur.

# Download PPTX file from IBM COS
streaming_body = cos_client.get_object(Bucket=bucket, Key=object_key)['Body']
pptx_bytes = streaming_body.read()

Étape 7 : Enregistrer le fichier PowerPoint sur le chemin local

Lors de cette étape, nous stockons localement le fichier PowerPoint téléchargé (.pptx) afin qu’il puisse être traité.

pptx_path : définit le nom de fichier local dans lequel la présentation sera enregistrée.

open(pptx_path, 'wb') : ouvre le fichier en mode écriture binaire pour stocker les octets récupérés.

f.write(pptx_bytes) : écrit le contenu du fichier téléchargé dans le fichier .pptx nouvellement créé.  

# Save the bytes to a local PPTX file
pptx_path = "downloaded_presentation.pptx"
with open(pptx_path, 'wb') as f:
    f.write(pptx_bytes)

Étape 8 : Confirmer l’emplacement d’enregistrement du fichier

Lors de cette étape, nous imprimons un message de confirmation pour nous assurer que le fichier PowerPoint a bien été enregistré. La fonction « print » affiche le chemin d’accès au fichier .pptx stocké localement.

print(f"PPTX file saved as: {pptx_path}")

Étape 9 : Extraire le texte et les images du fichier PowerPoint

Lors de cette étape, nous définissons une fonction pour traiter le fichier PowerPoint (.pptx) et en extraire le contenu :

slide_texts : stocke le texte extrait de chaque diapositive.

slide_images : stocke les images extraites sous forme d’objets de la bibliothèque d’images Python (PIL), ainsi que leurs numéros de diapositive correspondants.

Fait des itérations sur les diapositives pour extraire le texte à partir des formes recueillant le contenu textuel et des images intégrées aux diapositives.

Cette fonction sépare le texte et les images du PPT, permettant à l’agent de chat de répondre facilement aux questions des utilisateurs en s’appuyant sur le contenu extrait.

def extract_text_and_images_from_pptx(pptx_path):
        presentation = Presentation(pptx_path)
        slide_texts = []
        slide_images = []
        for slide_number, slide in enumerate(presentation.slides):
                # Extract text from slide
                slide_text = []
                for shape in slide.shapes:
                        if hasattr(shape, "text"):
                                slide_text.append(shape.text)
                                slide_texts.append("\n".join(slide_text))
                # Extract images from slide
                for shape in slide.shapes:
                        if hasattr(shape, "image"):
                                image_stream = BytesIO(shape.image.blob)
                                image = Image.open(image_stream)
                                slide_images.append((slide_number, image))
return slide_texts, slide_images

Étape 10 : Traiter le fichier PowerPoint

Lors de cette étape, nous appelons la fonction pour extraire le texte et les images du fichier PowerPoint enregistré.

pptx_path : spécifie le chemin local du fichier PowerPoint téléchargé.

extract_text_and_images_from_pptx(pptx_path) : extrait le texte et les images des diapositives.

slide_texts : stocke le texte extrait des diapositives.

slide_images : stocke les images extraites.

pptx_path = "downloaded_presentation.pptx"
slide_texts, slide_images = extract_text_and_images_from_pptx(pptx_path)

Étape 11 : Afficher le texte extrait des diapositives

Lors de cette étape, nous imprimons le texte extrait de chaque diapositive pour vérifier que le contenu PowerPoint a été traité correctement.

enumate(se_texts) : itère sur le texte extrait, en associant chaque élément au numéro de diapositive correspondant.

Separator('-' * 40) : permet de distinguer visuellement le contenu des différentes diapositives.

# Display extracted text and images
for i, text in enumerate(slide_texts):
        print(f"Slide {i + 1} Text:\n{text}\n{'-'*40}")

Étape 12 : Afficher les images extraites à partir de diapositives

Lors de cette étape, nous confirmons et visualisons les images extraites des diapositives PowerPoint.

len : compte le nombre total d’images extraites.

img.show() : ouvre chaque image extraite pour l’examiner.

Vous pouvez remplacer « .show () » par « .save ('filename.png') » pour stocker les images localement.

print(f"\nExtracted {len(slide_images)} images.")
for slide_num, img in slide_images:
        img.show() # This will open the image, or you can save it using img.save('filename.png')

Étape 13 : Charger le modèle IBM Granite Vision

Lors de cette étape, nous lançons le modèle IBM Granite-Vision-3.2-2B pour le traitement de texte et d’images alimenté par l’IA.

MODEL_NAME précise le modèle Granite Vision pré-entraîné à utiliser, et torch.cuda.is_available() vérifie si un GPU (CUDA) est disponible pour un traitement plus rapide ; sinon, il utilise par défaut le processeur.

# Load IBM Granite-Vision-3.1-2B-Preview model and processor
MODEL_NAME = "ibm/granite-vision-3-2-2b"
device = "cuda" if torch.cuda.is_available() else "cpu"

Étape 14 : Initialiser le modèle et le processeur

Lors de cette étape, nous chargeons le modèle IBM Granite Vision et son processeur correspondant pour gérer les entrées texte et image.

AutoProcessor.from_pretrained(MODEL_NAME, trust_remote_code=True) : charge le processeur pré-entraîné pour formater les entrées (texte et images) du modèle.

AutoModelForVision2Seq.from_pretrained(MODEL_NAME, trust_remote_code=True, ignore_mismatched_sizes=True).to(device) : charge le modèle Granite Vision et le transfère au périphérique disponible (GPU ou CPU).

trust_remote_code=True : garantit la compatibilité avec les implémentations de modèle personnalisées.

ignore_mismatched_sizes=Vrai : évite les erreurs en cas d’incohérences mineures dans la taille du modèle.

Remarque : Le chargement peut prendre un certain temps.

processor = AutoProcessor.from_pretrained(MODEL_NAME, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(MODEL_NAME, trust_remote_code=True, ignore_mismatched_sizes=True).to(device)

Step 15 : Implémenter un chat IA textuel

Lors de cette étape, nous créons une fonction de chat qui permet aux utilisateurs de poser des questions en s’appuyant sur le texte extrait des diapositives PowerPoint.

Fonctionnement :

  1. L’utilisateur saisit une question en lien avec le contenu des diapositives.
  2. L’ensemble du texte extrait du PPT est formaté en conversation structurée pour le modèle. Le modèle disposera ainsi d’un contenu précis pour générer la réponse à partir du contenu du PPT.
  3. apply_chat_template() prépare l’entrée pour le modèle d’IA dans un format conversationnel.
  4. model.generate() génère une réponse s’appuyant sur la requête d’entrée.
  5. processor.decode() décode la réponse générée par l’IA en texte lisible par l’humain.
  6. La boucle se poursuit jusqu’à ce que l’utilisateur tape « exit » pour quitter le chat.
# Chat based on Text Only
def chat_with_text(model, processor, slide_texts):
    while True:
        query = input("Ask a question based on the presentation text (or type 'exit' to quit): ")
        if query.lower() == 'exit':
            break
        conversation = [
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": "\n".join(slide_texts) + f"\nQuery: {query}"},
                ],
            },
        ]
        inputs = processor.apply_chat_template(
            conversation,
        add_generation_prompt=True,
        tokenize=True,
        return_dict=True,
        return_tensors="pt"
        ).to(device)
        outputs = model.generate(**inputs, max_new_tokens=150)
        response = processor.decode(outputs[0], skip_special_tokens=True)
        print("Model Response:", response)

Étape 16 : Implémenter un chat IA basé sur image

Lors de cette étape, nous créons une fonction de chat qui permet aux utilisateurs de poser des questions sur les images extraites des diapositives PowerPoint.

Fonctionnement :

  1. L’utilisateur saisit une question relative aux images de la diapositive.
  2. Il indique un numéro de diapositive pour faire référence à une image en particulier.
  3. L’image sélectionnée est enregistrée temporairement sous le nom « slide_image_temp.png ».
  4. Une conversation structurée est créée, comprenant : (a) le chemin du fichier image. (b) la question de l’utilisateur.
  5. apply_chat_template() traite l’entrée dans un format adapté au modèle d’IA.
  6. model.generate() génère une réponse appuyée sur l’image et la requête.
  7. La réponse est décodée et imprimée pour l’utilisateur.
  8. La boucle se poursuit jusqu’à ce que l’utilisateur tape exit pour quitter.
# Chat based on Images Only
def chat_with_images(model, processor, slide_images):
    while True:
        query = input("Ask a question based on the presentation images (or type 'exit' to quit): ")
            if query.lower() == 'exit':
                break
            slide_num = int(input(f"Enter slide number (1 to {len(slide_images)}) to ask about its image: ")) - 1
            image = slide_images[slide_num][1]
            img_path = "slide_image_temp.png"
            image.save(img_path) # Save the image temporarily
            conversation = [
                {
                    "role": "user",
                    "content": [
                            {"type": "image", "url": img_path},
                            {"type": "text", "text": query},
                    ],
                },
            ]
            inputs = processor.apply_chat_template(
                conversation,
                add_generation_prompt=True,
                tokenize=True,
                return_dict=True,
                return_tensors="pt"
            ).to(device)
            outputs = model.generate(**inputs, max_new_tokens=150)
            response = processor.decode(outputs[0], skip_special_tokens=True)
            print("Model Response:", response)

Étape 17 : Lancer le chat IA textuel

Lors de cette étape, nous appelons la fonction chat_with_text pour permettre à l’utilisateur de poser des questions sur le texte extrait des diapositives PowerPoint.

Fonctionnement :

  1. chat_with_text() lance la session de questions-réponses portant sur le texte.
  2. La fonction invite en permanence l’utilisateur à effectuer une entrée et répond aux questions portant sur le texte extrait de la diapositive.
  3. La boucle de chat se poursuit jusqu’à ce que l’utilisateur tape exit pour quitter.
chat_with_text(model, processor, slide_texts)

SORTIE

Question : L’intégration constitue-t-elle un avantage concurrentiel pour votre entreprise ?

<|assistant|>

Oui, l’intégration est un avantage concurrentiel pour votre entreprise. Elle vous permet d’avancer plus vite et de surmonter les difficultés, mais elle peut aussi engendrer une hausse des coûts, des inefficacités, des risques de sécurité et une expérience utilisateur dégradée, compromettant la compétitivité de votre entreprise et sa capacité à prospérer dans un environnement économique en constante évolution.

Poser une question portant sur le texte de la présentation (ou taper « exit » pour quitter) : exit

Lorsque l’utilisateur a demandé : « L’intégration constitue-t-elle un avantage concurrentiel pour votre entreprise ? », le modèle Granite Vision a traité la requête en utilisant le texte de la diapositive PowerPoint et a généré une réponse.

Le modèle a reconnu l’« intégration » comme concept d’entreprise et a fourni une réponse structurée à partir de la« diapositive numéro 7» expliquant à la fois ses avantages et ses risques. Il a souligné que l’intégration améliore la rapidité et la résolution de problèmes, mais a également relevé des inconvénients potentiels tels que l’augmentation des coûts, les inefficacités, les risques de sécurité et une mauvaise expérience utilisateur si elle n’est pas gérée efficacement.

Cette réponse démontre la capacité du modèle à interpréter le texte extrait de la diapositive et à générer une réponse contextuellement pertinente et équilibrée.

Étape 18 : Lancer le chat IA basé sur image

Lors de cette étape, nous appelons la fonction chat_with_images pour permettre à l’utilisateur de poser des questions sur les images extraites des diapositives PowerPoint.

Fonctionnement :

  1. chat_with_images() lance la session de questions-réponses portant sur les images.
  2. La fonction invite l’utilisateur à sélectionner le numéro d’une diapositive contenant une image.
  3. L’image sélectionnée est traitée et formatée en conversation structurée pour le modèle Vision.
  4. Le modèle génère une réponse s’appuyant sur le contenu de l’image et la requête de l’utilisateur.
  5. La boucle se poursuit jusqu’à ce que l’utilisateur tape exit pour quitter.
chat_with_images(model, processor, slide_images)

SORTIE

Poser une question portant sur les images de la présentation (ou taper « exit » pour quitter) : que représente cette image ?

Saisir le numéro de la diapositive (1 à 41) pour obtenir des informations sur son image : 2

Réponse du modèle : <|system|>

Une discussion entre un utilisateur curieux et un assistant d’intelligence artificielle. L’assistant donne des réponses utiles, détaillées et polies aux questions de l’utilisateur.

<|user|>

que représente cette image ?

<|assistant|>

modèle 3D

Poser une question portant sur les images de la présentation (ou taper « exit » pour quitter) : explique cette image

Saisir le numéro de la diapositive (1 à 41) pour obtenir des informations sur son image : 2

Réponse du modèle : <|system|>

Une discussion entre un utilisateur curieux et un assistant d’intelligence artificielle. L’assistant donne des réponses utiles, détaillées et polies aux questions de l’utilisateur.

<|user|>

explique cette image

<|assistant|>

l’image est un modèle 3D d’un cube

Poser une question portant sur les images de la présentation (ou taper « exit » pour quitter) : peux-tu expliquer ce graphique ?

Saisir le numéro de la diapositive (1 à 41) pour obtenir des informations sur son image : 1

Réponse du modèle : <|system|>

Une discussion entre un utilisateur curieux et un assistant d’intelligence artificielle. L’assistant donne des réponses utiles, détaillées et polies aux questions de l’utilisateur.

<|user|>

peux-tu expliquer ce graphique ?

<|assistant|>

Ceci est un graphique à barres intitulé « Progression de la maturité du marché du cloud d’entreprise de la 1re à la 4e génération ». L’axe des x mesure la progression des générations tandis que l’axe des y montre la progression de la maturité dans le temps. Le graphique montre qu’au fil des générations, le marché du cloud d’entreprise gagne en maturité.

Poser une question portant sur les images de la présentation (ou taper « exit » pour quitter) : exit

Lorsque l’utilisateur a posé des questions à propos des images, le modèle Granite Vision a traité les images sélectionnées et a généré des réponses en fonction de sa compréhension du contenu visuel.

Pour la question « Que représente cette image ? » (diapositive 2), le modèle a identifié l’image comme étant un « modèle 3D », mais il a fourni une description minimale.

Pour « Explique cette image » (diapositive 2), le modèle a affiné sa réponse, en l’identifiant comme le « modèle 3D d’un cube ».

À la question « Pouvez-vous expliquer ce graphique ? » (diapositive 1), le modèle a fourni une description détaillée du graphique à barres, expliquant son titre, son axe des x, son axe des y et la tendance générale, indiquant comment la maturité du cloud d’entreprise progresse au fil des générations.

Cette étape permet aux utilisateurs d’interagir avec des éléments visuels, tels que des graphiques, des schémas et des infographies, en utilisant le modèle IBM Granite Vision pour des analyses et des explications intelligentes

Points essentiels à retenir

  1. Le modèle reconnaît les formes et objets de base mais peut fournir des descriptions générales pour certaines images.
  2. Pour les graphiques et les schémas, il fournit des informations structurées, notamment des titres, des étiquettes d’axe et des tendances, ce qui le rend utile pour les présentations commerciales et de données.
  3. La précision des réponses dépend de la clarté et de la complexité de l’image ; les visuels plus simples (comme les modèles 3D) peuvent recevoir des réponses plus courtes, tandis que les visuels structurés (comme les graphiques) offrent des informations plus détaillées.

Ce tutoriel démontre la capacité d’IBM Granite Vision à interpréter des images.

Solutions connexes
IBM Maximo Visual Inspection

Exploitez toute la puissance de la vision par ordinateur no-code pour l'automatisation des inspections visuelles.

Explorez Maximo Visual Inspection
Conseil et services en Intelligence Artificielle (IA)

IBM Consulting et ses services d'IA accompagnent les entreprises dans la redéfinition de leurs activités avec l'intelligence artificielle pour mener leur transformation.

Découvrez les services d’intelligence artificielle
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise grâce à l’expertise de pointe d’IBM en matière d’IA et à son portefeuille de solutions.

Découvrir les solutions d’IA
Passez à l’étape suivante

IBM Maximo Visual Inspection met la puissance de la vision par ordinateur basée sur l’IA entre les mains de vos équipes en charge du contrôle qualité et des inspections. Libérez tout le potentiel de la vision par ordinateur no-code pour automatiser vos inspections visuelles.

Explorez Maximo Visual Inspection Découvrir le produit