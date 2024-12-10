Nutzen Sie Pixtral 12B für multimodale KI-Abfragen in Python mit watsonx

In diesem Tutorial erfahren Sie, wie Sie das Pixtral 12B-Multimodalmodell von Mistral KI, das jetzt auf watsonx.ai verfügbar ist, für multimodale Aufgaben wie Bildunterschriften und visuelle Fragenbeantwortung anwenden können.

Pixtral 12B

Im September 2024 brachte Mistral KI Pixtral 12B heraus, ein Open Source Large Language Models (LLM) unter der Apache 2.0 Lizenz.

Mit 12 Milliarden Parametern basiert das multimodale Modell auf dem Nemo 12B LLM von Mistral KI. Pixtral 12B hat zwei Komponenten: den Vision-Encoder zur Tokenisierung von Bildern und einen multimodalen Transformer-Decoder zur Vorhersage des folgenden Tokens anhand einer Sequenz von Text und Bildern. Der Bildcodierer verfügt über 400 Millionen Parameter und unterstützt variable Bildgrößen.

Das Modell glänzt in mehreren Anwendungsfällen, darunter das Verständnis von Grafiken, Diagrammen, Tabellen und Dokumenten in hoher Auflösung, die für Aufgaben zur Beantwortung von Dokumentenfragen, Anweisungsfolgen oder Retrieval-Augmented Generation (RAG)-Aufgaben eingesetzt werden können. Zusätzlich verfügt Pixtral 12B über ein Kontextfenster mit 128.000 Tokens, das die gleichzeitige Nutzung mehrerer Bilder ermöglicht.

In Bezug auf Benchmarks übertrifft Pixtral 12B verschiedene Modelle, darunter Qwen2-VL, Gemini-1.5 Flash 8B und Claude-3 Haiku. Bei bestimmten Benchmarks, darunter DocVQA (ANLS) und VQAv2 (VQA Match), übertrifft das Modell die OpenAI-Modelle GPT-4o und Claude-3.5 Sonett.

Neben der Möglichkeit, Pixtral 12B auf watsonx.ai zu betreiben, ist das Modell auch über Hugging Face, auf Le Chat, Mistrals Chatbot, oder über API-Endpunkt VIA La Plateforme verfügbar.

Schritte

Schauen Sie sich dieses IBM Technology YouTube-Video an, das Sie in den Schritten 1 und 2 durch die folgenden Einrichtungsanweisungen führt.

Schritt 1. Einrichten Ihrer Umgebung

Sie können aus mehreren Tools wählen. Dieses Tutorial eignet sich am besten für ein Jupyter Notebook. Jupyter Notebooks werden in der Data Science häufig verwendet, um Code mit verschiedenen Datenquellen wie Text, Bildern und Datenvisualisierungen zu kombinieren.

Dieses Tutorial zeigt Ihnen, wie Sie ein IBM Konto einrichten, um ein Jupyter Notebook zu verwenden.

  1. Melden Sie sich bei watsonx.ai mit Ihrem IBM Cloud-Konto an. Bitte beachten Sie, dass Pixtral 12B derzeit nur in den Regionen IBM Europa, Frankfurt und London verfügbar ist.

  2. Erstellen Sie ein watsonx.ai-Projekt.

    Sie können Ihre Projekt-ID in Ihrem Projekt abrufen. Klicken Sie auf die Registerkarte Verwalten. Kopieren Sie dann die Projekt-ID aus dem Abschnitt Details der Seite Allgemein. Sie benötigen diese ID für dieses Tutorial.

  3. Erstellen Sie ein Jupyter Notebook.

    Dieser Schritt öffnet eine Notebook-Umgebung, in die Sie den Code aus diesem Tutorial kopieren können, um Prompt Tuning selbst zu implementieren. Alternativ können Sie dieses Notebook auf Ihr lokales System herunterladen und als Asset in Ihr watsonx.ai-Projekt hochladen. Dieses Jupyter-Notizbuch zusammen mit den verwendeten Datensätzen finden Sie auf GitHub.

    Um Abhängigkeitskonflikte mit Python-Paketen zu vermeiden, empfehlen wir die Einrichtung einer virtuellen Umgebung.

Schritt 2. Einrichtung von watsonx.ai Runtime Service und API-Schlüssel

  1. Erstellen Sie eine Instanz des watsonx.ai Runtime Service (wählen Sie den Lite-Plan als kostenlose Instanz).
  2. Generieren Sie einen API-Schlüssel.
  3. Verknüpfen Sie den watsonx.ai Runtime Service mit dem Projekt, das Sie in watsonx.ai erstellt haben.

Schritt 3. Installieren und importieren Sie relevante Bibliotheken und richten Sie Ihre Zugangsdaten ein.

Für dieses Tutorial benötigen wir einige Bibliotheken und Module. Stellen Sie sicher, dass Sie Folgendes importieren; wenn diese nicht installiert sind, können Sie das Problem mit einer schnellen PIP-Installation beheben.

#installations
%pip install image | tail -n 1
%pip install -U "ibm_watsonx_ai>=1.1.14" | tail -n 1

#imports
import requests
import base64
import getpass

from PIL import Image
from ibm_watsonx_ai import Credentials
from ibm_watsonx_ai.foundation_models import ModelInference

Geben Sie beim Ausführen der folgenden Zelle Ihren WATSONX_EU_APIKEY und Ihre WATSONX_EU_PROJECT_ID ein, die Sie in den Schritten 1 und 2 erstellt haben. Wir werden auch die URL festlegen, die als API-Endgerät dient.

WATSONX_EU_APIKEY = getpass.getpass("Please enter your watsonx.ai Runtime API key (hit enter): ")
WATSONX_EU_PROJECT_ID = getpass.getpass("Please enter your project ID (hit enter): ")
URL = "https://eu-gb.ml.cloud.ibm.com"

Wir können die Klasse „Credentials“ verwenden, um unsere übergebenen Zugangsdaten zu kapseln.

credentials = Credentials(
    url=URL,
    api_key=WATSONX_EU_APIKEY
)

Schritt 4. Bilder kodieren

In diesem Tutorial werden wir mit mehreren Bildern für multimodale KI-Anwendungen wie Bilduntertitelung und Objekterkennung arbeiten. Die von uns verwendeten Bilder können über die folgenden URLs aufgerufen werden. Wir können diese URLs in einer Liste speichern, um sie iterativ zu kodieren.

url_image_1 = 'https://assets.ibm.com/de-de/is/image/ibm/img_2803copy?$original$'
url_image_2 = 'https://assets.ibm.com/de-de/is/image/ibm/img_2857?$original$'
url_image_3 = 'https://assets.ibm.com/de-de/is/image/ibm/1ab001c5-751d-45aa-8a57-d1ce31ea0588?$original$'
url_image_4 = 'https://assets.ibm.com/de-de/is/image/ibm/langchain?$original$&fmt=png-alpha'

image_urls = [url_image_1, url_image_2, url_image_3, url_image_4]

Um unsere Dateneingabe besser zu verstehen, zeigen wir die Bilder an.

for idx, url in enumerate(image_urls):
    print(f'url_image_{idx}')
    display(Image.open(requests.get(url, stream=True).raw))

Output:

url_image_0

Ein rosafarbenes Blumenfeld

url_image_1

Frau arbeitet an einem Notebook

url_image_2

Eine Frau und ihr Auto im Schnee

url_image_3

Ein Diagramm

Um diese Bilder so zu kodieren, dass sie für das LLM leicht zugänglich sind, codieren wir die Bilder zu Bytes, die wir dann in eine UTF-8-Darstellung dekodieren.

encoded_images = []

for url in image_urls:
    encoded_images.append(base64.b64encode(requests.get(url).content).decode("utf-8"))

Schritt 5. API-Anfrage und LLM einrichten

Nachdem unsere Bilder nun an das LLM übergeben werden können, richten wir eine Funktion für unsere watsonx API-Aufrufe ein. Die Funktion augment_api_request_body nimmt die Benutzeranfrage und das Bild als Parameter entgegen und erweitert den Inhalt der API-Anfrage. Wir werden diese Funktion in jeder Iteration verwenden.

def augment_api_request_body(user_query, image):
    messages = [
        {
            "role": "user",
            "content": [{
                "type": "text",
                "text": 'You are a helpful assistant. Answer the following user query in 1 or 2 sentences: ' + user_query
            },
            {
                "type": "image_url",
                "image_url": {
                    "url": f"data:image/jpeg;base64,{image}",
                }
            }]
        }
    ]

return messages

Lassen Sie uns die Modellschnittstelle mithilfe der Klasse ModelInference instanziieren. In diesem Tutorial verwenden wir das Mistralai/Pixtral-12b-Modell.

model = ModelInference(
    model_id="mistralai/pixtral-12b",
    credentials=credentials,
    project_id=WATSONX_EU_PROJECT_ID,
    params={
        "max_tokens": 200
        }
    )

Schritt 6. Bildunterschrift

Nun können wir unsere Bilder durchlaufen, um die vom Modell als Antwort auf die Anfrage „Was passiert auf diesem Bild?“ erzeugten Textbeschreibungen anzuzeigen.

for i in range(len(encoded_images)):
        image = encoded_images[i]
        user_query = "What is happening in this image?"
        messages = augment_api_request_body(user_query, image)
        response = model.chat(messages=messages)
        print(response['choices'][0]['message']['content'])

Ausgabe: 

Das Bild zeigt ein lebendiges Blumenfeld in voller Blüte unter einem klaren blauen Himmel. Die Sonne scheint hell und schafft eine ruhige und malerische Szenerie.

Auf dem Bild sitzt eine Person an einem Tisch, benutzt einen Laptop und hält eine Kreditkarte in der Hand. Auf dem Tisch neben dem Laptop stehen ein paar Äpfel in einer Schüssel.

Eine Person steht neben einem stark schneebedeckten Auto und hält einen roten Regenschirm, um sich vor dem fallenden Schnee zu schützen.

Das Bild zeigt einen Workflow zur Verarbeitung und Speicherung von Daten, wahrscheinlich für maschinelles Lernen oder Datenanalyse. Es beginnt damit, Quelldaten (wie HTML- oder XML-Dokumente) zu laden, die Daten in ein geeignetes Format umzuwandeln, sie in numerische Vektoren einzubetten, diese Vektoren in einem Vektorspeicher zu speichern und schließlich die Daten bei Bedarf abzurufen.

Das Pixtral 12B-Modell konnte jedes Bild erfolgreich detailliert beschriften.

Schritt 7. Objekterkennung

Nachdem wir im vorherigen Schritt die Fähigkeit des Modells zur Bildunterschriftung gezeigt haben, wollen wir dem Modell einige Fragen stellen, die eine Erkennung erfordern. Bezüglich des zweiten Bildes, das die Frau beim Online-Shopping zeigt, werden wir das Model fragen: „Was hält die Frau in ihrer Hand?“

image = encoded_images[1]
user_query = "What does the woman have in her hand?"
messages = augment_api_request_body(user_query, image)
response = model.chat(messages=messages)
print(response['choices'][0]['message']['content'])

Ausgabe: Die Frau hält eine Kreditkarte in ihrer Hand.

Das Modell identifizierte den Gegenstand in der Hand der Frau korrekt. Nun wollen wir uns mit dem Problem auf dem Bild des schneebedeckten Autos befassen.

image = encoded_images[2]
user_query = "What is likely the issue with this car?"
messages = augment_api_request_body(user_query, image)
response = model.chat(messages=messages)
print(response['choices'][0]['message']['content'])

Ausgabe: Das Auto steckt wahrscheinlich im tiefen Schnee fest und lässt sich nur schwer oder gar nicht verschieben.

Diese Antwort unterstreicht den Wert, den multimodale KI für Bereiche wie Versicherungen hat. Das Modell war in der Lage, das Problem mit dem im Schnee stecken gebliebenen Auto zu erkennen. Dies könnte ein wirksames Instrument zur Verbesserung der Bearbeitungszeit von Versicherungsansprüchen sein.

Als Nächstes befragen wir das Modell zu den Schritten im Flussdiagramm.

image = encoded_images[3]
user_query = "Name the steps in this diagram"
request_body = augment_api_request_body(user_query, image)
messages = augment_api_request_body(user_query, image)
response = model.chat(messages=messages)
print(response['choices'][0]['message']['content'])

Ausgabe: Das Diagramm veranschaulicht einen Workflow mit mehreren Schritten: „Laden“, „Transformieren“, „Einbetten“, „Speichern“ und „Abrufen“. Diese Abfolge stellt wahrscheinlich einen Workflow für die Verarbeitung und Speicherung von Daten dar. Diese in eingebettete Vektoren werden für effizientes Speichern und effizientes Abrufen transformiert.

Großartig! Das Modell konnte Objekte innerhalb der Bilder nach Benutzeranfragen erkennen. Wir ermutigen Sie, weitere Abfragen auszuprobieren, um die Leistung des Modells zu demonstrieren.

Zusammenfassung

In diesem Tutorial haben Sie das Pixtral 12B-Modell verwendet, um multimodale Operationen durchzuführen, einschließlich Bildunterschrift und visuelle Beantwortung von Fragen.

Um andere multimodale Modelle auszuprobieren, schauen Sie sich dieses Tutorial zum multimodalen Modell Llama 3.2 von Meta auf watsonx.ai an.

Ressourcen

Der CEO-Leitfaden zu generativer KI

Erfahren Sie, wie CEOs den Wert, den generative KI schaffen kann, gegen die erforderlichen Investitionen und die damit verbundenen Risiken abwägen können.
Bringen Sie Ihre KI-Fähigkeiten auf die nächste Stufe

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.
Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.
KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.
KI in Aktion 2024

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
IBM Granite erkunden

IBM Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Erkunden Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.
Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.
Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

 Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

 Erkunden Sie KI-Lösungen
KI-Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

 KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

 watsonx.ai erkunden Buchen Sie eine Live-Demo