إنشاء نظام للإجابة عن الأسئلة من خلال تحليل صور PPT المستند إلى الذكاء الاصطناعي باستخدام نموذج الرؤية Granite

مع تطور التقنيات المستندة إلى الذكاء الاصطناعي، أصبح تحليل الصور أكثر تطورًا، ما يتيح اكتساب معارف أعمق من البيانات المرئية. بفضل التطورات في نماذج التعلم الآلي، يمكن للذكاء الاصطناعي معالجة الصور المرفوعة، واستخراج البيانات الوصفية، ودعم الإشراف على المحتوى على نطاق واسع. تسهم هذه الأدوات التحليلية أيضًا في النمذجة التنبئية لتطبيقات مثل التسعير، وتحسين المرئيات، وتوليد الصور، ما يجعل سير العمل أقل تكلفة وأكثر كفاءة. من خلال دمج الأساليب القائمة على البيانات، يعزز الذكاء الاصطناعي الأتمتة وصناعة القرار، مقدمًا إمكانات جديدة للتفسير الذكي للمرئيات.

حالات الاستخدام

بفضل التطورات السريعة في رؤية الكمبيوتر والذكاء الاصطناعي المتقدم، تستفيد الشركات والباحثون من تقنيات الصور في مجموعة واسعة من التطبيقات. بدءًا من تصنيف الصور والتعرف الضوئي على الحروف (OCR) إلى التجزئة وتحليل مقاطع الفيديو، تُحدث الأدوات المدعومة بالذكاء الاصطناعي تحولاً جذريًا في طريقة استخراج المعلومات المرئية وتحليلها.

في صناعات مثل وسائل التواصل الاجتماعي، يعزز الذكاء الاصطناعي الإشراف على المحتوى من خلال تحليل الصور على مستوى وحدات البكسل، ما يضمن الامتثال وتحسين التفاعل. كما يمكن للشركات استخدام واجهة برمجة تطبيقات الرؤية في المعالجة الآلية للمستندات، وتحويل الملفات الممسوحة ضوئيًا وملفات Excel والتقارير إلى بيانات منظمة. تسهل هذه التطبيقات سير العمل، وتحسن الكفاءة، وتُمكّن المؤسسات من استخراج معارف مجدية من مجموعات البيانات المرئية واسعة النطاق.

تسلط حالات الاستخدام هذه الضوء على الدور المتزايد لتحليل الصور المدعوم بالذكاء الاصطناعي عبر الصناعات. في هذا البرنامج التعليمي، نركز على استخدام هذه الإمكانات في عروض PowerPoint التقديمية، ما يتيح نظام أسئلة وأجوبة تفاعليًا حول النصوص والصور باستخدام رؤية الكمبيوتر المتقدمة ونماذج الذكاء الاصطناعي

نظام أسئلة وأجوبة تفاعلي مدعوم بالذكاء الاصطناعي للعروض التقديمية

لقد أحدثت النماذج اللغوية الكبرى تغييرًا جذريًا في التعلم الآلي من خلال تمكين المعارف الذكية المستمدة من مجموعات البيانات الضخمة التي تضم نصوصًا غير منظمة. ومع ذلك، غالبًا ما تواجه النماذج اللغوية الكبرى التقليدية صعوبة في تحليل الصور، ما يصعب استخراج معارف من الرسوم البيانية والمخططات والعناصر المرئية في العروض التقديمية.

يسد النموذج اللغوي الكبير IBM Granite™ Vision 3.2 هذه الفجوة من خلال دمج أدوات الذكاء الاصطناعي مع خوارزميات اكتشاف الكائنات المتقدمة، ما يسمح للمستخدمين بأتمتة التحليل متعدد الوسائط. يوضح هذا البرنامج التعليمي كيفية تبسيط سير العمل باستخدام الذكاء الاصطناعي لاستخراج النصوص والصور من ملفات PowerPoint (.pptx) وتحليلها، ما يتيح نظام أسئلة وأجوبة تفاعليًا لتعزيز معارف العروض التقديمية.

في هذا البرنامج التعليمي، ستتعرف على كيفية إنشاء نظام مستند إلى الذكاء الاصطناعي يتمكن من الرد على استعلامات المستخدمين في الوقت الفعلي من شرائح PowerPoint باستخدام النصوص والصور معًا كسياق. سوف يرشدك هذا البرنامج التعليمي خلال ما يلي:

معالجة PowerPoint: استخرج النصوص والصور من ملفات .pptx للتحليل المدعوم بالذكاء الاصطناعي.

الأسئلة والأجوبة المستندة إلى النص: استخدم Granite Vision لتوليد إجابات بناءً على النص المستخرج من الشرائح.

الأسئلة والأجوبة المستندة إلى الصور: اطلب من الذكاء الاصطناعي تحليل الصور والمخططات والرسوم البيانية الموجودة في الشرائح.

الصياغة المحسنة للأسئلة: تعرف على كيفية صياغة أسئلة فعالة للحصول على إجابات ذكاء اصطناعي دقيقة وذات صلة.

التقنيات المستخدمة

يستفيد هذا البرنامج التعليمي من تقنيات الذكاء الاصطناعي المتطورة، بما في ذلك ما يلي:

1. IBM Granite Vision: وهو نموذج فائق من نماذج اللغة والرؤية (VLM) يعالج كلاً من النصوص والصور.

2. Python-PPTX: وهي مكتبة لاستخراج النصوص والصور من ملفات PowerPoint.

3. المحولات: وهو إطار عمل لمعالجة إدخالات نماذج الذكاء الاصطناعي بكفاءة.

ما الذي ستحققه

في نهاية هذا البرنامج التعليمي، سوف تتمكن من فعل ما يلي:

1. استخراج محتوى ملفات PowerPoint (النصوص والصور) ومعالجته.

2. استخدام نموذج Granite vision 3.2 لإنشاء نظام أسئلة وأجوبة مستند إلى الذكاء الاصطناعي لمحتوى الشرائح.

3. طرح أسئلة مفيدة على الذكاء الاصطناعي حول النصوص والصور.

4. تحسين تفاعل المستخدمين مع العروض التقديمية باستخدام الشروحات المدعومة بالذكاء الاصطناعي.

هذا البرنامج التعليمي مصمم لمطوري الذكاء الاصطناعي، والباحثين، وصناع المحتوى، والمحترفين في مجال الأعمال الذين يسعون إلى تحسين عروضهم التقديمية بمعارف مستندة إلى الذكاء الاصطناعي.

فيديو

المتطلبات الأساسية

تحتاج إلى حساب IBM Cloud لإنشاء مشروع watsonx.ai.

الخطوات

الخطوة 1. إعداد البيئة.

رغم توفُّر عدة أدوات للاختيار منها، يُرشدك هذا الدليل خلال خطوات إعداد حساب IBM لاستخدام Jupyter Notebook.

1. سجل الدخول إلى watsonx.ai باستخدام حسابك على IBM Cloud.

أنشئ مشروع watsonx.ai. يمكنك الحصول على معرِّف المشروع من داخل مشروعك. انقر فوق علامة التبويب إدارة. ثم انسخ معرّف المشروع من قسم التفاصيل في الصفحة عام. ستحتاج إلى هذا المعرِّف في هذا البرنامج التعليمي.

أنشئ Jupyter Notebook.

4. ارفع ملف PPTX كأصل في watsonx.ai

تفتح هذه الخطوة بيئة دفتر ملاحظات حيث يمكنك نسخ التعليمات البرمجية من هذا البرنامج التعليمي. أو يمكنك تنزيل هذا الدفتر على نظامك المحلي وتحميله إلى مشروع watsonx.ai كأصل. هذا البرنامج التعليمي متاح أيضًا على GitHub.

ملاحظة: هذا البرنامج التعليمي يحتاج إلى بنية تحتية لوحدة معالجة الرسومات (GPU) لتشغيل التعليمات البرمجية، لذا ينصح باستخدام watsonx.ai كما هو موضح في هذا البرنامج التعليمي.

الخطوة 2: تثبيت الارتباطات المطلوبة

قبل أن نبدأ في استخراج محتوى PowerPoint ومعالجته، نحتاج إلى تثبيت مكتبات Python الضرورية:

transformers: تتيح إمكانية الوصول إلى IBM Granite Vision ونماذج الذكاء الاصطناعي الأخرى.

torch: إطار عمل للتعلُّم العميق ضروري لتشغيل النماذج بكفاءة.

python-pptx: مكتبة لاستخراج النصوص والصور من ملفات PowerPoint (.pptx).

شغل الأوامر التالية لتثبيت هذه الحزم وترقيتها:

!pip install --upgrade transformers
!pip install --upgrade torch
!pip install python-pptx
!pip install botocore
!pip install ibm-cos-sdk

الخطوة 3: استيراد المكتبات المطلوبة

في هذه الخطوة، نستورد المكتبات اللازمة لمعالجة ملفات PowerPoint، ومعالجة الصور، والتفاعل مع نموذج IBM Granite Vision:

os وio: لمعالجة الملفات وعمليات الإدخال/الإخراج.
torch: تضمن التوافق مع نماذج الذكاء الاصطناعي.
pptx.Presentation: تستخرج النصوص والصور من ملفات PowerPoint (.pptx).
PIL.Mage: تعالج الصور المستخرجة من الشرائح.
transformers: تحمل IBM Granite Vision لإنشاء نظام أسئلة وأجوبة مستند إلى الذكاء الاصطناعي.
botocore.client.Config وibm_boto3: تتعامل مع الوصول إلى التخزين السحابي (IBM Cloud Object Storage).

import os
import io
import torch
from pptx import Presentation
from PIL import Image
from io import BytesIO
from transformers import AutoProcessor, AutoModelForVision2Seq
from botocore.client import Config
import ibm_boto3

الخطوة 4: الاتصال مع IBM Cloud Object Storage

في هذه الخطوة، نُنشئ اتصالاً مع IBM Cloud Object Storage للوصول إلى ملفات PowerPoint المخزنة على السحابة واسترجاعها.

يمكنك الاستفادة من دعم python، الذي يتوفر عبر فرع من مكتبة boto3 والمزود بمزايا للاستفادة القصوى من IBM Cloud Object Storage. تحقق من الوثائق الرسمية للحصول على بيانات الاعتماد هذه.

ibm_boto3.client: تُنشئ عميلاً للتفاعل مع IBM Cloud Object Storage.

ibm_api_key_id: مفتاح واجهة برمجة تطبيقات IBM Cloud الخاص بك للمصادقة.

ibm_auth_endpoint: نقطة نهاية المصادقة على IBM Cloud.

endpoint_url: نقطة النهاية الخاصة بتخزين Cloud Object Storage (COS).

# IBM COS credentials
cos_client = ibm_boto3.client(
    service_name='s3',
    ibm_api_key_id='Enter your API Key',
    ibm_auth_endpoint='[Enter your auth end-point url]',
    config=Config(signature_version='oauth'),
    endpoint_url='[Enter your end-point url]'
)

ملاحظة: عند رفع ملف كأصل على watsonx.ai، يُخزن تلقائيًا في IBM Cloud Object Storage. عند استيراد الملف لاحقًا إلى Jupyter Notebook، يُنشئ watsonx.ai بيانات الاعتماد اللازمة (مفتاح واجهة برمجة التطبيقات، ونقطة النهاية للمصادقة، ونقطة النهاية للتخزين) ويدرجها في دفتر ملاحظاتك. تسمح بيانات اعتماد IBM Cloud Object Storage المقدمة بالوصول الآمن لاسترجاع الملفات من التخزين، ما يتيح التكامل السلس بين أصول watsonx.ai وبيئة الدفاتر لمزيد من المعالجة.

ومن خلال تكوين هذا الاتصال، يمكننا استيراد عروض PowerPoint التقديمية المخزنة على IBM Cloud ومعالجتها بسلاسة لإجراء التحليل المدعوم بالذكاء الاصطناعي

الخطوة 5: تحديد معلمات التخزين

في هذه الخطوة، نحدد منطقة تخزين IBM Cloud Object Storage وتفاصيل الملف لتحديد موقع عروض PowerPoint (.pptx) التقديمية واسترجاعها للمعالجة.

اطلع على هذا المستند الرسمي للحصول على تفاصيل تكوين منطقة التخزين من خلال واجهة مستخدم IBM Cloud.

bucket: هو اسم منطقة تخزين IBM Cloud Object Storage المخزن بها الملف.

object_key: هو اسم ملف عرض PowerPoint التقديمي الذي ينبغي الوصول إليه

bucket = 'Enter your bucket key'
object_key = 'Application Integration client presentation.PPTX [You can replace this with your PPT name]'

الخطوة 6: استرجاع ملف PowerPoint من IBM Cloud Object Storage

في هذه الخطوة، ننزل ملف PowerPoint (.pptx) من IBM Cloud Object Storage لمعالجته محليًا.

cos_client.get_object(): يسترجع الملف من منطقة التخزين ومفتاح الكائن المحددين.

streaming_body.read(): يقرأ محتويات الملف ويحولها إلى تدفق البايت لمزيد من المعالجة.

# Download PPTX file from IBM COS
streaming_body = cos_client.get_object(Bucket=bucket, Key=object_key)['Body']
pptx_bytes = streaming_body.read()

الخطوة 7: حفظ ملف PowerPoint على مسار محلي

في هذه الخطوة، نخزن ملف PowerPoint (.pptx) المنزّل محليًا حتى يمكن معالجته.

pptx_path: يحدد اسم الملف المحلي الذي سيُحفظ فيه العرض التقديمي.

open(pptx_path, 'wb'): يفتح الملف في وضع الكتابة الثنائية لتخزين البايتات المستردة.

f.write (pptx_bytes): يكتب محتوى الملف المنزّل في ملف .pptx المُنشأ حديثًا.

# Save the bytes to a local PPTX file
pptx_path = "downloaded_presentation.pptx"
with open(pptx_path, 'wb') as f:
f.write(pptx_bytes)

الخطوة 8: تأكيد مكان حفظ الملف

في هذه الخطوة، نعرض رسالة تأكيد لضمان حفظ ملف PowerPoint بنجاح. تعرض دالة "print" مسار الملف الذي سيُخزن فيه ملف .pptx محليًا.

print(f"PPTX file saved as: {pptx_path}")

الخطوة 9: استخراج النص والصور من ملف PowerPoint

في هذه الخطوة، نحدد دالة لمعالجة ملف PowerPoint (.pptx) واستخراج محتواه:

slide_texts: تخزّن النص المستخرج من كل شريحة.

slide_images: تخزّن الصور المستخرجة ككائنات صور من مكتبة الصور Python (PIL)، مع أرقام الشرائح المقابلة لها.

تتكرر عبر الشرائح لاستخراج النص من الأشكال التي تحتوي على محتوى نصي والصور المدمجة في الشرائح.

تفصل هذه الدالة النص والصور عن ملف PPT، ما يسمح لوكيل المحادثة بالإجابة بسهولة عن أسئلة المستخدم بناءً على المحتوى المستخرج.

def extract_text_and_images_from_pptx(pptx_path):
        presentation = Presentation(pptx_path)
        slide_texts = []
        slide_images = []
        for slide_number, slide in enumerate(presentation.slides):
                # Extract text from slide
                slide_text = []
                for shape in slide.shapes:
                        if hasattr(shape, "text"):
                                slide_text.append(shape.text)
                                slide_texts.append("\n".join(slide_text))
                # Extract images from slide
                for shape in slide.shapes:
                        if hasattr(shape, "image"):
                                image_stream = BytesIO(shape.image.blob)
                                image = Image.open(image_stream)
                                slide_images.append((slide_number, image))
return slide_texts, slide_images

الخطوة 10: معالجة ملف PowerPoint

في هذه الخطوة، نستدعي الدالة لاستخراج النصوص والصور من ملف PowerPoint المحفوظ.

pptx_path: تحدد المسار المحلي لملف PowerPoint المنزّل.

extract_text_and_images_from_from_pptx(pptx_path): تستخرج النصوص والصور من الشرائح.

slide_texts: تخزّن النص المستخرج من جميع الشرائح.

slide_images: تخزّن الصور المستخرجة.

pptx_path = "downloaded_presentation.pptx"
slide_texts, slide_images = extract_text_and_images_from_pptx(pptx_path)

الخطوة 11: عرض النص المستخرج من الشرائح

في هذه الخطوة، نعرض النص المستخرج من كل شريحة للتحقق من معالجة محتوى PowerPoint بشكل صحيح.

enumerate(slide_texts): تتكرر خلال النص المستخرج، مع ربط كل جزء برقم الشريحة الخاصة به.

الفاصل ('-' * 40): يساعد على التمييز المرئي بين المحتوى المستخرج من الشرائح المختلفة.

# Display extracted text and images
for i, text in enumerate(slide_texts):
print(f"Slide {i + 1} Text:\n{text}\n{'-'*40}")

الخطوة 12: عرض الصور المستخرجة من الشرائح

في هذه الخطوة، نتأكد ونستعرض الصور المستخرجة من شرائح PowerPoint.

len: تحسب إجمالي عدد الصور المستخرجة.

img.show(): تفتح كل صورة مستخرجة لاستعراضها.

يمكنك استبدال دالة `.show()` بدالة `.save('filename.png')` لتخزين الصور محليًا.

print(f"\nExtracted {len(slide_images)} images.")
for slide_num, img in slide_images:
img.show() # This will open the image, or you can save it using img.save('filename.png')

الخطوة 13: تحميل نموذج الرؤية IBM Granite

في هذه الخطوة، نعمل على تهيئة نموذج IBM Granite-Vision-3.2-2B لمعالجة النصوص والصور المدعومة بالذكاء الاصطناعي.

MODEL_NAME تحدد نموذج Granite Vision المدرب مسبقًا والذي ينبغي استخدامه و torch.cuda.is_available() تتحقق مما إذا كانت وحدة معالجة الرسومات (CUDA) متوفرة لمعالجة أسرع؛ وإلا تُعيّن وحدة المعالجة المركزية بشكل افتراضي.

# Load IBM Granite-Vision-3.1-2B-Preview model and processor
MODEL_NAME = "ibm/granite-vision-3-2-2b"
device = "cuda" if torch.cuda.is_available() else "cpu"

الخطوة 14: تهيئة النموذج والمعالج

في هذه الخطوة، نحمل نموذج IBM Granite Vision والمعالج المقابل له لمعالجة كل من إدخال النص وإدخال الصور.

AutoProcessor.from_pretrained(MODEL_NAME, trust_remote_code=True): تحمل المعالج المدرب مسبقًا لتنسيق الإدخالات (النصوص والصور) الخاصة بالنموذج.

AutoModelForVision2Seq.from_pretrained(MODEL_NAME, trust_remote_code=True, ignore_mismatched_sizes=True).to(device): تحمل نموذج Granite Vision وتنقله إلى الجهاز المتاح (وحدة معالجة الرسومات أو وحدة المعالجة المركزية).

حيث،

trust_remote_code=True: تضمن التوافق مع تطبيقات النماذج المخصصة.

ignore_mismatched_sizes=True: تمنع الأخطاء إذا كانت هناك تناقضات طفيفة في حجم النموذج.

ملاحظة: قد يستغرق التحميل بعض الوقت.

processor = AutoProcessor.from_pretrained(MODEL_NAME, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(MODEL_NAME, trust_remote_code=True, ignore_mismatched_sizes=True).to(device)

الخطوة 15: إنشاء دردشة مع الذكاء الاصطناعي مستندة إلى النص

في هذه الخطوة، نُنشئ دالة محادثة تسمح للمستخدمين بطرح الأسئلة بناءً على النص المستخرج من شرائح PowerPoint.

طريقة العمل:

يُدخل المستخدم سؤالاً يتعلق بمحتوى الشريحة.
يُجرى تنسيق النص المستخرج من ملف PPT وتحويله إلى محادثة منظمة للنموذج. وهذا سيمنح النموذج سياقًا دقيقًا لإنشاء الإجابة المحددة من محتوى ملف PPT نفسه.
apply_chat_template() يجهز إدخالات نماذج الذكاء الاصطناعي بتنسيق حواري.
model.generate() يولد استجابة بناءً على الاستعلام المدخل.
processor.decode() يفك تشفير الاستجابة التي أنشأها الذكاء الاصطناعي ويحولها إلى نص يمكن للبشر قراءته.
تستمر الحلقة حتى يكتب المستخدم "خروج" لإنهاء الدردشة.

# Chat based on Text Only
def chat_with_text(model, processor, slide_texts):
    while True:
        query = input("Ask a question based on the presentation text (or type 'exit' to quit): ")
        if query.lower() == 'exit':
            break
        conversation = [
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": "\n".join(slide_texts) + f"\nQuery: {query}"},
                ],
            },
        ]
        inputs = processor.apply_chat_template(
            conversation,
        add_generation_prompt=True,
        tokenize=True,
        return_dict=True,
        return_tensors="pt"
        ).to(device)
        outputs = model.generate(**inputs, max_new_tokens=150)
        response = processor.decode(outputs[0], skip_special_tokens=True)
        print("Model Response:", response)

الخطوة 16: إنشاء دردشة مع الذكاء الاصطناعي مستندة إلى الصور

في هذه الخطوة، نُنشئ دالة دردشة تتيح للمستخدمين طرح أسئلة حول الصور الفردية المستخرجة من شرائح PowerPoint.

طريقة العمل:

يُدخل المستخدم سؤالاً يتعلق بالصور الموجودة في الشرائح.
يحدد رقم الشريحة للإشارة إلى صورة معينة.
تُحفظ الصورة المحددة مؤقتًا باسم "Slide_image_temp.png".
تُنشأ محادثة منظمة، تتضمن: (أ) مسار ملف الصورة. (ب) سؤال المستخدم.
apply_chat_template() تعالج الإدخال بتنسيق مناسب لنماذج الذكاء الاصطناعي.
model.generate() تُنشئ استجابة بناءً على الصورة والاستعلام.
يُفك تشفير الاستجابة وتُعرض للمستخدم.
تستمر الحلقة حتى يكتب المستخدم خروج للإنهاء.

# Chat based on Images Only
def chat_with_images(model, processor, slide_images):
    while True:
        query = input("Ask a question based on the presentation images (or type 'exit' to quit): ")
            if query.lower() == 'exit':
                break
            slide_num = int(input(f"Enter slide number (1 to {len(slide_images)}) to ask about its image: ")) - 1
            image = slide_images[slide_num][1]
            img_path = "slide_image_temp.png"
            image.save(img_path) # Save the image temporarily
            conversation = [
                {
                    "role": "user",
                    "content": [
                            {"type": "image", "url": img_path},
                            {"type": "text", "text": query},
                    ],
                },
            ]
            inputs = processor.apply_chat_template(
                conversation,
                add_generation_prompt=True,
                tokenize=True,
                return_dict=True,
                return_tensors="pt"
            ).to(device)
            outputs = model.generate(**inputs, max_new_tokens=150)
            response = processor.decode(outputs[0], skip_special_tokens=True)
            print("Model Response:", response)

الخطوة 17: بدء دردشة مع الذكاء الاصطناعي مستندة إلى النص

في هذه الخطوة، نستدعي الدالة chat_with_text، والتي تسمح للمستخدم بطرح أسئلة حول النص المستخرج من شرائح PowerPoint.

طريقة العمل:

chat_with_text() تبدأ جلسة الأسئلة والأجوبة المستندة إلى النص.
تطلب الدالة باستمرار إدخال المستخدم، وتجيب عن الأسئلة بناءً على النص المستخرج من الشريحة.
تستمر حلقة الدردشة حتى يكتب المستخدم خروج للإنهاء.

chat_with_text(model, processor, slide_texts)

المخرجات

استعلام: هل يُعد التكامل ميزة تنافسية بالنسبة إلى مؤسستك؟

<|assistant|>

نعم، يُعد التكامل ميزة تنافسية بالنسبة إلى مؤسستك. فهو يساعدك على التقدم بسرعة أكبر وتجاوز التحديات، وقد يؤدي إلى زيادة التكاليف، وأوجه قصور، ومخاطر أمنية، وتجربة سيئة للمستخدم، ما يُعرّض في النهاية الميزة التنافسية للمؤسسة وقدرتها على النجاح في مجال الأعمال سريع التطور للخطر.

اطرح سؤالاً مستندًا إلى النص الموجود في العرض التقديمي (أو اكتب "خروج" للإنهاء): خروج

عندما طرح المستخدم سؤال: "هل يُعد التكامل ميزة تنافسية بالنسبة إلى مؤسستك؟"، عالج نموذج Granite Vision الاستعلام باستخدام النص المستخرج من شريحة PowerPoint وأنشَأ ردًا.

تعرف النموذج على مصطلح "التكامل" كمفهوم من مفاهيم الأعمال وقدم إجابة منظمة من 'الشريحة رقم 7' تشرح مزاياه ومخاطره. وأشار إلى أن التكامل يعزز السرعة وحل المشكلات، لكنه أشار أيضًا إلى السلبيات المحتملة مثل زيادة التكاليف، وأوجه القصور، والمخاطر الأمنية، وسوء تجربة المستخدم إذا لم يُدر بشكل فعال.

توضح هذه الاستجابة قدرة النموذج على تفسير النص المستخرج من الشريحة وإنشاء إجابات متوازنة وذات صلة بالسياق

الخطوة 18: بدء دردشة مع الذكاء الاصطناعي مستندة إلى الصور

في هذه الخطوة، نستدعي الدالة chat_with_images، والتي تتيح للمستخدم طرح أسئلة حول الصور المستخرجة من شرائح PowerPoint.

طريقة العمل:

chat_with_images() تبدأ جلسة الأسئلة والأجوبة المستندة إلى الصور.
تطالب الدالة المستخدم بتحديد رقم الشريحة التي تحتوي على الصورة.
تُجرى معالجة الصورة المحددة وتنسيقها في محادثة منظمة لنموذج الرؤية.
يُنشئ النموذج استجابة بناءً على محتوى الصورة واستعلام المستخدم.
تستمر الحلقة حتى يكتب المستخدم خروج للإنهاء.

chat_with_images(model, processor, slide_images)

المخرجات

اطرح سؤالاً مستندًا إلى الصور الموجودة في العرض التقديمي (أو اكتب "خروج" للإنهاء): ما هذه الصورة؟

أدخل رقم الشريحة (من 1 إلى 41) للسؤال عن الصورة الموجودة بها: 2

استجابة النموذج: <|system|>

دردشة بين مستخدم محب للاستطلاع ومساعد ذكاء اصطناعي. يقدم المساعد إجابات مفيدة وتفصيلية ومهذبة لأسئلة المستخدم.

<|user|>

ما هذه الصورة؟

<|assistant|>

نموذج ثلاثي الأبعاد

اطرح سؤالاً مستندًا إلى الصور الموجودة في العرض التقديمي (أو اكتب "خروج" للإنهاء): اشرح هذه الصورة

أدخل رقم الشريحة (من 1 إلى 41) للسؤال عن الصورة الموجودة بها: 2

استجابة النموذج: <|system|>

<|user|>

اشرح هذه الصورة

<|assistant|>

الصورة هي نموذج ثلاثي الأبعاد لمكعب

اطرح سؤالاً مستندًا إلى الصور الموجودة في العرض التقديمي (أو اكتب "خروج" للإنهاء): هل يمكنك شرح هذا المخطط؟

أدخل رقم الشريحة (من 1 إلى 41) للسؤال عن الصورة الموجودة بها: 1

استجابة النموذج: <|system|>

<|user|>

هل يمكنك شرح هذا المخطط؟

<|assistant|>

إنه مخطط شريطي بعنوان "تطور النضج في سوق السحابة المؤسسية من الجيل الأول إلى الجيل الرابع". يعرض المحور X مدى تطور الأجيال بينما يحدد المحور Y مدى تطور النضج على مر السنين. يُظهر المخطط أنه مع تقدم الأجيال، يزداد نضج سوق السحابة المؤسسية.

اطرح سؤالاً مستندًا إلى الصور الموجودة في العرض التقديمي (أو اكتب "خروج" للإنهاء): خروج

عندما طرح المستخدم أسئلة حول الصور، عالج نموذج Granite Vision الصور المحددة وأنشَأ ردودًا بناءً على فهمه للمحتوى المرئي.

بالنسبة إلى سؤال "ما هذه الصورة؟" (الشريحة رقم 2)، حدد النموذج الصورة على أنها "نموذج ثلاثي الأبعاد" ولكنه قدم وصفًا بسيطًا.

بالنسبة إلى "اشرح هذه الصورة" (الشريحة رقم 2)، حسّن النموذج استجابته، وعرفها على أنها "نموذج ثلاثي الأبعاد لمكعب."

بالنسبة إلى سؤال "هل يمكنك شرح هذا المخطط؟" (الشريحة رقم 1)، قدم النموذج وصفًا تفصيليًا للمخطط الشريطي، موضحًا عنوانه ومحوره x ومحوره y والاتجاه العام، ما يوضح كيفية تطور نضج السحابة المؤسسية عبر الأجيال.

تتيح هذه الخطوة للمستخدمين إمكانية التفاعل مع العناصر المرئية، مثل المخططات والرسوم البيانية والإنفوجرافيك، من خلال الاستفادة من نموذج IBM Granite Vision في التحليل والشرح الذكي

الامتيازات الرئيسية

يتعرف النموذج على الأشكال والكائنات البسيطة ولكنه قد يُقدم أوصافًا عامة لبعض الصور.
بالنسبة إلى المخططات والرسوم البيانية، يُقدم معارف منظمة، بما في ذلك العناوين، وتسميات المحاور، والاتجاهات، ما يجعله مفيدًا في العروض التقديمية للأعمال والبيانات.
تعتمد دقة الردود على مدى وضوح الصورة وتعقيدها، فالمرئيات البسيطة (مثل النماذج ثلاثية الأبعاد) يمكن أن تتلقى ردودًا أقصر، بينما تحصل المرئيات المنظمة (مثل المخططات) على معارف أكثر تفصيلاً.

يوضح هذا البرنامج التعليمي إمكانات IBM Granite Vision في تفسير الصور.

أطلق العنان لقوة الذكاء الاصطناعي التوليدي والتعلم الآلي (ML)

تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك

الموارد

طوِّر مستوى خبرتك في التعلم الآلي

تعلّم المفاهيم الأساسية وطوّر مهاراتك من خلال المختبرات العملية والدورات التدريبية والمشاريع الموجهة والتجارب وغيرها.

أطلق العنان لقوة الذكاء الاصطناعي التوليدي والتعلم الآلي (ML)

تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك

التفعيل المثمر للذكاء الاصطناعي: جني الأرباح وعائد الاستثمار باستخدام الذكاء الاصطناعي التوليدي

هل ترغب في زيادة عائد استثماراتك في الذكاء الاصطناعي؟ تعرّف على كيفية تأثير توسيع نطاق الذكاء الاصطناعي التوليدي في المجالات الرئيسية، من خلال مساعدة أفضل العقول لديك على وضع حلول مبتكرة جديدة وطرحها.

كيفية اختيار نموذج الأساس المناسب

تعرّف على كيفية اختيار نموذج أساس الذكاء الاصطناعي الأكثر ملاءمة لحالة الاستخدام الخاصة بك.

استكشف IBM Granite

IBM Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية والدرابزين.

كيف تزدهر في عصر الذكاء الاصطناعي الجديد بثقة وثبات

تعمّق في العناصر الثلاثة الهامة لاستراتيجية الذكاء الاصطناعي القوية: إنشاء ميزة تنافسية، وتوسيع نطاق الذكاء الاصطناعي عبر الأعمال، وتطوير الذكاء الاصطناعي الجدير بالثقة.

تقرير AI in Action

لقد قمنا باستطلاع آراء 2000 مؤسسة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.

حلول ذات صلة

IBM Maximo Visual Inspection

إطلاق العنان لقوة رؤية الكمبيوتر بدون رموز برمجية لأتمتة الفحص البصري.

استكشاف Maximo Visual Inspection

الاستشارات والخدمات في مجال الذكاء الاصطناعي

تساعد خدمات الذكاء الاصطناعي التي تقدمها IBM Consulting في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.

استكشف خدمات الذكاء الاصطناعي

حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي

اتخِذ الخطوة التالية

يضع IBM Maximo Visual Inspection قوة الذكاء الاصطناعي لرؤية الكمبيوتر بين أيدي فرق مراقبة الجودة والفحص لديك. أطلق العنان لقوة رؤية الكمبيوتر بدون برمجة لأتمتة الفحص البصري.

استكشاف Maximo Visual Inspection

ألقِ نظرة على قدرات المنتج