مع تطور التقنيات المستندة إلى الذكاء الاصطناعي، أصبح تحليل الصور أكثر تطورًا، ما يتيح اكتساب معارف أعمق من البيانات المرئية. بفضل التطورات في نماذج التعلم الآلي، يمكن للذكاء الاصطناعي معالجة الصور المرفوعة، واستخراج البيانات الوصفية، ودعم الإشراف على المحتوى على نطاق واسع. تسهم هذه الأدوات التحليلية أيضًا في النمذجة التنبئية لتطبيقات مثل التسعير، وتحسين المرئيات، وتوليد الصور، ما يجعل سير العمل أقل تكلفة وأكثر كفاءة. من خلال دمج الأساليب القائمة على البيانات، يعزز الذكاء الاصطناعي الأتمتة وصناعة القرار، مقدمًا إمكانات جديدة للتفسير الذكي للمرئيات.
بفضل التطورات السريعة في رؤية الكمبيوتر والذكاء الاصطناعي المتقدم، تستفيد الشركات والباحثون من تقنيات الصور في مجموعة واسعة من التطبيقات. بدءًا من تصنيف الصور والتعرف الضوئي على الحروف (OCR) إلى التجزئة وتحليل مقاطع الفيديو، تُحدث الأدوات المدعومة بالذكاء الاصطناعي تحولاً جذريًا في طريقة استخراج المعلومات المرئية وتحليلها.
في صناعات مثل وسائل التواصل الاجتماعي، يعزز الذكاء الاصطناعي الإشراف على المحتوى من خلال تحليل الصور على مستوى وحدات البكسل، ما يضمن الامتثال وتحسين التفاعل. كما يمكن للشركات استخدام واجهة برمجة تطبيقات الرؤية في المعالجة الآلية للمستندات، وتحويل الملفات الممسوحة ضوئيًا وملفات Excel والتقارير إلى بيانات منظمة. تسهل هذه التطبيقات سير العمل، وتحسن الكفاءة، وتُمكّن المؤسسات من استخراج معارف مجدية من مجموعات البيانات المرئية واسعة النطاق.
تسلط حالات الاستخدام هذه الضوء على الدور المتزايد لتحليل الصور المدعوم بالذكاء الاصطناعي عبر الصناعات. في هذا البرنامج التعليمي، نركز على استخدام هذه الإمكانات في عروض PowerPoint التقديمية، ما يتيح نظام أسئلة وأجوبة تفاعليًا حول النصوص والصور باستخدام رؤية الكمبيوتر المتقدمة ونماذج الذكاء الاصطناعي
لقد أحدثت النماذج اللغوية الكبرى تغييرًا جذريًا في التعلم الآلي من خلال تمكين المعارف الذكية المستمدة من مجموعات البيانات الضخمة التي تضم نصوصًا غير منظمة. ومع ذلك، غالبًا ما تواجه النماذج اللغوية الكبرى التقليدية صعوبة في تحليل الصور، ما يصعب استخراج معارف من الرسوم البيانية والمخططات والعناصر المرئية في العروض التقديمية.
يسد النموذج اللغوي الكبير IBM Granite™ Vision 3.2 هذه الفجوة من خلال دمج أدوات الذكاء الاصطناعي مع خوارزميات اكتشاف الكائنات المتقدمة، ما يسمح للمستخدمين بأتمتة التحليل متعدد الوسائط. يوضح هذا البرنامج التعليمي كيفية تبسيط سير العمل باستخدام الذكاء الاصطناعي لاستخراج النصوص والصور من ملفات PowerPoint (.pptx) وتحليلها، ما يتيح نظام أسئلة وأجوبة تفاعليًا لتعزيز معارف العروض التقديمية.
في هذا البرنامج التعليمي، ستتعرف على كيفية إنشاء نظام مستند إلى الذكاء الاصطناعي يتمكن من الرد على استعلامات المستخدمين في الوقت الفعلي من شرائح PowerPoint باستخدام النصوص والصور معًا كسياق. سوف يرشدك هذا البرنامج التعليمي خلال ما يلي:
معالجة PowerPoint: استخرج النصوص والصور من ملفات .pptx للتحليل المدعوم بالذكاء الاصطناعي.
الأسئلة والأجوبة المستندة إلى النص: استخدم Granite Vision لتوليد إجابات بناءً على النص المستخرج من الشرائح.
الأسئلة والأجوبة المستندة إلى الصور: اطلب من الذكاء الاصطناعي تحليل الصور والمخططات والرسوم البيانية الموجودة في الشرائح.
الصياغة المحسنة للأسئلة: تعرف على كيفية صياغة أسئلة فعالة للحصول على إجابات ذكاء اصطناعي دقيقة وذات صلة.
يستفيد هذا البرنامج التعليمي من تقنيات الذكاء الاصطناعي المتطورة، بما في ذلك ما يلي:
1. IBM Granite Vision: وهو نموذج فائق من نماذج اللغة والرؤية (VLM) يعالج كلاً من النصوص والصور.
2. Python-PPTX: وهي مكتبة لاستخراج النصوص والصور من ملفات PowerPoint.
3. المحولات: وهو إطار عمل لمعالجة إدخالات نماذج الذكاء الاصطناعي بكفاءة.
في نهاية هذا البرنامج التعليمي، سوف تتمكن من فعل ما يلي:
1. استخراج محتوى ملفات PowerPoint (النصوص والصور) ومعالجته.
2. استخدام نموذج Granite vision 3.2 لإنشاء نظام أسئلة وأجوبة مستند إلى الذكاء الاصطناعي لمحتوى الشرائح.
3. طرح أسئلة مفيدة على الذكاء الاصطناعي حول النصوص والصور.
4. تحسين تفاعل المستخدمين مع العروض التقديمية باستخدام الشروحات المدعومة بالذكاء الاصطناعي.
هذا البرنامج التعليمي مصمم لمطوري الذكاء الاصطناعي، والباحثين، وصناع المحتوى، والمحترفين في مجال الأعمال الذين يسعون إلى تحسين عروضهم التقديمية بمعارف مستندة إلى الذكاء الاصطناعي.
تحتاج إلى حساب IBM Cloud لإنشاء مشروع watsonx.ai.
رغم توفُّر عدة أدوات للاختيار منها، يُرشدك هذا الدليل خلال خطوات إعداد حساب IBM لاستخدام Jupyter Notebook.
1. سجل الدخول إلى watsonx.ai باستخدام حسابك على IBM Cloud.
أنشئ مشروع watsonx.ai. يمكنك الحصول على معرِّف المشروع من داخل مشروعك. انقر فوق علامة التبويب إدارة. ثم انسخ معرّف المشروع من قسم التفاصيل في الصفحة عام. ستحتاج إلى هذا المعرِّف في هذا البرنامج التعليمي.
أنشئ Jupyter Notebook.
4. ارفع ملف PPTX كأصل في watsonx.ai
تفتح هذه الخطوة بيئة دفتر ملاحظات حيث يمكنك نسخ التعليمات البرمجية من هذا البرنامج التعليمي. أو يمكنك تنزيل هذا الدفتر على نظامك المحلي وتحميله إلى مشروع watsonx.ai كأصل. هذا البرنامج التعليمي متاح أيضًا على GitHub.
ملاحظة: هذا البرنامج التعليمي يحتاج إلى بنية تحتية لوحدة معالجة الرسومات (GPU) لتشغيل التعليمات البرمجية، لذا ينصح باستخدام watsonx.ai كما هو موضح في هذا البرنامج التعليمي.
قبل أن نبدأ في استخراج محتوى PowerPoint ومعالجته، نحتاج إلى تثبيت مكتبات Python الضرورية:
transformers: تتيح إمكانية الوصول إلى IBM Granite Vision ونماذج الذكاء الاصطناعي الأخرى.
torch: إطار عمل للتعلُّم العميق ضروري لتشغيل النماذج بكفاءة.
python-pptx: مكتبة لاستخراج النصوص والصور من ملفات PowerPoint (.pptx).
شغل الأوامر التالية لتثبيت هذه الحزم وترقيتها:
في هذه الخطوة، نستورد المكتبات اللازمة لمعالجة ملفات PowerPoint، ومعالجة الصور، والتفاعل مع نموذج IBM Granite Vision:
في هذه الخطوة، نُنشئ اتصالاً مع IBM Cloud Object Storage للوصول إلى ملفات PowerPoint المخزنة على السحابة واسترجاعها.
يمكنك الاستفادة من دعم python، الذي يتوفر عبر فرع من مكتبة boto3 والمزود بمزايا للاستفادة القصوى من IBM Cloud Object Storage. تحقق من الوثائق الرسمية للحصول على بيانات الاعتماد هذه.
ibm_boto3.client: تُنشئ عميلاً للتفاعل مع IBM Cloud Object Storage.
ibm_api_key_id: مفتاح واجهة برمجة تطبيقات IBM Cloud الخاص بك للمصادقة.
ibm_auth_endpoint: نقطة نهاية المصادقة على IBM Cloud.
endpoint_url: نقطة النهاية الخاصة بتخزين Cloud Object Storage (COS).
ملاحظة: عند رفع ملف كأصل على watsonx.ai، يُخزن تلقائيًا في IBM Cloud Object Storage. عند استيراد الملف لاحقًا إلى Jupyter Notebook، يُنشئ watsonx.ai بيانات الاعتماد اللازمة (مفتاح واجهة برمجة التطبيقات، ونقطة النهاية للمصادقة، ونقطة النهاية للتخزين) ويدرجها في دفتر ملاحظاتك. تسمح بيانات اعتماد IBM Cloud Object Storage المقدمة بالوصول الآمن لاسترجاع الملفات من التخزين، ما يتيح التكامل السلس بين أصول watsonx.ai وبيئة الدفاتر لمزيد من المعالجة.
ومن خلال تكوين هذا الاتصال، يمكننا استيراد عروض PowerPoint التقديمية المخزنة على IBM Cloud ومعالجتها بسلاسة لإجراء التحليل المدعوم بالذكاء الاصطناعي
في هذه الخطوة، نحدد منطقة تخزين IBM Cloud Object Storage وتفاصيل الملف لتحديد موقع عروض PowerPoint (.pptx) التقديمية واسترجاعها للمعالجة.
اطلع على هذا المستند الرسمي للحصول على تفاصيل تكوين منطقة التخزين من خلال واجهة مستخدم IBM Cloud.
bucket: هو اسم منطقة تخزين IBM Cloud Object Storage المخزن بها الملف.
object_key: هو اسم ملف عرض PowerPoint التقديمي الذي ينبغي الوصول إليه
في هذه الخطوة، ننزل ملف PowerPoint (.pptx) من IBM Cloud Object Storage لمعالجته محليًا.
cos_client.get_object(): يسترجع الملف من منطقة التخزين ومفتاح الكائن المحددين.
streaming_body.read(): يقرأ محتويات الملف ويحولها إلى تدفق البايت لمزيد من المعالجة.
في هذه الخطوة، نخزن ملف PowerPoint (.pptx) المنزّل محليًا حتى يمكن معالجته.
pptx_path: يحدد اسم الملف المحلي الذي سيُحفظ فيه العرض التقديمي.
open(pptx_path, 'wb'): يفتح الملف في وضع الكتابة الثنائية لتخزين البايتات المستردة.
f.write (pptx_bytes): يكتب محتوى الملف المنزّل في ملف .pptx المُنشأ حديثًا.
في هذه الخطوة، نعرض رسالة تأكيد لضمان حفظ ملف PowerPoint بنجاح. تعرض دالة "print" مسار الملف الذي سيُخزن فيه ملف .pptx محليًا.
في هذه الخطوة، نحدد دالة لمعالجة ملف PowerPoint (.pptx) واستخراج محتواه:
slide_texts: تخزّن النص المستخرج من كل شريحة.
slide_images: تخزّن الصور المستخرجة ككائنات صور من مكتبة الصور Python (PIL)، مع أرقام الشرائح المقابلة لها.
تتكرر عبر الشرائح لاستخراج النص من الأشكال التي تحتوي على محتوى نصي والصور المدمجة في الشرائح.
تفصل هذه الدالة النص والصور عن ملف PPT، ما يسمح لوكيل المحادثة بالإجابة بسهولة عن أسئلة المستخدم بناءً على المحتوى المستخرج.
في هذه الخطوة، نستدعي الدالة لاستخراج النصوص والصور من ملف PowerPoint المحفوظ.
pptx_path: تحدد المسار المحلي لملف PowerPoint المنزّل.
extract_text_and_images_from_from_pptx(pptx_path): تستخرج النصوص والصور من الشرائح.
slide_texts: تخزّن النص المستخرج من جميع الشرائح.
slide_images: تخزّن الصور المستخرجة.
في هذه الخطوة، نعرض النص المستخرج من كل شريحة للتحقق من معالجة محتوى PowerPoint بشكل صحيح.
enumerate(slide_texts): تتكرر خلال النص المستخرج، مع ربط كل جزء برقم الشريحة الخاصة به.
الفاصل ('-' * 40): يساعد على التمييز المرئي بين المحتوى المستخرج من الشرائح المختلفة.
في هذه الخطوة، نتأكد ونستعرض الصور المستخرجة من شرائح PowerPoint.
len: تحسب إجمالي عدد الصور المستخرجة.
img.show(): تفتح كل صورة مستخرجة لاستعراضها.
يمكنك استبدال دالة `.show()` بدالة `.save('filename.png')` لتخزين الصور محليًا.
في هذه الخطوة، نعمل على تهيئة نموذج IBM Granite-Vision-3.2-2B لمعالجة النصوص والصور المدعومة بالذكاء الاصطناعي.
MODEL_NAME تحدد نموذج Granite Vision المدرب مسبقًا والذي ينبغي استخدامه و torch.cuda.is_available() تتحقق مما إذا كانت وحدة معالجة الرسومات (CUDA) متوفرة لمعالجة أسرع؛ وإلا تُعيّن وحدة المعالجة المركزية بشكل افتراضي.
في هذه الخطوة، نحمل نموذج IBM Granite Vision والمعالج المقابل له لمعالجة كل من إدخال النص وإدخال الصور.
AutoProcessor.from_pretrained(MODEL_NAME, trust_remote_code=True): تحمل المعالج المدرب مسبقًا لتنسيق الإدخالات (النصوص والصور) الخاصة بالنموذج.
AutoModelForVision2Seq.from_pretrained(MODEL_NAME, trust_remote_code=True, ignore_mismatched_sizes=True).to(device): تحمل نموذج Granite Vision وتنقله إلى الجهاز المتاح (وحدة معالجة الرسومات أو وحدة المعالجة المركزية).
حيث،
trust_remote_code=True: تضمن التوافق مع تطبيقات النماذج المخصصة.
ignore_mismatched_sizes=True: تمنع الأخطاء إذا كانت هناك تناقضات طفيفة في حجم النموذج.
ملاحظة: قد يستغرق التحميل بعض الوقت.
في هذه الخطوة، نُنشئ دالة محادثة تسمح للمستخدمين بطرح الأسئلة بناءً على النص المستخرج من شرائح PowerPoint.
طريقة العمل:
في هذه الخطوة، نُنشئ دالة دردشة تتيح للمستخدمين طرح أسئلة حول الصور الفردية المستخرجة من شرائح PowerPoint.
طريقة العمل:
في هذه الخطوة، نستدعي الدالة chat_with_text، والتي تسمح للمستخدم بطرح أسئلة حول النص المستخرج من شرائح PowerPoint.
طريقة العمل:
المخرجات
استعلام: هل يُعد التكامل ميزة تنافسية بالنسبة إلى مؤسستك؟
<|assistant|>
نعم، يُعد التكامل ميزة تنافسية بالنسبة إلى مؤسستك. فهو يساعدك على التقدم بسرعة أكبر وتجاوز التحديات، وقد يؤدي إلى زيادة التكاليف، وأوجه قصور، ومخاطر أمنية، وتجربة سيئة للمستخدم، ما يُعرّض في النهاية الميزة التنافسية للمؤسسة وقدرتها على النجاح في مجال الأعمال سريع التطور للخطر.
اطرح سؤالاً مستندًا إلى النص الموجود في العرض التقديمي (أو اكتب "خروج" للإنهاء): خروج
عندما طرح المستخدم سؤال: "هل يُعد التكامل ميزة تنافسية بالنسبة إلى مؤسستك؟"، عالج نموذج Granite Vision الاستعلام باستخدام النص المستخرج من شريحة PowerPoint وأنشَأ ردًا.
تعرف النموذج على مصطلح "التكامل" كمفهوم من مفاهيم الأعمال وقدم إجابة منظمة من 'الشريحة رقم 7' تشرح مزاياه ومخاطره. وأشار إلى أن التكامل يعزز السرعة وحل المشكلات، لكنه أشار أيضًا إلى السلبيات المحتملة مثل زيادة التكاليف، وأوجه القصور، والمخاطر الأمنية، وسوء تجربة المستخدم إذا لم يُدر بشكل فعال.
توضح هذه الاستجابة قدرة النموذج على تفسير النص المستخرج من الشريحة وإنشاء إجابات متوازنة وذات صلة بالسياق
في هذه الخطوة، نستدعي الدالة chat_with_images، والتي تتيح للمستخدم طرح أسئلة حول الصور المستخرجة من شرائح PowerPoint.
طريقة العمل:
المخرجات
اطرح سؤالاً مستندًا إلى الصور الموجودة في العرض التقديمي (أو اكتب "خروج" للإنهاء): ما هذه الصورة؟
أدخل رقم الشريحة (من 1 إلى 41) للسؤال عن الصورة الموجودة بها: 2
استجابة النموذج: <|system|>
دردشة بين مستخدم محب للاستطلاع ومساعد ذكاء اصطناعي. يقدم المساعد إجابات مفيدة وتفصيلية ومهذبة لأسئلة المستخدم.
<|user|>
ما هذه الصورة؟
<|assistant|>
نموذج ثلاثي الأبعاد
اطرح سؤالاً مستندًا إلى الصور الموجودة في العرض التقديمي (أو اكتب "خروج" للإنهاء): اشرح هذه الصورة
أدخل رقم الشريحة (من 1 إلى 41) للسؤال عن الصورة الموجودة بها: 2
استجابة النموذج: <|system|>
دردشة بين مستخدم محب للاستطلاع ومساعد ذكاء اصطناعي. يقدم المساعد إجابات مفيدة وتفصيلية ومهذبة لأسئلة المستخدم.
<|user|>
اشرح هذه الصورة
<|assistant|>
الصورة هي نموذج ثلاثي الأبعاد لمكعب
اطرح سؤالاً مستندًا إلى الصور الموجودة في العرض التقديمي (أو اكتب "خروج" للإنهاء): هل يمكنك شرح هذا المخطط؟
أدخل رقم الشريحة (من 1 إلى 41) للسؤال عن الصورة الموجودة بها: 1
استجابة النموذج: <|system|>
دردشة بين مستخدم محب للاستطلاع ومساعد ذكاء اصطناعي. يقدم المساعد إجابات مفيدة وتفصيلية ومهذبة لأسئلة المستخدم.
<|user|>
هل يمكنك شرح هذا المخطط؟
<|assistant|>
إنه مخطط شريطي بعنوان "تطور النضج في سوق السحابة المؤسسية من الجيل الأول إلى الجيل الرابع". يعرض المحور X مدى تطور الأجيال بينما يحدد المحور Y مدى تطور النضج على مر السنين. يُظهر المخطط أنه مع تقدم الأجيال، يزداد نضج سوق السحابة المؤسسية.
اطرح سؤالاً مستندًا إلى الصور الموجودة في العرض التقديمي (أو اكتب "خروج" للإنهاء): خروج
عندما طرح المستخدم أسئلة حول الصور، عالج نموذج Granite Vision الصور المحددة وأنشَأ ردودًا بناءً على فهمه للمحتوى المرئي.
بالنسبة إلى سؤال "ما هذه الصورة؟" (الشريحة رقم 2)، حدد النموذج الصورة على أنها "نموذج ثلاثي الأبعاد" ولكنه قدم وصفًا بسيطًا.
بالنسبة إلى "اشرح هذه الصورة" (الشريحة رقم 2)، حسّن النموذج استجابته، وعرفها على أنها "نموذج ثلاثي الأبعاد لمكعب."
بالنسبة إلى سؤال "هل يمكنك شرح هذا المخطط؟" (الشريحة رقم 1)، قدم النموذج وصفًا تفصيليًا للمخطط الشريطي، موضحًا عنوانه ومحوره x ومحوره y والاتجاه العام، ما يوضح كيفية تطور نضج السحابة المؤسسية عبر الأجيال.
تتيح هذه الخطوة للمستخدمين إمكانية التفاعل مع العناصر المرئية، مثل المخططات والرسوم البيانية والإنفوجرافيك، من خلال الاستفادة من نموذج IBM Granite Vision في التحليل والشرح الذكي
يوضح هذا البرنامج التعليمي إمكانات IBM Granite Vision في تفسير الصور.